huggingface/trl View GitHub Homepage for Latest Official Releases

Biblioteca de entrenamiento de modelos de lenguaje grandes basada en aprendizaje por refuerzo, que admite técnicas avanzadas de post-entrenamiento como SFT, PPO y DPO.

Apache-2.0Pythontrlhuggingface 16.3k Last Updated: November 13, 2025

TRL - Introducción Detallada a la Biblioteca de Aprendizaje por Refuerzo con Transformers

Resumen del Proyecto

TRL (Transformer Reinforcement Learning) es una biblioteca de vanguardia desarrollada por HuggingFace, especializada en el post-entrenamiento de modelos base utilizando tecnologías avanzadas. La biblioteca está diseñada para el post-entrenamiento de modelos base utilizando técnicas avanzadas como el ajuste fino supervisado (SFT), la optimización de políticas proximales (PPO) y la optimización directa de preferencias (DPO).

Características del Proyecto

Basado en Aprendizaje por Refuerzo: Combina el aprendizaje por refuerzo con la arquitectura Transformer, guiando el proceso de ajuste fino de los modelos de lenguaje pre-entrenados mediante técnicas de RL.
Solución de Pila Completa: Proporciona una cadena de herramientas completa para entrenar modelos de lenguaje Transformer.
Integración con el Ecosistema HuggingFace: Construido completamente sobre el ecosistema 🤗 Transformers.

Funcionalidades Principales

1. Múltiples Métodos de Entrenamiento

TRL ofrece una variedad de entrenadores de fácil acceso:

SFTTrainer: Entrenador de ajuste fino supervisado.
GRPOTrainer: Entrenador de optimización de políticas relativas grupales.
DPOTrainer: Entrenador de optimización directa de preferencias.
RewardTrainer: Entrenador de modelos de recompensa.

2. Eficiencia y Escalabilidad

Soporte Multi-Hardware: Escalabilidad desde una sola GPU hasta clústeres multi-nodo a través de 🤗 Accelerate.
Optimización de Memoria: Soporte para métodos de entrenamiento distribuido como DDP y DeepSpeed.
Integración PEFT: Integración completa con 🤗 PEFT, permitiendo el entrenamiento de modelos grandes en hardware limitado mediante cuantificación y LoRA/QLoRA.
Aceleración del Rendimiento: Integración con 🦥 Unsloth, utilizando kernels optimizados para acelerar el entrenamiento.

3. Interfaz de Línea de Comandos

Proporciona una interfaz CLI sencilla para el ajuste fino de modelos sin necesidad de escribir código.

Principales Escenarios de Aplicación

1. Ajuste Fino Supervisado (SFT)

from trl import SFTTrainer
from datasets import load_dataset

dataset = load_dataset("trl-lib/Capybara", split="train")
trainer = SFTTrainer(
    model="Qwen/Qwen2.5-0.5B",
    train_dataset=dataset,
)
trainer.train()

2. Optimización de Políticas Relativas Grupales (GRPO)

El algoritmo GRPO ahorra más memoria que PPO y se utilizó para entrenar el modelo R1 de Deepseek AI:

from datasets import load_dataset
from trl import GRPOTrainer

dataset = load_dataset("trl-lib/tldr", split="train")

def reward_num_unique_chars(completions, **kwargs):
    return [len(set(c)) for c in completions]

trainer = GRPOTrainer(
    model="Qwen/Qwen2-0.5B-Instruct",
    reward_funcs=reward_num_unique_chars,
    train_dataset=dataset,
)
trainer.train()

3. Optimización Directa de Preferencias (DPO)

DPO es un algoritmo popular que se ha utilizado para el post-entrenamiento de modelos como Llama 3:

from datasets import load_dataset
from transformers import AutoModelForCausalLM, AutoTokenizer
from trl import DPOConfig, DPOTrainer

model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2.5-0.5B-Instruct")
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2.5-0.5B-Instruct")
dataset = load_dataset("trl-lib/ultrafeedback_binarized", split="train")

training_args = DPOConfig(output_dir="Qwen2.5-0.5B-DPO")
trainer = DPOTrainer(
    model=model,
    args=training_args,
    train_dataset=dataset,
    processing_class=tokenizer
)
trainer.train()

4. Entrenamiento de Modelos de Recompensa

from trl import RewardConfig, RewardTrainer
from datasets import load_dataset
from transformers import AutoModelForSequenceClassification, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2.5-0.5B-Instruct")
model = AutoModelForSequenceClassification.from_pretrained(
    "Qwen/Qwen2.5-0.5B-Instruct", num_labels=1
)

dataset = load_dataset("trl-lib/ultrafeedback_binarized", split="train")
training_args = RewardConfig(output_dir="Qwen2.5-0.5B-Reward")

trainer = RewardTrainer(
    args=training_args,
    model=model,
    processing_class=tokenizer,
    train_dataset=dataset,
)
trainer.train()

Métodos de Instalación

Instalación Estándar

pip install trl

Instalación de la Versión de Desarrollo

pip install git+https://github.com/huggingface/trl.git

Instalación desde el Código Fuente (para contribuir al desarrollo)

git clone https://github.com/huggingface/trl.git
cd trl/
pip install -e .[dev]

Uso en Línea de Comandos

Entrenamiento SFT

trl sft --model_name_or_path Qwen/Qwen2.5-0.5B \
--dataset_name trl-lib/Capybara \
--output_dir Qwen2.5-0.5B-SFT

Entrenamiento DPO

trl dpo --model_name_or_path Qwen/Qwen2.5-0.5B-Instruct \
--dataset_name argilla/Capybara-Preferences \
--output_dir Qwen2.5-0.5B-DPO

Ventajas Técnicas

Ecosistema Completo: Totalmente basado en el ecosistema HuggingFace, con integración perfecta con las herramientas existentes.
Soporte Multimodal: Soporta múltiples arquitecturas de modelos y modalidades.
Altamente Escalable: Escalabilidad flexible desde una sola GPU hasta clústeres multi-nodo.
Eficiencia de Memoria: Entrenamiento eficiente de modelos grandes mediante cuantificación y técnicas LoRA.
Fácil de Usar: Proporciona una API y una interfaz CLI sencillas.
Listo para Producción: Soporta las necesidades de entrenamiento a gran escala en entornos de producción.

Áreas de Aplicación

Sistemas de Diálogo: Entrenar mejores chatbots e IA conversacional.
Generación de Contenido: Mejorar la calidad y la coherencia de los modelos de generación de texto.
Generación de Código: Optimizar el rendimiento de los modelos de generación de código.
Preguntas y Respuestas sobre Conocimiento: Mejorar la precisión de los sistemas de preguntas y respuestas.
Escritura Creativa: Entrenar IA para la escritura creativa y la creación de contenido.

Resumen

TRL es una biblioteca potente y fácil de usar que proporciona a investigadores y desarrolladores un conjunto de herramientas completo para entrenar y optimizar modelos de lenguaje grandes. Combina las últimas técnicas de aprendizaje por refuerzo con las ventajas del ecosistema HuggingFace, haciendo que el entrenamiento de modelos de alta calidad sea más accesible y eficiente. Ya sea para investigación académica o aplicaciones industriales, TRL es la opción ideal para el post-entrenamiento de modelos Transformer.