DLR-RM/stable-baselines3View GitHub Homepage for Latest Official Releases

Stable Baselines3 (SB3) es una biblioteca de algoritmos de aprendizaje por refuerzo basada en PyTorch.

MITPythonstable-baselines3DLR-RM 11.5k Last Updated: September 08, 2025

Stable Baselines3 (SB3)

Descripción general del proyecto

Stable Baselines3 (SB3) es una biblioteca de algoritmos de aprendizaje por refuerzo basada en PyTorch. Es el sucesor de Stable Baselines y está diseñado para proporcionar un conjunto de herramientas fáciles de usar, modulares y de alto rendimiento para entrenar diversos agentes de aprendizaje por refuerzo. SB3 se centra en ofrecer documentación clara, código comprobable y resultados reproducibles, lo que lo convierte en una opción ideal para investigadores e ingenieros.

Antecedentes

Las implementaciones tradicionales de algoritmos de aprendizaje por refuerzo suelen ser complejas y difíciles de depurar. Stable Baselines tenía como objetivo simplificar este proceso, proporcionando un conjunto fiable de algoritmos de referencia para facilitar la experimentación y la comparación. Sin embargo, Stable Baselines se basa en TensorFlow 1.x, y con la popularidad de TensorFlow 2.x y la creciente adopción de PyTorch en el ámbito de la investigación, se necesitaba una nueva biblioteca para satisfacer las necesidades de la comunidad.

Stable Baselines3 surgió como respuesta, basándose en PyTorch y aprendiendo de las lecciones de Stable Baselines, ofreciendo un diseño más conciso y modular, así como un mejor rendimiento.

Características principales

Basado en PyTorch: SB3 está completamente construido sobre PyTorch, aprovechando las características de grafo dinámico y la facilidad de uso de PyTorch.
Diseño modular: La estructura del código de SB3 es clara, y los componentes del algoritmo se pueden combinar y personalizar fácilmente, lo que facilita la investigación y el desarrollo para los usuarios.
Fácil de usar: SB3 proporciona una API concisa y una documentación completa, lo que permite a los usuarios comenzar rápidamente y entrenar sus propios agentes.
Alto rendimiento: SB3 está optimizado para lograr un alto rendimiento en diversos entornos, incluidos los juegos de Atari, las tareas de control continuo de MuJoCo, etc.
Amplia variedad de algoritmos: SB3 implementa varios algoritmos clásicos de aprendizaje por refuerzo, incluyendo:
- Métodos de gradiente de política: A2C, PPO
- Métodos de función de valor: DQN, Double DQN, Dueling DQN, QRDQN, C51
- Métodos Actor-Critic: SAC, TD3
Soporte para múltiples entornos: SB3 se integra perfectamente con varios entornos, como OpenAI Gym, PyBullet, entornos de robótica, etc.
Funciones de callback: SB3 proporciona un mecanismo de funciones de callback que permite a los usuarios ejecutar operaciones personalizadas durante el proceso de entrenamiento, como registrar logs, guardar modelos, evaluar el rendimiento, etc.
Entornos vectorizados: SB3 admite entornos vectorizados, que pueden ejecutar múltiples instancias de entorno en paralelo, acelerando así el proceso de entrenamiento.
Optimización de hiperparámetros: SB3 se puede integrar con herramientas de optimización de hiperparámetros como Optuna para buscar automáticamente la mejor combinación de hiperparámetros.
Documentación y ejemplos completos: SB3 proporciona documentación detallada y una gran cantidad de código de ejemplo para ayudar a los usuarios a comprender y utilizar la biblioteca.
Sugerencias de tipo y pruebas: SB3 tiene buenas sugerencias de tipo y una cobertura de pruebas completa, lo que garantiza la calidad y la fiabilidad del código.

Escenarios de aplicación

Stable Baselines3 se puede aplicar a diversas tareas de aprendizaje por refuerzo, incluyendo:

Control de robots: Entrenar robots para completar diversas tareas, como navegación, agarre, ensamblaje, etc.
IA para juegos: Desarrollar agentes inteligentes en juegos, como juegos de Atari, StarCraft, etc.
Conducción autónoma: Entrenar vehículos autónomos para que puedan conducir de forma segura en entornos de tráfico complejos.
Gestión de recursos: Optimizar la asignación de recursos, como la distribución de energía, el control del tráfico de red, etc.
Operaciones financieras: Desarrollar estrategias de trading para implementar el trading automático.
Sistemas de recomendación: Optimizar los algoritmos de recomendación para mejorar la satisfacción del usuario.
Entornos personalizados: Se puede aplicar a cualquier entorno personalizado que pueda resolverse mediante el aprendizaje por refuerzo.

Resumen

Stable Baselines3 es una biblioteca de aprendizaje por refuerzo potente y flexible que, basada en PyTorch, proporciona una amplia gama de algoritmos y herramientas que pueden ayudar a los usuarios a construir y entrenar rápidamente agentes de aprendizaje por refuerzo. Tanto los investigadores como los ingenieros pueden beneficiarse de SB3 y aplicarlo a diversos problemas prácticos.