DLR-RM/stable-baselines3View GitHub Homepage for Latest Official Releases

Stable Baselines3 (SB3) é uma biblioteca de algoritmos de aprendizado por reforço baseada em PyTorch.

MITPythonstable-baselines3DLR-RM 11.5k Last Updated: September 08, 2025

Stable Baselines3 (SB3)

Visão Geral do Projeto

Stable Baselines3 (SB3) é uma biblioteca de algoritmos de aprendizado por reforço baseada em PyTorch. É o sucessor do Stable Baselines e tem como objetivo fornecer um conjunto de ferramentas fáceis de usar, modulares e de alto desempenho para treinar vários agentes de aprendizado por reforço. O SB3 se concentra em fornecer documentação clara, código testável e resultados reproduzíveis, tornando-o uma escolha ideal para pesquisadores e engenheiros.

Contexto

As implementações tradicionais de algoritmos de aprendizado por reforço costumam ser complexas e difíceis de depurar. O Stable Baselines visa simplificar esse processo, fornecendo um conjunto confiável de algoritmos de linha de base para facilitar a experimentação e a comparação. No entanto, o Stable Baselines é baseado em TensorFlow 1.x e, com a popularidade do TensorFlow 2.x e a crescente popularidade do PyTorch na área de pesquisa, uma nova biblioteca é necessária para atender às necessidades da comunidade.

O Stable Baselines3 surgiu como resultado, baseado em PyTorch e aproveitando as lições aprendidas com o Stable Baselines, fornecendo um design mais conciso e modular, bem como melhor desempenho.

Principais Características

Baseado em PyTorch: O SB3 é totalmente construído em PyTorch, aproveitando os recursos de gráfico dinâmico e a facilidade de uso do PyTorch.
Design Modular: A estrutura de código do SB3 é clara e os componentes do algoritmo podem ser facilmente combinados e personalizados, facilitando a pesquisa e o desenvolvimento para os usuários.
Fácil de Usar: O SB3 fornece uma API concisa e documentação abrangente, permitindo que os usuários comecem rapidamente e treinem seus próprios agentes.
Alto Desempenho: O SB3 é otimizado para obter alto desempenho em vários ambientes, incluindo jogos Atari, tarefas de controle contínuo MuJoCo, etc.
Algoritmos Abundantes: O SB3 implementa vários algoritmos clássicos de aprendizado por reforço, incluindo:
- Métodos de Gradiente de Política: A2C, PPO
- Métodos de Função de Valor: DQN, Double DQN, Dueling DQN, QRDQN, C51
- Métodos Actor-Critic: SAC, TD3
Suporte a Vários Ambientes: O SB3 pode ser integrado perfeitamente com vários ambientes, como OpenAI Gym, PyBullet, ambientes de Robótica, etc.
Funções de Callback: O SB3 fornece um mecanismo de função de callback, permitindo que os usuários executem operações personalizadas durante o processo de treinamento, como registrar logs, salvar modelos, avaliar o desempenho, etc.
Ambientes Vetorizados: O SB3 suporta ambientes vetorizados, que podem executar várias instâncias de ambiente em paralelo, acelerando assim o processo de treinamento.
Otimização de Hiperparâmetros: O SB3 pode ser integrado com ferramentas de otimização de hiperparâmetros como o Optuna para pesquisar automaticamente a melhor combinação de hiperparâmetros.
Documentação e Exemplos Abrangentes: O SB3 fornece documentação detalhada e uma grande quantidade de código de exemplo para ajudar os usuários a entender e usar a biblioteca.
Dicas de Tipo e Testes: O SB3 possui boas dicas de tipo e cobertura de teste abrangente, garantindo a qualidade e a confiabilidade do código.

Cenários de Aplicação

O Stable Baselines3 pode ser aplicado a várias tarefas de aprendizado por reforço, incluindo:

Controle de Robôs: Treinar robôs para concluir várias tarefas, como navegação, agarramento, montagem, etc.
IA de Jogos: Desenvolver agentes inteligentes em jogos, como jogos Atari, StarCraft, etc.
Direção Autônoma: Treinar carros autônomos para dirigir com segurança em ambientes de tráfego complexos.
Gerenciamento de Recursos: Otimizar a alocação de recursos, como distribuição de energia, controle de tráfego de rede, etc.
Negociação Financeira: Desenvolver estratégias de negociação para implementar a negociação automática.
Sistemas de Recomendação: Otimizar algoritmos de recomendação para melhorar a satisfação do usuário.
Ambientes Personalizados: Pode ser aplicado a qualquer ambiente personalizado que possa ser resolvido usando aprendizado por reforço.

Resumo

Stable Baselines3 é uma biblioteca de aprendizado por reforço poderosa e flexível que é baseada em PyTorch e fornece uma rica variedade de algoritmos e ferramentas para ajudar os usuários a construir e treinar rapidamente agentes de aprendizado por reforço. Tanto pesquisadores quanto engenheiros podem se beneficiar do SB3 e aplicá-lo a vários problemas práticos.