unslothai/unslothView GitHub Homepage for Latest Official Releases

Unsloth: Ferramenta eficiente para ajuste fino e aprendizado por reforço de grandes modelos de linguagem - Velocidade de treinamento 2x mais rápida, uso de memória 70% menor

Apache-2.0Pythonunslothunslothai 46.2k Last Updated: September 24, 2025

Apresentação Detalhada do Projeto Unsloth

Visão Geral do Projeto

Unsloth é uma ferramenta de código aberto focada no ajuste fino (fine-tuning) e aprendizado por reforço de grandes modelos de linguagem (LLMs), capaz de aumentar a velocidade de treinamento de modelos como Qwen3, Llama 4, DeepSeek-R1, Gemma 3, TTS em até 2 vezes, ao mesmo tempo em que reduz o uso de memória de vídeo (VRAM) em 70%. O projeto visa tornar a tecnologia de IA mais acessível e fácil de usar, fornecendo soluções eficientes de treinamento de modelos para pesquisadores e desenvolvedores.

Principais Características

Otimização de Alto Desempenho: Aumento de 2 vezes na velocidade de treinamento, redução de 70% no uso de VRAM
Precisão Zero de Perda: Não utiliza métodos de aproximação, garantindo a precisão do treinamento
Ampla Compatibilidade: Suporta vários modelos LLM e métodos de treinamento populares
Fácil de Usar: Fornece notebooks amigáveis para iniciantes e documentação detalhada

Funcionalidades e Características Principais

1. Suporte a Modelos

Unsloth suporta uma variedade de grandes modelos de linguagem populares, incluindo:

Série Llama: Llama 4, Llama 3.3 (70B), Llama 3.2, Llama 3.1
Série Qwen: Qwen 3 (14B), Qwen 2.5 (incluindo modelos Coder)
Série Gemma: Gemma 3, Gemma 2 (9B/27B)
Outros Modelos: Phi-4 (14B), Mistral Small (22B), DeepSeek-R1, etc.

2. Métodos de Treinamento

Ajuste Fino (Fine-tuning):

Suporta ajuste fino de parâmetros completos, pré-treinamento
Treinamento de quantização de 4bit, 8bit, 16bit
Ajuste fino QLoRA e LoRA
Tecnologia de quantização dinâmica de 4bit

Aprendizado por Reforço:

DPO (Direct Preference Optimization)
GRPO (Raciocínio de Contexto Longo)
PPO (Proximal Policy Optimization)
Treinamento de modelos de recompensa
DPO online

3. Vantagens Técnicas

Otimização de Desempenho:

Todos os kernels são escritos na linguagem Triton da OpenAI, com motor de retropropagação manual
0% de perda de precisão - Sem métodos de aproximação - Todos os cálculos precisos
Suporte para treinamento de contexto longo (suporta até 342K de contexto)

Otimização de Memória:

Tecnologia de quantização dinâmica de 4bit, aumentando a precisão com um aumento de <10% no uso de VRAM
Otimização de checkpoint de gradiente, reduzindo ainda mais o uso de memória em 30%
Suporta janelas de contexto 4 vezes mais longas

4. Compatibilidade de Hardware

Requisitos de GPU: Suporta GPUs NVIDIA desde 2018, com capacidade CUDA mínima de 7.0
Modelos Suportados: V100, T4, Titan V, RTX série 20/30/40, A100, H100, L40, etc.
Sistema Operacional: Linux e Windows
Suporte Especial: GTX 1070, 1080 podem ser executadas, mas com velocidade mais lenta

5. Integração e Ecossistema

Integração de Frameworks:

Suporte oficial da biblioteca 🤗 Hugging Face TRL
Suporta Trainer, Seq2SeqTrainer
Compatível com código nativo PyTorch

Opções de Implantação:

Exportar para o formato GGUF
Suporta implantação Ollama, vLLM
Integração com o Hugging Face Model Hub

Instalação e Uso

Instalação Rápida

Recomendado usar pip para instalar em dispositivos Linux:

pip install unsloth

Exemplo de Uso Básico

from unsloth import FastLanguageModel
import torch
from trl import SFTTrainer, SFTConfig

# Carregar o modelo
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = "unsloth/gemma-3-4B-it",
    max_seq_length = 2048,
    load_in_4bit = True,
)

# Adicionar adaptador LoRA
model = FastLanguageModel.get_peft_model(
    model,
    r = 16,
    target_modules = ["q_proj", "k_proj", "v_proj", "o_proj"],
    lora_alpha = 16,
    use_gradient_checkpointing = "unsloth",
)

# Iniciar o treinamento
trainer = SFTTrainer(
    model = model,
    train_dataset = dataset,
    tokenizer = tokenizer,
    # Outros parâmetros de treinamento
)
trainer.train()

Testes de Desempenho

Comparação de Eficiência de Treinamento

Modelo	VRAM	Velocidade Unsloth	Redução de VRAM	Comprimento do Contexto	Hugging Face + FA2
Llama 3.3 (70B)	80GB	2x	>75%	13x mais longo	1x
Llama 3.1 (8B)	80GB	2x	>70%	12x mais longo	1x

Suporte a Contexto Longo

Nas mesmas condições de hardware, o Unsloth suporta comprimentos de contexto muito maiores do que os métodos tradicionais:

GPU de 8GB: Unsloth suporta 2.972 tokens, métodos tradicionais OOM
GPU de 24GB: Unsloth suporta 78.475 tokens, métodos tradicionais apenas 5.789 tokens
GPU de 80GB: Unsloth suporta 342.733 tokens, métodos tradicionais apenas 28.454 tokens

Atualizações Recentes de Funcionalidades

Atualizações Importantes Recentes

Suporte Llama 4: Os modelos Scout e Maverick mais recentes da Meta
Suporte Abrangente: FFT, todos os modelos (Mixtral, MOE, Cohere, Mamba) e todos os algoritmos de treinamento
Modelos Visuais: Suporte para Llama 3.2 Vision, Qwen 2.5 VL, Pixtral, etc.
Otimização de Inferência: Inferência 2 vezes mais rápida

Funcionalidades Especiais

Interface de Chat: Fornece uma interface de chat interativa
Correção de Acumulação de Gradiente: Descoberta e correção de um bug de acumulação de gradiente
Cut Cross Entropy: Tecnologia de otimização adicionada em colaboração com a Apple
Pré-treinamento Contínuo Multilíngue: Suporte para coreano e outros idiomas

Comunidade e Ecossistema

Documentação e Suporte

Documentação Oficial: docs.unsloth.ai
Repositório GitHub: Comunidade de código aberto ativa
Mídia Social: Conta oficial no Twitter/X
Fórum da Comunidade: Troca de informações na página do Reddit

Recursos de Aprendizagem

Notebooks Colab amigáveis para iniciantes
Guias detalhados de instalação e uso
Notebooks dedicados para competições Kaggle
Documentação completa da API

Conclusão

Unsloth é uma das melhores ferramentas de ajuste fino de LLM de código aberto atualmente disponíveis, alcançando melhorias significativas na velocidade de treinamento e eficiência de memória por meio de tecnologias de otimização inovadoras. Tanto pesquisadores quanto desenvolvedores da indústria podem se beneficiar da capacidade de treinamento eficiente do Unsloth. As atualizações contínuas do projeto e o suporte ativo da comunidade o tornam uma escolha importante no campo do ajuste fino de LLM.