unslothai/unslothView GitHub Homepage for Latest Official Releases

Unsloth：大型語言模型高效微調與強化學習工具 - 訓練速度提升2倍，記憶體使用減少70%

Apache-2.0Pythonunslothunslothai 46.2k Last Updated: September 24, 2025

Unsloth 項目詳細介紹

項目概述

Unsloth 是一個專注於大語言模型（LLM）微調和強化學習的開源工具，能夠讓 Qwen3、Llama 4、DeepSeek-R1、Gemma 3、TTS 等模型的訓練速度提升2倍，同時減少70%的顯存使用。該項目旨在讓AI技術更加普及和易於使用，為研究人員和開發者提供高效的模型訓練解決方案。

主要特點

高性能優化：訓練速度提升2倍，顯存使用減少70%
零精度損失：不使用近似方法，保證訓練精度
廣泛兼容性：支持多種主流LLM模型和訓練方法
用戶友好：提供初學者友好的筆記本和詳細文檔

核心功能與特性

1. 模型支持

Unsloth 支持眾多主流的大語言模型，包括：

Llama 系列：Llama 4、Llama 3.3 (70B)、Llama 3.2、Llama 3.1
Qwen 系列：Qwen 3 (14B)、Qwen 2.5 (包括 Coder 模型)
Gemma 系列：Gemma 3、Gemma 2 (9B/27B)
其他模型：Phi-4 (14B)、Mistral Small (22B)、DeepSeek-R1 等

2. 訓練方法

微調（Fine-tuning）：

支持全參數微調、預訓練
4bit、8bit、16bit 量化訓練
QLoRA 和 LoRA 微調
動態4bit量化技術

強化學習：

DPO（Direct Preference Optimization）
GRPO（長上下文推理）
PPO（Proximal Policy Optimization）
獎勵模型訓練
在線DPO

3. 技術優勢

性能優化：

所有內核使用 OpenAI 的 Triton 語言編寫，手動反向傳播引擎
0% 精度損失 - 無近似方法 - 全部精確計算
支持長上下文訓練（最長支持342K上下文）

內存優化：

動態4bit量化技術，精度提升同時僅增加<10%顯存使用
梯度檢查點優化，進一步減少30%內存使用
支持4倍更長的上下文窗口

4. 硬件兼容性

GPU要求：支持2018年以來的NVIDIA GPU，最低CUDA能力7.0
支持型號：V100、T4、Titan V、RTX 20/30/40系列、A100、H100、L40等
操作系統：Linux 和 Windows
特殊支持：GTX 1070、1080可運行但速度較慢

5. 集成與生態

框架集成：

🤗 Hugging Face TRL庫官方支持
支持 Trainer、Seq2SeqTrainer
兼容 PyTorch 原生代碼

部署選項：

導出為 GGUF 格式
支持 Ollama、vLLM 部署
Hugging Face 模型中心集成

安裝使用

快速安裝

Linux 設備推薦使用 pip 安裝：

pip install unsloth

基本使用示例

from unsloth import FastLanguageModel
import torch
from trl import SFTTrainer, SFTConfig

# 加載模型
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = "unsloth/gemma-3-4B-it",
    max_seq_length = 2048,
    load_in_4bit = True,
)

# 添加 LoRA 適配器
model = FastLanguageModel.get_peft_model(
    model,
    r = 16,
    target_modules = ["q_proj", "k_proj", "v_proj", "o_proj"],
    lora_alpha = 16,
    use_gradient_checkpointing = "unsloth",
)

# 開始訓練
trainer = SFTTrainer(
    model = model,
    train_dataset = dataset,
    tokenizer = tokenizer,
    # 其他訓練參數
)
trainer.train()

性能基準測試

訓練效率對比

模型	顯存	Unsloth速度	顯存減少	上下文長度	Hugging Face + FA2
Llama 3.3 (70B)	80GB	2倍	>75%	13倍更長	1倍
Llama 3.1 (8B)	80GB	2倍	>70%	12倍更長	1倍

長上下文支持

在相同硬件條件下，Unsloth 支持的上下文長度遠超傳統方法：

8GB GPU：Unsloth 支持2,972 tokens，傳統方法OOM
24GB GPU：Unsloth 支持78,475 tokens，傳統方法僅5,789 tokens
80GB GPU：Unsloth 支持342,733 tokens，傳統方法僅28,454 tokens

社區與生態

文檔與支持

官方文檔：docs.unsloth.ai
GitHub倉庫：活躍的開源社區
社交媒體：Twitter/X 官方賬號
社區論壇：Reddit頁面交流

學習資源

初學者友好的Colab筆記本
詳細的安裝和使用指南
Kaggle競賽專用筆記本
完整的API文檔

總結

Unsloth 是當前最優秀的開源LLM微調工具之一，它通過創新的優化技術實現了訓練速度和內存效率的顯著提升。無論是研究人員還是工業界開發者，都能從Unsloth的高效訓練能力中受益。項目的持續更新和活躍的社區支持，使其成為LLM微調領域的重要選擇。