hiyouga/LLaMA-FactoryView GitHub Homepage for Latest Official Releases
一個零代碼、低代碼的大型語言模型微調與部署框架,支援統一高效地微調 100+ 個 LLM/VLM。
Apache-2.0PythonLLaMA-Factoryhiyouga 55.7k Last Updated: August 07, 2025
💡 LLaMA‑Factory 項目詳解
一、項目概述
LLaMA‑Factory 是一個開源的、專注於大型語言模型(LLM/VLM)微調、訓練與部署的平台。由 Yaowei Zheng 等人在 ACL 2024 上發布,並收錄於 arXiv ([gitee.com][1])。該項目凸顯以下特色:
- 支持超 100+ 模型:包括 LLaMA、LLaVA、Mistral、Qwen、ChatGLM、Phi 等主流與新興模型。
- 零代碼 + 低代碼接口:CLI 與 Web UI(LLaMABoard)模式,覆蓋常見訓練流程,極低技術門檻。
- 集成多種高效微調方法:支持 LoRA、QLoRA(2/4/8 bit)、凍結、16-bit 全參數、FlashAttention‑2、Unsloth、RoPE scaling 等。
- 豐富調優算法:GaLore、BAdam、DoRA、LongLoRA、LLaMA Pro、Mixture‑of‑Depths、LoRA+、LoftQ、PiSSA 等。
- 多訓練方法:預訓練、監督微調(SFT)、獎勵建模(RM)、PPO/DPO/KTO/ORPO 等強化學習方法。
- 多實驗監控工具:支持 LlamaBoard、TensorBoard、Wandb、MLflow、SwanLab 等。
- 推理與部署兼容:支持 OpenAI API 樣式部署、vLLM 並發推理、Gradio UI 等豐富推理選項。
二、核心功能亮點
1. 模型支持範圍廣泛
覆蓋百餘種模型,包含各種尺寸與架構,從 LLaMA、Phi 到 Qwen2-VL、Gemma、DeepSeek 等。
2. 高效微調技術
- LoRA / QLoRA:支持低位量化自適應微調;4-bit LoRA 比傳統方法推理速度更快、顯存需求更小。
- 優化算子:FlashAttention-2、Unsloth 提高訓練速度與顯存利用。
- RoPE Scaling:擴展上下文長度能力。
3. 訓練與強化學習
整合了常見訓練流程:從預訓練、SFT,到獎勵模型訓練,再到 PPO/DPO 強化學習。
4. 可視化監控
通過 Web UI(LLaMABoard)、TensorBoard、Wandb 等實時查看訓練進度、指標和日誌。
5. 推理與部署能力
支持導出微調後的模型為 OpenAI API 格式,並實現並發推理(vLLM)或搭建 Gradio 前端。
三、使用流程 & 快速上手
安裝 / 啟動
pip install llama-factory # 或從 GitHub 克隆安裝
CLI 方式:
llama-factory train \ --model llama-13b \ --dataset mydata \ --finetuning_type lora \ ## 更多參數參考官方文檔
Web UI 方式:
CUDA_VISIBLE_DEVICES=0 python src/train_web.py
啟動 LLaMABoard,一站式設置訓練超參
數據準備
項目自帶 60+ 數據集(data 目錄),也支持自定義 JSON 文件,統一管理 dataset_info.json 。
監控與評估
訓練時自動支持 TensorBoard、Wandb 展示;也可接入 MLflow、SwanLab 等監控後台。
推理部署
訓練完後通過 CLI 或 export 腳本直接生成部署包,支持並發推理及 Gradio 展示 。
五、總結
LLaMA‑Factory 是一個功能齊全、易上手、技術先進的 LLM 微調框架。無論你是研究人員,還是工程師,都能快速地對海量開源模型進行定制、訓練、部署,無需編寫複雜代碼,是進入 LLM 微調領域的利器。