hiyouga/LLaMA-FactoryView GitHub Homepage for Latest Official Releases
一个零代码、低代码的大型语言模型微调与部署框架,支持统一高效地微调 100+ 个 LLM/VLM。
Apache-2.0PythonLLaMA-Factoryhiyouga 55.7k Last Updated: August 07, 2025
💡 LLaMA‑Factory 项目详解
一、项目概述
LLaMA‑Factory 是一个开源的、专注于大型语言模型(LLM/VLM)微调、训练与部署的平台。由 Yaowei Zheng 等人在 ACL 2024 上发布,并收录于 arXiv ([gitee.com][1])。该项目凸显以下特色:
- 支持超 100+ 模型:包括 LLaMA、LLaVA、Mistral、Qwen、ChatGLM、Phi 等主流与新兴模型。
- 零代码 + 低代码接口:CLI 与 Web UI(LLaMABoard)模式,覆盖常见训练流程,极低技术门槛。
- 集成多种高效微调方法:支持 LoRA、QLoRA(2/4/8 bit)、冻结、16-bit 全参数、FlashAttention‑2、Unsloth、RoPE scaling 等。
- 丰富调优算法:GaLore、BAdam、DoRA、LongLoRA、LLaMA Pro、Mixture‑of‑Depths、LoRA+、LoftQ、PiSSA 等。
- 多训练方法:预训练、监督微调(SFT)、奖励建模(RM)、PPO/DPO/KTO/ORPO 等强化学习方法。
- 多实验监控工具:支持 LlamaBoard、TensorBoard、Wandb、MLflow、SwanLab 等。
- 推理与部署兼容:支持 OpenAI API 样式部署、vLLM 并发推理、Gradio UI 等丰富推理选项。
二、核心功能亮点
1. 模型支持范围广泛
覆盖百余种模型,包含各种尺寸与架构,从 LLaMA、Phi 到 Qwen2-VL、Gemma、DeepSeek 等。
2. 高效微调技术
- LoRA / QLoRA:支持低位量化自适应微调;4-bit LoRA 比传统方法推理速度更快、显存需求更小。
- 优化算子:FlashAttention-2、Unsloth 提高训练速度与显存利用。
- RoPE Scaling:扩展上下文长度能力。
3. 训练与强化学习
整合了常见训练流程:从预训练、SFT,到奖励模型训练,再到 PPO/DPO 强化学习。
4. 可视化监控
通过 Web UI(LLaMABoard)、TensorBoard、Wandb 等实时查看训练进度、指标和日志。
5. 推理与部署能力
支持导出微调后的模型为 OpenAI API 格式,并实现并发推理(vLLM)或搭建 Gradio 前端。
三、使用流程 & 快速上手
安装 / 启动
pip install llama-factory # 或从 GitHub 克隆安装
CLI 方式:
llama-factory train \ --model llama-13b \ --dataset mydata \ --finetuning_type lora \ ## 更多参数参考官方文档
Web UI 方式:
CUDA_VISIBLE_DEVICES=0 python src/train_web.py
启动 LLaMABoard,一站式设置训练超参
数据准备
项目自带 60+ 数据集(data 目录),也支持自定义 JSON 文件,统一管理 dataset_info.json 。
监控与评估
训练时自动支持 TensorBoard、Wandb 展示;也可接入 MLflow、SwanLab 等监控后台。
推理部署
训练完后通过 CLI 或 export 脚本直接生成部署包,支持并发推理及 Gradio 展示 。
五、总结
LLaMA‑Factory 是一个功能齐全、易上手、技术先进的 LLM 微调框架。无论你是研究人员,还是工程师,都能快速地对海量开源模型进行定制、训练、部署,无需编写复杂代码,是进入 LLM 微调领域的利器。