Home
Login

一个零代码、低代码的大型语言模型微调与部署框架,支持统一高效地微调 100+ 个 LLM/VLM。

Apache-2.0Python 52.6khiyouga Last Updated: 2025-06-18

💡 LLaMA‑Factory 项目详解

一、项目概述

LLaMA‑Factory 是一个开源的、专注于大型语言模型(LLM/VLM)微调、训练与部署的平台。由 Yaowei Zheng 等人在 ACL 2024 上发布,并收录于 arXiv ([gitee.com][1])。该项目凸显以下特色:

  • 支持超 100+ 模型:包括 LLaMA、LLaVA、Mistral、Qwen、ChatGLM、Phi 等主流与新兴模型。
  • 零代码 + 低代码接口:CLI 与 Web UI(LLaMABoard)模式,覆盖常见训练流程,极低技术门槛。
  • 集成多种高效微调方法:支持 LoRA、QLoRA(2/4/8 bit)、冻结、16-bit 全参数、FlashAttention‑2、Unsloth、RoPE scaling 等。
  • 丰富调优算法:GaLore、BAdam、DoRA、LongLoRA、LLaMA Pro、Mixture‑of‑Depths、LoRA+、LoftQ、PiSSA 等。
  • 多训练方法:预训练、监督微调(SFT)、奖励建模(RM)、PPO/DPO/KTO/ORPO 等强化学习方法。
  • 多实验监控工具:支持 LlamaBoard、TensorBoard、Wandb、MLflow、SwanLab 等。
  • 推理与部署兼容:支持 OpenAI API 样式部署、vLLM 并发推理、Gradio UI 等丰富推理选项。

二、核心功能亮点

1. 模型支持范围广泛

覆盖百余种模型,包含各种尺寸与架构,从 LLaMA、Phi 到 Qwen2-VL、Gemma、DeepSeek 等。

2. 高效微调技术

  • LoRA / QLoRA:支持低位量化自适应微调;4-bit LoRA 比传统方法推理速度更快、显存需求更小。
  • 优化算子:FlashAttention-2、Unsloth 提高训练速度与显存利用。
  • RoPE Scaling:扩展上下文长度能力。

3. 训练与强化学习

整合了常见训练流程:从预训练、SFT,到奖励模型训练,再到 PPO/DPO 强化学习。

4. 可视化监控

通过 Web UI(LLaMABoard)、TensorBoard、Wandb 等实时查看训练进度、指标和日志。

5. 推理与部署能力

支持导出微调后的模型为 OpenAI API 格式,并实现并发推理(vLLM)或搭建 Gradio 前端。


三、使用流程 & 快速上手

安装 / 启动

pip install llama-factory   # 或从 GitHub 克隆安装
  • CLI 方式:

    llama-factory train \
      --model llama-13b \
      --dataset mydata \
      --finetuning_type lora \
      ## 更多参数参考官方文档
    
  • Web UI 方式:

    CUDA_VISIBLE_DEVICES=0 python src/train_web.py
    

    启动 LLaMABoard,一站式设置训练超参


数据准备

项目自带 60+ 数据集(data 目录),也支持自定义 JSON 文件,统一管理 dataset_info.json 。


监控与评估

训练时自动支持 TensorBoard、Wandb 展示;也可接入 MLflow、SwanLab 等监控后台。


推理部署

训练完后通过 CLI 或 export 脚本直接生成部署包,支持并发推理及 Gradio 展示 。

五、总结

LLaMA‑Factory 是一个功能齐全、易上手、技术先进的 LLM 微调框架。无论你是研究人员,还是工程师,都能快速地对海量开源模型进行定制、训练、部署,无需编写复杂代码,是进入 LLM 微调领域的利器。