Home
Login

一個零代碼、低代碼的大型語言模型微調與部署框架,支援統一高效地微調 100+ 個 LLM/VLM。

Apache-2.0Python 52.6khiyouga Last Updated: 2025-06-18

💡 LLaMA‑Factory 項目詳解

一、項目概述

LLaMA‑Factory 是一個開源的、專注於大型語言模型(LLM/VLM)微調、訓練與部署的平台。由 Yaowei Zheng 等人在 ACL 2024 上發布,並收錄於 arXiv ([gitee.com][1])。該項目凸顯以下特色:

  • 支持超 100+ 模型:包括 LLaMA、LLaVA、Mistral、Qwen、ChatGLM、Phi 等主流與新興模型。
  • 零代碼 + 低代碼接口:CLI 與 Web UI(LLaMABoard)模式,覆蓋常見訓練流程,極低技術門檻。
  • 集成多種高效微調方法:支持 LoRA、QLoRA(2/4/8 bit)、凍結、16-bit 全參數、FlashAttention‑2、Unsloth、RoPE scaling 等。
  • 豐富調優算法:GaLore、BAdam、DoRA、LongLoRA、LLaMA Pro、Mixture‑of‑Depths、LoRA+、LoftQ、PiSSA 等。
  • 多訓練方法:預訓練、監督微調(SFT)、獎勵建模(RM)、PPO/DPO/KTO/ORPO 等強化學習方法。
  • 多實驗監控工具:支持 LlamaBoard、TensorBoard、Wandb、MLflow、SwanLab 等。
  • 推理與部署兼容:支持 OpenAI API 樣式部署、vLLM 並發推理、Gradio UI 等豐富推理選項。

二、核心功能亮點

1. 模型支持範圍廣泛

覆蓋百餘種模型,包含各種尺寸與架構,從 LLaMA、Phi 到 Qwen2-VL、Gemma、DeepSeek 等。

2. 高效微調技術

  • LoRA / QLoRA:支持低位量化自適應微調;4-bit LoRA 比傳統方法推理速度更快、顯存需求更小。
  • 優化算子:FlashAttention-2、Unsloth 提高訓練速度與顯存利用。
  • RoPE Scaling:擴展上下文長度能力。

3. 訓練與強化學習

整合了常見訓練流程:從預訓練、SFT,到獎勵模型訓練,再到 PPO/DPO 強化學習。

4. 可視化監控

通過 Web UI(LLaMABoard)、TensorBoard、Wandb 等實時查看訓練進度、指標和日誌。

5. 推理與部署能力

支持導出微調後的模型為 OpenAI API 格式,並實現並發推理(vLLM)或搭建 Gradio 前端。


三、使用流程 & 快速上手

安裝 / 啟動

pip install llama-factory   # 或從 GitHub 克隆安裝
  • CLI 方式:

    llama-factory train \
      --model llama-13b \
      --dataset mydata \
      --finetuning_type lora \
      ## 更多參數參考官方文檔
    
  • Web UI 方式:

    CUDA_VISIBLE_DEVICES=0 python src/train_web.py
    

    啟動 LLaMABoard,一站式設置訓練超參


數據準備

項目自帶 60+ 數據集(data 目錄),也支持自定義 JSON 文件,統一管理 dataset_info.json 。


監控與評估

訓練時自動支持 TensorBoard、Wandb 展示;也可接入 MLflow、SwanLab 等監控後台。


推理部署

訓練完後通過 CLI 或 export 腳本直接生成部署包,支持並發推理及 Gradio 展示 。

五、總結

LLaMA‑Factory 是一個功能齊全、易上手、技術先進的 LLM 微調框架。無論你是研究人員,還是工程師,都能快速地對海量開源模型進行定制、訓練、部署,無需編寫複雜代碼,是進入 LLM 微調領域的利器。