Home
Login

Un framework de fine-tuning et de déploiement de grands modèles de langage (LLM) à code zéro et à faible code, prenant en charge le fine-tuning unifié et efficace de plus de 100 LLM/VLM.

Apache-2.0Python 52.6khiyouga Last Updated: 2025-06-18

💡 Explication du projet LLaMA‑Factory

I. Aperçu du projet

LLaMA‑Factory est une plateforme open source axée sur le fine-tuning, l'entraînement et le déploiement de grands modèles de langage (LLM/VLM). Publié par Yaowei Zheng et al. à l'ACL 2024 et référencé sur arXiv ([gitee.com][1]). Ce projet se distingue par les caractéristiques suivantes :

  • Prise en charge de plus de 100 modèles : Incluant LLaMA, LLaVA, Mistral, Qwen, ChatGLM, Phi, et d'autres modèles courants et émergents.
  • Interface zéro code + low code : Modes CLI et Web UI (LLaMABoard), couvrant les flux d'entraînement courants, avec un seuil technique très bas.
  • Intégration de diverses méthodes de fine-tuning efficaces : Prise en charge de LoRA, QLoRA (2/4/8 bit), gel, paramètres complets 16 bits, FlashAttention‑2, Unsloth, RoPE scaling, etc.
  • Richesse des algorithmes d'optimisation : GaLore, BAdam, DoRA, LongLoRA, LLaMA Pro, Mixture‑of‑Depths, LoRA+, LoftQ, PiSSA, etc.
  • Méthodes d'entraînement multiples : Pré-entraînement, fine-tuning supervisé (SFT), modélisation de récompense (RM), méthodes d'apprentissage par renforcement PPO/DPO/KTO/ORPO, etc.
  • Outils de surveillance d'expériences multiples : Prise en charge de LlamaBoard, TensorBoard, Wandb, MLflow, SwanLab, etc.
  • Compatibilité inférence et déploiement : Prise en charge du déploiement de style OpenAI API, inférence concurrente vLLM, UI Gradio, et d'autres options d'inférence riches.

II. Points forts des fonctionnalités principales

1. Large éventail de modèles pris en charge

Couvre plus d'une centaine de modèles, incluant diverses tailles et architectures, de LLaMA, Phi à Qwen2-VL, Gemma, DeepSeek, etc.

2. Techniques de fine-tuning efficaces

  • LoRA / QLoRA : Prise en charge du fine-tuning adaptatif à faible quantification ; LoRA 4 bits offre une vitesse d'inférence plus rapide et des besoins en mémoire GPU plus faibles que les méthodes traditionnelles.
  • Opérateurs d'optimisation : FlashAttention-2, Unsloth améliorent la vitesse d'entraînement et l'utilisation de la mémoire GPU.
  • RoPE Scaling : Extension de la capacité de longueur du contexte.

3. Entraînement et apprentissage par renforcement

Intègre les flux d'entraînement courants : du pré-entraînement, SFT, à l'entraînement du modèle de récompense, puis à l'apprentissage par renforcement PPO/DPO.

4. Surveillance visuelle

Visualisation en temps réel de la progression de l'entraînement, des indicateurs et des journaux via Web UI (LLaMABoard), TensorBoard, Wandb, etc.

5. Capacités d'inférence et de déploiement

Prise en charge de l'exportation du modèle fine-tuné au format OpenAI API, et réalisation d'une inférence concurrente (vLLM) ou de la construction d'un frontend Gradio.


III. Flux d'utilisation & Prise en main rapide

Installation / Lancement

pip install llama-factory   # Ou installation à partir du clonage GitHub
  • Mode CLI :

    llama-factory train \
      --model llama-13b \
      --dataset mydata \
      --finetuning_type lora \
      ## Plus de paramètres dans la documentation officielle
    
  • Mode Web UI :

    CUDA_VISIBLE_DEVICES=0 python src/train_web.py
    

    Lancer LLaMABoard, configuration centralisée des hyperparamètres d'entraînement


Préparation des données

Le projet est livré avec plus de 60 ensembles de données (répertoire data), et prend également en charge les fichiers JSON personnalisés, gestion unifiée de dataset_info.json.


Surveillance et évaluation

Pendant l'entraînement, la prise en charge de TensorBoard, Wandb est automatique ; l'accès aux backends de surveillance MLflow, SwanLab, etc. est également possible.


Inférence et déploiement

Une fois l'entraînement terminé, générer directement un package de déploiement via CLI ou un script d'exportation, prise en charge de l'inférence concurrente et de l'affichage Gradio.

V. Conclusion

LLaMA‑Factory est un framework de fine-tuning LLM complet, facile à utiliser et technologiquement avancé. Que vous soyez chercheur ou ingénieur, vous pouvez rapidement personnaliser, entraîner et déployer des modèles open source massifs, sans écrire de code complexe, ce qui en fait un outil puissant pour entrer dans le domaine du fine-tuning LLM.