artidoro/qloraPlease refer to the latest official releases for information GitHub Homepage

QLoRA : un framework de fine-tuning efficace et quantifié pour les grands modèles de langage, permettant de fine-tuner des modèles de 65 milliards de paramètres sur un seul GPU.

MITJupyter Notebook 10.5kartidoro Last Updated: 2024-06-10

Présentation détaillée du projet QLoRA

Aperçu du projet

QLoRA (Quantized Low Rank Adaptation) est un framework open source efficace pour le fine-tuning de grands modèles de langage, développé par l'équipe NLP de l'Université de Washington. L'objectif principal du projet est de réduire considérablement les exigences matérielles pour l'entraînement de grands modèles de langage grâce à des techniques de quantification innovantes et des méthodes de fine-tuning efficaces en termes de paramètres, permettant ainsi à davantage de chercheurs de participer à la recherche sur les grands modèles.

Adresse du projet : https://github.com/artidoro/qlora

Innovations technologiques clés

1. Technique de quantification 4 bits

NF4 (4-bit NormalFloat) : Type de données optimal en théorie de l'information conçu pour les poids à distribution normale
Double quantification : Réduction supplémentaire de l'empreinte mémoire en quantifiant les constantes de quantification
Optimiseur paginé : Gestion efficace des pics de mémoire, évitant les dépassements de mémoire

2. Fine-tuning efficace en termes de paramètres

Combinaison avec la technologie LoRA (Low Rank Adaptation)
Gel des principaux paramètres du modèle pré-entraîné, entraînement uniquement des adaptateurs de faible rang
Réduction significative du nombre de paramètres entraînables tout en conservant les performances

3. Stratégies d'optimisation de la mémoire

Prise en charge du fine-tuning de modèles de 65 milliards de paramètres sur un seul GPU de 48 Go
Réduction de l'empreinte mémoire des valeurs d'activation grâce au gradient checkpointing
Gestion intelligente de la mémoire, évitant la fragmentation de la mémoire pendant l'entraînement

Principales fonctionnalités

Fonctionnalités d'entraînement

Prise en charge de plusieurs modèles : Modèles pré-entraînés courants tels que LLaMA, T5, etc.
Prise en charge de plusieurs formats de jeux de données : Alpaca, OpenAssistant, Self-Instruct, etc.
Entraînement multi-GPU : Prise en charge automatique de l'entraînement distribué multi-GPU
Configuration flexible : Nombreuses options de configuration des hyperparamètres

Fonctionnalités d'inférence

Inférence 4 bits : Prise en charge de l'inférence efficace de modèles quantifiés
Génération par lots : Prise en charge de la génération de texte par lots
Démonstration interactive : Fourniture d'environnements de démonstration Gradio et Colab

Système d'évaluation

Évaluation automatique : Intégration de scripts d'évaluation GPT-4
Évaluation humaine : Fourniture d'outils et de données d'évaluation humaine
Tests de référence : Atteinte de performances de pointe dans des tests de référence tels que Vicuna

Architecture technique

Composants principaux

Module de quantification : Implémentation de la quantification 4 bits basée sur la bibliothèque bitsandbytes
Module d'adaptateur : Intégration de l'implémentation LoRA de la bibliothèque HuggingFace PEFT
Moteur d'entraînement : Framework d'entraînement basé sur la bibliothèque transformers
Optimiseur : Prise en charge d'AdamW et de l'optimiseur paginé
Traitement des données : Chargement et prétraitement de jeux de données multi-formats

Pile technologique

Framework d'apprentissage profond : PyTorch
Bibliothèque de quantification : bitsandbytes
Bibliothèque de modèles : HuggingFace transformers
Fine-tuning efficace en termes de paramètres : HuggingFace PEFT
Entraînement distribué : HuggingFace Accelerate

Installation et utilisation

Configuration requise

Python 3.8+
CUDA 11.0+
Mémoire GPU : Environ 6 Go pour les modèles 7B, environ 48 Go pour les modèles 65B

Installation rapide

# Installer les dépendances
pip install -U -r requirements.txt

# Commande de fine-tuning de base
python qlora.py --model_name_or_path <chemin_du_modèle>

# Fine-tuning de grands modèles (il est recommandé de réduire le taux d'apprentissage)
python qlora.py --learning_rate 0.0001 --model_name_or_path <chemin_du_modèle>

Exemple de configuration

# Configuration de la quantification
quantization_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_compute_dtype=torch.bfloat16,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type='nf4'
)

Performances

Résultats des tests de référence

Benchmark Vicuna : Le modèle Guanaco atteint 99,3 % des performances de ChatGPT
Efficacité de l'entraînement : Fine-tuning sur un seul GPU terminé en 24 heures
Optimisation de la mémoire : Réduction de plus de 65 % de l'utilisation de la mémoire par rapport aux méthodes traditionnelles

Famille de modèles

Le projet a publié plusieurs modèles Guanaco de différentes tailles :

Guanaco-7B : Convient à la recherche personnelle et aux applications à petite échelle
Guanaco-13B : Équilibre entre performances et besoins en ressources
Guanaco-33B : Modèle de taille moyenne à haute performance
Guanaco-65B : Modèle à grande échelle proche des performances de ChatGPT

Cas d'utilisation

Recherche académique

Expériences de fine-tuning de grands modèles de langage
Recherche sur la capacité de suivi des instructions
Évaluation des performances des systèmes de dialogue
Validation des méthodes de fine-tuning efficaces en termes de paramètres

Applications industrielles

Développement de systèmes de dialogue d'entreprise
Personnalisation de modèles spécifiques à un domaine
Adaptation de modèles multilingues
Déploiement de modèles dans des environnements aux ressources limitées

Utilisation éducative

Expériences de cours d'apprentissage profond
Apprentissage des technologies de grands modèles
Pratique de contribution à des projets open source

Points forts du projet

Innovation technologique

Méthode de quantification révolutionnaire : La technique de quantification NF4 est théoriquement optimale
Efficacité de la mémoire extrêmement élevée : Réalisation d'effets d'optimisation de la mémoire sans précédent
Maintien d'excellentes performances : Maintien des performances du modèle tout en réduisant considérablement les besoins en ressources

Contribution open source

Chaîne d'outils complète : Solution complète de l'entraînement à l'inférence
Exemples riches : Fourniture d'exemples de code pour divers scénarios d'utilisation
Documentation détaillée : Contient une documentation technique complète et un guide d'utilisation

Écosystème

Intégration HuggingFace : Intégration profonde avec l'écosystème d'apprentissage automatique dominant
Support communautaire : Communauté open source active et support technique continu
Mises à jour continues : Publication régulière de nouvelles fonctionnalités et d'optimisations des performances

Défis techniques et solutions

Principaux défis

Perte de précision de la quantification : Résolue grâce au type de données NF4 et à la technique de double quantification
Complexité de la gestion de la mémoire : Développement d'un optimiseur paginé et d'une planification intelligente de la mémoire
Stabilité de l'entraînement : Assurée par l'écrêtage du gradient et l'ajustement du taux d'apprentissage

Conclusion

Le projet QLoRA représente une avancée importante dans la technologie de fine-tuning des grands modèles de langage. Grâce à des techniques de quantification innovantes et à des méthodes de fine-tuning efficaces en termes de paramètres, il réduit considérablement les obstacles à la recherche et à l'application des grands modèles. Ce projet est non seulement important sur le plan technologique, mais joue également un rôle essentiel dans la promotion de l'application démocratique des grands modèles de langage.

Pour les chercheurs et les développeurs, QLoRA fournit un outil puissant et flexible qui permet de réaliser un fine-tuning de haute qualité de grands modèles avec des ressources matérielles limitées. Avec l'amélioration continue de la technologie et la contribution continue de la communauté, QLoRA devrait devenir l'outil standard dans le domaine du fine-tuning des grands modèles de langage.

Ressources connexes

Page d'accueil du projet : https://github.com/artidoro/qlora
Lien vers l'article : https://arxiv.org/abs/2305.14314
Téléchargement du modèle : https://huggingface.co/timdettmers
Démonstration en ligne : https://huggingface.co/spaces/uwnlp/guanaco-playground-tgi
Blog technique : https://huggingface.co/blog/4bit-transformers-bitsandbytes