artidoro/qloraPlease refer to the latest official releases for information GitHub Homepage

QLoRA: un marco eficiente para el ajuste fino de modelos de lenguaje grandes cuantificados, que permite ajustar modelos de 65 mil millones de parámetros en una sola GPU.

MITJupyter Notebook 10.5kartidoro Last Updated: 2024-06-10

Introducción detallada al proyecto QLoRA

Resumen del proyecto

QLoRA (Quantized Low Rank Adaptation) es un marco de código abierto para el ajuste fino eficiente de modelos de lenguaje grandes, desarrollado por el equipo de PNL de la Universidad de Washington. El objetivo principal del proyecto es reducir significativamente los requisitos de hardware para el entrenamiento de modelos grandes a través de técnicas de cuantificación innovadoras y métodos de ajuste fino eficientes en parámetros, permitiendo que más investigadores participen en la investigación de modelos grandes.

Dirección del proyecto: https://github.com/artidoro/qlora

Innovaciones tecnológicas clave

1. Tecnología de cuantificación de 4 bits

NF4 (4-bit NormalFloat): Tipo de datos óptimo desde el punto de vista de la teoría de la información diseñado para pesos de distribución normal
Doble cuantificación: Reduce aún más el uso de memoria cuantificando las constantes de cuantificación
Optimizador paginado: Gestiona eficazmente los picos de memoria, evitando el desbordamiento de memoria

2. Ajuste fino eficiente en parámetros

Combinación con la tecnología LoRA (Low Rank Adaptation)
Congela los parámetros principales del modelo preentrenado, entrenando solo los adaptadores de bajo rango
Reduce significativamente el número de parámetros entrenables manteniendo el rendimiento

3. Estrategias de optimización de memoria

Admite el ajuste fino de modelos de 65 mil millones de parámetros en una sola GPU de 48 GB
Reduce el uso de memoria de los valores de activación mediante el checkpointing de gradientes
Gestión inteligente de la memoria, evitando la fragmentación de la memoria durante el proceso de entrenamiento

Principales características y funciones

Funciones de entrenamiento

Soporte para múltiples modelos: Modelos preentrenados convencionales como LLaMA, T5, etc.
Múltiples formatos de conjuntos de datos: Alpaca, OpenAssistant, Self-Instruct, etc.
Entrenamiento multi-GPU: Soporte automático para entrenamiento distribuido multi-GPU
Configuración flexible: Amplias opciones de configuración de hiperparámetros

Funciones de inferencia

Inferencia de 4 bits: Admite la inferencia eficiente de modelos cuantificados
Generación por lotes: Admite la generación de texto por lotes
Demostración interactiva: Proporciona entornos de demostración Gradio y Colab

Sistema de evaluación

Evaluación automática: Integra scripts de evaluación GPT-4
Evaluación humana: Proporciona herramientas y datos de evaluación humana
Pruebas de referencia: Alcanza un rendimiento líder en pruebas de referencia como Vicuna

Arquitectura técnica

Componentes principales

Módulo de cuantificación: Implementa la cuantificación de 4 bits basada en la biblioteca bitsandbytes
Módulo adaptador: Integra la implementación LoRA de la biblioteca PEFT de HuggingFace
Motor de entrenamiento: Marco de entrenamiento basado en la biblioteca transformers
Optimizador: Admite AdamW y optimizador paginado
Procesamiento de datos: Carga y preprocesamiento de conjuntos de datos en múltiples formatos

Pila tecnológica

Marco de aprendizaje profundo: PyTorch
Biblioteca de cuantificación: bitsandbytes
Biblioteca de modelos: HuggingFace transformers
Ajuste fino eficiente en parámetros: HuggingFace PEFT
Entrenamiento distribuido: HuggingFace Accelerate

Instalación y uso

Requisitos del entorno

Python 3.8+
CUDA 11.0+
Memoria GPU: el modelo de 7B necesita aproximadamente 6 GB, el modelo de 65B necesita aproximadamente 48 GB

Instalación rápida

# Instalar dependencias
pip install -U -r requirements.txt

# Comando básico de ajuste fino
python qlora.py --model_name_or_path <ruta del modelo>

# Ajuste fino de modelos grandes (se recomienda reducir la tasa de aprendizaje)
python qlora.py --learning_rate 0.0001 --model_name_or_path <ruta del modelo>

Ejemplo de configuración

# Configuración de cuantificación
quantization_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_compute_dtype=torch.bfloat16,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type='nf4'
)

Rendimiento

Resultados de las pruebas de referencia

Referencia Vicuna: El modelo Guanaco alcanza el 99,3% del rendimiento de ChatGPT
Eficiencia de entrenamiento: Ajuste fino de una sola GPU completado en 24 horas
Optimización de memoria: Reduce el uso de memoria en más del 65% en comparación con los métodos tradicionales

Familia de modelos

El proyecto ha publicado modelos Guanaco de varios tamaños:

Guanaco-7B: Adecuado para investigación personal y aplicaciones a pequeña escala
Guanaco-13B: Equilibra el rendimiento y las necesidades de recursos
Guanaco-33B: Modelo de escala media de alto rendimiento
Guanaco-65B: Modelo a gran escala cercano al rendimiento de ChatGPT

Escenarios de aplicación

Investigación académica

Experimentos de ajuste fino de modelos de lenguaje grandes
Investigación de la capacidad de seguimiento de instrucciones
Evaluación del rendimiento del sistema de diálogo
Verificación de métodos de ajuste fino eficientes en parámetros

Aplicaciones industriales

Desarrollo de sistemas de diálogo de nivel empresarial
Personalización de modelos específicos del dominio
Adaptación de modelos multilingües
Implementación de modelos en entornos con recursos limitados

Uso educativo

Experimentos de cursos de aprendizaje profundo
Aprendizaje de tecnología de modelos grandes
Práctica de contribución a proyectos de código abierto

Aspectos destacados del proyecto

Innovación tecnológica

Método de cuantificación innovador: La tecnología de cuantificación NF4 alcanza teóricamente el óptimo
Eficiencia de memoria extremadamente alta: Logra efectos de optimización de memoria sin precedentes
Excelente mantenimiento del rendimiento: Mantiene el rendimiento del modelo al tiempo que reduce significativamente los requisitos de recursos

Contribución de código abierto

Cadena de herramientas completa: Solución completa desde el entrenamiento hasta la inferencia
Ejemplos ricos: Proporciona ejemplos de código para múltiples escenarios de uso
Documentación detallada: Contiene documentación técnica completa y guías de uso

Ecosistema

Integración de HuggingFace: Integración profunda con el ecosistema de aprendizaje automático convencional
Soporte de la comunidad: Comunidad de código abierto activa y soporte técnico continuo
Actualizaciones continuas: Publica periódicamente nuevas funciones y optimizaciones de rendimiento

Desafíos técnicos y soluciones

Principales desafíos

Pérdida de precisión de la cuantificación: Resuelto mediante el tipo de datos NF4 y la tecnología de doble cuantificación
Complejidad de la gestión de la memoria: Desarrolla un optimizador paginado y una programación inteligente de la memoria
Estabilidad del entrenamiento: Garantiza la estabilidad mediante el recorte de gradientes y el ajuste de la tasa de aprendizaje

Conclusión

El proyecto QLoRA representa un avance importante en la tecnología de ajuste fino de modelos de lenguaje grandes. A través de técnicas de cuantificación innovadoras y métodos de ajuste fino eficientes en parámetros, reduce significativamente las barreras para la investigación y aplicación de modelos grandes. Este proyecto no solo tiene una importancia técnica significativa, sino que también desempeña un papel clave en la promoción de la aplicación democrática de modelos de lenguaje grandes.

Para investigadores y desarrolladores, QLoRA proporciona una herramienta poderosa y flexible que permite realizar ajustes finos de alta calidad en modelos grandes con recursos de hardware limitados. Con la mejora continua de la tecnología y la contribución continua de la comunidad, se espera que QLoRA se convierta en la herramienta estándar en el campo del ajuste fino de modelos de lenguaje grandes.

Recursos relacionados

Página principal del proyecto: https://github.com/artidoro/qlora
Enlace al artículo: https://arxiv.org/abs/2305.14314
Descarga del modelo: https://huggingface.co/timdettmers
Demostración en línea: https://huggingface.co/spaces/uwnlp/guanaco-playground-tgi
Blog técnico: https://huggingface.co/blog/4bit-transformers-bitsandbytes