QLoRA(Quantized Low Rank Adaptation)は、ワシントン大学NLPチームが開発した、効率的な大規模言語モデルのファインチューニングのためのオープンソースフレームワークです。このプロジェクトの主な目標は、革新的な量子化技術とパラメータ効率の良いファインチューニング手法を通じて、大規模言語モデルのトレーニングにおけるハードウェアの敷居を大幅に下げ、より多くの研究者が大規模モデルの研究に参加できるようにすることです。
プロジェクトアドレス: https://github.com/artidoro/qlora
# 依存関係のインストール
pip install -U -r requirements.txt
# 基本的なファインチューニングコマンド
python qlora.py --model_name_or_path <モデルパス>
# 大規模モデルのファインチューニング(学習率を下げることを推奨)
python qlora.py --learning_rate 0.0001 --model_name_or_path <モデルパス>
# 量子化設定
quantization_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_compute_dtype=torch.bfloat16,
bnb_4bit_use_double_quant=True,
bnb_4bit_quant_type='nf4'
)
プロジェクトは複数の規模のGuanacoモデルをリリースしました。
QLoRAプロジェクトは、大規模言語モデルのファインチューニング技術における重要なブレークスルーを表しています。革新的な量子化技術とパラメータ効率の良いファインチューニング手法を通じて、大規模モデルの研究と応用の敷居を大幅に下げました。このプロジェクトは、技術的に重要なだけでなく、大規模言語モデルの民主的な応用を推進する上で重要な役割を果たしています。
研究者や開発者にとって、QLoRAは強力で柔軟なツールを提供し、限られたハードウェアリソースで高品質の大規模モデルのファインチューニングを可能にします。技術の継続的な改善とコミュニティの継続的な貢献により、QLoRAは大規模言語モデルのファインチューニング分野における標準ツールになることが期待されます。