Microsoft LoRA 是微软开源的一个 Python 库,实现了"LoRA: Low-Rank Adaptation of Large Language Models"(大语言模型的低秩适应)技术。该项目为大语言模型的高效微调提供了革命性的解决方案。
项目地址: https://github.com/microsoft/LoRA
论文地址: https://arxiv.org/abs/2106.09685
LoRA(Low-Rank Adaptation)是一种参数高效的微调方法,其核心思想是:
在GLUE基准测试中,LoRA展现了出色的性能:
模型 | 训练参数数量 | MNLI准确率 | SST-2准确率 | MRPC准确率 |
---|---|---|---|---|
RoBERTa Base 全量微调 | 125M | 87.6 | 94.8 | 90.2 |
RoBERTa Base LoRA | 0.8M | 87.6±.1 | 95.1±.2 | 89.7±.7 |
DeBERTa XXL 全量微调 | 1.5B | 91.1 | 96.8 | 92.9 |
DeBERTa XXL LoRA | 4.7M | 91.9±.1 | 96.9±.2 | 92.6±.6 |
在E2E、DART、WebNLG等文本生成任务上,LoRA同样表现优异:
方法 | 训练参数 | E2E (BLEU) | DART (BLEU) | WebNLG (BLEU) |
---|---|---|---|---|
GPT-2 M 全量微调 | 354.92M | 68.2 | 46.0 | 47.6 |
GPT-2 M LoRA | 0.35M | 70.4±.1 | 47.1±.2 | 55.3±.2 |
microsoft/LoRA/
├── loralib/ # 核心库源代码
├── examples/
│ ├── NLG/ # GPT-2自然语言生成示例
│ └── NLU/ # RoBERTa/DeBERTa自然语言理解示例
├── README.md
└── setup.py
pip install loralib
# 或者从源码安装
pip install git+https://github.com/microsoft/LoRA
# ===== 修改前 =====
# layer = nn.Linear(in_features, out_features)
# ===== 修改后 =====
import loralib as lora
layer = lora.Linear(in_features, out_features, r=16)
import loralib as lora
model = BigModel()
# 只将包含"lora_"的参数设为可训练
lora.mark_only_lora_as_trainable(model)
# 训练循环
for batch in dataloader:
# 正常训练流程
pass
# 保存LoRA参数
torch.save(lora.lora_state_dict(model), 'lora_checkpoint.pt')
# 加载预训练模型
model.load_state_dict(torch.load('pretrained.pt'), strict=False)
# 加载LoRA参数
model.load_state_dict(torch.load('lora_checkpoint.pt'), strict=False)
目前LoRA库支持以下层类型:
nn.Linear
→ lora.Linear
nn.Embedding
→ lora.Embedding
nn.Conv2d
→ lora.Conv2d
lora.MergedLinear
(用于QKV投影等合并线性层)# 对于QKV投影等场景
qkv_proj = lora.MergedLinear(
d_model, 3*d_model,
r=8,
enable_lora=[True, False, True] # 只对Q和V应用LoRA
)
# 训练LoRA相关的偏置
lora.mark_only_lora_as_trainable(model, bias='lora_only')
# 训练所有偏置
lora.mark_only_lora_as_trainable(model, bias='all')
# 评估模式:合并权重,消除推理延迟
model.eval()
# 训练模式:恢复分离状态
model.train()
Microsoft LoRA项目为大语言模型的高效微调提供了突破性解决方案。通过巧妙的低秩适应技术,在大幅降低计算和存储成本的同时,保持了优异的模型性能。该项目不仅具有重要的学术价值,更为实际的工业应用提供了可行的技术路径,是参数高效微调领域的里程碑式工作。