huggingface/peftView GitHub Homepage for Latest Official Releases

🤗 PEFT是Hugging Face开发的先进参数高效微调库，通过LoRA、AdaLoRA等技术实现大模型低成本微调

Apache-2.0Pythonpefthuggingface 19.3k Last Updated: August 07, 2025

🤗 PEFT - 参数高效微调库详细介绍

项目概述

PEFT (Parameter-Efficient Fine-Tuning) 是由Hugging Face开发的一个先进的参数高效微调库。该项目旨在解决大型预训练模型微调过程中计算成本高昂和存储需求巨大的问题。

GitHub地址： https://github.com/huggingface/peft

核心价值与优势

1. 成本效益

极大降低计算成本：相比传统全参数微调，PEFT方法只需训练模型参数的很小一部分
显著减少存储需求：微调后的模型检查点文件通常只有几MB，而不是几GB
内存使用优化：在相同硬件条件下能够处理更大的模型

2. 性能保持

媲美全参数微调：在多数任务上达到与完全微调相当的性能表现
避免灾难性遗忘：保护基础模型的原有知识，减少过拟合风险

3. 灵活性与便利性

多任务适配：可以为不同任务训练多个轻量级适配器
无缝集成：与Transformers、Diffusers、Accelerate等生态系统完美集成

支持的微调方法

主要PEFT技术

LoRA (Low-Rank Adaptation)

最流行的参数高效微调方法
通过低秩矩阵分解大幅减少可训练参数
典型场景下只需训练0.1%-1%的原始参数

AdaLoRA

LoRA的改进版本
自适应调整秩大小，进一步优化效率

Prefix Tuning

在输入序列前添加可学习的前缀
适用于生成任务

P-Tuning v2

改进的提示调优方法
在多个层添加可学习参数

IA³ (Infused Adapter by Inhibiting and Amplifying Inner Activations)

通过抑制和放大内部激活来适配模型

实际应用效果

内存使用对比 (A100 80GB GPU)

模型	全参数微调	PEFT-LoRA	PEFT-LoRA + DeepSpeed CPU卸载
T0_3B (30亿参数)	47.14GB GPU / 2.96GB CPU	14.4GB GPU / 2.96GB CPU	9.8GB GPU / 17.8GB CPU
mt0-xxl (120亿参数)	内存溢出	56GB GPU / 3GB CPU	22GB GPU / 52GB CPU
bloomz-7b1 (70亿参数)	内存溢出	32GB GPU / 3.8GB CPU	18.1GB GPU / 35GB CPU

性能表现

在Twitter投诉分类任务上的准确率对比：

人类基线：89.7%
Flan-T5：89.2%
LoRA-T0-3B：86.3%

安装与快速开始

安装

pip install peft

基础使用示例

from transformers import AutoModelForSeq2SeqLM
from peft import get_peft_config, get_peft_model, LoraConfig, TaskType

# 配置PEFT
model_name_or_path = "bigscience/mt0-large"
peft_config = LoraConfig(
    task_type=TaskType.SEQ_2_SEQ_LM, 
    inference_mode=False, 
    r=8, 
    lora_alpha=32, 
    lora_dropout=0.1
)

# 加载和包装模型
model = AutoModelForSeq2SeqLM.from_pretrained(model_name_or_path)
model = get_peft_model(model, peft_config)

# 查看可训练参数
model.print_trainable_parameters()
# 输出：trainable params: 2359296 || all params: 1231940608 || trainable%: 0.19

推理使用

from peft import AutoPeftModelForCausalLM
from transformers import AutoTokenizer

# 加载微调后的模型
model = AutoPeftModelForCausalLM.from_pretrained("ybelkada/opt-350m-lora").to("cuda")
tokenizer = AutoTokenizer.from_pretrained("facebook/opt-350m")

# 进行推理
model.eval()
inputs = tokenizer("你的输入文本", return_tensors="pt")
outputs = model.generate(input_ids=inputs["input_ids"].to("cuda"), max_new_tokens=50)

生态系统集成

1. Transformers集成

支持各种预训练模型架构
无缝的训练和推理流程
自动模型配置和优化

2. Diffusers集成

支持扩散模型的高效微调
适用于图像生成、编辑等任务
显著降低训练内存需求

3. Accelerate集成

支持分布式训练
多GPU、TPU训练优化
消费级硬件友好

4. TRL (Transformer Reinforcement Learning)集成

支持RLHF (人类反馈强化学习)
DPO (直接偏好优化)
大模型对齐训练

应用场景

1. 大语言模型微调

指令微调
对话系统优化
特定领域适配

2. 多模态模型

视觉-语言模型微调
音频处理模型适配

3. 扩散模型

Stable Diffusion个性化
DreamBooth训练
风格转换

4. 强化学习

策略模型微调
奖励模型训练
人类偏好对齐

技术优势与创新点

1. 参数效率

只训练0.1%-1%的原始参数
保持95%以上的性能
检查点文件缩小至原来的1/100

2. 内存优化

大幅降低GPU内存需求
支持消费级硬件训练大模型
梯度检查点进一步优化内存

3. 量化兼容

与8bit、4bit量化完美结合
QLoRA技术支持
进一步降低硬件门槛

4. 模块化设计

支持多种PEFT方法
灵活的配置选项
易于扩展新方法

社区与生态

官方资源

文档：https://huggingface.co/docs/peft
模型库：https://huggingface.co/PEFT
示例笔记本：涵盖各种应用场景
博客教程：详细的技术说明和最佳实践

总结

🤗 PEFT是一个革命性的参数高效微调库，它不仅解决了大模型微调的成本问题，还保持了优秀的性能表现。无论是研究人员还是工业界开发者，PEFT都提供了一个经济高效的大模型定制化解决方案，推动了AI技术的民主化进程。