PowerInfer是由上海交通大学IPADS实验室开发的高速大语言模型(LLM)推理引擎,专为配备单个消费级GPU的个人计算机设计。该项目的核心创新在于利用LLM推理中固有的高局部性特征,通过功率律分布的神经元激活模式来优化推理性能。
传统的LLM推理面临着巨大的计算和内存挑战,特别是在消费级硬件上部署大型模型时。PowerInfer通过深入分析神经网络激活模式,发现了一个关键洞察:少数"热"神经元在所有输入中持续激活,而大多数"冷"神经元根据特定输入而变化。
PowerInfer的设计基于以下核心观察:
基于热冷神经元的特性,PowerInfer采用创新的混合推理策略:
模型系列 | 参数规模 | 特性 |
---|---|---|
Falcon系列 | 40B | ReLU激活函数优化 |
Llama2系列 | 7B/13B/70B | 全系列支持 |
ProSparse Llama2 | 7B/13B | ~90%稀疏性,性能接近原版 |
Bamboo系列 | 7B | 顶级性能与速度并存 |
PowerInfer使用专门的PowerInfer GGUF格式,包含:
┌─────────────────┐ ┌─────────────────┐
│ 热神经元 │───▶│ GPU │
│ (持续激活) │ │ (快速访问) │
└─────────────────┘ └─────────────────┘
│
▼
┌─────────────────┐ ┌─────────────────┐
│ 冷神经元 │───▶│ CPU │
│ (条件激活) │ │ (灵活计算) │
└─────────────────┘ └─────────────────┘
模型 | PowerInfer | llama.cpp | 加速比 |
---|---|---|---|
Falcon-40B | 11.2 tokens/s | 1.0 tokens/s | 11.2x |
Llama2-70B | 8.1 tokens/s | 2.7 tokens/s | 3.0x |
Llama2-13B | 24.8 tokens/s | 8.9 tokens/s | 2.8x |
模型 | PowerInfer | llama.cpp | 加速比 |
---|---|---|---|
Falcon-40B | 6.8 tokens/s | 0.85 tokens/s | 8.0x |
Llama2-70B | 5.2 tokens/s | 1.7 tokens/s | 3.1x |
git clone https://github.com/SJTU-IPADS/PowerInfer
cd PowerInfer
pip install -r requirements.txt
# NVIDIA GPU
cmake -S . -B build -DLLAMA_CUBLAS=ON
cmake --build build --config Release
# CPU only
cmake -S . -B build
cmake --build build --config Release
# 使用huggingface-cli下载模型
huggingface-cli download --resume-download --local-dir ReluLLaMA-7B \
--local-dir-use-symlinks False PowerInfer/ReluLLaMA-7B-PowerInfer-GGUF
# 基本推理
./build/bin/main -m ./ReluLLaMA-7B-PowerInfer-GGUF/llama-7b-relu.powerinfer.gguf \
-n 128 -t 8 -p "Once upon a time"
# 限制VRAM使用
./build/bin/main -m ./ReluLLaMA-7B-PowerInfer-GGUF/llama-7b-relu.powerinfer.gguf \
-n 128 -t 8 -p "Once upon a time" --vram-budget 8
特性 | PowerInfer | 传统引擎 |
---|---|---|
硬件要求 | 消费级GPU | 服务器级GPU |
内存效率 | 混合CPU/GPU | 全GPU加载 |
推理速度 | 11.69x提升 | 基准性能 |
成本 | 低成本 | 高成本 |
PowerInfer的核心在于对神经网络稀疏性的深度利用:
PowerInfer采用开源协议,欢迎社区贡献。项目积极接受问题反馈和功能建议。
相关研究论文已发表,为大语言模型推理优化领域提供了重要的理论基础和实践指导。
PowerInfer代表了大语言模型本地推理技术的重大突破。通过创新的热冷神经元机制和CPU/GPU混合架构,它成功地在消费级硬件上实现了接近服务器级别的推理性能。