PowerInferは、上海交通大学IPADS研究所が開発した高速大規模言語モデル(LLM)推論エンジンで、単一のコンシューマーグレードGPUを搭載したパーソナルコンピュータ向けに設計されています。このプロジェクトの中核となる革新は、LLM推論に固有の高い局所性を利用し、パワーロー分布のニューロン活性化パターンを通じて推論性能を最適化することです。
従来のLLM推論は、特にコンシューマーグレードのハードウェアに大規模モデルをデプロイする場合、膨大な計算量とメモリの課題に直面しています。PowerInferは、ニューラルネットワークの活性化パターンを詳細に分析することで、重要な洞察を発見しました。それは、少数の「ホット」ニューロンがすべての入力で継続的に活性化され、大多数の「コールド」ニューロンが特定の入力に応じて変化するということです。
PowerInferの設計は、以下のコアとなる観察に基づいています。
ホット/コールドニューロンの特性に基づいて、PowerInferは革新的なハイブリッド推論戦略を採用しています。
モデルシリーズ | パラメータ規模 | 特性 |
---|---|---|
Falconシリーズ | 40B | ReLU活性化関数最適化 |
Llama2シリーズ | 7B/13B/70B | 全シリーズサポート |
ProSparse Llama2 | 7B/13B | ~90%のスパース性、性能はオリジナル版に近い |
Bambooシリーズ | 7B | 最高の性能と速度を両立 |
PowerInferは、専用のPowerInfer GGUF形式を使用します。
┌─────────────────┐ ┌─────────────────┐
│ ホットニューロン │───▶│ GPU │
│ (継続的活性化) │ │ (高速アクセス) │
└─────────────────┘ └─────────────────┘
│
▼
┌─────────────────┐ ┌─────────────────┐
│ コールドニューロン │───▶│ CPU │
│ (条件付き活性化) │ │ (柔軟な計算) │
└─────────────────┘ └─────────────────┘
モデル | PowerInfer | llama.cpp | 加速比 |
---|---|---|---|
Falcon-40B | 11.2 tokens/s | 1.0 tokens/s | 11.2x |
Llama2-70B | 8.1 tokens/s | 2.7 tokens/s | 3.0x |
Llama2-13B | 24.8 tokens/s | 8.9 tokens/s | 2.8x |
モデル | PowerInfer | llama.cpp | 加速比 |
---|---|---|---|
Falcon-40B | 6.8 tokens/s | 0.85 tokens/s | 8.0x |
Llama2-70B | 5.2 tokens/s | 1.7 tokens/s | 3.1x |
git clone https://github.com/SJTU-IPADS/PowerInfer
cd PowerInfer
pip install -r requirements.txt
# NVIDIA GPU
cmake -S . -B build -DLLAMA_CUBLAS=ON
cmake --build build --config Release
# CPU only
cmake -S . -B build
cmake --build build --config Release
# huggingface-cliを使用してモデルをダウンロード
huggingface-cli download --resume-download --local-dir ReluLLaMA-7B \
--local-dir-use-symlinks False PowerInfer/ReluLLaMA-7B-PowerInfer-GGUF
# 基本的な推論
./build/bin/main -m ./ReluLLaMA-7B-PowerInfer-GGUF/llama-7b-relu.powerinfer.gguf \
-n 128 -t 8 -p "Once upon a time"
# VRAMの使用制限
./build/bin/main -m ./ReluLLaMA-7B-PowerInfer-GGUF/llama-7b-relu.powerinfer.gguf \
-n 128 -t 8 -p "Once upon a time" --vram-budget 8
特性 | PowerInfer | 従来のエンジン |
---|---|---|
ハードウェア要件 | コンシューマーグレードGPU | サーバーグレードGPU |
メモリ効率 | ハイブリッドCPU/GPU | フルGPUロード |
推論速度 | 11.69倍の向上 | ベンチマーク性能 |
コスト | 低コスト | 高コスト |
PowerInferの中核は、ニューラルネットワークのスパース性を深く利用することです。
PowerInferはオープンソースライセンスを採用しており、コミュニティからの貢献を歓迎します。プロジェクトは、問題のフィードバックと機能の提案を積極的に受け入れています。
関連する研究論文が発表されており、大規模言語モデル推論最適化の分野に重要な理論的基盤と実践的指導を提供しています。
PowerInferは、大規模言語モデルのローカル推論技術における大きなブレークスルーを代表しています。革新的なホット/コールドニューロンメカニズムとCPU/GPUハイブリッドアーキテクチャを通じて、コンシューマーグレードのハードウェアでサーバーレベルに近い推論性能を実現することに成功しました。