PowerInfer는 상하이 교통대학교 IPADS 연구실에서 개발한 고속 대규모 언어 모델(LLM) 추론 엔진으로, 단일 소비자용 GPU를 장착한 개인 컴퓨터를 위해 설계되었습니다. 이 프로젝트의 핵심 혁신은 LLM 추론에 내재된 높은 지역성 특징을 활용하여, 멱법칙 분포의 뉴런 활성화 패턴을 통해 추론 성능을 최적화하는 데 있습니다.
기존의 LLM 추론은 막대한 계산 및 메모리 문제를 안고 있으며, 특히 소비자용 하드웨어에 대규모 모델을 배포할 때 더욱 그렇습니다. PowerInfer는 신경망 활성화 패턴에 대한 심층 분석을 통해 핵심적인 통찰력을 발견했습니다. 즉, 소수의 "핫" 뉴런은 모든 입력에서 지속적으로 활성화되는 반면, 대부분의 "콜드" 뉴런은 특정 입력에 따라 변화한다는 것입니다.
PowerInfer의 설계는 다음과 같은 핵심 관찰을 기반으로 합니다.
핫-콜드 뉴런의 특성을 기반으로 PowerInfer는 혁신적인 혼합 추론 전략을 채택합니다.
모델 시리즈 | 파라미터 규모 | 특징 |
---|---|---|
Falcon 시리즈 | 40B | ReLU 활성화 함수 최적화 |
Llama2 시리즈 | 7B/13B/70B | 전체 시리즈 지원 |
ProSparse Llama2 | 7B/13B | ~90% 희소성, 성능은 원본과 유사 |
Bamboo 시리즈 | 7B | 최고의 성능과 속도 공존 |
PowerInfer는 다음과 같은 내용을 포함하는 PowerInfer GGUF 형식을 사용합니다.
┌─────────────────┐ ┌─────────────────┐
│ 핫 뉴런 │───▶│ GPU │
│ (지속적 활성화) │ │ (빠른 액세스) │
└─────────────────┘ └─────────────────┘
│
▼
┌─────────────────┐ ┌─────────────────┐
│ 콜드 뉴런 │───▶│ CPU │
│ (조건부 활성화) │ │ (유연한 계산) │
└─────────────────┘ └─────────────────┘
모델 | PowerInfer | llama.cpp | 가속비 |
---|---|---|---|
Falcon-40B | 11.2 tokens/s | 1.0 tokens/s | 11.2x |
Llama2-70B | 8.1 tokens/s | 2.7 tokens/s | 3.0x |
Llama2-13B | 24.8 tokens/s | 8.9 tokens/s | 2.8x |
모델 | PowerInfer | llama.cpp | 가속비 |
---|---|---|---|
Falcon-40B | 6.8 tokens/s | 0.85 tokens/s | 8.0x |
Llama2-70B | 5.2 tokens/s | 1.7 tokens/s | 3.1x |
git clone https://github.com/SJTU-IPADS/PowerInfer
cd PowerInfer
pip install -r requirements.txt
# NVIDIA GPU
cmake -S . -B build -DLLAMA_CUBLAS=ON
cmake --build build --config Release
# CPU only
cmake -S . -B build
cmake --build build --config Release
# huggingface-cli를 사용하여 모델 다운로드
huggingface-cli download --resume-download --local-dir ReluLLaMA-7B \
--local-dir-use-symlinks False PowerInfer/ReluLLaMA-7B-PowerInfer-GGUF
# 기본 추론
./build/bin/main -m ./ReluLLaMA-7B-PowerInfer-GGUF/llama-7b-relu.powerinfer.gguf \
-n 128 -t 8 -p "Once upon a time"
# VRAM 사용 제한
./build/bin/main -m ./ReluLLaMA-7B-PowerInfer-GGUF/llama-7b-relu.powerinfer.gguf \
-n 128 -t 8 -p "Once upon a time" --vram-budget 8
특징 | PowerInfer | 기존 엔진 |
---|---|---|
하드웨어 요구 사항 | 소비자용 GPU | 서버급 GPU |
메모리 효율성 | 혼합 CPU/GPU | 전체 GPU 로드 |
추론 속도 | 11.69배 향상 | 기준 성능 |
비용 | 저비용 | 고비용 |
PowerInfer의 핵심은 신경망 희소성에 대한 심층적인 활용입니다.
PowerInfer는 오픈 소스 라이선스를 채택하고 있으며, 커뮤니티의 기여를 환영합니다. 프로젝트는 문제 피드백 및 기능 제안을 적극적으로 수용합니다.
관련 연구 논문이 발표되었으며, 대규모 언어 모델 추론 최적화 분야에 중요한 이론적 기반과 실천적 지침을 제공합니다.
PowerInfer는 대규모 언어 모델 로컬 추론 기술의 중요한 돌파구를 나타냅니다. 혁신적인 핫-콜드 뉴런 메커니즘과 CPU/GPU 혼합 아키텍처를 통해 소비자용 하드웨어에서 서버 수준의 추론 성능에 근접하는 데 성공했습니다.