SJTU-IPADS/PowerInfer

PowerInfer é um motor de inferência de modelos de linguagem grandes de alta velocidade, projetado para implantação local, utilizando ativação esparsa e uma arquitetura híbrida CPU/GPU para alcançar inferência rápida de LLM em hardware de consumo.

MITC++ 8.2kSJTU-IPADS Last Updated: 2025-02-19

https://github.com/SJTU-IPADS/PowerInfer

PowerInfer - Motor de Inferência de Alta Velocidade para Grandes Modelos de Linguagem

Visão Geral do Projeto

PowerInfer é um motor de inferência de alta velocidade para grandes modelos de linguagem (LLM), desenvolvido pelo Laboratório IPADS da Universidade Jiao Tong de Xangai, projetado especificamente para computadores pessoais equipados com uma única GPU de nível consumidor. A principal inovação do projeto reside na utilização das características de alta localidade inerentes à inferência de LLMs, otimizando o desempenho da inferência através de um padrão de ativação de neurônios com distribuição de lei de potência.

Contexto do Projeto

A inferência tradicional de LLMs enfrenta enormes desafios computacionais e de memória, especialmente ao implantar modelos grandes em hardware de nível consumidor. O PowerInfer, através de uma análise aprofundada dos padrões de ativação de redes neurais, descobriu um insight fundamental: um pequeno número de neurônios "quentes" são ativados consistentemente em todas as entradas, enquanto a maioria dos neurônios "frios" variam de acordo com a entrada específica.

Princípios Técnicos Fundamentais

Mecanismo de Neurônios Quentes e Frios

O design do PowerInfer é baseado nas seguintes observações principais:

Neurônios Quentes: Um pequeno número de neurônios que são ativados consistentemente em todas as entradas
Neurônios Frios: A maioria dos neurônios que variam de acordo com a entrada específica
Distribuição de Lei de Potência: A ativação de neurônios segue um padrão de distribuição de lei de potência

Arquitetura Híbrida GPU-CPU

Com base nas características dos neurônios quentes e frios, o PowerInfer adota uma estratégia de inferência híbrida inovadora:

GPU: Pré-carrega neurônios de ativação quente, permitindo acesso rápido
CPU: Calcula neurônios de ativação fria, reduzindo significativamente os requisitos de memória da GPU
Agendamento Inteligente: Reduz drasticamente a sobrecarga de transferência de dados CPU-GPU

Principais Características e Funcionalidades

🚀 Inferência de Alto Desempenho

Desempenho de Velocidade: Velocidade média de geração de tokens de 13,20 tokens/s, com pico de até 29,08 tokens/s
Comparação de Desempenho: Aumento de desempenho de até 11,69 vezes em comparação com o llama.cpp
Eficiência de Hardware: O desempenho em uma RTX 4090 é apenas 18% inferior ao de uma GPU A100 de nível de servidor

🧠 Técnicas de Otimização Inteligente

Preditor Adaptativo: Otimiza dinamicamente a previsão de ativação de neurônios
Operador Esparso Sensível a Neurônios: Otimiza a eficiência da computação de esparsidade
Design Centrado na Localidade: Aproveita ao máximo as características de ativação esparsa

🔧 Facilidade de Uso e Compatibilidade

Integração Simples: Compatível com modelos esparsos ReLU populares
Implantação Local: Profundamente otimizado para hardware de nível consumidor
Compatibilidade Retroativa: Suporta a maioria dos métodos de uso do llama.cpp

Modelos Suportados

Famílias de Modelos Atualmente Suportadas

Família de Modelos	Tamanho dos Parâmetros	Características
Família Falcon	40B	Otimização da função de ativação ReLU
Família Llama2	7B/13B/70B	Suporte para toda a família
ProSparse Llama2	7B/13B	~90% de esparsidade, desempenho próximo ao original
Família Bamboo	7B	Desempenho e velocidade de ponta

Formato de Modelo

O PowerInfer usa um formato PowerInfer GGUF especializado, que inclui:

Pesos do LLM
Pesos do preditor
Informações estatísticas de ativação

Arquitetura Técnica

Design do Sistema

┌─────────────────┐    ┌─────────────────┐
│   Neurônios Quentes │───▶│      GPU        │
│  (Ativação Contínua)│    │   (Acesso Rápido) │
└─────────────────┘    └─────────────────┘
                              │
                              ▼
┌─────────────────┐    ┌─────────────────┐
│   Neurônios Frios │───▶│      CPU        │
│  (Ativação Condicional)│    │   (Cálculo Flexível)│
└─────────────────┘    └─────────────────┘

Componentes Principais

Preditor de Ativação: Prediz inteligentemente os padrões de ativação de neurônios
Gerenciador de Memória: Otimiza a alocação de memória GPU/CPU
Operador Esparso: Processa eficientemente a computação esparsa
Agendador: Aloca inteligentemente tarefas de computação

Suporte de Plataforma

Plataformas Testadas

Linux: CPU x86-64 com conjunto de instruções AVX2, suporta NVIDIA GPU
Windows: CPU x86-64 com conjunto de instruções AVX2, suporta NVIDIA GPU
macOS: Chips Apple M (apenas CPU, aumento de desempenho limitado)
AMD GPU: Suporte via ROCm

Requisitos de Hardware

CPU: Processador x86-64 com suporte para conjunto de instruções AVX2
GPU: NVIDIA RTX Series ou AMD GPU (opcional)
Memória: Depende do tamanho do modelo
Armazenamento: Espaço suficiente para armazenar arquivos de modelo

Testes de Desempenho

Desempenho RTX 4090

Modelo	PowerInfer	llama.cpp	Aceleração
Falcon-40B	11.2 tokens/s	1.0 tokens/s	11.2x
Llama2-70B	8.1 tokens/s	2.7 tokens/s	3.0x
Llama2-13B	24.8 tokens/s	8.9 tokens/s	2.8x

Desempenho RTX 2080Ti (Quantização INT4)

Modelo	PowerInfer	llama.cpp	Aceleração
Falcon-40B	6.8 tokens/s	0.85 tokens/s	8.0x
Llama2-70B	5.2 tokens/s	1.7 tokens/s	3.1x

Instalação e Uso

Requisitos de Ambiente

CMake (3.17+)
Python (3.8+) e pip (19.3+)
Cadeia de ferramentas CUDA (se estiver usando NVIDIA GPU)

Instalação Básica

git clone https://github.com/SJTU-IPADS/PowerInfer
cd PowerInfer
pip install -r requirements.txt

# NVIDIA GPU
cmake -S . -B build -DLLAMA_CUBLAS=ON
cmake --build build --config Release

# CPU only
cmake -S . -B build
cmake --build build --config Release

Download de Modelo

# Use huggingface-cli para baixar o modelo
huggingface-cli download --resume-download --local-dir ReluLLaMA-7B \
  --local-dir-use-symlinks False PowerInfer/ReluLLaMA-7B-PowerInfer-GGUF

Executando a Inferência

# Inferência básica
./build/bin/main -m ./ReluLLaMA-7B-PowerInfer-GGUF/llama-7b-relu.powerinfer.gguf \
  -n 128 -t 8 -p "Era uma vez"

# Limitar o uso de VRAM
./build/bin/main -m ./ReluLLaMA-7B-PowerInfer-GGUF/llama-7b-relu.powerinfer.gguf \
  -n 128 -t 8 -p "Era uma vez" --vram-budget 8

Últimas Atualizações e Desenvolvimento

Inovações Técnicas

PowerInfer-2: Versão otimizada para dispositivos móveis, alcançando 11,68 tokens/s em smartphones
TurboSparse: Tecnologia de esparsidade de baixo custo, mantendo o desempenho enquanto reduz significativamente os parâmetros
Bamboo LLM: Família de modelos auto-desenvolvidos que priorizam desempenho e velocidade

Cenários de Aplicação

Cenários Adequados

Assistente de IA Pessoal: Implante um assistente de IA privado localmente
Aplicações Internas da Empresa: Serviços de IA internos que protegem a privacidade dos dados
Pesquisa e Desenvolvimento: Prototipagem rápida e teste de modelos
Computação de Borda: Implante LLMs em ambientes com recursos limitados
Pesquisa Educacional: Aprenda e pesquise tecnologias de inferência de grandes modelos

Vantagens e Características

Proteção de Privacidade: Todos os cálculos são concluídos localmente
Custo-Benefício: Obtenha excelente desempenho usando hardware de nível consumidor
Implantação Simples: Nenhuma configuração complexa de sistema distribuído necessária
Resposta Rápida: Inferência local de baixa latência

Comparação Técnica

vs. Motores de Inferência Tradicionais

Característica	PowerInfer	Motor Tradicional
Requisitos de Hardware	GPU de nível consumidor	GPU de nível de servidor
Eficiência de Memória	Híbrido CPU/GPU	Carregamento total na GPU
Velocidade de Inferência	Aumento de 11,69x	Desempenho de referência
Custo	Baixo custo	Alto custo

vs. llama.cpp

Desempenho: Aumento de velocidade de até 11,69 vezes
Memória: Utilização de memória mais eficiente
Hardware: Melhor coordenação CPU/GPU
Compatibilidade: Suporta a maioria das funcionalidades do llama.cpp

Aprofundamento nos Princípios Técnicos

Utilização da Esparsidade

O núcleo do PowerInfer reside na profunda utilização da esparsidade da rede neural:

Análise de Padrões de Ativação: Descobre a distribuição de lei de potência da ativação de neurônios através da análise de grandes quantidades de dados
Mecanismo de Predição: Usa um preditor leve para prever o estado de ativação dos neurônios
Agendamento Dinâmico: Aloca dinamicamente recursos computacionais com base nos resultados da previsão

Estratégias de Otimização de Memória

Armazenamento em Camadas: Dados quentes armazenados na GPU, dados frios armazenados na CPU
Mecanismo de Pré-busca: Pré-busca inteligentemente os dados que podem ser necessários
Técnicas de Compressão: Comprime e armazena dados frios

Desenvolvimento e Contribuição

Licença de Código Aberto

O PowerInfer adota uma licença de código aberto e as contribuições da comunidade são bem-vindas. O projeto aceita ativamente feedback sobre problemas e sugestões de recursos.

Equipe de Desenvolvimento

Laboratório IPADS da Universidade Jiao Tong de Xangai: Principal equipe de desenvolvimento
THUNLP da Universidade Tsinghua: Suporte para modelos esparsos ReLU
Comunidade de Código Aberto: Contribuições e melhorias contínuas

Impacto Acadêmico

Artigos de pesquisa relacionados foram publicados, fornecendo uma base teórica e orientação prática importantes para a otimização da inferência de grandes modelos de linguagem.

Resumo

O PowerInfer representa um avanço significativo na tecnologia de inferência local de grandes modelos de linguagem. Através de um mecanismo inovador de neurônios quentes e frios e uma arquitetura híbrida CPU/GPU, ele alcançou com sucesso um desempenho de inferência próximo ao nível de servidor em hardware de nível consumidor.