Home
Login

Um kit de ferramentas de implantação de aprendizado profundo e modelos de linguagem grandes rápido e fácil de usar, com suporte para implantação em nuvem, dispositivos móveis e borda. Inclui mais de 20 cenários principais e mais de 150 modelos SOTA para imagem, vídeo, texto e áudio, com otimização de ponta a ponta, suporte a várias plataformas e estruturas.

Apache-2.0Cuda 3.2kPaddlePaddle Last Updated: 2025-06-16

Apresentação Detalhada do Projeto FastDeploy

Visão Geral do Projeto

FastDeploy é um kit de ferramentas de implantação de modelos de aprendizado profundo de código aberto da equipe PaddlePaddle (飞桨) da Baidu, focado em fornecer aos desenvolvedores soluções de implantação de modelos de IA fáceis de usar e de alto desempenho. O projeto visa reduzir as barreiras técnicas para a implantação de modelos de aprendizado profundo do treinamento para o ambiente de produção, suportando várias plataformas e tipos de modelos.

Endereço do Projeto: https://github.com/PaddlePaddle/FastDeploy

Principais Características

🚀 Principais Vantagens

  • Fácil de usar: Fornece interfaces de API concisas, com um único comando para realizar a implantação do modelo
  • Alto desempenho: Otimizado profundamente para diferentes plataformas de hardware, oferecendo desempenho de inferência extremo
  • Suporte a múltiplas plataformas: Abrange vários cenários de implantação, como nuvem, dispositivos móveis e borda
  • Compatibilidade com múltiplas estruturas: Suporta as principais estruturas de aprendizado profundo, como PaddlePaddle, PyTorch e TensorFlow

🎯 Destaques da Versão

Destaques da Versão FastDeploy 2.0

  • Suporte a grandes modelos de linguagem: Otimizado especificamente para inferência de grandes modelos, atualmente suporta o modelo Qwen2, com mais modelos sendo atualizados continuamente
  • Implantação como serviço: Um único comando para realizar rapidamente a implantação do modelo como serviço, suportando geração de fluxo contínuo
  • Tecnologia de paralelismo de tensores: Utiliza o paralelismo de tensores para acelerar o desempenho de inferência de grandes modelos
  • Recursos avançados:
    • Suporte para PagedAttention e continuous batching (processamento em lote dinâmico)
    • Compatível com o protocolo HTTP da OpenAI
    • Fornece solução de compressão sem perdas Weight only int8/int4
    • Suporta monitoramento de métricas Prometheus

Cenários e Modelos Suportados

📱 Cenários de Aplicação

  • Processamento de Imagem: Classificação de imagem, detecção de objetos, segmentação de imagem, reconhecimento de OCR, etc.
  • Análise de Vídeo: Reconhecimento de ação, compreensão de vídeo, processamento de vídeo em tempo real, etc.
  • Processamento de Linguagem Natural: Classificação de texto, análise de sentimento, sistemas de perguntas e respostas, inferência de grandes modelos de linguagem, etc.
  • Processamento de Voz: Reconhecimento de voz, síntese de voz, análise de voz, etc.

🏆 Ecossistema de Modelos

  • Suporta mais de 150 modelos SOTA
  • Abrange mais de 20 cenários de aplicação principais
  • Fluxo de implantação de modelos otimizado de ponta a ponta

Arquitetura Técnica

🔧 Requisitos do Sistema

Para implantação de grandes modelos (versão 2.0):

  • Requisitos de hardware: A800/H800/H100 GPU
  • Ambiente de software:
    • Python >= 3.10
    • CUDA >= 12.3
    • CUDNN >= 9.5
    • Sistema operacional Linux X64

🛠️ Métodos de Implantação

  1. Implantação Docker: Fornece imagens Docker pré-construídas
  2. Compilação a partir do código fonte: Suporta a instalação a partir da compilação do código fonte
  3. Instalação do pacote Python: Instalação direta via pip

Início Rápido

Métodos de Instalação

1. Método Docker

docker pull ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/fastdeploy:2.0.0.0-alpha

2. Compilação a partir do código fonte

# Instale a versão nightly do PaddlePaddle
python -m pip install --pre paddlepaddle-gpu -i https://www.paddlepaddle.org.cn/packages/nightly/cu126/

# Compile o FastDeploy
cd FastDeploy
bash build.sh

# Instale
pip install dist/fastdeploy-2.0.0a0-py3-none-any.whl

Exemplo de Implantação Rápida

Implantação do modelo Qwen2

# Baixe o modelo
wget https://fastdeploy.bj.bcebos.com/llm/models/Qwen2-7B-Instruct.tar.gz && tar xvf Qwen2-7B-Instruct.tar.gz

# Inicie o serviço
python -m fastdeploy.entrypoints.openai.api_server --model ./Qwen2-7B-Instruct --port 8188 --tensor-parallel-size 1

Exemplo de Chamada de API

curl -X POST "http://0.0.0.0:8188/v1/chat/completions" \
-H "Content-Type: application/json" \
-d '{
  "messages": [
    {"role": "user", "content": "Olá, qual é o seu nome?"}
  ]
}'

Características Técnicas

🎛️ Funções Avançadas

  • Paralelismo de Tensores: Suporta inferência distribuída de grandes modelos
  • Processamento em Lote Dinâmico: A tecnologia continuous batching aumenta a taxa de transferência
  • Otimização de Memória: PagedAttention reduz o uso de memória
  • Compressão de Modelo: Tecnologia de quantização Weight only

🔗 Compatibilidade de Protocolo

  • Compatibilidade com OpenAI: Totalmente compatível com o protocolo API da OpenAI
  • SDK Multilíngue: Suporta várias linguagens de programação, como Python, C++, etc.
  • Integração de Monitoramento: Monitoramento de métricas Prometheus integrado

Notas da Versão

Estratégia da Versão Atual

  • FastDeploy 2.0: Focado na implantação de grandes modelos de linguagem
  • FastDeploy 1.1.0: Continua a suportar modelos CV tradicionais (PaddleClas, PaddleOCR, etc.)

Resumo

FastDeploy, como uma parte importante do ecossistema PaddlePaddle da Baidu, está comprometido em construir uma solução de implantação de modelos de IA líder do setor. Através da inovação tecnológica contínua e da construção da comunidade, fornece aos desenvolvedores uma cadeia de ferramentas completa desde o treinamento do modelo até a implantação em produção, promovendo a popularização e aplicação da tecnologia de IA.