PaddlePaddle/FastDeploy View GitHub Homepage for Latest Official Releases

Un kit de herramientas de implementación de aprendizaje profundo y modelos de lenguaje grandes rápido y fácil de usar, que admite la implementación en la nube, dispositivos móviles y el borde. Incluye más de 20 escenarios principales y más de 150 modelos SOTA en imágenes, video, texto y audio, con optimización de extremo a extremo, soporte multiplataforma y multimarco.

Apache-2.0PythonFastDeployPaddlePaddle 3.5k Last Updated: October 20, 2025

Introducción Detallada al Proyecto FastDeploy

Resumen del Proyecto

FastDeploy es un kit de herramientas de despliegue de modelos de aprendizaje profundo de código abierto del equipo PaddlePaddle (飞桨) de Baidu, centrado en proporcionar a los desarrolladores soluciones de despliegue de modelos de IA fáciles de usar y de alto rendimiento. El proyecto tiene como objetivo reducir las barreras técnicas para el despliegue de modelos de aprendizaje profundo desde el entrenamiento hasta los entornos de producción, y admite múltiples plataformas y tipos de modelos.

Dirección del proyecto: https://github.com/PaddlePaddle/FastDeploy

Características Principales

🚀 Ventajas Clave

Fácil de usar: Proporciona interfaces API concisas, el despliegue del modelo se puede realizar con una sola línea de comando.
Alto rendimiento: Profundamente optimizado para diferentes plataformas de hardware, proporcionando un rendimiento de inferencia extremo.
Soporte multiplataforma: Cubre múltiples escenarios de despliegue, como la nube, el móvil y el borde.
Compatibilidad multimarco: Admite los principales marcos de aprendizaje profundo como PaddlePaddle, PyTorch y TensorFlow.

🎯 Características de la Versión

Aspectos Destacados de la Versión FastDeploy 2.0

Soporte para modelos de lenguaje grandes: Optimizado específicamente para la inferencia de modelos grandes, actualmente compatible con el modelo Qwen2, y se actualizan continuamente más modelos.
Despliegue como servicio: Implemente rápidamente el despliegue del modelo como servicio con una sola línea de comando, admitiendo la generación en flujo.
Tecnología de paralelismo tensorial: Utiliza el paralelismo tensorial para acelerar el rendimiento de la inferencia de modelos grandes.
Características avanzadas:
- Soporte para PagedAttention y continuous batching (procesamiento por lotes dinámico).
- Compatible con el protocolo HTTP de OpenAI.
- Proporciona una solución de compresión sin pérdidas Weight only int8/int4.
- Soporte para la monitorización de métricas Prometheus Metrics.

Escenarios y Modelos Soportados

📱 Escenarios de Aplicación

Procesamiento de imágenes: Clasificación de imágenes, detección de objetos, segmentación de imágenes, reconocimiento OCR, etc.
Análisis de vídeo: Reconocimiento de acciones, comprensión de vídeo, procesamiento de vídeo en tiempo real, etc.
Procesamiento del lenguaje natural: Clasificación de texto, análisis de sentimientos, sistemas de preguntas y respuestas, inferencia de modelos de lenguaje grandes, etc.
Procesamiento de voz: Reconocimiento de voz, síntesis de voz, análisis de voz, etc.

🏆 Ecosistema de Modelos

Soporta más de 150 modelos SOTA
Cubre más de 20 escenarios de aplicación principales
Flujo de despliegue de modelos optimizado de extremo a extremo

Arquitectura Técnica

🔧 Requisitos del Sistema

Para el despliegue de modelos grandes (versión 2.0):

Requisitos de hardware: A800/H800/H100 GPU
Entorno de software:
- Python >= 3.10
- CUDA >= 12.3
- CUDNN >= 9.5
- Sistema operativo Linux X64

🛠️ Métodos de Despliegue

Despliegue con Docker: Proporciona imágenes Docker preconstruidas.
Compilación desde el código fuente: Admite la compilación e instalación desde el código fuente.
Instalación del paquete Python: Instalación directa a través de pip.

Inicio Rápido

Métodos de Instalación

1. Método Docker

docker pull ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/fastdeploy:2.0.0.0-alpha

2. Compilación desde el código fuente

# Instalar la versión nightly de PaddlePaddle
python -m pip install --pre paddlepaddle-gpu -i https://www.paddlepaddle.org.cn/packages/nightly/cu126/

# Compilar FastDeploy
cd FastDeploy
bash build.sh

# Instalar
pip install dist/fastdeploy-2.0.0a0-py3-none-any.whl

Ejemplo de Despliegue Rápido

Despliegue del modelo Qwen2

# Descargar el modelo
wget https://fastdeploy.bj.bcebos.com/llm/models/Qwen2-7B-Instruct.tar.gz && tar xvf Qwen2-7B-Instruct.tar.gz

# Iniciar el servicio
python -m fastdeploy.entrypoints.openai.api_server --model ./Qwen2-7B-Instruct --port 8188 --tensor-parallel-size 1

Ejemplo de llamada a la API

curl -X POST "http://0.0.0.0:8188/v1/chat/completions" \
-H "Content-Type: application/json" \
-d '{
  "messages": [
    {"role": "user", "content": "你好，你的名字是什么？"}
  ]
}'

Características Técnicas

🎛️ Funciones Avanzadas

Paralelismo tensorial: Soporta la inferencia distribuida de modelos grandes.
Procesamiento por lotes dinámico: La tecnología continuous batching mejora el rendimiento.
Optimización de la memoria: PagedAttention reduce el uso de memoria.
Compresión de modelos: Tecnología de cuantificación Weight only.

🔗 Compatibilidad de Protocolos

Compatibilidad con OpenAI: Totalmente compatible con el protocolo API de OpenAI.
SDK multilingüe: Soporta múltiples lenguajes de programación como Python, C++, etc.
Integración de monitorización: Monitorización de métricas Prometheus incorporada.

Notas de la Versión

Estrategia de la Versión Actual

FastDeploy 2.0: Centrado en el despliegue de modelos de lenguaje grandes.
FastDeploy 1.1.0: Continúa soportando modelos CV tradicionales (PaddleClas, PaddleOCR, etc.).

Resumen

FastDeploy, como parte importante del ecosistema PaddlePaddle de Baidu, se dedica a crear soluciones de despliegue de modelos de IA líderes en la industria. A través de la innovación tecnológica continua y la construcción de la comunidad, proporciona a los desarrolladores una cadena de herramientas completa desde el entrenamiento del modelo hasta el despliegue en producción, promoviendo la popularización y aplicación de la tecnología de IA.