PaddlePaddle/FastDeploy View GitHub Homepage for Latest Official Releases

Une boîte à outils de déploiement de modèles d'apprentissage profond et de grands modèles de langage rapide et facile à utiliser, prenant en charge le déploiement dans le cloud, sur mobile et en périphérie. Comprend plus de 20 scénarios courants et plus de 150 modèles SOTA dans les domaines de l'image, de la vidéo, du texte et de l'audio, avec une optimisation de bout en bout, une prise en charge multiplateforme et multiframework.

Apache-2.0PythonFastDeployPaddlePaddle 3.5k Last Updated: October 20, 2025

Présentation détaillée du projet FastDeploy

Aperçu du projet

FastDeploy est une boîte à outils de déploiement de modèles d'apprentissage profond open source développée par l'équipe PaddlePaddle de Baidu, axée sur la fourniture aux développeurs de solutions de déploiement de modèles d'IA simples à utiliser et performantes. Ce projet vise à réduire les barrières techniques au déploiement des modèles d'apprentissage profond de la formation à l'environnement de production, en prenant en charge plusieurs plateformes et types de modèles.

Adresse du projet : https://github.com/PaddlePaddle/FastDeploy

Principales caractéristiques

🚀 Avantages clés

Facile à utiliser : Fournit des interfaces API concises, une seule ligne de commande peut réaliser le déploiement du modèle
Haute performance : Optimisation approfondie pour différentes plateformes matérielles, offrant des performances d'inférence ultimes
Prise en charge multiplateforme : Couvre plusieurs scénarios de déploiement tels que le cloud, le mobile et la périphérie
Compatibilité multiframe : Prend en charge les principaux frameworks d'apprentissage profond tels que PaddlePaddle, PyTorch et TensorFlow

🎯 Caractéristiques de la version

Points forts de la version FastDeploy 2.0

Prise en charge des grands modèles de langage : Optimisé spécifiquement pour l'inférence de grands modèles, prend actuellement en charge le modèle Qwen2, et d'autres modèles sont constamment mis à jour
Déploiement de services : Une seule ligne de commande permet de réaliser rapidement le déploiement de services du modèle, prenant en charge la génération en continu
Technologie de parallélisme tensoriel : Utilise le parallélisme tensoriel pour accélérer les performances d'inférence des grands modèles
Fonctionnalités avancées :
- Prend en charge PagedAttention et le batching continu (traitement par lots dynamique)
- Compatible avec le protocole HTTP d'OpenAI
- Fournit une solution de compression sans perte Weight only int8/int4
- Prend en charge la surveillance des indicateurs Prometheus Metrics

Scénarios et modèles pris en charge

📱 Scénarios d'application

Traitement d'image : Classification d'image, détection d'objets, segmentation d'image, reconnaissance OCR, etc.
Analyse vidéo : Reconnaissance d'actions, compréhension vidéo, traitement vidéo en temps réel, etc.
Traitement du langage naturel : Classification de texte, analyse des sentiments, systèmes de questions-réponses, inférence de grands modèles de langage, etc.
Traitement vocal : Reconnaissance vocale, synthèse vocale, analyse vocale, etc.

🏆 Écosystème de modèles

Prend en charge plus de 150 modèles SOTA
Couvre plus de 20 scénarios d'application courants
Processus de déploiement de modèles optimisés de bout en bout

Architecture technique

🔧 Configuration système requise

Pour le déploiement de grands modèles (version 2.0) :

Configuration matérielle requise : A800/H800/H100 GPU
Environnement logiciel :
- Python >= 3.10
- CUDA >= 12.3
- CUDNN >= 9.5
- Système d'exploitation Linux X64

🛠️ Méthodes de déploiement

Déploiement Docker : Fournit des images Docker pré-construites
Compilation à partir du code source : Prend en charge l'installation à partir de la compilation du code source
Installation du package Python : Installation directe via pip

Démarrage rapide

Méthodes d'installation

1. Méthode Docker

docker pull ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/fastdeploy:2.0.0.0-alpha

2. Compilation à partir du code source

# Installer la version nightly de PaddlePaddle
python -m pip install --pre paddlepaddle-gpu -i https://www.paddlepaddle.org.cn/packages/nightly/cu126/

# Compiler FastDeploy
cd FastDeploy
bash build.sh

# Installer
pip install dist/fastdeploy-2.0.0a0-py3-none-any.whl

Exemple de déploiement rapide

Déploiement du modèle Qwen2

# Télécharger le modèle
wget https://fastdeploy.bj.bcebos.com/llm/models/Qwen2-7B-Instruct.tar.gz && tar xvf Qwen2-7B-Instruct.tar.gz

# Démarrer le service
python -m fastdeploy.entrypoints.openai.api_server --model ./Qwen2-7B-Instruct --port 8188 --tensor-parallel-size 1

Exemple d'appel d'API

curl -X POST "http://0.0.0.0:8188/v1/chat/completions" \
-H "Content-Type: application/json" \
-d '{
  "messages": [
    {"role": "user", "content": "你好，你的名字是什么？"}
  ]
}'

Caractéristiques techniques

🎛️ Fonctions avancées

Parallélisme tensoriel : Prend en charge l'inférence distribuée des grands modèles
Traitement par lots dynamique : La technologie de batching continu améliore le débit
Optimisation de la mémoire : PagedAttention réduit l'occupation de la mémoire
Compression de modèle : Technologie de quantification Weight only

🔗 Compatibilité des protocoles

Compatibilité OpenAI : Entièrement compatible avec le protocole API OpenAI
SDK multilingue : Prend en charge plusieurs langages de programmation tels que Python, C++, etc.
Intégration de la surveillance : Surveillance des indicateurs Prometheus intégrée

Notes de version

Stratégie de version actuelle

FastDeploy 2.0 : Se concentre sur le déploiement de grands modèles de langage
FastDeploy 1.1.0 : Continue de prendre en charge les modèles CV traditionnels (PaddleClas, PaddleOCR, etc.)

Conclusion

FastDeploy, en tant que composante importante de l'écosystème PaddlePaddle de Baidu, s'engage à créer une solution de déploiement de modèles d'IA de pointe. Grâce à une innovation technologique continue et à la construction de la communauté, il fournit aux développeurs une chaîne d'outils complète de la formation du modèle au déploiement en production, favorisant la vulgarisation et l'application de la technologie de l'IA.