PaddlePaddle/FastDeploy View GitHub Homepage for Latest Official Releases

Ein benutzerfreundliches Toolkit für die schnelle Bereitstellung von Deep Learning und großen Sprachmodellen, das Cloud-, Mobil- und Edge-Bereitstellungen unterstützt. Es umfasst über 20 gängige Szenarien und über 150 SOTA-Modelle in den Bereichen Bild, Video, Text und Audio und bietet End-to-End-Optimierung, Multi-Plattform- und Multi-Framework-Unterstützung.

Apache-2.0PythonFastDeployPaddlePaddle 3.5k Last Updated: October 16, 2025

Detaillierte Vorstellung des FastDeploy-Projekts

Projektübersicht

FastDeploy ist ein Open-Source-Toolpaket für die Bereitstellung von Deep-Learning-Modellen, das vom PaddlePaddle-Team von Baidu entwickelt wurde. Es konzentriert sich darauf, Entwicklern eine einfach zu bedienende und leistungsstarke Lösung für die Bereitstellung von KI-Modellen zu bieten. Das Projekt zielt darauf ab, die technischen Hürden für die Bereitstellung von Deep-Learning-Modellen von der Trainings- bis zur Produktionsumgebung zu senken und unterstützt verschiedene Plattformen und Modelltypen.

Projektadresse: https://github.com/PaddlePaddle/FastDeploy

Hauptmerkmale

🚀 Kernvorteile

Einfache Bedienung: Bietet eine übersichtliche API-Schnittstelle, mit der die Modellbereitstellung mit einem einzigen Befehl realisiert werden kann.
Hohe Leistung: Bietet eine extrem hohe Inferenzleistung durch tiefgreifende Optimierung für verschiedene Hardwareplattformen.
Multi-Plattform-Unterstützung: Deckt verschiedene Bereitstellungsszenarien ab, wie z. B. Cloud, Mobile und Edge.
Multi-Framework-Kompatibilität: Unterstützt gängige Deep-Learning-Frameworks wie PaddlePaddle, PyTorch und TensorFlow.

🎯 Besonderheiten der Version

Highlights von FastDeploy Version 2.0

Unterstützung großer Sprachmodelle: Speziell für die Inferenz großer Modelle optimiert, unterstützt derzeit das Qwen2-Modell, weitere Modelle werden kontinuierlich aktualisiert.
Serviceorientierte Bereitstellung: Schnelle Realisierung der serviceorientierten Bereitstellung von Modellen mit einem einzigen Befehl, unterstützt Streaming-Generierung.
Tensor-Parallelitätstechnik: Beschleunigt die Inferenzleistung großer Modelle durch Nutzung der Tensor-Parallelität.
Erweiterte Funktionen:
- Unterstützt PagedAttention und Continuous Batching (dynamische Stapelverarbeitung)
- Kompatibel mit dem HTTP-Protokoll von OpenAI
- Bietet verlustfreie Weight-only-Int8/Int4-Komprimierungslösungen
- Unterstützt Prometheus Metrics-Indikatoren zur Überwachung

Unterstützte Szenarien und Modelle

📱 Anwendungsbereiche

Bildverarbeitung: Bildklassifizierung, Objekterkennung, Bildsegmentierung, OCR-Erkennung usw.
Videoanalyse: Aktionserkennung, Videoverständnis, Echtzeit-Videoverarbeitung usw.
Natural Language Processing: Textklassifizierung, Sentimentanalyse, Frage-Antwort-Systeme, Inferenz großer Sprachmodelle usw.
Sprachverarbeitung: Spracherkennung, Sprachsynthese, Sprachanalyse usw.

🏆 Modellökosystem

Unterstützt 150+ SOTA-Modelle
Deckt 20+ gängige Anwendungsszenarien ab
End-to-End optimierter Modellbereitstellungsprozess

Technische Architektur

🔧 Systemanforderungen

Für die Bereitstellung großer Modelle (Version 2.0):

Hardwareanforderungen: A800/H800/H100 GPU
Softwareumgebung:
- Python >= 3.10
- CUDA >= 12.3
- CUDNN >= 9.5
- Linux X64 Betriebssystem

🛠️ Bereitstellungsmethoden

Docker-Bereitstellung: Bietet vorgefertigte Docker-Images
Quellcode-Kompilierung: Unterstützt die Installation durch Kompilierung aus dem Quellcode
Python-Paketinstallation: Direkte Installation über pip

Schnellstart

Installationsmethoden

1. Docker-Methode

docker pull ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/fastdeploy:2.0.0.0-alpha

2. Quellcode-Kompilierung

# Installation der PaddlePaddle Nightly-Version
python -m pip install --pre paddlepaddle-gpu -i https://www.paddlepaddle.org.cn/packages/nightly/cu126/

# Kompilierung von FastDeploy
cd FastDeploy
bash build.sh

# Installation
pip install dist/fastdeploy-2.0.0a0-py3-none-any.whl

Beispiel für die schnelle Bereitstellung

Qwen2-Modellbereitstellung

# Modell herunterladen
wget https://fastdeploy.bj.bcebos.com/llm/models/Qwen2-7B-Instruct.tar.gz && tar xvf Qwen2-7B-Instruct.tar.gz

# Dienst starten
python -m fastdeploy.entrypoints.openai.api_server --model ./Qwen2-7B-Instruct --port 8188 --tensor-parallel-size 1

API-Aufrufbeispiel

curl -X POST "http://0.0.0.0:8188/v1/chat/completions" \
-H "Content-Type: application/json" \
-d '{
  "messages": [
    {"role": "user", "content": "Hallo, wie ist dein Name?"}
  ]
}'

Technische Besonderheiten

🎛️ Erweiterte Funktionen

Tensor-Parallelität: Unterstützt die verteilte Inferenz großer Modelle
Dynamische Stapelverarbeitung: Continuous Batching-Technologie zur Steigerung des Durchsatzes
Speicheroptimierung: PagedAttention reduziert den Speicherbedarf
Modellkomprimierung: Weight-only-Quantisierungstechnologie

🔗 Protokollkompatibilität

OpenAI-Kompatibilität: Vollständige Kompatibilität mit dem OpenAI-API-Protokoll
Mehrsprachige SDKs: Unterstützt verschiedene Programmiersprachen wie Python, C++ usw.
Überwachungsintegration: Integrierte Prometheus-Metriküberwachung

Versionshinweise

Aktuelle Versionsstrategie

FastDeploy 2.0: Konzentriert sich auf die Bereitstellung großer Sprachmodelle
FastDeploy 1.1.0: Unterstützt weiterhin traditionelle CV-Modelle (PaddleClas, PaddleOCR usw.)

Zusammenfassung

FastDeploy ist ein wichtiger Bestandteil des Baidu PaddlePaddle-Ökosystems und hat sich zum Ziel gesetzt, branchenführende Lösungen für die Bereitstellung von KI-Modellen zu entwickeln. Durch kontinuierliche technologische Innovation und Community-Aufbau bietet es Entwicklern eine vollständige Toolchain vom Modelltraining bis zur Produktionsbereitstellung und fördert so die Verbreitung und Anwendung von KI-Technologien.