Home
Login

Ein benutzerfreundliches Toolkit für die schnelle Bereitstellung von Deep Learning und großen Sprachmodellen, das Cloud-, Mobil- und Edge-Bereitstellungen unterstützt. Es umfasst über 20 gängige Szenarien und über 150 SOTA-Modelle in den Bereichen Bild, Video, Text und Audio und bietet End-to-End-Optimierung, Multi-Plattform- und Multi-Framework-Unterstützung.

Apache-2.0Cuda 3.2kPaddlePaddle Last Updated: 2025-06-16

Detaillierte Vorstellung des FastDeploy-Projekts

Projektübersicht

FastDeploy ist ein Open-Source-Toolpaket für die Bereitstellung von Deep-Learning-Modellen, das vom PaddlePaddle-Team von Baidu entwickelt wurde. Es konzentriert sich darauf, Entwicklern eine einfach zu bedienende und leistungsstarke Lösung für die Bereitstellung von KI-Modellen zu bieten. Das Projekt zielt darauf ab, die technischen Hürden für die Bereitstellung von Deep-Learning-Modellen von der Trainings- bis zur Produktionsumgebung zu senken und unterstützt verschiedene Plattformen und Modelltypen.

Projektadresse: https://github.com/PaddlePaddle/FastDeploy

Hauptmerkmale

🚀 Kernvorteile

  • Einfache Bedienung: Bietet eine übersichtliche API-Schnittstelle, mit der die Modellbereitstellung mit einem einzigen Befehl realisiert werden kann.
  • Hohe Leistung: Bietet eine extrem hohe Inferenzleistung durch tiefgreifende Optimierung für verschiedene Hardwareplattformen.
  • Multi-Plattform-Unterstützung: Deckt verschiedene Bereitstellungsszenarien ab, wie z. B. Cloud, Mobile und Edge.
  • Multi-Framework-Kompatibilität: Unterstützt gängige Deep-Learning-Frameworks wie PaddlePaddle, PyTorch und TensorFlow.

🎯 Besonderheiten der Version

Highlights von FastDeploy Version 2.0

  • Unterstützung großer Sprachmodelle: Speziell für die Inferenz großer Modelle optimiert, unterstützt derzeit das Qwen2-Modell, weitere Modelle werden kontinuierlich aktualisiert.
  • Serviceorientierte Bereitstellung: Schnelle Realisierung der serviceorientierten Bereitstellung von Modellen mit einem einzigen Befehl, unterstützt Streaming-Generierung.
  • Tensor-Parallelitätstechnik: Beschleunigt die Inferenzleistung großer Modelle durch Nutzung der Tensor-Parallelität.
  • Erweiterte Funktionen:
    • Unterstützt PagedAttention und Continuous Batching (dynamische Stapelverarbeitung)
    • Kompatibel mit dem HTTP-Protokoll von OpenAI
    • Bietet verlustfreie Weight-only-Int8/Int4-Komprimierungslösungen
    • Unterstützt Prometheus Metrics-Indikatoren zur Überwachung

Unterstützte Szenarien und Modelle

📱 Anwendungsbereiche

  • Bildverarbeitung: Bildklassifizierung, Objekterkennung, Bildsegmentierung, OCR-Erkennung usw.
  • Videoanalyse: Aktionserkennung, Videoverständnis, Echtzeit-Videoverarbeitung usw.
  • Natural Language Processing: Textklassifizierung, Sentimentanalyse, Frage-Antwort-Systeme, Inferenz großer Sprachmodelle usw.
  • Sprachverarbeitung: Spracherkennung, Sprachsynthese, Sprachanalyse usw.

🏆 Modellökosystem

  • Unterstützt 150+ SOTA-Modelle
  • Deckt 20+ gängige Anwendungsszenarien ab
  • End-to-End optimierter Modellbereitstellungsprozess

Technische Architektur

🔧 Systemanforderungen

Für die Bereitstellung großer Modelle (Version 2.0):

  • Hardwareanforderungen: A800/H800/H100 GPU
  • Softwareumgebung:
    • Python >= 3.10
    • CUDA >= 12.3
    • CUDNN >= 9.5
    • Linux X64 Betriebssystem

🛠️ Bereitstellungsmethoden

  1. Docker-Bereitstellung: Bietet vorgefertigte Docker-Images
  2. Quellcode-Kompilierung: Unterstützt die Installation durch Kompilierung aus dem Quellcode
  3. Python-Paketinstallation: Direkte Installation über pip

Schnellstart

Installationsmethoden

1. Docker-Methode

docker pull ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/fastdeploy:2.0.0.0-alpha

2. Quellcode-Kompilierung

# Installation der PaddlePaddle Nightly-Version
python -m pip install --pre paddlepaddle-gpu -i https://www.paddlepaddle.org.cn/packages/nightly/cu126/

# Kompilierung von FastDeploy
cd FastDeploy
bash build.sh

# Installation
pip install dist/fastdeploy-2.0.0a0-py3-none-any.whl

Beispiel für die schnelle Bereitstellung

Qwen2-Modellbereitstellung

# Modell herunterladen
wget https://fastdeploy.bj.bcebos.com/llm/models/Qwen2-7B-Instruct.tar.gz && tar xvf Qwen2-7B-Instruct.tar.gz

# Dienst starten
python -m fastdeploy.entrypoints.openai.api_server --model ./Qwen2-7B-Instruct --port 8188 --tensor-parallel-size 1

API-Aufrufbeispiel

curl -X POST "http://0.0.0.0:8188/v1/chat/completions" \
-H "Content-Type: application/json" \
-d '{
  "messages": [
    {"role": "user", "content": "Hallo, wie ist dein Name?"}
  ]
}'

Technische Besonderheiten

🎛️ Erweiterte Funktionen

  • Tensor-Parallelität: Unterstützt die verteilte Inferenz großer Modelle
  • Dynamische Stapelverarbeitung: Continuous Batching-Technologie zur Steigerung des Durchsatzes
  • Speicheroptimierung: PagedAttention reduziert den Speicherbedarf
  • Modellkomprimierung: Weight-only-Quantisierungstechnologie

🔗 Protokollkompatibilität

  • OpenAI-Kompatibilität: Vollständige Kompatibilität mit dem OpenAI-API-Protokoll
  • Mehrsprachige SDKs: Unterstützt verschiedene Programmiersprachen wie Python, C++ usw.
  • Überwachungsintegration: Integrierte Prometheus-Metriküberwachung

Versionshinweise

Aktuelle Versionsstrategie

  • FastDeploy 2.0: Konzentriert sich auf die Bereitstellung großer Sprachmodelle
  • FastDeploy 1.1.0: Unterstützt weiterhin traditionelle CV-Modelle (PaddleClas, PaddleOCR usw.)

Zusammenfassung

FastDeploy ist ein wichtiger Bestandteil des Baidu PaddlePaddle-Ökosystems und hat sich zum Ziel gesetzt, branchenführende Lösungen für die Bereitstellung von KI-Modellen zu entwickeln. Durch kontinuierliche technologische Innovation und Community-Aufbau bietet es Entwicklern eine vollständige Toolchain vom Modelltraining bis zur Produktionsbereitstellung und fördert so die Verbreitung und Anwendung von KI-Technologien.