PaddlePaddle/FastDeployView GitHub Homepage for Latest Official Releases
易於使用的快速深度學習和大語言模型部署工具包,支持雲端、移動端和邊緣端部署。包含圖像、視頻、文本和音訊20+主流場景和150+SOTA模型,具備端到端優化、多平台和多框架支持。
Apache-2.0PythonFastDeployPaddlePaddle 3.5k Last Updated: September 04, 2025
FastDeploy 項目詳細介紹
項目概述
FastDeploy 是由百度飛槳(PaddlePaddle)團隊開源的深度學習模型部署工具包,專注於為開發者提供簡單易用、高性能的 AI 模型部署解決方案。該項目旨在降低深度學習模型從訓練到生產環境部署的技術門檻,支持多種平台和多種模型類型。
項目地址: https://github.com/PaddlePaddle/FastDeploy
主要特性
🚀 核心優勢
- 易於使用:提供簡潔的 API 接口,一行命令即可實現模型部署
- 高性能:針對不同硬體平台進行深度優化,提供極致的推理性能
- 多平台支持:覆蓋雲端、移動端、邊緣端等多種部署場景
- 多框架兼容:支持 PaddlePaddle、PyTorch、TensorFlow 等主流深度學習框架
🎯 版本特色
FastDeploy 2.0 版本亮點
- 大語言模型支持:專為大模型推理優化,當前支持 Qwen2 模型,更多模型持續更新
- 服務化部署:一行命令快速實現模型的服務化部署,支持流式生成
- 張量並行技術:利用張量並行加速大模型推理性能
- 高級特性:
- 支持 PagedAttention 與 continuous batching(動態批處理)
- 兼容 OpenAI 的 HTTP 協議
- 提供 Weight only int8/int4 無損壓縮方案
- 支持 Prometheus Metrics 指標監控
支持場景與模型
📱 應用場景
- 圖像處理:圖像分類、目標檢測、圖像分割、OCR 識別等
- 視頻分析:動作識別、視頻理解、實時視頻處理等
- 自然語言處理:文本分類、情感分析、問答系統、大語言模型推理等
- 語音處理:語音識別、語音合成、語音分析等
🏆 模型生態
- 支持 150+ SOTA 模型
- 覆蓋 20+ 主流應用場景
- 端到端優化的模型部署流程
技術架構
🔧 系統要求
針對大模型部署(2.0 版本):
- 硬體要求:A800/H800/H100 GPU
- 軟體環境:
- Python >= 3.10
- CUDA >= 12.3
- CUDNN >= 9.5
- Linux X64 操作系統
🛠️ 部署方式
- Docker 部署:提供預構建的 Docker 鏡像
- 源碼編譯:支持從源碼編譯安裝
- Python 包安裝:通過 pip 直接安裝
快速開始
安裝方式
1. Docker 方式
docker pull ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/fastdeploy:2.0.0.0-alpha
2. 源碼編譯
# 安裝 PaddlePaddle nightly 版本
python -m pip install --pre paddlepaddle-gpu -i https://www.paddlepaddle.org.cn/packages/nightly/cu126/
# 編譯 FastDeploy
cd FastDeploy
bash build.sh
# 安裝
pip install dist/fastdeploy-2.0.0a0-py3-none-any.whl
快速部署示例
Qwen2 模型部署
# 下載模型
wget https://fastdeploy.bj.bcebos.com/llm/models/Qwen2-7B-Instruct.tar.gz && tar xvf Qwen2-7B-Instruct.tar.gz
# 啟動服務
python -m fastdeploy.entrypoints.openai.api_server --model ./Qwen2-7B-Instruct --port 8188 --tensor-parallel-size 1
API 調用示例
curl -X POST "http://0.0.0.0:8188/v1/chat/completions" \
-H "Content-Type: application/json" \
-d '{
"messages": [
{"role": "user", "content": "你好,你的名字是什麼?"}
]
}'
技術特色
🎛️ 高級功能
- 張量並行:支持大模型的分布式推理
- 動態批處理:continuous batching 技術提升吞吐量
- 內存優化:PagedAttention 降低內存佔用
- 模型壓縮:Weight only 量化技術
🔗 協議兼容
- OpenAI 兼容:完全兼容 OpenAI API 協議
- 多語言 SDK:支持 Python、C++ 等多種編程語言
- 監控集成:內置 Prometheus 指標監控
版本說明
當前版本策略
- FastDeploy 2.0:專注於大語言模型部署
- FastDeploy 1.1.0:繼續支持傳統 CV 模型(PaddleClas、PaddleOCR 等)
總結
FastDeploy 作為百度飛槳生態的重要組成部分,致力於打造業界領先的 AI 模型部署解決方案。通過持續的技術創新和社區建設,為開發者提供從模型訓練到生產部署的完整工具鏈,推動 AI 技術的普及和應用。