PaddlePaddle/FastDeployView GitHub Homepage for Latest Official Releases
易于使用的快速深度学习和大语言模型部署工具包,支持云端、移动端和边缘端部署。包含图像、视频、文本和音频20+主流场景和150+SOTA模型,具备端到端优化、多平台和多框架支持。
Apache-2.0PythonFastDeployPaddlePaddle 3.5k Last Updated: September 04, 2025
FastDeploy 项目详细介绍
项目概述
FastDeploy 是由百度飞桨(PaddlePaddle)团队开源的深度学习模型部署工具包,专注于为开发者提供简单易用、高性能的AI模型部署解决方案。该项目旨在降低深度学习模型从训练到生产环境部署的技术门槛,支持多种平台和多种模型类型。
项目地址: https://github.com/PaddlePaddle/FastDeploy
主要特性
🚀 核心优势
- 易于使用:提供简洁的API接口,一行命令即可实现模型部署
- 高性能:针对不同硬件平台进行深度优化,提供极致的推理性能
- 多平台支持:覆盖云端、移动端、边缘端等多种部署场景
- 多框架兼容:支持PaddlePaddle、PyTorch、TensorFlow等主流深度学习框架
🎯 版本特色
FastDeploy 2.0 版本亮点
- 大语言模型支持:专为大模型推理优化,当前支持Qwen2模型,更多模型持续更新
- 服务化部署:一行命令快速实现模型的服务化部署,支持流式生成
- 张量并行技术:利用张量并行加速大模型推理性能
- 高级特性:
- 支持 PagedAttention 与 continuous batching(动态批处理)
- 兼容 OpenAI 的 HTTP 协议
- 提供 Weight only int8/int4 无损压缩方案
- 支持 Prometheus Metrics 指标监控
支持场景与模型
📱 应用场景
- 图像处理:图像分类、目标检测、图像分割、OCR识别等
- 视频分析:动作识别、视频理解、实时视频处理等
- 自然语言处理:文本分类、情感分析、问答系统、大语言模型推理等
- 语音处理:语音识别、语音合成、语音分析等
🏆 模型生态
- 支持 150+ SOTA模型
- 覆盖 20+ 主流应用场景
- 端到端优化的模型部署流程
技术架构
🔧 系统要求
针对大模型部署(2.0版本):
- 硬件要求:A800/H800/H100 GPU
- 软件环境:
- Python >= 3.10
- CUDA >= 12.3
- CUDNN >= 9.5
- Linux X64 操作系统
🛠️ 部署方式
- Docker部署:提供预构建的Docker镜像
- 源码编译:支持从源码编译安装
- Python包安装:通过pip直接安装
快速开始
安装方式
1. Docker方式
docker pull ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/fastdeploy:2.0.0.0-alpha
2. 源码编译
# 安装PaddlePaddle nightly版本
python -m pip install --pre paddlepaddle-gpu -i https://www.paddlepaddle.org.cn/packages/nightly/cu126/
# 编译FastDeploy
cd FastDeploy
bash build.sh
# 安装
pip install dist/fastdeploy-2.0.0a0-py3-none-any.whl
快速部署示例
Qwen2模型部署
# 下载模型
wget https://fastdeploy.bj.bcebos.com/llm/models/Qwen2-7B-Instruct.tar.gz && tar xvf Qwen2-7B-Instruct.tar.gz
# 启动服务
python -m fastdeploy.entrypoints.openai.api_server --model ./Qwen2-7B-Instruct --port 8188 --tensor-parallel-size 1
API调用示例
curl -X POST "http://0.0.0.0:8188/v1/chat/completions" \
-H "Content-Type: application/json" \
-d '{
"messages": [
{"role": "user", "content": "你好,你的名字是什么?"}
]
}'
技术特色
🎛️ 高级功能
- 张量并行:支持大模型的分布式推理
- 动态批处理:continuous batching技术提升吞吐量
- 内存优化:PagedAttention降低内存占用
- 模型压缩:Weight only量化技术
🔗 协议兼容
- OpenAI兼容:完全兼容OpenAI API协议
- 多语言SDK:支持Python、C++等多种编程语言
- 监控集成:内置Prometheus指标监控
版本说明
当前版本策略
- FastDeploy 2.0:专注于大语言模型部署
- FastDeploy 1.1.0:继续支持传统CV模型(PaddleClas、PaddleOCR等)
总结
FastDeploy作为百度飞桨生态的重要组成部分,致力于打造业界领先的AI模型部署解决方案。通过持续的技术创新和社区建设,为开发者提供从模型训练到生产部署的完整工具链,推动AI技术的普及和应用。