Home
Login

易于使用的快速深度学习和大语言模型部署工具包,支持云端、移动端和边缘端部署。包含图像、视频、文本和音频20+主流场景和150+SOTA模型,具备端到端优化、多平台和多框架支持。

Apache-2.0Cuda 3.2kPaddlePaddle Last Updated: 2025-06-16

FastDeploy 项目详细介绍

项目概述

FastDeploy 是由百度飞桨(PaddlePaddle)团队开源的深度学习模型部署工具包,专注于为开发者提供简单易用、高性能的AI模型部署解决方案。该项目旨在降低深度学习模型从训练到生产环境部署的技术门槛,支持多种平台和多种模型类型。

项目地址: https://github.com/PaddlePaddle/FastDeploy

主要特性

🚀 核心优势

  • 易于使用:提供简洁的API接口,一行命令即可实现模型部署
  • 高性能:针对不同硬件平台进行深度优化,提供极致的推理性能
  • 多平台支持:覆盖云端、移动端、边缘端等多种部署场景
  • 多框架兼容:支持PaddlePaddle、PyTorch、TensorFlow等主流深度学习框架

🎯 版本特色

FastDeploy 2.0 版本亮点

  • 大语言模型支持:专为大模型推理优化,当前支持Qwen2模型,更多模型持续更新
  • 服务化部署:一行命令快速实现模型的服务化部署,支持流式生成
  • 张量并行技术:利用张量并行加速大模型推理性能
  • 高级特性
    • 支持 PagedAttention 与 continuous batching(动态批处理)
    • 兼容 OpenAI 的 HTTP 协议
    • 提供 Weight only int8/int4 无损压缩方案
    • 支持 Prometheus Metrics 指标监控

支持场景与模型

📱 应用场景

  • 图像处理:图像分类、目标检测、图像分割、OCR识别等
  • 视频分析:动作识别、视频理解、实时视频处理等
  • 自然语言处理:文本分类、情感分析、问答系统、大语言模型推理等
  • 语音处理:语音识别、语音合成、语音分析等

🏆 模型生态

  • 支持 150+ SOTA模型
  • 覆盖 20+ 主流应用场景
  • 端到端优化的模型部署流程

技术架构

🔧 系统要求

针对大模型部署(2.0版本):

  • 硬件要求:A800/H800/H100 GPU
  • 软件环境
    • Python >= 3.10
    • CUDA >= 12.3
    • CUDNN >= 9.5
    • Linux X64 操作系统

🛠️ 部署方式

  1. Docker部署:提供预构建的Docker镜像
  2. 源码编译:支持从源码编译安装
  3. Python包安装:通过pip直接安装

快速开始

安装方式

1. Docker方式

docker pull ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/fastdeploy:2.0.0.0-alpha

2. 源码编译

# 安装PaddlePaddle nightly版本
python -m pip install --pre paddlepaddle-gpu -i https://www.paddlepaddle.org.cn/packages/nightly/cu126/

# 编译FastDeploy
cd FastDeploy
bash build.sh

# 安装
pip install dist/fastdeploy-2.0.0a0-py3-none-any.whl

快速部署示例

Qwen2模型部署

# 下载模型
wget https://fastdeploy.bj.bcebos.com/llm/models/Qwen2-7B-Instruct.tar.gz && tar xvf Qwen2-7B-Instruct.tar.gz

# 启动服务
python -m fastdeploy.entrypoints.openai.api_server --model ./Qwen2-7B-Instruct --port 8188 --tensor-parallel-size 1

API调用示例

curl -X POST "http://0.0.0.0:8188/v1/chat/completions" \
-H "Content-Type: application/json" \
-d '{
  "messages": [
    {"role": "user", "content": "你好,你的名字是什么?"}
  ]
}'

技术特色

🎛️ 高级功能

  • 张量并行:支持大模型的分布式推理
  • 动态批处理:continuous batching技术提升吞吐量
  • 内存优化:PagedAttention降低内存占用
  • 模型压缩:Weight only量化技术

🔗 协议兼容

  • OpenAI兼容:完全兼容OpenAI API协议
  • 多语言SDK:支持Python、C++等多种编程语言
  • 监控集成:内置Prometheus指标监控

版本说明

当前版本策略

  • FastDeploy 2.0:专注于大语言模型部署
  • FastDeploy 1.1.0:继续支持传统CV模型(PaddleClas、PaddleOCR等)

总结

FastDeploy作为百度飞桨生态的重要组成部分,致力于打造业界领先的AI模型部署解决方案。通过持续的技术创新和社区建设,为开发者提供从模型训练到生产部署的完整工具链,推动AI技术的普及和应用。