PaddlePaddle/FastDeployView GitHub Homepage for Latest Official Releases
사용하기 쉬운 빠른 딥러닝 및 대규모 언어 모델 배포 툴킷으로 클라우드, 모바일 및 엣지 배포를 지원합니다. 이미지, 비디오, 텍스트 및 오디오의 20개 이상의 주요 시나리오와 150개 이상의 SOTA 모델을 포함하며 엔드 투 엔드 최적화, 다중 플랫폼 및 다중 프레임워크 지원 기능을 갖추고 있습니다.
Apache-2.0PythonFastDeployPaddlePaddle 3.5k Last Updated: September 04, 2025
FastDeploy 프로젝트 상세 소개
프로젝트 개요
FastDeploy는 바이두 파들플로우(PaddlePaddle) 팀에서 오픈 소스로 공개한 딥러닝 모델 배포 툴킷으로, 개발자에게 사용하기 쉽고 고성능의 AI 모델 배포 솔루션을 제공하는 데 중점을 둡니다. 이 프로젝트는 딥러닝 모델의 훈련부터 생산 환경 배포까지의 기술 장벽을 낮추고, 다양한 플랫폼과 다양한 모델 유형을 지원하는 것을 목표로 합니다.
프로젝트 주소: https://github.com/PaddlePaddle/FastDeploy
주요 특징
🚀 핵심 강점
- 사용 용이성: 간결한 API 인터페이스를 제공하여 단 한 줄의 명령으로 모델 배포를 구현
- 고성능: 다양한 하드웨어 플랫폼에 대한 심층적인 최적화를 통해 최고의 추론 성능 제공
- 다중 플랫폼 지원: 클라우드, 모바일, 엣지 등 다양한 배포 시나리오 지원
- 다중 프레임워크 호환: PaddlePaddle, PyTorch, TensorFlow 등 주요 딥러닝 프레임워크 지원
🎯 버전 특징
FastDeploy 2.0 버전 주요 특징
- 대규모 언어 모델 지원: 대규모 모델 추론을 위해 특별히 최적화되었으며, 현재 Qwen2 모델을 지원하고 더 많은 모델이 지속적으로 업데이트될 예정
- 서비스화 배포: 단 한 줄의 명령으로 모델의 서비스화 배포를 빠르게 구현하고, 스트리밍 생성을 지원
- 텐서 병렬 기술: 텐서 병렬을 활용하여 대규모 모델 추론 성능 가속화
- 고급 기능:
- PagedAttention 및 continuous batching(동적 배치 처리) 지원
- OpenAI의 HTTP 프로토콜과 호환
- Weight only int8/int4 무손실 압축 방안 제공
- Prometheus Metrics 지표 모니터링 지원
지원 시나리오 및 모델
📱 응용 시나리오
- 이미지 처리: 이미지 분류, 객체 감지, 이미지 분할, OCR 인식 등
- 비디오 분석: 동작 인식, 비디오 이해, 실시간 비디오 처리 등
- 자연어 처리: 텍스트 분류, 감성 분석, 질의응답 시스템, 대규모 언어 모델 추론 등
- 음성 처리: 음성 인식, 음성 합성, 음성 분석 등
🏆 모델 생태계
- 150개 이상의 SOTA 모델 지원
- 20개 이상의 주요 응용 시나리오 커버
- 엔드 투 엔드 최적화된 모델 배포 프로세스
기술 아키텍처
🔧 시스템 요구 사항
대규모 모델 배포(2.0 버전) 대상:
- 하드웨어 요구 사항: A800/H800/H100 GPU
- 소프트웨어 환경:
- Python >= 3.10
- CUDA >= 12.3
- CUDNN >= 9.5
- Linux X64 운영체제
🛠️ 배포 방식
- Docker 배포: 미리 빌드된 Docker 이미지 제공
- 소스 코드 컴파일: 소스 코드에서 컴파일 및 설치 지원
- Python 패키지 설치: pip를 통해 직접 설치
빠른 시작
설치 방식
1. Docker 방식
docker pull ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/fastdeploy:2.0.0.0-alpha
2. 소스 코드 컴파일
# PaddlePaddle nightly 버전 설치
python -m pip install --pre paddlepaddle-gpu -i https://www.paddlepaddle.org.cn/packages/nightly/cu126/
# FastDeploy 컴파일
cd FastDeploy
bash build.sh
# 설치
pip install dist/fastdeploy-2.0.0a0-py3-none-any.whl
빠른 배포 예시
Qwen2 모델 배포
# 모델 다운로드
wget https://fastdeploy.bj.bcebos.com/llm/models/Qwen2-7B-Instruct.tar.gz && tar xvf Qwen2-7B-Instruct.tar.gz
# 서비스 시작
python -m fastdeploy.entrypoints.openai.api_server --model ./Qwen2-7B-Instruct --port 8188 --tensor-parallel-size 1
API 호출 예시
curl -X POST "http://0.0.0.0:8188/v1/chat/completions" \
-H "Content-Type: application/json" \
-d '{
"messages": [
{"role": "user", "content": "안녕하세요, 당신의 이름은 무엇입니까?"}
]
}'
기술 특징
🎛️ 고급 기능
- 텐서 병렬: 대규모 모델의 분산 추론 지원
- 동적 배치 처리: continuous batching 기술로 처리량 향상
- 메모리 최적화: PagedAttention으로 메모리 점유율 감소
- 모델 압축: Weight only 양자화 기술
🔗 프로토콜 호환
- OpenAI 호환: OpenAI API 프로토콜과 완전 호환
- 다국어 SDK: Python, C++ 등 다양한 프로그래밍 언어 지원
- 모니터링 통합: Prometheus 지표 모니터링 내장
버전 설명
현재 버전 정책
- FastDeploy 2.0: 대규모 언어 모델 배포에 집중
- FastDeploy 1.1.0: 기존 CV 모델(PaddleClas, PaddleOCR 등) 계속 지원
요약
FastDeploy는 바이두 파들플로우 생태계의 중요한 구성 요소로서, 업계 최고의 AI 모델 배포 솔루션을 구축하는 데 전념하고 있습니다. 지속적인 기술 혁신과 커뮤니티 구축을 통해 개발자에게 모델 훈련부터 생산 배포까지의 완벽한 툴체인을 제공하여 AI 기술의 보급과 응용을 촉진합니다.