PaddlePaddle/PaddleSpeech View GitHub Homepage for Latest Official Releases

PaddleSpeech:易于使用的语音工具包，包含自监督学习模型、带标点的最新/流式ASR、带文本前端的流式TTS、说话人验证系统、端到端语音翻译和关键词识别。荣获NAACL2022最佳演示奖。

Apache-2.0PythonPaddleSpeechPaddlePaddle 12.3k Last Updated: September 28, 2025

PaddleSpeech 项目详细介绍

项目概述

PaddleSpeech 是基于百度飞桨（PaddlePaddle）平台开发的开源语音工具包，专注于各种关键的语音和音频任务。该项目凭借其最新的和具有影响力的模型设计，荣获了 NAACL2022 最佳演示奖。

核心特性

🚀 易于使用

低门槛安装：提供简单的安装方式
命令行工具：支持CLI、Server和流式Server快速上手
多种接口：支持命令行和Python API两种使用方式

🏆 前沿技术

对标最新技术：提供高速、超轻量级模型和前沿技术
流式系统：提供生产就绪的流式ASR和流式TTS系统
自监督学习：集成自监督学习模型

💯 中文语音前端

规则化处理：包含文本标准化和字素到音素转换（G2P）
多音字处理：支持多音字和变调处理
语言学规则：使用自定义语言学规则适配中文语境

主要功能模块

1. 语音识别（ASR）

支持模型：DeepSpeech2、Transformer、Conformer、U2等
多语言支持：中文、英文、中英混合
实时识别：支持流式语音识别
标点恢复：自动添加标点符号

2. 语音合成（TTS）

声学模型：Tacotron2、FastSpeech2、SpeedySpeech、VITS等
声码器：WaveFlow、PWGAN、HiFiGAN、Multi Band MelGAN等
多语言支持：中文、英文、中英混合、粤语
语音克隆：支持语音克隆和微调

3. 说话人验证（VPR）

说话人识别：基于ECAPA-TDNN模型
声纹提取：工业级声纹特征提取
说话人分离：支持说话人分离任务

4. 语音翻译（ST）

端到端翻译：英译中语音翻译
多模态预训练：结合声学和文本特征

5. 音频分类（CLS）

开放域分类：基于AudioSet数据集的527类音频分类
PANN模型：使用预训练音频神经网络

6. 关键词识别（KWS）

唤醒词检测：支持自定义唤醒词
轻量级模型：适用于移动端部署

技术架构

模型支持

自监督学习：Wav2vec2.0、HuBERT、WavLM等
注意力机制：Transformer、Conformer架构
端到端训练：U2、U2++等统一模型
对抗训练：VITS、StarGAN等生成模型

数据集支持

ASR数据集：Aishell、LibriSpeech、CommonVoice等
TTS数据集：LJSpeech、CSMSC、VCTK等
多语言数据：支持中英文混合数据集

安装与使用

系统要求

操作系统：Linux（推荐）、Windows、Mac OSX
Python版本：≥ 3.8
编译器：gcc ≥ 4.8.5
依赖框架：PaddlePaddle

安装方式

1. pip安装

pip install paddlespeech

2. 源码安装（推荐）

git clone https://github.com/PaddlePaddle/PaddleSpeech.git
cd PaddleSpeech
pip install pytest-runner
pip install .

快速体验

语音识别示例

# 命令行方式
paddlespeech asr --lang zh --input zh.wav

# Python API方式
from paddlespeech.cli.asr.infer import ASRExecutor
asr = ASRExecutor()
result = asr(audio_file="zh.wav")

语音合成示例

# 命令行方式
paddlespeech tts --input "你好，欢迎使用百度飞桨深度学习框架！" --output output.wav

# Python API方式
from paddlespeech.cli.tts.infer import TTSExecutor
tts = TTSExecutor()
tts(text="今天天气十分不错。", output="output.wav")

服务部署

语音服务器

PaddleSpeech提供完整的服务器解决方案：

启动服务

paddlespeech_server start --config_file ./demos/speech_server/conf/application.yaml

客户端调用

# ASR服务
paddlespeech_client asr --server_ip 127.0.0.1 --port 8090 --input input_16k.wav

# TTS服务
paddlespeech_client tts --server_ip 127.0.0.1 --port 8090 --input "您好，欢迎使用百度飞桨语音合成服务。"

流式服务

支持实时流式语音识别和语音合成：

# 流式ASR
paddlespeech_client asr_online --server_ip 127.0.0.1 --port 8090 --input input_16k.wav

# 流式TTS
paddlespeech_client tts_online --server_ip 127.0.0.1 --port 8092 --input "您好，欢迎使用百度飞桨语音合成服务。"

应用案例

工业应用

智能客服：语音识别+语音合成
语音助手：唤醒词检测+对话系统
内容创作：语音克隆+多语言合成
无障碍服务：语音转文字+文字转语音

学术研究

多模态预训练：ERNIE-SAT等模型
语音翻译：端到端英译中
说话人识别：声纹识别与验证
音频分析：音频分类与场景识别

技术优势

1. 模型性能

SOTA效果：多项任务达到业界领先水平
轻量化部署：支持移动端和边缘设备
实时处理：满足实时交互需求

2. 易用性

一键部署：简化的安装和配置流程
丰富文档：完整的使用说明和示例
社区支持：活跃的开发者社区

3. 可扩展性

模块化设计：支持自定义模型和任务
多语言支持：持续扩展语言覆盖
跨平台部署：支持多种部署环境

社区与生态

开源社区

GitHub Stars：超过10k星标
贡献者：来自全球的开发者
社区项目：基于PaddleSpeech的衍生项目

总结

PaddleSpeech 是一个功能全面、易于使用的语音工具包，涵盖了语音识别、语音合成、说话人验证、语音翻译等多个核心任务。通过模块化设计和丰富的预训练模型，为开发者和研究者提供了强大的语音AI解决方案。无论是学术研究还是工业应用，PaddleSpeech都能提供高质量的技术支持和完整的解决方案。