PaddlePaddle/PaddleSpeech View GitHub Homepage for Latest Official Releases

PaddleSpeech: 使いやすい音声ツールキット。自己教師あり学習モデル、句読点付きの最新/ストリーミングASR、テキストフロントエンド付きのストリーミングTTS、話者検証システム、エンドツーエンドの音声翻訳、キーワード認識を搭載。NAACL2022ベストデモ賞を受賞。

Apache-2.0PythonPaddleSpeechPaddlePaddle 12.3k Last Updated: September 28, 2025

PaddleSpeech プロジェクト詳細紹介

プロジェクト概要

PaddleSpeech は、百度飛槳（PaddlePaddle）プラットフォームに基づいて開発されたオープンソースの音声ツールキットであり、さまざまな重要な音声およびオーディオタスクに焦点を当てています。このプロジェクトは、最新かつ影響力のあるモデル設計により、NAACL2022 最優秀デモ賞を受賞しました。

コア機能

🚀 使いやすさ

低ハードルインストール：簡単なインストール方法を提供
コマンドラインツール：CLI、Server、およびストリーミングServerをサポートし、迅速な開始が可能
多様なインターフェース：コマンドラインとPython APIの2つの使用方法をサポート

🏆 最先端技術

最新技術への対応：高速、超軽量モデル、および最先端技術を提供
ストリーミングシステム：本番環境に対応したストリーミングASRおよびストリーミングTTSシステムを提供
自己教師あり学習：自己教師あり学習モデルを統合

💯 中国語音声フロントエンド

ルールベース処理：テキスト正規化と音素変換（G2P）を含む
多音字処理：多音字と変調処理をサポート
言語学的ルール：カスタム言語学的ルールを使用して中国語の文脈に適応

主要機能モジュール

1. 音声認識（ASR）

サポートモデル：DeepSpeech2、Transformer、Conformer、U2など
多言語サポート：中国語、英語、中英混合
リアルタイム認識：ストリーミング音声認識をサポート
句読点復元：句読点を自動的に追加

2. 音声合成（TTS）

音響モデル：Tacotron2、FastSpeech2、SpeedySpeech、VITSなど
ボコーダー：WaveFlow、PWGAN、HiFiGAN、Multi Band MelGANなど
多言語サポート：中国語、英語、中英混合、広東語
音声クローン：音声クローンと微調整をサポート

3. 話者検証（VPR）

話者認識：ECAPA-TDNNモデルに基づく
声紋抽出：産業レベルの声紋特徴抽出
話者分離：話者分離タスクをサポート

4. 音声翻訳（ST）

エンドツーエンド翻訳：英中音声翻訳
マルチモーダル事前学習：音響およびテキスト特徴を組み合わせる

5. 音声分類（CLS）

オープン領域分類：AudioSetデータセットに基づく527種類の音声分類
PANNモデル：事前学習済みオーディオニューラルネットワークを使用

6. キーワード認識（KWS）

ウェイクワード検出：カスタムウェイクワードをサポート
軽量モデル：モバイルデバイスへの展開に適しています

技術アーキテクチャ

モデルサポート

自己教師あり学習：Wav2vec2.0、HuBERT、WavLMなど
注意機構：Transformer、Conformerアーキテクチャ
エンドツーエンドトレーニング：U2、U2++などの統一モデル
敵対的学習：VITS、StarGANなどの生成モデル

データセットサポート

ASRデータセット：Aishell、LibriSpeech、CommonVoiceなど
TTSデータセット：LJSpeech、CSMSC、VCTKなど
多言語データ：中英混合データセットをサポート

インストールと使用

システム要件

オペレーティングシステム：Linux（推奨）、Windows、Mac OSX
Pythonバージョン：≥ 3.8
コンパイラ：gcc ≥ 4.8.5
依存フレームワーク：PaddlePaddle

インストール方法

1. pipインストール

pip install paddlespeech

2. ソースコードインストール（推奨）

git clone https://github.com/PaddlePaddle/PaddleSpeech.git
cd PaddleSpeech
pip install pytest-runner
pip install .

迅速な体験

音声認識の例

# コマンドライン方式
paddlespeech asr --lang zh --input zh.wav

# Python API方式
from paddlespeech.cli.asr.infer import ASRExecutor
asr = ASRExecutor()
result = asr(audio_file="zh.wav")

音声合成の例

# コマンドライン方式
paddlespeech tts --input "你好，欢迎使用百度飞桨深度学习框架！" --output output.wav

# Python API方式
from paddlespeech.cli.tts.infer import TTSExecutor
tts = TTSExecutor()
tts(text="今天天气十分不错。", output="output.wav")

サービス展開

音声サーバー

PaddleSpeechは完全なサーバーソリューションを提供します。

サービス開始

paddlespeech_server start --config_file ./demos/speech_server/conf/application.yaml

クライアント呼び出し

# ASRサービス
paddlespeech_client asr --server_ip 127.0.0.1 --port 8090 --input input_16k.wav

# TTSサービス
paddlespeech_client tts --server_ip 127.0.0.1 --port 8090 --input "您好，欢迎使用百度飞桨语音合成服务。"

ストリーミングサービス

リアルタイムストリーミング音声認識と音声合成をサポートします。

# ストリーミングASR
paddlespeech_client asr_online --server_ip 127.0.0.1 --port 8090 --input input_16k.wav

# ストリーミングTTS
paddlespeech_client tts_online --server_ip 127.0.0.1 --port 8092 --input "您好，欢迎使用百度飞桨语音合成服务。"

アプリケーション事例

産業応用

スマートカスタマーサービス：音声認識+音声合成
音声アシスタント：ウェイクワード検出+対話システム
コンテンツ作成：音声クローン+多言語合成
アクセシビリティサービス：音声テキスト変換+テキスト音声変換

学術研究

マルチモーダル事前学習：ERNIE-SATなどのモデル
音声翻訳：エンドツーエンド英中翻訳
話者認識：声紋認識と検証
音声分析：音声分類とシーン認識

技術的優位性

1. モデル性能

SOTA効果：多くのタスクで業界をリードするレベルに到達
軽量化展開：モバイルデバイスとエッジデバイスをサポート
リアルタイム処理：リアルタイムインタラクションのニーズを満たす

2. 使いやすさ

ワンクリック展開：簡素化されたインストールと構成プロセス
豊富なドキュメント：完全な使用説明書と例
コミュニティサポート：活発な開発者コミュニティ

3. 拡張性

モジュール設計：カスタムモデルとタスクをサポート
多言語サポート：言語カバレッジの継続的な拡張
クロスプラットフォーム展開：さまざまな展開環境をサポート

コミュニティとエコシステム

オープンソースコミュニティ

GitHub Stars：10k以上のスター
貢献者：世界中の開発者
コミュニティプロジェクト：PaddleSpeechに基づく派生プロジェクト

まとめ

PaddleSpeechは、音声認識、音声合成、話者検証、音声翻訳など、複数のコアタスクを網羅する、機能が充実し、使いやすい音声ツールキットです。モジュール設計と豊富な事前学習済みモデルを通じて、開発者と研究者に強力な音声AIソリューションを提供します。学術研究であろうと産業応用であろうと、PaddleSpeechは高品質の技術サポートと完全なソリューションを提供できます。