Home
Login

PaddleSpeech: 使いやすい音声ツールキット。自己教師あり学習モデル、句読点付きの最新/ストリーミングASR、テキストフロントエンド付きのストリーミングTTS、話者検証システム、エンドツーエンドの音声翻訳、キーワード認識を搭載。NAACL2022ベストデモ賞を受賞。

Apache-2.0Python 12.0kPaddlePaddle Last Updated: 2025-06-10

PaddleSpeech プロジェクト詳細紹介

プロジェクト概要

PaddleSpeech は、百度飛槳(PaddlePaddle)プラットフォームに基づいて開発されたオープンソースの音声ツールキットであり、さまざまな重要な音声およびオーディオタスクに焦点を当てています。このプロジェクトは、最新かつ影響力のあるモデル設計により、NAACL2022 最優秀デモ賞を受賞しました。

コア機能

🚀 使いやすさ

  • 低ハードルインストール:簡単なインストール方法を提供
  • コマンドラインツール:CLI、Server、およびストリーミングServerをサポートし、迅速な開始が可能
  • 多様なインターフェース:コマンドラインとPython APIの2つの使用方法をサポート

🏆 最先端技術

  • 最新技術への対応:高速、超軽量モデル、および最先端技術を提供
  • ストリーミングシステム:本番環境に対応したストリーミングASRおよびストリーミングTTSシステムを提供
  • 自己教師あり学習:自己教師あり学習モデルを統合

💯 中国語音声フロントエンド

  • ルールベース処理:テキスト正規化と音素変換(G2P)を含む
  • 多音字処理:多音字と変調処理をサポート
  • 言語学的ルール:カスタム言語学的ルールを使用して中国語の文脈に適応

主要機能モジュール

1. 音声認識(ASR)

  • サポートモデル:DeepSpeech2、Transformer、Conformer、U2など
  • 多言語サポート:中国語、英語、中英混合
  • リアルタイム認識:ストリーミング音声認識をサポート
  • 句読点復元:句読点を自動的に追加

2. 音声合成(TTS)

  • 音響モデル:Tacotron2、FastSpeech2、SpeedySpeech、VITSなど
  • ボコーダー:WaveFlow、PWGAN、HiFiGAN、Multi Band MelGANなど
  • 多言語サポート:中国語、英語、中英混合、広東語
  • 音声クローン:音声クローンと微調整をサポート

3. 話者検証(VPR)

  • 話者認識:ECAPA-TDNNモデルに基づく
  • 声紋抽出:産業レベルの声紋特徴抽出
  • 話者分離:話者分離タスクをサポート

4. 音声翻訳(ST)

  • エンドツーエンド翻訳:英中音声翻訳
  • マルチモーダル事前学習:音響およびテキスト特徴を組み合わせる

5. 音声分類(CLS)

  • オープン領域分類:AudioSetデータセットに基づく527種類の音声分類
  • PANNモデル:事前学習済みオーディオニューラルネットワークを使用

6. キーワード認識(KWS)

  • ウェイクワード検出:カスタムウェイクワードをサポート
  • 軽量モデル:モバイルデバイスへの展開に適しています

技術アーキテクチャ

モデルサポート

  • 自己教師あり学習:Wav2vec2.0、HuBERT、WavLMなど
  • 注意機構:Transformer、Conformerアーキテクチャ
  • エンドツーエンドトレーニング:U2、U2++などの統一モデル
  • 敵対的学習:VITS、StarGANなどの生成モデル

データセットサポート

  • ASRデータセット:Aishell、LibriSpeech、CommonVoiceなど
  • TTSデータセット:LJSpeech、CSMSC、VCTKなど
  • 多言語データ:中英混合データセットをサポート

インストールと使用

システム要件

  • オペレーティングシステム:Linux(推奨)、Windows、Mac OSX
  • Pythonバージョン:≥ 3.8
  • コンパイラ:gcc ≥ 4.8.5
  • 依存フレームワーク:PaddlePaddle

インストール方法

1. pipインストール
pip install paddlespeech
2. ソースコードインストール(推奨)
git clone https://github.com/PaddlePaddle/PaddleSpeech.git
cd PaddleSpeech
pip install pytest-runner
pip install .

迅速な体験

音声認識の例

# コマンドライン方式
paddlespeech asr --lang zh --input zh.wav

# Python API方式
from paddlespeech.cli.asr.infer import ASRExecutor
asr = ASRExecutor()
result = asr(audio_file="zh.wav")

音声合成の例

# コマンドライン方式
paddlespeech tts --input "你好,欢迎使用百度飞桨深度学习框架!" --output output.wav

# Python API方式
from paddlespeech.cli.tts.infer import TTSExecutor
tts = TTSExecutor()
tts(text="今天天气十分不错。", output="output.wav")

サービス展開

音声サーバー

PaddleSpeechは完全なサーバーソリューションを提供します。

サービス開始
paddlespeech_server start --config_file ./demos/speech_server/conf/application.yaml
クライアント呼び出し
# ASRサービス
paddlespeech_client asr --server_ip 127.0.0.1 --port 8090 --input input_16k.wav

# TTSサービス
paddlespeech_client tts --server_ip 127.0.0.1 --port 8090 --input "您好,欢迎使用百度飞桨语音合成服务。"

ストリーミングサービス

リアルタイムストリーミング音声認識と音声合成をサポートします。

# ストリーミングASR
paddlespeech_client asr_online --server_ip 127.0.0.1 --port 8090 --input input_16k.wav

# ストリーミングTTS
paddlespeech_client tts_online --server_ip 127.0.0.1 --port 8092 --input "您好,欢迎使用百度飞桨语音合成服务。"

アプリケーション事例

産業応用

  • スマートカスタマーサービス:音声認識+音声合成
  • 音声アシスタント:ウェイクワード検出+対話システム
  • コンテンツ作成:音声クローン+多言語合成
  • アクセシビリティサービス:音声テキスト変換+テキスト音声変換

学術研究

  • マルチモーダル事前学習:ERNIE-SATなどのモデル
  • 音声翻訳:エンドツーエンド英中翻訳
  • 話者認識:声紋認識と検証
  • 音声分析:音声分類とシーン認識

技術的優位性

1. モデル性能

  • SOTA効果:多くのタスクで業界をリードするレベルに到達
  • 軽量化展開:モバイルデバイスとエッジデバイスをサポート
  • リアルタイム処理:リアルタイムインタラクションのニーズを満たす

2. 使いやすさ

  • ワンクリック展開:簡素化されたインストールと構成プロセス
  • 豊富なドキュメント:完全な使用説明書と例
  • コミュニティサポート:活発な開発者コミュニティ

3. 拡張性

  • モジュール設計:カスタムモデルとタスクをサポート
  • 多言語サポート:言語カバレッジの継続的な拡張
  • クロスプラットフォーム展開:さまざまな展開環境をサポート

コミュニティとエコシステム

オープンソースコミュニティ

  • GitHub Stars:10k以上のスター
  • 貢献者:世界中の開発者
  • コミュニティプロジェクト:PaddleSpeechに基づく派生プロジェクト

関連プロジェクト

  • PaddleBoBo:バーチャルYouTuber音声生成
  • VTuberTalk:ビデオ音声クローンツール
  • FastASR:C++推論実装
  • VoiceTyping:リアルタイム音声入力ツール

まとめ

PaddleSpeechは、音声認識、音声合成、話者検証、音声翻訳など、複数のコアタスクを網羅する、機能が充実し、使いやすい音声ツールキットです。モジュール設計と豊富な事前学習済みモデルを通じて、開発者と研究者に強力な音声AIソリューションを提供します。学術研究であろうと産業応用であろうと、PaddleSpeechは高品質の技術サポートと完全なソリューションを提供できます。