WhisperSpeech/WhisperSpeech

Whisperのリバースエンジニアリングによって構築されたオープンソースのテキスト読み上げシステム

MITJupyter Notebook 4.3kWhisperSpeech Last Updated: 2025-06-08

https://github.com/WhisperSpeech/WhisperSpeech

WhisperSpeech プロジェクト詳細

概要

WhisperSpeech は、OpenAI Whisper をリバースエンジニアリングして構築されたオープンソースのテキスト読み上げ (TTS) システムです。このプロジェクトのビジョンは、音声合成分野における "Stable Diffusion" となることです。つまり、強力でありながら簡単にカスタマイズできることを目指しています。

プロジェクトは当初 spear-tts-pytorch と呼ばれていましたが、現在では成熟した多言語音声合成ソリューションへと発展しました。WhisperSpeech は、コンプライアンスに準拠したライセンスの音声録音データを使用することに重点を置いており、すべてのコードはオープンソースであり、商用利用における安全性を確保しています。

主要な機能と特徴

🎯 主要な特徴

オープンソースかつ商用利用可能: Apache-2.0/MIT ライセンスを採用し、すべてのコードはオープンソースであり、コンプライアンスに準拠したライセンスの音声データのみを使用
多言語サポート: 現在、英語とポーランド語をサポートしており、より多くの言語への拡張を計画
音声クローン: 参照音声ファイルに基づく音声クローン機能をサポート
多言語混合: 単一の文で複数の言語を混合可能
高性能最適化: 消費者向け 4090 グラフィックカード上で 12 倍以上のリアルタイム速度の推論性能を実現

🔧 技術アーキテクチャ

WhisperSpeech のアーキテクチャは、Google の AudioLM や SPEAR TTS、Meta の MusicGen と同様に、強力なオープンソースモデル上に構築されています。

Whisper (OpenAI): 意味的トークンを生成し、転写を実行するために使用
EnCodec (Meta): 音響モデリングに使用
Vocos (Charactr Inc): 高品質なボコーダーとして使用

📊 モデルコンポーネント

意味的トークン生成: OpenAI Whisper エンコーダブロックを利用して埋め込みを生成し、その後量子化して意味的トークンを取得
音響モデリング: EnCodec を使用して音声波形をモデリングし、1.5kbps で妥当な品質を提供
高品質ボコーダー: Vocos を使用して EnCodec トークンを高品質な音声に変換

🌍 データセットとトレーニング

英語データ: LibreLight データセットに基づいてトレーニング
多言語拡張: 英語 + ポーランド語 + フランス語のデータセットで小型モデルのトレーニングに成功
音声クローン: 意味的トークンが一部の言語でのみトレーニングされている場合でも、クロスリンガル音声クローンをサポート

使用方法

快速開始

Google Colab: すぐに使用できる Colab ノートブックを提供し、30 秒以内にインストールを完了
ローカル実行: ローカルノートブック環境をサポート
HuggingFace: 事前トレーニング済みモデルと変換されたデータセットはすべて HuggingFace で入手可能

モデルダウンロード

技術原理

WhisperSpeech は革新的な "リバースエンジニアリング" 手法を採用しています。

Whisper の音声認識能力を使用して、音声合成システムを逆構築
意味的トークンを介してテキストと音声を橋渡し
既存の強力なオープンソースモデルを利用して、車輪の再発明を回避
コンプライアンスデータと商用セキュリティに注力

まとめ

WhisperSpeech は、オープンソース音声合成技術における重要なブレークスルーを代表しています。技術的に高品質な多言語音声合成を実現しただけでなく、完全なオープンソースで商用利用可能な安全なエコシステムを構築したことが重要です。Whisper のリバースエンジニアリングという革新的な手法を通じて、このプロジェクトは音声合成分野に強力で柔軟なソリューションを提供します。