WhisperSpeech/WhisperSpeech

透過逆向工程 Whisper 建構的開源文字轉語音系統

開源且商業安全: 採用 Apache-2.0/MIT 許可證，所有程式碼開源，僅使用合規授權的語音數據
多語言支持: 目前支持英語和波蘭語，計畫擴展到更多語言
語音克隆: 支持基於參考音訊檔案的語音克隆功能
多語言混合: 可在單個句子中混合多種語言
高性能優化: 在消費級 4090 顯卡上實現超過 12 倍實時速度的推理性能

MITJupyter Notebook 4.3kWhisperSpeech Last Updated: 2025-06-08

WhisperSpeech 項目詳細介紹

WhisperSpeech 是一個通過逆向工程 OpenAI Whisper 構建的開源文本轉語音 (TTS) 系統。該項目的願景是成為語音合成領域的 "Stable Diffusion" —— 既強大又易於客製化。

項目最初被稱為 spear-tts-pytorch，現在已發展成為一個成熟的多語言語音合成解決方案。WhisperSpeech 專注於使用合規授權的語音錄音數據，所有程式碼都是開源的，確保商業應用的安全性。

WhisperSpeech 的架構類似於 Google 的 AudioLM 和 SPEAR TTS，以及 Meta 的 MusicGen，構建在強大的開源模型之上：

WhisperSpeech 採用了創新的 "逆向工程" 方法：

WhisperSpeech 代表了開源語音合成技術的重要突破。它不僅在技術上實現了高品質的多語言語音合成，更重要的是建立了一個完全開源、商業安全的生態系統。通過逆向工程 Whisper 的創新方法，該項目為語音合成領域提供了一個強大而靈活的解決方案。