WhisperSpeech 是一個通過逆向工程 OpenAI Whisper 構建的開源文本轉語音 (TTS) 系統。該項目的願景是成為語音合成領域的 "Stable Diffusion" —— 既強大又易於客製化。
項目最初被稱為 spear-tts-pytorch,現在已發展成為一個成熟的多語言語音合成解決方案。WhisperSpeech 專注於使用合規授權的語音錄音數據,所有程式碼都是開源的,確保商業應用的安全性。
WhisperSpeech 的架構類似於 Google 的 AudioLM 和 SPEAR TTS,以及 Meta 的 MusicGen,構建在強大的開源模型之上:
WhisperSpeech 採用了創新的 "逆向工程" 方法:
WhisperSpeech 代表了開源語音合成技術的重要突破。它不僅在技術上實現了高品質的多語言語音合成,更重要的是建立了一個完全開源、商業安全的生態系統。通過逆向工程 Whisper 的創新方法,該項目為語音合成領域提供了一個強大而靈活的解決方案。