WhisperSpeech是一个通过逆向工程OpenAI Whisper构建的开源文本转语音(TTS)系统。该项目的愿景是成为语音合成领域的"Stable Diffusion"——既强大又易于定制化。
项目最初被称为spear-tts-pytorch,现在已发展成为一个成熟的多语言语音合成解决方案。WhisperSpeech专注于使用合规授权的语音录音数据,所有代码都是开源的,确保商业应用的安全性。
WhisperSpeech的架构类似于Google的AudioLM和SPEAR TTS,以及Meta的MusicGen,构建在强大的开源模型之上:
WhisperSpeech采用了创新的"逆向工程"方法:
WhisperSpeech代表了开源语音合成技术的重要突破。它不仅在技术上实现了高质量的多语言语音合成,更重要的是建立了一个完全开源、商业安全的生态系统。通过逆向工程Whisper的创新方法,该项目为语音合成领域提供了一个强大而灵活的解决方案。