WhisperSpeech/WhisperSpeech

通过逆向工程Whisper构建的开源文本转语音系统

开源且商业安全: 采用Apache-2.0/MIT许可证，所有代码开源，仅使用合规授权的语音数据
多语言支持: 目前支持英语和波兰语，计划扩展到更多语言
语音克隆: 支持基于参考音频文件的语音克隆功能
多语言混合: 可在单个句子中混合多种语言
高性能优化: 在消费级4090显卡上实现超过12倍实时速度的推理性能

MITJupyter Notebook 4.3kWhisperSpeech Last Updated: 2025-06-08

WhisperSpeech 项目详细介绍

WhisperSpeech是一个通过逆向工程OpenAI Whisper构建的开源文本转语音(TTS)系统。该项目的愿景是成为语音合成领域的"Stable Diffusion"——既强大又易于定制化。

项目最初被称为spear-tts-pytorch，现在已发展成为一个成熟的多语言语音合成解决方案。WhisperSpeech专注于使用合规授权的语音录音数据，所有代码都是开源的，确保商业应用的安全性。

WhisperSpeech的架构类似于Google的AudioLM和SPEAR TTS，以及Meta的MusicGen，构建在强大的开源模型之上：

WhisperSpeech采用了创新的"逆向工程"方法：

WhisperSpeech代表了开源语音合成技术的重要突破。它不仅在技术上实现了高质量的多语言语音合成，更重要的是建立了一个完全开源、商业安全的生态系统。通过逆向工程Whisper的创新方法，该项目为语音合成领域提供了一个强大而灵活的解决方案。