WhisperSpeech est un système de synthèse vocale (TTS) open source construit par rétro-ingénierie d'OpenAI Whisper. La vision de ce projet est de devenir le "Stable Diffusion" de la synthèse vocale - à la fois puissant et facilement personnalisable.
Initialement appelé spear-tts-pytorch, le projet est maintenant devenu une solution de synthèse vocale multilingue mature. WhisperSpeech se concentre sur l'utilisation de données d'enregistrement vocal sous licence conforme, et tout le code est open source, garantissant la sécurité des applications commerciales.
L'architecture de WhisperSpeech est similaire à AudioLM et SPEAR TTS de Google, ainsi qu'à MusicGen de Meta, et est construite sur des modèles open source puissants :
WhisperSpeech adopte une approche innovante de "rétro-ingénierie" :
WhisperSpeech représente une avancée significative dans la technologie de synthèse vocale open source. Il réalise non seulement une synthèse vocale multilingue de haute qualité sur le plan technique, mais surtout, il établit un écosystème entièrement open source et sûr pour un usage commercial. Grâce à l'approche innovante de rétro-ingénierie de Whisper, ce projet offre une solution puissante et flexible pour le domaine de la synthèse vocale.