WhisperSpeech é um sistema de texto para fala (TTS) de código aberto construído através da engenharia reversa do OpenAI Whisper. A visão do projeto é se tornar o "Stable Diffusion" da síntese de voz - poderoso e facilmente personalizável.
Inicialmente chamado spear-tts-pytorch, o projeto evoluiu para uma solução madura de síntese de voz multilíngue. O WhisperSpeech se concentra no uso de dados de gravação de voz licenciados em conformidade, com todo o código sendo de código aberto, garantindo a segurança para aplicações comerciais.
A arquitetura do WhisperSpeech é semelhante ao AudioLM e SPEAR TTS do Google, e ao MusicGen do Meta, construída sobre modelos de código aberto robustos:
O WhisperSpeech adota uma abordagem inovadora de "engenharia reversa":
O WhisperSpeech representa um avanço significativo na tecnologia de síntese de voz de código aberto. Não apenas alcança uma síntese de voz multilíngue de alta qualidade tecnicamente, mas, mais importante, estabelece um ecossistema totalmente de código aberto e seguro para uso comercial. Através da abordagem inovadora de engenharia reversa do Whisper, este projeto fornece uma solução poderosa e flexível para o campo da síntese de voz.