WhisperSpeech/WhisperSpeech

Sistema de texto para fala de código aberto construído por meio de engenharia reversa do Whisper

MITJupyter Notebook 4.3kWhisperSpeech Last Updated: 2025-06-08

https://github.com/WhisperSpeech/WhisperSpeech

Detalhes do Projeto WhisperSpeech

Visão Geral

WhisperSpeech é um sistema de texto para fala (TTS) de código aberto construído através da engenharia reversa do OpenAI Whisper. A visão do projeto é se tornar o "Stable Diffusion" da síntese de voz - poderoso e facilmente personalizável.

Inicialmente chamado spear-tts-pytorch, o projeto evoluiu para uma solução madura de síntese de voz multilíngue. O WhisperSpeech se concentra no uso de dados de gravação de voz licenciados em conformidade, com todo o código sendo de código aberto, garantindo a segurança para aplicações comerciais.

Funcionalidades e Características Principais

🎯 Principais Características

Código Aberto e Seguro para Uso Comercial: Adota licenças Apache-2.0/MIT, todo o código é de código aberto e utiliza apenas dados de voz licenciados em conformidade.
Suporte Multilíngue: Atualmente suporta inglês e polonês, com planos de expansão para mais idiomas.
Clonagem de Voz: Suporta a funcionalidade de clonagem de voz baseada em arquivos de áudio de referência.
Mistura Multilíngue: Capacidade de misturar vários idiomas em uma única frase.
Otimização de Alto Desempenho: Atinge um desempenho de inferência superior a 12 vezes a velocidade em tempo real em uma placa de vídeo 4090 de nível consumidor.

🔧 Arquitetura Técnica

A arquitetura do WhisperSpeech é semelhante ao AudioLM e SPEAR TTS do Google, e ao MusicGen do Meta, construída sobre modelos de código aberto robustos:

Whisper (OpenAI): Usado para gerar tokens semânticos e realizar a transcrição.
EnCodec (Meta): Usado para modelagem acústica.
Vocos (Charactr Inc): Atua como um vocoder de alta qualidade.

📊 Componentes do Modelo

Geração de Tokens Semânticos: Utiliza blocos de codificador do OpenAI Whisper para gerar embeddings, que são então quantificados para obter tokens semânticos.
Modelagem Acústica: Utiliza o EnCodec para modelar a forma de onda do áudio, fornecendo uma qualidade razoável a 1,5 kbps.
Vocoder de Alta Qualidade: Converte os tokens EnCodec em áudio de alta qualidade através do Vocos.

🌍 Conjunto de Dados e Treinamento

Dados em Inglês: Treinado com base no conjunto de dados LibreLight.
Expansão Multilíngue: Modelo pequeno treinado com sucesso em um conjunto de dados de inglês + polonês + francês.
Clonagem de Voz: Suporta clonagem de voz entre idiomas, mesmo que os tokens semânticos sejam treinados apenas em alguns idiomas.

Últimos Avanços

Otimização de Desempenho

Integração com torch.compile
Adição de kv-caching
Otimização da estrutura das camadas da rede
Atinge uma velocidade de inferência superior a 12 vezes a velocidade em tempo real em uma placa de vídeo 4090.

Capacidade Multilíngue

Implementação bem-sucedida da síntese de voz mista em inglês e polonês.
Suporte para alternância perfeita entre vários idiomas em uma única frase.
Funcionalidade de clonagem de voz entre idiomas.

Atualização do Modelo

Lançamento de um modelo SD S2A mais rápido, aumentando a velocidade, mantendo a alta qualidade.
Funcionalidade de clonagem de voz aprimorada.
Dependências otimizadas, tempo de instalação reduzido para menos de 30 segundos.

Como Usar

Início Rápido

Google Colab: Fornece notebooks Colab prontos para uso, com instalação concluída em 30 segundos.
Execução Local: Suporta ambientes de notebook locais.
HuggingFace: Modelos pré-treinados e conjuntos de dados convertidos estão disponíveis no HuggingFace.

Download do Modelo

Princípios Técnicos

O WhisperSpeech adota uma abordagem inovadora de "engenharia reversa":

Utiliza a capacidade de reconhecimento de voz do Whisper para construir um sistema de síntese de voz de forma reversa.
Conecta texto e voz através de tokens semânticos.
Utiliza modelos de código aberto robustos existentes para evitar reinventar a roda.
Concentra-se em dados em conformidade e segurança comercial.

Conclusão

O WhisperSpeech representa um avanço significativo na tecnologia de síntese de voz de código aberto. Não apenas alcança uma síntese de voz multilíngue de alta qualidade tecnicamente, mas, mais importante, estabelece um ecossistema totalmente de código aberto e seguro para uso comercial. Através da abordagem inovadora de engenharia reversa do Whisper, este projeto fornece uma solução poderosa e flexível para o campo da síntese de voz.