WhisperSpeech/WhisperSpeech

Sistema de texto a voz de código abierto construido mediante ingeniería inversa de Whisper

MITJupyter Notebook 4.3kWhisperSpeech Last Updated: 2025-06-08

https://github.com/WhisperSpeech/WhisperSpeech

Detalles del Proyecto WhisperSpeech

Resumen

WhisperSpeech es un sistema de texto a voz (TTS) de código abierto construido mediante ingeniería inversa de OpenAI Whisper. La visión del proyecto es convertirse en el "Stable Diffusion" de la síntesis de voz: potente y fácilmente personalizable.

El proyecto, inicialmente conocido como spear-tts-pytorch, ha evolucionado hasta convertirse en una solución madura de síntesis de voz multilingüe. WhisperSpeech se centra en el uso de datos de grabación de voz con licencias compatibles, y todo el código es de código abierto, lo que garantiza la seguridad para aplicaciones comerciales.

Funciones y Características Principales

🎯 Características Principales

Código Abierto y Seguro para Uso Comercial: Adopta licencias Apache-2.0/MIT, todo el código es de código abierto y solo utiliza datos de voz con licencias compatibles.
Soporte Multilingüe: Actualmente compatible con inglés y polaco, con planes de expansión a más idiomas.
Clonación de Voz: Admite la función de clonación de voz basada en archivos de audio de referencia.
Mezcla Multilingüe: Permite mezclar varios idiomas en una sola frase.
Optimización de Alto Rendimiento: Logra un rendimiento de inferencia superior a 12 veces la velocidad en tiempo real en una tarjeta gráfica 4090 de consumo.

🔧 Arquitectura Técnica

La arquitectura de WhisperSpeech es similar a AudioLM de Google y SPEAR TTS, así como a MusicGen de Meta, construida sobre potentes modelos de código abierto:

Whisper (OpenAI): Se utiliza para generar tokens semánticos y realizar transcripciones.
EnCodec (Meta): Se utiliza para el modelado acústico.
Vocos (Charactr Inc): Actúa como un vocoder de alta calidad.

📊 Componentes del Modelo

Generación de Tokens Semánticos: Utiliza bloques de codificador de OpenAI Whisper para generar incrustaciones, que luego se cuantifican para obtener tokens semánticos.
Modelado Acústico: Utiliza EnCodec para modelar la forma de onda de audio, proporcionando una calidad razonable a 1.5 kbps.
Vocoder de Alta Calidad: Convierte los tokens EnCodec en audio de alta calidad a través de Vocos.

🌍 Conjuntos de Datos y Entrenamiento

Datos en Inglés: Entrenado en base al conjunto de datos LibreLight.
Expansión Multilingüe: Se ha entrenado con éxito un modelo pequeño en un conjunto de datos de inglés + polaco + francés.
Clonación de Voz: Admite la clonación de voz entre idiomas, incluso si los tokens semánticos solo están entrenados en algunos idiomas.

Últimos Avances

Optimización del Rendimiento

Integración de torch.compile
Adición de kv-caching
Optimización de la estructura de la capa de red
Logro de una velocidad de inferencia en tiempo real superior a 12 veces en una tarjeta gráfica 4090

Capacidades Multilingües

Implementación exitosa de la síntesis de voz mixta en inglés y polaco
Soporte para la conmutación perfecta entre varios idiomas en una sola frase
Funcionalidad de clonación de voz entre idiomas

Actualizaciones del Modelo

Lanzamiento de un modelo SD S2A más rápido, que mejora la velocidad manteniendo una alta calidad
Funcionalidad de clonación de voz mejorada
Dependencias optimizadas, tiempo de instalación reducido a menos de 30 segundos

Modo de Uso

Inicio Rápido

Google Colab: Proporciona un cuaderno Colab listo para usar, con instalación en 30 segundos.
Ejecución Local: Admite entornos de cuaderno locales.
HuggingFace: Los modelos pre-entrenados y los conjuntos de datos convertidos están disponibles en HuggingFace.

Descarga de Modelos

Principios Técnicos

WhisperSpeech adopta un enfoque innovador de "ingeniería inversa":

Utiliza la capacidad de reconocimiento de voz de Whisper para construir un sistema de síntesis de voz a la inversa.
Une el texto y la voz a través de tokens semánticos.
Utiliza los potentes modelos de código abierto existentes para evitar la reinvención de la rueda.
Se centra en datos compatibles y seguridad comercial.

Conclusión

WhisperSpeech representa un importante avance en la tecnología de síntesis de voz de código abierto. No solo logra una síntesis de voz multilingüe de alta calidad en términos técnicos, sino que lo que es más importante, establece un ecosistema completamente de código abierto y seguro para uso comercial. A través del innovador método de ingeniería inversa de Whisper, este proyecto proporciona una solución potente y flexible para el campo de la síntesis de voz.