WhisperSpeech/WhisperSpeech

Système de synthèse vocale open source construit par rétro-ingénierie de Whisper

MITJupyter Notebook 4.3kWhisperSpeech Last Updated: 2025-06-08

https://github.com/WhisperSpeech/WhisperSpeech

Présentation détaillée du projet WhisperSpeech

Aperçu

WhisperSpeech est un système de synthèse vocale (TTS) open source construit par rétro-ingénierie d'OpenAI Whisper. La vision de ce projet est de devenir le "Stable Diffusion" de la synthèse vocale - à la fois puissant et facilement personnalisable.

Initialement appelé spear-tts-pytorch, le projet est maintenant devenu une solution de synthèse vocale multilingue mature. WhisperSpeech se concentre sur l'utilisation de données d'enregistrement vocal sous licence conforme, et tout le code est open source, garantissant la sécurité des applications commerciales.

Fonctionnalités et caractéristiques principales

🎯 Caractéristiques principales

Open source et sûr pour un usage commercial: Licence Apache-2.0/MIT, tout le code est open source, utilisation exclusive de données vocales sous licence conforme
Support multilingue: Prend actuellement en charge l'anglais et le polonais, avec des plans d'extension à d'autres langues
Clonage vocal: Prend en charge la fonctionnalité de clonage vocal basée sur des fichiers audio de référence
Mélange multilingue: Possibilité de mélanger plusieurs langues dans une seule phrase
Optimisation des performances: Atteint une vitesse d'inférence supérieure à 12 fois le temps réel sur une carte graphique grand public 4090

🔧 Architecture technique

L'architecture de WhisperSpeech est similaire à AudioLM et SPEAR TTS de Google, ainsi qu'à MusicGen de Meta, et est construite sur des modèles open source puissants :

Whisper (OpenAI) : Utilisé pour générer des jetons sémantiques et effectuer la transcription
EnCodec (Meta) : Utilisé pour la modélisation acoustique
Vocos (Charactr Inc) : Utilisé comme vocodeur de haute qualité

📊 Composants du modèle

Génération de jetons sémantiques: Utilisation des blocs d'encodeur OpenAI Whisper pour générer des embeddings, puis quantification pour obtenir des jetons sémantiques
Modélisation acoustique: Utilisation d'EnCodec pour modéliser les formes d'onde audio, offrant une qualité raisonnable à 1,5 kbps
Vocodeur de haute qualité: Conversion des jetons EnCodec en audio de haute qualité via Vocos

🌍 Jeu de données et entraînement

Données en anglais: Entraîné sur le jeu de données LibreLight
Extension multilingue: Modèle miniature entraîné avec succès sur un jeu de données anglais + polonais + français
Clonage vocal: Prend en charge le clonage vocal inter-langues, même si les jetons sémantiques ne sont entraînés que sur certaines langues

Dernières avancées

Optimisation des performances

Intégration de torch.compile
Ajout de kv-caching
Optimisation de la structure des couches réseau
Atteinte d'une vitesse d'inférence supérieure à 12 fois le temps réel sur une carte graphique 4090

Capacités multilingues

Réalisation réussie de la synthèse vocale mixte anglais et polonais
Prise en charge de la commutation transparente entre plusieurs langues dans une seule phrase
Fonctionnalité de clonage vocal inter-langues

Mise à jour du modèle

Publication d'un modèle SD S2A plus rapide, améliorant la vitesse tout en conservant une haute qualité
Fonctionnalité de clonage vocal améliorée
Optimisation des dépendances, temps d'installation réduit à moins de 30 secondes

Utilisation

Démarrage rapide

Google Colab: Fourniture de notebooks Colab prêts à l'emploi, installation en 30 secondes
Exécution locale: Prise en charge de l'environnement de notebook local
HuggingFace: Les modèles pré-entraînés et les jeux de données convertis sont disponibles sur HuggingFace

Téléchargement du modèle

Principes techniques

WhisperSpeech adopte une approche innovante de "rétro-ingénierie" :

Utilisation des capacités de reconnaissance vocale de Whisper pour construire un système de synthèse vocale à l'envers
Utilisation de jetons sémantiques pour relier le texte et la parole
Utilisation de modèles open source puissants existants pour éviter de réinventer la roue
Concentration sur les données conformes et la sécurité commerciale

Conclusion

WhisperSpeech représente une avancée significative dans la technologie de synthèse vocale open source. Il réalise non seulement une synthèse vocale multilingue de haute qualité sur le plan technique, mais surtout, il établit un écosystème entièrement open source et sûr pour un usage commercial. Grâce à l'approche innovante de rétro-ingénierie de Whisper, ce projet offre une solution puissante et flexible pour le domaine de la synthèse vocale.