Home
Login
WhisperSpeech/WhisperSpeech

Système de synthèse vocale open source construit par rétro-ingénierie de Whisper

MITJupyter Notebook 4.3kWhisperSpeech Last Updated: 2025-06-08
https://github.com/WhisperSpeech/WhisperSpeech

Présentation détaillée du projet WhisperSpeech

Aperçu

WhisperSpeech est un système de synthèse vocale (TTS) open source construit par rétro-ingénierie d'OpenAI Whisper. La vision de ce projet est de devenir le "Stable Diffusion" de la synthèse vocale - à la fois puissant et facilement personnalisable.

Initialement appelé spear-tts-pytorch, le projet est maintenant devenu une solution de synthèse vocale multilingue mature. WhisperSpeech se concentre sur l'utilisation de données d'enregistrement vocal sous licence conforme, et tout le code est open source, garantissant la sécurité des applications commerciales.

Fonctionnalités et caractéristiques principales

🎯 Caractéristiques principales

  • Open source et sûr pour un usage commercial: Licence Apache-2.0/MIT, tout le code est open source, utilisation exclusive de données vocales sous licence conforme
  • Support multilingue: Prend actuellement en charge l'anglais et le polonais, avec des plans d'extension à d'autres langues
  • Clonage vocal: Prend en charge la fonctionnalité de clonage vocal basée sur des fichiers audio de référence
  • Mélange multilingue: Possibilité de mélanger plusieurs langues dans une seule phrase
  • Optimisation des performances: Atteint une vitesse d'inférence supérieure à 12 fois le temps réel sur une carte graphique grand public 4090

🔧 Architecture technique

L'architecture de WhisperSpeech est similaire à AudioLM et SPEAR TTS de Google, ainsi qu'à MusicGen de Meta, et est construite sur des modèles open source puissants :

  • Whisper (OpenAI) : Utilisé pour générer des jetons sémantiques et effectuer la transcription
  • EnCodec (Meta) : Utilisé pour la modélisation acoustique
  • Vocos (Charactr Inc) : Utilisé comme vocodeur de haute qualité

📊 Composants du modèle

  1. Génération de jetons sémantiques: Utilisation des blocs d'encodeur OpenAI Whisper pour générer des embeddings, puis quantification pour obtenir des jetons sémantiques
  2. Modélisation acoustique: Utilisation d'EnCodec pour modéliser les formes d'onde audio, offrant une qualité raisonnable à 1,5 kbps
  3. Vocodeur de haute qualité: Conversion des jetons EnCodec en audio de haute qualité via Vocos

🌍 Jeu de données et entraînement

  • Données en anglais: Entraîné sur le jeu de données LibreLight
  • Extension multilingue: Modèle miniature entraîné avec succès sur un jeu de données anglais + polonais + français
  • Clonage vocal: Prend en charge le clonage vocal inter-langues, même si les jetons sémantiques ne sont entraînés que sur certaines langues

Dernières avancées

Optimisation des performances

  • Intégration de torch.compile
  • Ajout de kv-caching
  • Optimisation de la structure des couches réseau
  • Atteinte d'une vitesse d'inférence supérieure à 12 fois le temps réel sur une carte graphique 4090

Capacités multilingues

  • Réalisation réussie de la synthèse vocale mixte anglais et polonais
  • Prise en charge de la commutation transparente entre plusieurs langues dans une seule phrase
  • Fonctionnalité de clonage vocal inter-langues

Mise à jour du modèle

  • Publication d'un modèle SD S2A plus rapide, améliorant la vitesse tout en conservant une haute qualité
  • Fonctionnalité de clonage vocal améliorée
  • Optimisation des dépendances, temps d'installation réduit à moins de 30 secondes

Utilisation

Démarrage rapide

  • Google Colab: Fourniture de notebooks Colab prêts à l'emploi, installation en 30 secondes
  • Exécution locale: Prise en charge de l'environnement de notebook local
  • HuggingFace: Les modèles pré-entraînés et les jeux de données convertis sont disponibles sur HuggingFace

Téléchargement du modèle

Principes techniques

WhisperSpeech adopte une approche innovante de "rétro-ingénierie" :

  1. Utilisation des capacités de reconnaissance vocale de Whisper pour construire un système de synthèse vocale à l'envers
  2. Utilisation de jetons sémantiques pour relier le texte et la parole
  3. Utilisation de modèles open source puissants existants pour éviter de réinventer la roue
  4. Concentration sur les données conformes et la sécurité commerciale

Conclusion

WhisperSpeech représente une avancée significative dans la technologie de synthèse vocale open source. Il réalise non seulement une synthèse vocale multilingue de haute qualité sur le plan technique, mais surtout, il établit un écosystème entièrement open source et sûr pour un usage commercial. Grâce à l'approche innovante de rétro-ingénierie de Whisper, ce projet offre une solution puissante et flexible pour le domaine de la synthèse vocale.