Modèle d'IA de synthèse vocale conversationnelle multi-locuteurs de pointe, open source par Microsoft, capable de générer jusqu'à 90 minutes d'audio conversationnel expressif avec jusqu'à 4 locuteurs différents.

MITPythonVibeVoicemicrosoft 6.7k Last Updated: September 01, 2025

VibeVoice - Cadre de synthèse vocale open-source de pointe de Microsoft

Présentation du projet

VibeVoice est un nouveau cadre open-source développé par Microsoft Research, spécialement conçu pour générer des audios de dialogue expressifs, longs et multi-locuteurs à partir de texte, tels que des podcasts. Il résout des défis majeurs rencontrés par les systèmes traditionnels de synthèse vocale (TTS) en termes d'évolutivité, de cohérence des locuteurs et de transitions naturelles.

Innovations technologiques clés

Tokeniseur vocal continu

L'innovation centrale de VibeVoice réside dans l'utilisation de tokeniseurs vocaux continus (acoustiques et sémantiques), fonctionnant à un taux d'images ultra-bas de 7,5 Hz. Ces tokeniseurs améliorent considérablement l'efficacité computationnelle pour le traitement de longues séquences tout en maintenant efficacement la fidélité audio.

Cadre de diffusion Next-Token

VibeVoice adopte un cadre de diffusion next-token, exploitant les grands modèles de langage (LLM) pour comprendre le contexte textuel et le flux de dialogue, et utilisant une tête de diffusion pour générer des détails acoustiques de haute fidélité.

Fonctionnalités principales

🎯 Capacités fondamentales

  • Génération audio ultra-longue: Peut synthétiser jusqu'à 90 minutes de parole
  • Prise en charge des dialogues multi-locuteurs: Prend en charge jusqu'à 4 locuteurs différents, dépassant la limite de 1 à 2 locuteurs de nombreux modèles existants
  • Synthèse interlingue: Prend en charge l'anglais et le chinois, et permet la narration interlingue (par exemple, invite en anglais → voix en chinois)
  • Synthèse de chant basique: Possède des capacités de synthèse de chant fondamentales

🏗️ Architecture technique

VibeVoice est basé sur un LLM de 1,5 milliard de paramètres (Qwen2.5-1.5B), intégrant deux nouveaux tokeniseurs – acoustique et sémantique – tous deux conçus pour fonctionner à un faible taux d'images (7,5 Hz) afin d'assurer l'efficacité computationnelle et la cohérence sur de longues séquences.

Composants techniques:

  • Tokeniseur acoustique: Une variante de σ-VAE, avec une structure encodeur-décodeur miroir (environ 340M paramètres chacun), réalisant un sous-échantillonnage 3200x de l'audio brut à 24 kHz
  • Tokeniseur sémantique: Entraîné via une tâche proxy ASR, cette architecture uniquement encodeur reflète la conception du tokeniseur acoustique
  • Tête de décodeur de diffusion: Un module de diffusion conditionnelle léger (environ 123M paramètres) qui prédit les caractéristiques acoustiques

Versions du modèle

Modèle Longueur du contexte Longueur de génération Lien de téléchargement
VibeVoice-1.5B 64K ~90 minutes HuggingFace
VibeVoice-7B 64K ~90 minutes HuggingFace
VibeVoice-0.5B-Streaming - - Bientôt disponible

Installation et utilisation

Préparation de l'environnement

Il est recommandé d'utiliser le conteneur NVIDIA Deep Learning pour gérer l'environnement CUDA :

# Lancer le conteneur Docker
sudo docker run --privileged --net=host --ipc=host --ulimit memlock=-1:-1 --ulimit stack=-1:-1 --gpus all --rm -it nvcr.io/nvidia/pytorch:24.07-py3

# Si flash attention n'est pas présent dans l'environnement, l'installer manuellement
pip install flash-attn --no-build-isolation

Étapes d'installation

# Cloner le projet
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice/

# Installer les dépendances
pip install -e .
apt update && apt install ffmpeg -y

Mode d'emploi

Interface de démonstration Gradio

# Modèle 1.5B
python demo/gradio_demo.py --model_path microsoft/VibeVoice-1.5B --share

# Modèle 7B
python demo/gradio_demo.py --model_path WestZhang/VibeVoice-Large-pt --share

Inférer à partir d'un fichier

# Voix unique
python demo/inference_from_file.py --model_path microsoft/VibeVoice-1.5B --txt_path demo/text_examples/1p_abs.txt --speaker_names Alice

# Voix multi-locuteurs
python demo/inference_from_file.py --model_path microsoft/VibeVoice-1.5B --txt_path demo/text_examples/2p_zh.txt --speaker_names Alice Yunfan

Scénarios d'application

  • Production de podcasts: Génération d'audio de dialogue multi-animateurs (jusqu'à 4 voix), d'une durée allant jusqu'à 90 minutes
  • Production de livres audio: Création de narrations riches en émotions pour rendre les livres audio plus vivants et captivants
  • Systèmes de dialogue: Génération de parole naturelle dans des scénarios de dialogue multi-tours
  • Création de contenu: Automatisation de la génération de contenu audio

Limitations techniques

Limitations actuelles

  • Limitations linguistiques: Ne prend en charge que l'anglais et le chinois
  • Audio non vocal: Le modèle se concentre sur la synthèse vocale et ne traite pas la musique de fond ou les effets sonores
  • Voix superposées: Le modèle actuel ne prend pas en charge la génération de segments de dialogue superposés

Notes sur la synthèse vocale chinoise

Des instabilités occasionnelles peuvent survenir lors de la synthèse vocale chinoise. Il est recommandé de :

  • Utiliser la ponctuation anglaise même pour le texte chinois, de préférence uniquement les virgules et les points.
  • Utiliser la version du modèle 7B, dont la stabilité est nettement meilleure.

Responsabilité et limitations d'utilisation

Fins de recherche

Nous ne recommandons pas d'utiliser VibeVoice pour des applications commerciales ou pratiques sans tests et développements supplémentaires. Ce modèle est destiné uniquement à des fins de recherche et de développement.

Risques potentiels

Potentiel de deepfakes et de désinformation: La synthèse vocale de haute qualité peut être utilisée à mauvais escient pour créer du contenu audio faux mais convaincant, à des fins d'usurpation d'identité, de fraude ou de diffusion de désinformation. Les utilisateurs doivent s'assurer de la fiabilité des transcriptions, vérifier l'exactitude du contenu et éviter d'utiliser le contenu généré de manière trompeuse.

Contact

Pour toute suggestion, question ou si vous constatez un comportement anormal/offensant dans la technologie, veuillez contacter : VibeVoice@microsoft.com

Star History Chart