Ein von Microsoft quelloffen bereitgestelltes, hochmodernes KI-Modell für die Mehrpersonen-Dialog-Sprachsynthese, das die Generierung von bis zu 90-minütigen, ausdrucksstarken Dialog-Audiodateien mit bis zu 4 verschiedenen Sprechern unterstützt.
VibeVoice - Microsofts fortschrittliches Open-Source-Sprachsynthese-Framework
Projektübersicht
VibeVoice ist ein neuartiges Open-Source-Framework, das von Microsoft Research entwickelt wurde und speziell für die Generierung ausdrucksstarker, langer Mehrpersonen-Dialogaudios aus Text, wie z.B. Podcasts, konzipiert ist. Es löst erhebliche Herausforderungen traditioneller Text-to-Speech (TTS)-Systeme in Bezug auf Skalierbarkeit, Sprecherkonsistenz und natürliche Übergänge.
Kerntechnologische Innovationen
Kontinuierlicher Sprach-Tokenisierer
Die Kerninnovation von VibeVoice liegt in der Verwendung kontinuierlicher Sprach-Tokenisierer (akustisch und semantisch), die mit einer extrem niedrigen Bildrate von 7,5 Hz arbeiten. Diese Tokenisierer erhöhen die Recheneffizienz bei der Verarbeitung langer Sequenzen erheblich, während sie gleichzeitig die Audioqualität effektiv beibehalten.
Next-Token-Diffusions-Framework
VibeVoice verwendet ein Next-Token-Diffusions-Framework, das große Sprachmodelle (LLMs) nutzt, um den Textkontext und den Dialogfluss zu verstehen, und einen Diffusions-Head verwendet, um hochauflösende akustische Details zu generieren.
Hauptmerkmale
🎯 Kernfunktionen
- Generierung von Ultralangen Audios: Kann Sprache von bis zu 90 Minuten Länge synthetisieren.
- Unterstützung für Mehrpersonen-Dialoge: Unterstützt bis zu 4 verschiedene Sprecher und überwindet damit die Beschränkung vieler bestehender Modelle auf 1-2 Sprecher.
- Sprachübergreifende Synthese: Unterstützt Englisch und Chinesisch und ermöglicht sprachübergreifende Erzählungen (z.B. englische Eingabeaufforderung → chinesische Sprache).
- Grundlegende Gesangssynthese: Verfügt über grundlegende Funktionen zur Gesangssynthese.
🏗️ Technische Architektur
Die Grundlage von VibeVoice ist ein LLM mit 1,5 Milliarden Parametern (Qwen2.5-1.5B), das zwei neuartige Tokenisierer – akustisch und semantisch – integriert, die beide für den Betrieb mit einer niedrigen Bildrate (7,5 Hz) ausgelegt sind, um Recheneffizienz und Konsistenz bei langen Sequenzen zu gewährleisten.
Technische Komponenten:
- Akustischer Tokenisierer: Eine σ-VAE-Variante mit einer gespiegelten Encoder-Decoder-Struktur (jeweils ca. 340 Mio. Parameter), die eine 3200-fache Downsampling von 24kHz Rohaudio ermöglicht.
- Semantischer Tokenisierer: Trainiert über eine ASR-Proxy-Aufgabe, spiegelt diese reine Encoder-Architektur das Design des akustischen Tokenisierers wider.
- Diffusions-Decoder-Head: Ein leichtgewichtiges (ca. 123 Mio. Parameter) bedingtes Diffusionsmodul, das akustische Merkmale vorhersagt.
Modellversionen
Modell | Kontextlänge | Generierte Länge | Download-Link |
---|---|---|---|
VibeVoice-1.5B | 64K | ~90 Minuten | HuggingFace |
VibeVoice-7B | 64K | ~90 Minuten | HuggingFace |
VibeVoice-0.5B-Streaming | - | - | Demnächst verfügbar |
Installation und Nutzung
Umgebungsvorbereitung
Es wird empfohlen, NVIDIA Deep Learning Container zur Verwaltung der CUDA-Umgebung zu verwenden:
# Docker-Container starten
sudo docker run --privileged --net=host --ipc=host --ulimit memlock=-1:-1 --ulimit stack=-1:-1 --gpus all --rm -it nvcr.io/nvidia/pytorch:24.07-py3
# Falls Flash Attention in der Umgebung nicht vorhanden ist, muss es manuell installiert werden
pip install flash-attn --no-build-isolation
Installationsschritte
# Projekt klonen
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice/
# Abhängigkeiten installieren
pip install -e .
apt update && apt install ffmpeg -y
Nutzung
Gradio-Demo-Oberfläche
# 1.5B-Modell
python demo/gradio_demo.py --model_path microsoft/VibeVoice-1.5B --share
# 7B-Modell
python demo/gradio_demo.py --model_path WestZhang/VibeVoice-Large-pt --share
Inferenz aus Datei
# Einzelsprecher-Sprache
python demo/inference_from_file.py --model_path microsoft/VibeVoice-1.5B --txt_path demo/text_examples/1p_abs.txt --speaker_names Alice
# Mehrpersonen-Sprache
python demo/inference_from_file.py --model_path microsoft/VibeVoice-1.5B --txt_path demo/text_examples/2p_zh.txt --speaker_names Alice Yunfan
Anwendungsbereiche
- Podcast-Produktion: Generierung von Dialogaudios mit mehreren Moderatoren (bis zu 4 Stimmen) von bis zu 90 Minuten Dauer.
- Hörbuchproduktion: Erstellung emotional reicher Erzählungen, um Hörbücher lebendiger und ansprechender zu gestalten.
- Dialogsysteme: Natürliche Spracherzeugung in mehrstufigen Dialogszenarien.
- Inhaltserstellung: Automatisierte Generierung von Audioinhalten.
Technische Einschränkungen
Aktuelle Einschränkungen
- Sprachbeschränkung: Unterstützt nur Englisch und Chinesisch.
- Nicht-Sprach-Audio: Das Modell konzentriert sich auf Sprachsynthese und verarbeitet keine Hintergrundmusik oder Soundeffekte.
- Überlappende Sprache: Das aktuelle Modell unterstützt nicht die Generierung überlappender Dialogsegmente.
Hinweise zur chinesischen Sprachsynthese
Bei der Synthese chinesischer Sprache kann es zu gelegentlichen Instabilitäten kommen. Es wird empfohlen:
- Auch bei chinesischem Text englische Satzzeichen zu verwenden, am besten nur Kommas und Punkte.
- Die 7B-Modellversion zu verwenden, da diese deutlich stabiler ist.
Nutzungsverantwortung und Einschränkungen
Forschungszwecke
Wir raten davon ab, VibeVoice ohne weitere Tests und Entwicklungen für kommerzielle oder praktische Anwendungen zu nutzen. Dieses Modell ist ausschließlich für Forschungs- und Entwicklungszwecke bestimmt.
Potenzielle Risiken
Potenzial für Deepfakes und Fehlinformationen: Hochwertige synthetische Sprache kann missbraucht werden, um überzeugende gefälschte Audioinhalte für Identitätsdiebstahl, Betrug oder die Verbreitung von Fehlinformationen zu erstellen. Benutzer müssen sicherstellen, dass die Transkripte zuverlässig sind, die Inhaltsgenauigkeit überprüfen und die generierten Inhalte nicht irreführend verwenden.
Kontakt
Für Vorschläge, Fragen oder bei Entdeckung von Anomalien/beleidigendem Verhalten in der Technologie kontaktieren Sie bitte: VibeVoice@microsoft.com