index-tts/index-ttsPlease refer to the latest official releases for information GitHub Homepage
IndexTTS ist ein industrietaugliches, steuerbares und hocheffizientes Zero-Shot-Text-to-Speech-System, das auf XTTS und Tortoise basiert und chinesische Pinyin-Fehlerkorrektur und präzise Sprachsteuerung unterstützt.
Apache-2.0Python 3.6kindex-ttsindex-tts Last Updated: 2025-06-17
Detaillierte Vorstellung des IndexTTS-Projekts
Projektübersicht
IndexTTS ist ein industrietaugliches, steuerbares und effizientes Zero-Shot-Text-to-Speech-System, das hauptsächlich auf XTTS und Tortoise basiert. Das System verwendet eine GPT-ähnliche Architektur und verfügt über leistungsstarke Sprachsynthesefähigkeiten, die speziell für die chinesische Sprachsynthese optimiert wurden.
Kernfunktionen
1. Zero-Shot-Sprachklonung
- Ermöglicht hochwertige Sprachklonung mit nur wenigen Referenz-Audiodaten
- Unterstützt mehrsprachige Sprachsynthese, insbesondere Chinesisch und Englisch
2. Pinyin-Korrektur für Chinesisch
- Kann die Aussprache chinesischer Zeichen mithilfe von Pinyin korrigieren
- Verwendet eine Zeichen-Pinyin-Hybridmodellierungsmethode, um falsch ausgesprochene Zeichen schnell zu korrigieren
- Behandelt effektiv Ausspracheprobleme bei Polyphonen und Long-Tail-Zeichen
3. Präzise Sprachsteuerung
- Steuerung von Pausen an beliebigen Stellen durch Satzzeichen
- Unterstützt präzise Steuerung von Sprachrhythmus und Prosodie
- Bietet umfangreiche Optionen zur Anpassung des sprachlichen Ausdrucks
Technische Architektur
Modellkomponenten
- GPT-ähnliches Text-to-Speech-Modell: Basierend auf der Transformer-Architektur
- Conformer-Konditional-Encoder: Verbessert die Trainingsstabilität und Sprachähnlichkeit
- BigVGAN2-Sprach-Decoder: Optimiert die Audioqualität und Klangfarbentreue
- Zeichen-Pinyin-Hybridmodellierung: Speziell für die chinesische Sprachsynthese optimiert
Trainingsdaten
- Trainiert auf Zehntausenden von Stunden an Daten
- Umfasst verschiedene Sprachen und Sprachstile
- Enthält umfangreiche chinesische Sprachdatensätze
Leistungsmerkmale
Objektive Bewertungsmetriken
Vergleich der Wortfehlerrate (WER)
Testergebnisse basierend auf dem seed-test-Datensatz:
Modell | test_zh | test_en | test_hard |
---|---|---|---|
Human | 1.26 | 2.14 | - |
SeedTTS | 1.002 | 1.945 | 6.243 |
CosyVoice 2 | 1.45 | 2.57 | 6.83 |
F5TTS | 1.56 | 1.83 | 8.67 |
IndexTTS | 0.937 | 1.936 | 6.831 |
IndexTTS-1.5 | 0.821 | 1.606 | 6.565 |
Vergleich der Sprecherähnlichkeit (SS)
Modell | aishell1_test | commonvoice_20_test_zh | commonvoice_20_test_en | librispeech_test_clean | Durchschnitt |
---|---|---|---|---|---|
Human | 0.846 | 0.809 | 0.820 | 0.858 | 0.836 |
CosyVoice 2 | 0.796 | 0.743 | 0.742 | 0.837 | 0.788 |
IndexTTS | 0.744 | 0.742 | 0.758 | 0.823 | 0.776 |
IndexTTS-1.5 | 0.741 | 0.722 | 0.753 | 0.819 | 0.771 |
Subjektive Bewertung (MOS)
Modell | Prosodie | Klangfarbe | Qualität | Durchschnitt |
---|---|---|---|---|
CosyVoice 2 | 3.67 | 4.05 | 3.73 | 3.81 |
F5TTS | 3.56 | 3.88 | 3.56 | 3.66 |
XTTS | 3.23 | 2.99 | 3.10 | 3.11 |
IndexTTS | 3.79 | 4.20 | 4.05 | 4.01 |
Installation und Nutzung
Umgebungskonfiguration
# Repository klonen
git clone https://github.com/index-tts/index-tts.git
# Conda-Umgebung erstellen
conda create -n index-tts python=3.10
conda activate index-tts
# Abhängigkeiten installieren
pip install -r requirements.txt
apt-get install ffmpeg
Modell-Download
# Mit huggingface-cli herunterladen
huggingface-cli download IndexTeam/IndexTTS-1.5 \
config.yaml bigvgan_discriminator.pth bigvgan_generator.pth bpe.model dvae.pth gpt.pth unigram_12000.vocab \
--local-dir checkpoints
# Chinesische Benutzer können einen Spiegelserver verwenden
export HF_ENDPOINT="https://hf-mirror.com"
Befehlszeilennutzung
# Befehlszeilentool installieren
pip install -e .
# Anwendungsbeispiel
indextts "大家好,我现在正在bilibili 体验 ai 科技,说实话,来之前我绝对想不到!AI技术已经发展到这样匪夷所思的地步了!" \
--voice reference_voice.wav \
--model_dir checkpoints \
--config checkpoints/config.yaml \
--output output.wav
Web-Oberfläche
# Abhängigkeiten der Web-Oberfläche installieren
pip install -e ".[webui]"
# Web-Oberfläche starten
python webui.py
Besuchen Sie dann http://127.0.0.1:7860 in Ihrem Browser.
Python API-Nutzung
from indextts.infer import IndexTTS
# Modell initialisieren
tts = IndexTTS(model_dir="checkpoints", cfg_path="checkpoints/config.yaml")
# Referenz-Audio und Text festlegen
voice = "reference_voice.wav"
text = "大家好,我现在正在bilibili 体验 ai 科技,说实话,来之前我绝对想不到!AI技术已经发展到这样匪夷所思的地步了!"
# Sprache generieren
tts.infer(voice, text, output_path)
Online-Erfahrung
Projektvorteile
- Industrietaugliche Leistung: Übertrifft gängige TTS-Systeme in mehreren Benchmarks
- Mehrsprachige Unterstützung: Speziell für die chinesische Sprachsynthese optimiert, unterstützt gleichzeitig Englisch
- Flexible Steuerung: Bietet präzise Sprachsteuerungsfähigkeiten
- Einfache Bereitstellung: Bietet verschiedene Nutzungsmethoden und eine vollständige Bereitstellungsdokumentation
- Kontinuierliche Updates: Das Team optimiert und verbessert die Systemleistung kontinuierlich
IndexTTS repräsentiert den aktuellen Stand der Technik im Bereich Text-to-Speech und bietet eine hochwertige und effiziente Lösung für Sprachsyntheseanwendungen.