index-tts/index-tts View GitHub Homepage for Latest Official Releases

IndexTTS ist ein industrietaugliches, steuerbares und hocheffizientes Zero-Shot-Text-to-Speech-System, das auf XTTS und Tortoise basiert und chinesische Pinyin-Fehlerkorrektur und präzise Sprachsteuerung unterstützt.

NOASSERTIONPythonindex-ttsindex-tts 17.2k Last Updated: December 02, 2025

Detaillierte Vorstellung des IndexTTS-Projekts

Projektübersicht

IndexTTS ist ein industrietaugliches, steuerbares und effizientes Zero-Shot-Text-to-Speech-System, das hauptsächlich auf XTTS und Tortoise basiert. Das System verwendet eine GPT-ähnliche Architektur und verfügt über leistungsstarke Sprachsynthesefähigkeiten, die speziell für die chinesische Sprachsynthese optimiert wurden.

Kernfunktionen

1. Zero-Shot-Sprachklonung

Ermöglicht hochwertige Sprachklonung mit nur wenigen Referenz-Audiodaten
Unterstützt mehrsprachige Sprachsynthese, insbesondere Chinesisch und Englisch

2. Pinyin-Korrektur für Chinesisch

Kann die Aussprache chinesischer Zeichen mithilfe von Pinyin korrigieren
Verwendet eine Zeichen-Pinyin-Hybridmodellierungsmethode, um falsch ausgesprochene Zeichen schnell zu korrigieren
Behandelt effektiv Ausspracheprobleme bei Polyphonen und Long-Tail-Zeichen

3. Präzise Sprachsteuerung

Steuerung von Pausen an beliebigen Stellen durch Satzzeichen
Unterstützt präzise Steuerung von Sprachrhythmus und Prosodie
Bietet umfangreiche Optionen zur Anpassung des sprachlichen Ausdrucks

Technische Architektur

Modellkomponenten

GPT-ähnliches Text-to-Speech-Modell: Basierend auf der Transformer-Architektur
Conformer-Konditional-Encoder: Verbessert die Trainingsstabilität und Sprachähnlichkeit
BigVGAN2-Sprach-Decoder: Optimiert die Audioqualität und Klangfarbentreue
Zeichen-Pinyin-Hybridmodellierung: Speziell für die chinesische Sprachsynthese optimiert

Trainingsdaten

Trainiert auf Zehntausenden von Stunden an Daten
Umfasst verschiedene Sprachen und Sprachstile
Enthält umfangreiche chinesische Sprachdatensätze

Leistungsmerkmale

Objektive Bewertungsmetriken

Vergleich der Wortfehlerrate (WER)

Testergebnisse basierend auf dem seed-test-Datensatz:

Modell	test_zh	test_en	test_hard
Human	1.26	2.14	-
SeedTTS	1.002	1.945	6.243
CosyVoice 2	1.45	2.57	6.83
F5TTS	1.56	1.83	8.67
IndexTTS	0.937	1.936	6.831
IndexTTS-1.5	0.821	1.606	6.565

Vergleich der Sprecherähnlichkeit (SS)

Modell	aishell1_test	commonvoice_20_test_zh	commonvoice_20_test_en	librispeech_test_clean	Durchschnitt
Human	0.846	0.809	0.820	0.858	0.836
CosyVoice 2	0.796	0.743	0.742	0.837	0.788
IndexTTS	0.744	0.742	0.758	0.823	0.776
IndexTTS-1.5	0.741	0.722	0.753	0.819	0.771

Subjektive Bewertung (MOS)

Modell	Prosodie	Klangfarbe	Qualität	Durchschnitt
CosyVoice 2	3.67	4.05	3.73	3.81
F5TTS	3.56	3.88	3.56	3.66
XTTS	3.23	2.99	3.10	3.11
IndexTTS	3.79	4.20	4.05	4.01

Installation und Nutzung

Umgebungskonfiguration

# Repository klonen
git clone https://github.com/index-tts/index-tts.git

# Conda-Umgebung erstellen
conda create -n index-tts python=3.10
conda activate index-tts

# Abhängigkeiten installieren
pip install -r requirements.txt
apt-get install ffmpeg

Modell-Download

# Mit huggingface-cli herunterladen
huggingface-cli download IndexTeam/IndexTTS-1.5 \
config.yaml bigvgan_discriminator.pth bigvgan_generator.pth bpe.model dvae.pth gpt.pth unigram_12000.vocab \
--local-dir checkpoints

# Chinesische Benutzer können einen Spiegelserver verwenden
export HF_ENDPOINT="https://hf-mirror.com"

Befehlszeilennutzung

# Befehlszeilentool installieren
pip install -e .

# Anwendungsbeispiel
indextts "大家好，我现在正在bilibili 体验 ai 科技，说实话，来之前我绝对想不到！AI技术已经发展到这样匪夷所思的地步了！" \
--voice reference_voice.wav \
--model_dir checkpoints \
--config checkpoints/config.yaml \
--output output.wav

Web-Oberfläche

# Abhängigkeiten der Web-Oberfläche installieren
pip install -e ".[webui]"

# Web-Oberfläche starten
python webui.py

Besuchen Sie dann http://127.0.0.1:7860 in Ihrem Browser.

Python API-Nutzung

from indextts.infer import IndexTTS

# Modell initialisieren
tts = IndexTTS(model_dir="checkpoints", cfg_path="checkpoints/config.yaml")

# Referenz-Audio und Text festlegen
voice = "reference_voice.wav"
text = "大家好，我现在正在bilibili 体验 ai 科技，说实话，来之前我绝对想不到！AI技术已经发展到这样匪夷所思的地步了！"

# Sprache generieren
tts.infer(voice, text, output_path)

Online-Erfahrung

Projektvorteile

Industrietaugliche Leistung: Übertrifft gängige TTS-Systeme in mehreren Benchmarks
Mehrsprachige Unterstützung: Speziell für die chinesische Sprachsynthese optimiert, unterstützt gleichzeitig Englisch
Flexible Steuerung: Bietet präzise Sprachsteuerungsfähigkeiten
Einfache Bereitstellung: Bietet verschiedene Nutzungsmethoden und eine vollständige Bereitstellungsdokumentation
Kontinuierliche Updates: Das Team optimiert und verbessert die Systemleistung kontinuierlich

IndexTTS repräsentiert den aktuellen Stand der Technik im Bereich Text-to-Speech und bietet eine hochwertige und effiziente Lösung für Sprachsyntheseanwendungen.