Login

IndexTTS ist ein industrietaugliches, steuerbares und hocheffizientes Zero-Shot-Text-to-Speech-System, das auf XTTS und Tortoise basiert und chinesische Pinyin-Fehlerkorrektur und präzise Sprachsteuerung unterstützt.

Apache-2.0Python 3.6kindex-ttsindex-tts Last Updated: 2025-06-17

Detaillierte Vorstellung des IndexTTS-Projekts

Projektübersicht

IndexTTS ist ein industrietaugliches, steuerbares und effizientes Zero-Shot-Text-to-Speech-System, das hauptsächlich auf XTTS und Tortoise basiert. Das System verwendet eine GPT-ähnliche Architektur und verfügt über leistungsstarke Sprachsynthesefähigkeiten, die speziell für die chinesische Sprachsynthese optimiert wurden.

Kernfunktionen

1. Zero-Shot-Sprachklonung

  • Ermöglicht hochwertige Sprachklonung mit nur wenigen Referenz-Audiodaten
  • Unterstützt mehrsprachige Sprachsynthese, insbesondere Chinesisch und Englisch

2. Pinyin-Korrektur für Chinesisch

  • Kann die Aussprache chinesischer Zeichen mithilfe von Pinyin korrigieren
  • Verwendet eine Zeichen-Pinyin-Hybridmodellierungsmethode, um falsch ausgesprochene Zeichen schnell zu korrigieren
  • Behandelt effektiv Ausspracheprobleme bei Polyphonen und Long-Tail-Zeichen

3. Präzise Sprachsteuerung

  • Steuerung von Pausen an beliebigen Stellen durch Satzzeichen
  • Unterstützt präzise Steuerung von Sprachrhythmus und Prosodie
  • Bietet umfangreiche Optionen zur Anpassung des sprachlichen Ausdrucks

Technische Architektur

Modellkomponenten

  • GPT-ähnliches Text-to-Speech-Modell: Basierend auf der Transformer-Architektur
  • Conformer-Konditional-Encoder: Verbessert die Trainingsstabilität und Sprachähnlichkeit
  • BigVGAN2-Sprach-Decoder: Optimiert die Audioqualität und Klangfarbentreue
  • Zeichen-Pinyin-Hybridmodellierung: Speziell für die chinesische Sprachsynthese optimiert

Trainingsdaten

  • Trainiert auf Zehntausenden von Stunden an Daten
  • Umfasst verschiedene Sprachen und Sprachstile
  • Enthält umfangreiche chinesische Sprachdatensätze

Leistungsmerkmale

Objektive Bewertungsmetriken

Vergleich der Wortfehlerrate (WER)

Testergebnisse basierend auf dem seed-test-Datensatz:

Modell test_zh test_en test_hard
Human 1.26 2.14 -
SeedTTS 1.002 1.945 6.243
CosyVoice 2 1.45 2.57 6.83
F5TTS 1.56 1.83 8.67
IndexTTS 0.937 1.936 6.831
IndexTTS-1.5 0.821 1.606 6.565

Vergleich der Sprecherähnlichkeit (SS)

Modell aishell1_test commonvoice_20_test_zh commonvoice_20_test_en librispeech_test_clean Durchschnitt
Human 0.846 0.809 0.820 0.858 0.836
CosyVoice 2 0.796 0.743 0.742 0.837 0.788
IndexTTS 0.744 0.742 0.758 0.823 0.776
IndexTTS-1.5 0.741 0.722 0.753 0.819 0.771

Subjektive Bewertung (MOS)

Modell Prosodie Klangfarbe Qualität Durchschnitt
CosyVoice 2 3.67 4.05 3.73 3.81
F5TTS 3.56 3.88 3.56 3.66
XTTS 3.23 2.99 3.10 3.11
IndexTTS 3.79 4.20 4.05 4.01

Installation und Nutzung

Umgebungskonfiguration

# Repository klonen
git clone https://github.com/index-tts/index-tts.git

# Conda-Umgebung erstellen
conda create -n index-tts python=3.10
conda activate index-tts

# Abhängigkeiten installieren
pip install -r requirements.txt
apt-get install ffmpeg

Modell-Download

# Mit huggingface-cli herunterladen
huggingface-cli download IndexTeam/IndexTTS-1.5 \
config.yaml bigvgan_discriminator.pth bigvgan_generator.pth bpe.model dvae.pth gpt.pth unigram_12000.vocab \
--local-dir checkpoints

# Chinesische Benutzer können einen Spiegelserver verwenden
export HF_ENDPOINT="https://hf-mirror.com"

Befehlszeilennutzung

# Befehlszeilentool installieren
pip install -e .

# Anwendungsbeispiel
indextts "大家好,我现在正在bilibili 体验 ai 科技,说实话,来之前我绝对想不到!AI技术已经发展到这样匪夷所思的地步了!" \
--voice reference_voice.wav \
--model_dir checkpoints \
--config checkpoints/config.yaml \
--output output.wav

Web-Oberfläche

# Abhängigkeiten der Web-Oberfläche installieren
pip install -e ".[webui]"

# Web-Oberfläche starten
python webui.py

Besuchen Sie dann http://127.0.0.1:7860 in Ihrem Browser.

Python API-Nutzung

from indextts.infer import IndexTTS

# Modell initialisieren
tts = IndexTTS(model_dir="checkpoints", cfg_path="checkpoints/config.yaml")

# Referenz-Audio und Text festlegen
voice = "reference_voice.wav"
text = "大家好,我现在正在bilibili 体验 ai 科技,说实话,来之前我绝对想不到!AI技术已经发展到这样匪夷所思的地步了!"

# Sprache generieren
tts.infer(voice, text, output_path)

Online-Erfahrung

Projektvorteile

  1. Industrietaugliche Leistung: Übertrifft gängige TTS-Systeme in mehreren Benchmarks
  2. Mehrsprachige Unterstützung: Speziell für die chinesische Sprachsynthese optimiert, unterstützt gleichzeitig Englisch
  3. Flexible Steuerung: Bietet präzise Sprachsteuerungsfähigkeiten
  4. Einfache Bereitstellung: Bietet verschiedene Nutzungsmethoden und eine vollständige Bereitstellungsdokumentation
  5. Kontinuierliche Updates: Das Team optimiert und verbessert die Systemleistung kontinuierlich

IndexTTS repräsentiert den aktuellen Stand der Technik im Bereich Text-to-Speech und bietet eine hochwertige und effiziente Lösung für Sprachsyntheseanwendungen.

Star History Chart