Login

IndexTTS es un sistema de texto a voz de nivel industrial, controlable y eficiente, con cero ejemplos, basado en XTTS y Tortoise, que admite la corrección de errores de pinyin chino y el control preciso de la voz.

Apache-2.0Python 3.6kindex-ttsindex-tts Last Updated: 2025-06-17

Descripción Detallada del Proyecto IndexTTS

Resumen del Proyecto

IndexTTS es un sistema de texto a voz (TTS) de nivel industrial, controlable, eficiente y de cero-shot, construido principalmente sobre XTTS y Tortoise. Este sistema adopta una arquitectura estilo GPT, poseyendo potentes capacidades de síntesis de voz, y ha sido optimizado especialmente para la síntesis de voz en chino.

Características Principales

1. Clonación de Voz de Cero-Shot

  • Capaz de lograr clonación de voz de alta calidad con solo unas pocas muestras de audio de referencia.
  • Soporta síntesis de voz multilingüe, especialmente en chino e inglés.

2. Corrección de Pinyin en Chino

  • Capaz de corregir la pronunciación de caracteres chinos usando pinyin.
  • Adopta un método de modelado híbrido carácter-pinyin para corregir rápidamente los caracteres con pronunciación incorrecta.
  • Maneja eficazmente los problemas de pronunciación de caracteres con múltiples sonidos (多音字) y caracteres de cola larga (长尾字符).

3. Control Preciso de la Voz

  • Controla las pausas en cualquier posición mediante signos de puntuación.
  • Soporta el control preciso del ritmo y la prosodia de la voz.
  • Ofrece una amplia gama de opciones para ajustar la expresividad de la voz.

Arquitectura Técnica

Componentes del Modelo

  • Modelo de texto a voz estilo GPT: Basado en la arquitectura Transformer.
  • Codificador condicional Conformer: Mejora la estabilidad del entrenamiento y la similitud de la voz.
  • Decodificador de voz BigVGAN2: Optimiza la calidad del audio y la fidelidad del timbre.
  • Modelado híbrido carácter-pinyin: Optimizado específicamente para la síntesis de voz en chino.

Datos de Entrenamiento

  • Entrenado con decenas de miles de horas de datos.
  • Cubre múltiples idiomas y estilos de voz.
  • Incluye un rico conjunto de datos de voz en chino.

Rendimiento

Métricas de Evaluación Objetivas

Comparación de la Tasa de Error de Palabra (WER)

Resultados de las pruebas basados en el conjunto de datos seed-test:

Modelo test_zh test_en test_hard
Human 1.26 2.14 -
SeedTTS 1.002 1.945 6.243
CosyVoice 2 1.45 2.57 6.83
F5TTS 1.56 1.83 8.67
IndexTTS 0.937 1.936 6.831
IndexTTS-1.5 0.821 1.606 6.565

Comparación de la Similitud del Hablante (SS)

Modelo aishell1_test commonvoice_20_test_zh commonvoice_20_test_en librispeech_test_clean Promedio
Human 0.846 0.809 0.820 0.858 0.836
CosyVoice 2 0.796 0.743 0.742 0.837 0.788
IndexTTS 0.744 0.742 0.758 0.823 0.776
IndexTTS-1.5 0.741 0.722 0.753 0.819 0.771

Puntuación de Evaluación Subjetiva (MOS)

Modelo Prosodia Timbre Calidad Promedio
CosyVoice 2 3.67 4.05 3.73 3.81
F5TTS 3.56 3.88 3.56 3.66
XTTS 3.23 2.99 3.10 3.11
IndexTTS 3.79 4.20 4.05 4.01

Instalación y Uso

Configuración del Entorno

# Clonar el repositorio
git clone https://github.com/index-tts/index-tts.git

# Crear entorno conda
conda create -n index-tts python=3.10
conda activate index-tts

# Instalar dependencias
pip install -r requirements.txt
apt-get install ffmpeg

Descarga del Modelo

# Descargar usando huggingface-cli
huggingface-cli download IndexTeam/IndexTTS-1.5 \
config.yaml bigvgan_discriminator.pth bigvgan_generator.pth bpe.model dvae.pth gpt.pth unigram_12000.vocab \
--local-dir checkpoints

# Los usuarios en China pueden usar el mirror
export HF_ENDPOINT="https://hf-mirror.com"

Uso por Línea de Comandos

# Instalar la herramienta de línea de comandos
pip install -e .

# Ejemplo de uso
indextts "大家好,我现在正在bilibili 体验 ai 科技,说实话,来之前我绝对想不到!AI技术已经发展到这样匪夷所思的地步了!" \
--voice reference_voice.wav \
--model_dir checkpoints \
--config checkpoints/config.yaml \
--output output.wav

Interfaz Web

# Instalar dependencias de la interfaz web
pip install -e ".[webui]"

# Iniciar la interfaz web
python webui.py

Luego, accede a http://127.0.0.1:7860 en tu navegador.

Uso de la API de Python

from indextts.infer import IndexTTS

# Inicializar el modelo
tts = IndexTTS(model_dir="checkpoints", cfg_path="checkpoints/config.yaml")

# Establecer audio de referencia y texto
voice = "reference_voice.wav"
text = "大家好,我现在正在bilibili 体验 ai 科技,说实话,来之前我绝对想不到!AI技术已经发展到这样匪夷所思的地步了!"

# Generar voz
tts.infer(voice, text, output_path)

Demostración en Línea

Ventajas del Proyecto

  1. Rendimiento a nivel industrial: Supera a los sistemas TTS convencionales en múltiples evaluaciones.
  2. Soporte multilingüe: Optimizado especialmente para la síntesis de voz en chino, con soporte también para inglés.
  3. Control flexible: Ofrece capacidades de control de voz precisas.
  4. Fácil de implementar: Proporciona múltiples métodos de uso y documentación completa para la implementación.
  5. Actualizaciones continuas: El equipo optimiza y mejora continuamente el rendimiento del sistema.

IndexTTS representa el nivel avanzado actual de la tecnología de texto a voz, proporcionando una solución de alta calidad y eficiencia para aplicaciones de síntesis de voz.

Star History Chart