index-tts/index-tts View GitHub Homepage for Latest Official Releases

IndexTTS é um sistema de conversão de texto em voz de nível industrial, controlável e eficiente, com zero-shot, construído com base em XTTS e Tortoise, que suporta correção de pinyin chinês e controle de voz preciso.

NOASSERTIONPythonindex-ttsindex-tts 17.2k Last Updated: December 02, 2025

Detalhes do Projeto IndexTTS

Visão Geral do Projeto

IndexTTS é um sistema de texto para fala (TTS) de nível industrial, controlável, eficiente e de amostra zero, construído principalmente com base em XTTS e Tortoise. O sistema adota uma arquitetura estilo GPT, possuindo poderosas capacidades de síntese de voz, com otimização especial para a síntese de voz em chinês.

Principais Características

1. Clonagem de Voz de Amostra Zero

Capaz de realizar clonagem de voz de alta qualidade com apenas um pequeno número de áudios de referência
Suporta síntese de voz multilíngue, especialmente chinês e inglês

2. Correção de Pinyin Chinês

Capaz de usar pinyin para corrigir a pronúncia de caracteres chineses
Adota um método de modelagem híbrida caractere-pinyin para corrigir rapidamente caracteres com pronúncia incorreta
Lida eficazmente com problemas de pronúncia de caracteres polissêmicos e de cauda longa

3. Controle Preciso da Voz

Controla pausas em qualquer posição através de pontuação
Suporta controle preciso do ritmo e prosódia da voz
Oferece uma ampla gama de opções de ajuste para expressividade vocal

Arquitetura Técnica

Componentes do Modelo

Modelo de Texto para Fala estilo GPT: Baseado na arquitetura Transformer
Codificador Condicional Conformer: Melhora a estabilidade do treinamento e a similaridade da voz
Decodificador de Voz BigVGAN2: Otimiza a qualidade do áudio e a fidelidade do timbre
Modelagem Híbrida Caractere-Pinyin: Otimizada especificamente para a síntese de voz em chinês

Dados de Treinamento

Treinado em dezenas de milhares de horas de dados
Abrange múltiplos idiomas e estilos de voz
Inclui um rico conjunto de dados de voz em chinês

Desempenho

Métricas de Avaliação Objetivas

Comparação da Taxa de Erro de Palavras (WER)

Resultados do teste baseados no conjunto de dados seed-test:

Modelo	test_zh	test_en	test_hard
Humano	1.26	2.14	-
SeedTTS	1.002	1.945	6.243
CosyVoice 2	1.45	2.57	6.83
F5TTS	1.56	1.83	8.67
IndexTTS	0.937	1.936	6.831
IndexTTS-1.5	0.821	1.606	6.565

Comparação da Similaridade do Locutor (SS)

Modelo	aishell1_test	commonvoice_20_test_zh	commonvoice_20_test_en	librispeech_test_clean	Média
Humano	0.846	0.809	0.820	0.858	0.836
CosyVoice 2	0.796	0.743	0.742	0.837	0.788
IndexTTS	0.744	0.742	0.758	0.823	0.776
IndexTTS-1.5	0.741	0.722	0.753	0.819	0.771

Pontuação de Avaliação Subjetiva (MOS)

Modelo	Prosódia	Timbre	Qualidade	Média
CosyVoice 2	3.67	4.05	3.73	3.81
F5TTS	3.56	3.88	3.56	3.66
XTTS	3.23	2.99	3.10	3.11
IndexTTS	3.79	4.20	4.05	4.01

Instalação e Uso

Configuração do Ambiente

# Clonar o repositório
git clone https://github.com/index-tts/index-tts.git

# Criar ambiente conda
conda create -n index-tts python=3.10
conda activate index-tts

# Instalar dependências
pip install -r requirements.txt
apt-get install ffmpeg

Download do Modelo

# Usar huggingface-cli para baixar
huggingface-cli download IndexTeam/IndexTTS-1.5 \
config.yaml bigvgan_discriminator.pth bigvgan_generator.pth bpe.model dvae.pth gpt.pth unigram_12000.vocab \
--local-dir checkpoints

# Usuários na China podem usar o espelho
export HF_ENDPOINT="https://hf-mirror.com"

Uso via Linha de Comando

# Instalar a ferramenta de linha de comando
pip install -e .

# Exemplo de uso
indextts "Olá a todos, estou agora no bilibili a experimentar a tecnologia de IA, para ser honesto, antes de vir, eu nunca teria imaginado! A tecnologia de IA desenvolveu-se a um ponto tão inacreditável!" \
--voice reference_voice.wav \
--model_dir checkpoints \
--config checkpoints/config.yaml \
--output output.wav

Interface Web

# Instalar dependências da interface web
pip install -e ".[webui]"

# Iniciar a interface web
python webui.py

Em seguida, acesse http://127.0.0.1:7860 no seu navegador.

Uso da API Python

from indextts.infer import IndexTTS

# Inicializar o modelo
tts = IndexTTS(model_dir="checkpoints", cfg_path="checkpoints/config.yaml")

# Definir áudio de referência e texto
voice = "reference_voice.wav"
text = "Olá a todos, estou agora no bilibili a experimentar a tecnologia de IA, para ser honesto, antes de vir, eu nunca teria imaginado! A tecnologia de IA desenvolveu-se a um ponto tão inacreditável!"

# Gerar voz
tts.infer(voice, text, output_path)

Experiência Online

Vantagens do Projeto

Desempenho de Nível Industrial: Supera os sistemas TTS convencionais em várias avaliações.
Suporte Multilíngue: Otimizado especialmente para síntese de voz em chinês, com suporte também para inglês.
Controle Flexível: Oferece capacidades de controle de voz precisas.
Fácil Implantação: Fornece múltiplos métodos de uso e documentação de implantação completa.
Atualizações Contínuas: A equipe otimiza e melhora continuamente o desempenho do sistema.

IndexTTS representa o nível avançado da tecnologia atual de texto para fala, fornecendo uma solução de alta qualidade e alta eficiência para aplicações de síntese de voz.