Login

IndexTTS é um sistema de conversão de texto em voz de nível industrial, controlável e eficiente, com zero-shot, construído com base em XTTS e Tortoise, que suporta correção de pinyin chinês e controle de voz preciso.

Apache-2.0Python 3.6kindex-ttsindex-tts Last Updated: 2025-06-17

Detalhes do Projeto IndexTTS

Visão Geral do Projeto

IndexTTS é um sistema de texto para fala (TTS) de nível industrial, controlável, eficiente e de amostra zero, construído principalmente com base em XTTS e Tortoise. O sistema adota uma arquitetura estilo GPT, possuindo poderosas capacidades de síntese de voz, com otimização especial para a síntese de voz em chinês.

Principais Características

1. Clonagem de Voz de Amostra Zero

  • Capaz de realizar clonagem de voz de alta qualidade com apenas um pequeno número de áudios de referência
  • Suporta síntese de voz multilíngue, especialmente chinês e inglês

2. Correção de Pinyin Chinês

  • Capaz de usar pinyin para corrigir a pronúncia de caracteres chineses
  • Adota um método de modelagem híbrida caractere-pinyin para corrigir rapidamente caracteres com pronúncia incorreta
  • Lida eficazmente com problemas de pronúncia de caracteres polissêmicos e de cauda longa

3. Controle Preciso da Voz

  • Controla pausas em qualquer posição através de pontuação
  • Suporta controle preciso do ritmo e prosódia da voz
  • Oferece uma ampla gama de opções de ajuste para expressividade vocal

Arquitetura Técnica

Componentes do Modelo

  • Modelo de Texto para Fala estilo GPT: Baseado na arquitetura Transformer
  • Codificador Condicional Conformer: Melhora a estabilidade do treinamento e a similaridade da voz
  • Decodificador de Voz BigVGAN2: Otimiza a qualidade do áudio e a fidelidade do timbre
  • Modelagem Híbrida Caractere-Pinyin: Otimizada especificamente para a síntese de voz em chinês

Dados de Treinamento

  • Treinado em dezenas de milhares de horas de dados
  • Abrange múltiplos idiomas e estilos de voz
  • Inclui um rico conjunto de dados de voz em chinês

Desempenho

Métricas de Avaliação Objetivas

Comparação da Taxa de Erro de Palavras (WER)

Resultados do teste baseados no conjunto de dados seed-test:

Modelo test_zh test_en test_hard
Humano 1.26 2.14 -
SeedTTS 1.002 1.945 6.243
CosyVoice 2 1.45 2.57 6.83
F5TTS 1.56 1.83 8.67
IndexTTS 0.937 1.936 6.831
IndexTTS-1.5 0.821 1.606 6.565

Comparação da Similaridade do Locutor (SS)

Modelo aishell1_test commonvoice_20_test_zh commonvoice_20_test_en librispeech_test_clean Média
Humano 0.846 0.809 0.820 0.858 0.836
CosyVoice 2 0.796 0.743 0.742 0.837 0.788
IndexTTS 0.744 0.742 0.758 0.823 0.776
IndexTTS-1.5 0.741 0.722 0.753 0.819 0.771

Pontuação de Avaliação Subjetiva (MOS)

Modelo Prosódia Timbre Qualidade Média
CosyVoice 2 3.67 4.05 3.73 3.81
F5TTS 3.56 3.88 3.56 3.66
XTTS 3.23 2.99 3.10 3.11
IndexTTS 3.79 4.20 4.05 4.01

Instalação e Uso

Configuração do Ambiente

# Clonar o repositório
git clone https://github.com/index-tts/index-tts.git

# Criar ambiente conda
conda create -n index-tts python=3.10
conda activate index-tts

# Instalar dependências
pip install -r requirements.txt
apt-get install ffmpeg

Download do Modelo

# Usar huggingface-cli para baixar
huggingface-cli download IndexTeam/IndexTTS-1.5 \
config.yaml bigvgan_discriminator.pth bigvgan_generator.pth bpe.model dvae.pth gpt.pth unigram_12000.vocab \
--local-dir checkpoints

# Usuários na China podem usar o espelho
export HF_ENDPOINT="https://hf-mirror.com"

Uso via Linha de Comando

# Instalar a ferramenta de linha de comando
pip install -e .

# Exemplo de uso
indextts "Olá a todos, estou agora no bilibili a experimentar a tecnologia de IA, para ser honesto, antes de vir, eu nunca teria imaginado! A tecnologia de IA desenvolveu-se a um ponto tão inacreditável!" \
--voice reference_voice.wav \
--model_dir checkpoints \
--config checkpoints/config.yaml \
--output output.wav

Interface Web

# Instalar dependências da interface web
pip install -e ".[webui]"

# Iniciar a interface web
python webui.py

Em seguida, acesse http://127.0.0.1:7860 no seu navegador.

Uso da API Python

from indextts.infer import IndexTTS

# Inicializar o modelo
tts = IndexTTS(model_dir="checkpoints", cfg_path="checkpoints/config.yaml")

# Definir áudio de referência e texto
voice = "reference_voice.wav"
text = "Olá a todos, estou agora no bilibili a experimentar a tecnologia de IA, para ser honesto, antes de vir, eu nunca teria imaginado! A tecnologia de IA desenvolveu-se a um ponto tão inacreditável!"

# Gerar voz
tts.infer(voice, text, output_path)

Experiência Online

Vantagens do Projeto

  1. Desempenho de Nível Industrial: Supera os sistemas TTS convencionais em várias avaliações.
  2. Suporte Multilíngue: Otimizado especialmente para síntese de voz em chinês, com suporte também para inglês.
  3. Controle Flexível: Oferece capacidades de controle de voz precisas.
  4. Fácil Implantação: Fornece múltiplos métodos de uso e documentação de implantação completa.
  5. Atualizações Contínuas: A equipe otimiza e melhora continuamente o desempenho do sistema.

IndexTTS representa o nível avançado da tecnologia atual de texto para fala, fornecendo uma solução de alta qualidade e alta eficiência para aplicações de síntese de voz.

Star History Chart