Login

IndexTTS是一个工业级可控高效的零样本文本转语音系统,基于XTTS和Tortoise构建,支持中文拼音纠错和精确语音控制

Apache-2.0Python 3.6kindex-ttsindex-tts Last Updated: 2025-06-17

IndexTTS项目详细介绍

项目概述

IndexTTS是一个工业级可控高效的零样本文本转语音系统,主要基于XTTS和Tortoise构建。该系统采用GPT风格的架构,具备强大的语音合成能力,特别针对中文语音合成进行了优化。

核心特性

1. 零样本语音克隆

  • 能够仅凭少量参考音频实现高质量的语音克隆
  • 支持多语言语音合成,特别是中文和英文

2. 中文拼音纠错

  • 能够使用拼音纠正中文字符的发音
  • 采用字符-拼音混合建模方法,快速纠正发音错误的字符
  • 有效处理多音字和长尾字符的发音问题

3. 精确语音控制

  • 通过标点符号控制任意位置的停顿
  • 支持语音节奏和韵律的精确控制
  • 提供丰富的语音表现力调节选项

技术架构

模型组件

  • GPT风格的文本转语音模型:基于Transformer架构
  • Conformer条件编码器:提升训练稳定性和语音相似度
  • BigVGAN2语音解码器:优化音频质量和音色保真度
  • 字符-拼音混合建模:专门针对中文语音合成优化

训练数据

  • 在数万小时的数据上进行训练
  • 涵盖多种语言和语音风格
  • 包含丰富的中文语音数据集

性能表现

客观评测指标

词错误率(WER)对比

基于seed-test数据集的测试结果:

模型 test_zh test_en test_hard
Human 1.26 2.14 -
SeedTTS 1.002 1.945 6.243
CosyVoice 2 1.45 2.57 6.83
F5TTS 1.56 1.83 8.67
IndexTTS 0.937 1.936 6.831
IndexTTS-1.5 0.821 1.606 6.565

说话人相似度(SS)对比

模型 aishell1_test commonvoice_20_test_zh commonvoice_20_test_en librispeech_test_clean 平均
Human 0.846 0.809 0.820 0.858 0.836
CosyVoice 2 0.796 0.743 0.742 0.837 0.788
IndexTTS 0.744 0.742 0.758 0.823 0.776
IndexTTS-1.5 0.741 0.722 0.753 0.819 0.771

主观评价(MOS)分数

模型 韵律 音色 质量 平均
CosyVoice 2 3.67 4.05 3.73 3.81
F5TTS 3.56 3.88 3.56 3.66
XTTS 3.23 2.99 3.10 3.11
IndexTTS 3.79 4.20 4.05 4.01

安装和使用

环境配置

# 克隆仓库
git clone https://github.com/index-tts/index-tts.git

# 创建conda环境
conda create -n index-tts python=3.10
conda activate index-tts

# 安装依赖
pip install -r requirements.txt
apt-get install ffmpeg

模型下载

# 使用huggingface-cli下载
huggingface-cli download IndexTeam/IndexTTS-1.5 \
config.yaml bigvgan_discriminator.pth bigvgan_generator.pth bpe.model dvae.pth gpt.pth unigram_12000.vocab \
--local-dir checkpoints

# 中国用户可使用镜像
export HF_ENDPOINT="https://hf-mirror.com"

命令行使用

# 安装命令行工具
pip install -e .

# 使用示例
indextts "大家好,我现在正在bilibili 体验 ai 科技,说实话,来之前我绝对想不到!AI技术已经发展到这样匪夷所思的地步了!" \
--voice reference_voice.wav \
--model_dir checkpoints \
--config checkpoints/config.yaml \
--output output.wav

Web界面

# 安装Web界面依赖
pip install -e ".[webui]"

# 启动Web界面
python webui.py

然后在浏览器中访问 http://127.0.0.1:7860

Python API使用

from indextts.infer import IndexTTS

# 初始化模型
tts = IndexTTS(model_dir="checkpoints", cfg_path="checkpoints/config.yaml")

# 设置参考音频和文本
voice = "reference_voice.wav"
text = "大家好,我现在正在bilibili 体验 ai 科技,说实话,来之前我绝对想不到!AI技术已经发展到这样匪夷所思的地步了!"

# 生成语音
tts.infer(voice, text, output_path)

在线体验

项目优势

  1. 工业级性能: 在多项评测中超越主流TTS系统
  2. 多语言支持: 特别优化中文语音合成,同时支持英文
  3. 灵活控制: 提供精确的语音控制能力
  4. 易于部署: 提供多种使用方式和完整的部署文档
  5. 持续更新: 团队持续优化和改进系统性能

IndexTTS代表了当前文本转语音技术的先进水平,为语音合成应用提供了高质量、高效率的解决方案。

Star History Chart