index-tts/index-tts View GitHub Homepage for Latest Official Releases

IndexTTS是一个工业级可控高效的零样本文本转语音系统，基于XTTS和Tortoise构建，支持中文拼音纠错和精确语音控制

NOASSERTIONPythonindex-ttsindex-tts 17.2k Last Updated: December 02, 2025

IndexTTS项目详细介绍

项目概述

IndexTTS是一个工业级可控高效的零样本文本转语音系统，主要基于XTTS和Tortoise构建。该系统采用GPT风格的架构，具备强大的语音合成能力，特别针对中文语音合成进行了优化。

核心特性

1. 零样本语音克隆

能够仅凭少量参考音频实现高质量的语音克隆
支持多语言语音合成，特别是中文和英文

2. 中文拼音纠错

能够使用拼音纠正中文字符的发音
采用字符-拼音混合建模方法，快速纠正发音错误的字符
有效处理多音字和长尾字符的发音问题

3. 精确语音控制

通过标点符号控制任意位置的停顿
支持语音节奏和韵律的精确控制
提供丰富的语音表现力调节选项

技术架构

模型组件

GPT风格的文本转语音模型：基于Transformer架构
Conformer条件编码器：提升训练稳定性和语音相似度
BigVGAN2语音解码器：优化音频质量和音色保真度
字符-拼音混合建模：专门针对中文语音合成优化

训练数据

在数万小时的数据上进行训练
涵盖多种语言和语音风格
包含丰富的中文语音数据集

性能表现

客观评测指标

词错误率(WER)对比

基于seed-test数据集的测试结果：

模型	test_zh	test_en	test_hard
Human	1.26	2.14	-
SeedTTS	1.002	1.945	6.243
CosyVoice 2	1.45	2.57	6.83
F5TTS	1.56	1.83	8.67
IndexTTS	0.937	1.936	6.831
IndexTTS-1.5	0.821	1.606	6.565

说话人相似度(SS)对比

模型	aishell1_test	commonvoice_20_test_zh	commonvoice_20_test_en	librispeech_test_clean	平均
Human	0.846	0.809	0.820	0.858	0.836
CosyVoice 2	0.796	0.743	0.742	0.837	0.788
IndexTTS	0.744	0.742	0.758	0.823	0.776
IndexTTS-1.5	0.741	0.722	0.753	0.819	0.771

主观评价(MOS)分数

模型	韵律	音色	质量	平均
CosyVoice 2	3.67	4.05	3.73	3.81
F5TTS	3.56	3.88	3.56	3.66
XTTS	3.23	2.99	3.10	3.11
IndexTTS	3.79	4.20	4.05	4.01

安装和使用

环境配置

# 克隆仓库
git clone https://github.com/index-tts/index-tts.git

# 创建conda环境
conda create -n index-tts python=3.10
conda activate index-tts

# 安装依赖
pip install -r requirements.txt
apt-get install ffmpeg

模型下载

# 使用huggingface-cli下载
huggingface-cli download IndexTeam/IndexTTS-1.5 \
config.yaml bigvgan_discriminator.pth bigvgan_generator.pth bpe.model dvae.pth gpt.pth unigram_12000.vocab \
--local-dir checkpoints

# 中国用户可使用镜像
export HF_ENDPOINT="https://hf-mirror.com"

命令行使用

# 安装命令行工具
pip install -e .

# 使用示例
indextts "大家好，我现在正在bilibili 体验 ai 科技，说实话，来之前我绝对想不到！AI技术已经发展到这样匪夷所思的地步了！" \
--voice reference_voice.wav \
--model_dir checkpoints \
--config checkpoints/config.yaml \
--output output.wav

Web界面

# 安装Web界面依赖
pip install -e ".[webui]"

# 启动Web界面
python webui.py

然后在浏览器中访问 http://127.0.0.1:7860

Python API使用

from indextts.infer import IndexTTS

# 初始化模型
tts = IndexTTS(model_dir="checkpoints", cfg_path="checkpoints/config.yaml")

# 设置参考音频和文本
voice = "reference_voice.wav"
text = "大家好，我现在正在bilibili 体验 ai 科技，说实话，来之前我绝对想不到！AI技术已经发展到这样匪夷所思的地步了！"

# 生成语音
tts.infer(voice, text, output_path)

在线体验

项目优势

工业级性能: 在多项评测中超越主流TTS系统
多语言支持: 特别优化中文语音合成，同时支持英文
灵活控制: 提供精确的语音控制能力
易于部署: 提供多种使用方式和完整的部署文档
持续更新: 团队持续优化和改进系统性能

IndexTTS代表了当前文本转语音技术的先进水平，为语音合成应用提供了高质量、高效率的解决方案。