index-tts/index-ttsPlease refer to the latest official releases for information GitHub Homepage
IndexTTS是一个工业级可控高效的零样本文本转语音系统,基于XTTS和Tortoise构建,支持中文拼音纠错和精确语音控制
Apache-2.0Python 3.6kindex-ttsindex-tts Last Updated: 2025-06-17
IndexTTS项目详细介绍
项目概述
IndexTTS是一个工业级可控高效的零样本文本转语音系统,主要基于XTTS和Tortoise构建。该系统采用GPT风格的架构,具备强大的语音合成能力,特别针对中文语音合成进行了优化。
核心特性
1. 零样本语音克隆
- 能够仅凭少量参考音频实现高质量的语音克隆
- 支持多语言语音合成,特别是中文和英文
2. 中文拼音纠错
- 能够使用拼音纠正中文字符的发音
- 采用字符-拼音混合建模方法,快速纠正发音错误的字符
- 有效处理多音字和长尾字符的发音问题
3. 精确语音控制
- 通过标点符号控制任意位置的停顿
- 支持语音节奏和韵律的精确控制
- 提供丰富的语音表现力调节选项
技术架构
模型组件
- GPT风格的文本转语音模型:基于Transformer架构
- Conformer条件编码器:提升训练稳定性和语音相似度
- BigVGAN2语音解码器:优化音频质量和音色保真度
- 字符-拼音混合建模:专门针对中文语音合成优化
训练数据
- 在数万小时的数据上进行训练
- 涵盖多种语言和语音风格
- 包含丰富的中文语音数据集
性能表现
客观评测指标
词错误率(WER)对比
基于seed-test数据集的测试结果:
模型 | test_zh | test_en | test_hard |
---|---|---|---|
Human | 1.26 | 2.14 | - |
SeedTTS | 1.002 | 1.945 | 6.243 |
CosyVoice 2 | 1.45 | 2.57 | 6.83 |
F5TTS | 1.56 | 1.83 | 8.67 |
IndexTTS | 0.937 | 1.936 | 6.831 |
IndexTTS-1.5 | 0.821 | 1.606 | 6.565 |
说话人相似度(SS)对比
模型 | aishell1_test | commonvoice_20_test_zh | commonvoice_20_test_en | librispeech_test_clean | 平均 |
---|---|---|---|---|---|
Human | 0.846 | 0.809 | 0.820 | 0.858 | 0.836 |
CosyVoice 2 | 0.796 | 0.743 | 0.742 | 0.837 | 0.788 |
IndexTTS | 0.744 | 0.742 | 0.758 | 0.823 | 0.776 |
IndexTTS-1.5 | 0.741 | 0.722 | 0.753 | 0.819 | 0.771 |
主观评价(MOS)分数
模型 | 韵律 | 音色 | 质量 | 平均 |
---|---|---|---|---|
CosyVoice 2 | 3.67 | 4.05 | 3.73 | 3.81 |
F5TTS | 3.56 | 3.88 | 3.56 | 3.66 |
XTTS | 3.23 | 2.99 | 3.10 | 3.11 |
IndexTTS | 3.79 | 4.20 | 4.05 | 4.01 |
安装和使用
环境配置
# 克隆仓库
git clone https://github.com/index-tts/index-tts.git
# 创建conda环境
conda create -n index-tts python=3.10
conda activate index-tts
# 安装依赖
pip install -r requirements.txt
apt-get install ffmpeg
模型下载
# 使用huggingface-cli下载
huggingface-cli download IndexTeam/IndexTTS-1.5 \
config.yaml bigvgan_discriminator.pth bigvgan_generator.pth bpe.model dvae.pth gpt.pth unigram_12000.vocab \
--local-dir checkpoints
# 中国用户可使用镜像
export HF_ENDPOINT="https://hf-mirror.com"
命令行使用
# 安装命令行工具
pip install -e .
# 使用示例
indextts "大家好,我现在正在bilibili 体验 ai 科技,说实话,来之前我绝对想不到!AI技术已经发展到这样匪夷所思的地步了!" \
--voice reference_voice.wav \
--model_dir checkpoints \
--config checkpoints/config.yaml \
--output output.wav
Web界面
# 安装Web界面依赖
pip install -e ".[webui]"
# 启动Web界面
python webui.py
然后在浏览器中访问 http://127.0.0.1:7860
Python API使用
from indextts.infer import IndexTTS
# 初始化模型
tts = IndexTTS(model_dir="checkpoints", cfg_path="checkpoints/config.yaml")
# 设置参考音频和文本
voice = "reference_voice.wav"
text = "大家好,我现在正在bilibili 体验 ai 科技,说实话,来之前我绝对想不到!AI技术已经发展到这样匪夷所思的地步了!"
# 生成语音
tts.infer(voice, text, output_path)
在线体验
项目优势
- 工业级性能: 在多项评测中超越主流TTS系统
- 多语言支持: 特别优化中文语音合成,同时支持英文
- 灵活控制: 提供精确的语音控制能力
- 易于部署: 提供多种使用方式和完整的部署文档
- 持续更新: 团队持续优化和改进系统性能
IndexTTS代表了当前文本转语音技术的先进水平,为语音合成应用提供了高质量、高效率的解决方案。