index-tts/index-tts View GitHub Homepage for Latest Official Releases

IndexTTS 是一個工業級可控高效的零樣本文字轉語音系統，基於 XTTS 和 Tortoise 建構，支援中文拼音糾錯和精確語音控制

NOASSERTIONPythonindex-ttsindex-tts 17.2k Last Updated: December 02, 2025

IndexTTS專案詳細介紹

專案概述

IndexTTS 是一個工業級、可控高效的零樣本文字轉語音系統，主要基於 XTTS 和 Tortoise 建構。該系統採用 GPT 風格的架構，具備強大的語音合成能力，特別針對中文語音合成進行了優化。

核心特性

1. 零樣本語音複製

能夠僅憑少量參考音訊實現高品質的語音複製
支援多語言語音合成，特別是中文和英文

2. 中文拼音糾錯

能夠使用拼音糾正中文字元的發音
採用字元-拼音混合建模方法，快速糾正發音錯誤的字元
有效處理多音字和長尾字元的發音問題

3. 精確語音控制

透過標點符號控制任意位置的停頓
支援語音節奏和韻律的精確控制
提供豐富的語音表現力調節選項

技術架構

模型組件

GPT 風格的文字轉語音模型：基於 Transformer 架構
Conformer 條件編碼器：提升訓練穩定性和語音相似度
BigVGAN2 語音解碼器：優化音訊品質和音色保真度
字元-拼音混合建模：專門針對中文語音合成優化

訓練資料

在數萬小時的資料上進行訓練
涵蓋多種語言和語音風格
包含豐富的中文語音資料集

效能表現

客觀評測指標

詞錯誤率(WER)對比

基於 seed-test 資料集的測試結果：

模型	test_zh	test_en	test_hard
Human	1.26	2.14	-
SeedTTS	1.002	1.945	6.243
CosyVoice 2	1.45	2.57	6.83
F5TTS	1.56	1.83	8.67
IndexTTS	0.937	1.936	6.831
IndexTTS-1.5	0.821	1.606	6.565

說話者相似度(SS)對比

模型	aishell1_test	commonvoice_20_test_zh	commonvoice_20_test_en	librispeech_test_clean	平均
Human	0.846	0.809	0.820	0.858	0.836
CosyVoice 2	0.796	0.743	0.742	0.837	0.788
IndexTTS	0.744	0.742	0.758	0.823	0.776
IndexTTS-1.5	0.741	0.722	0.753	0.819	0.771

主觀評估(MOS)分數

模型	韻律	音色	品質	平均
CosyVoice 2	3.67	4.05	3.73	3.81
F5TTS	3.56	3.88	3.56	3.66
XTTS	3.23	2.99	3.10	3.11
IndexTTS	3.79	4.20	4.05	4.01

安裝與使用

環境配置

# 複製儲存庫
git clone https://github.com/index-tts/index-tts.git

# 建立 conda 環境
conda create -n index-tts python=3.10
conda activate index-tts

# 安裝依賴項
pip install -r requirements.txt
apt-get install ffmpeg

模型下載

# 使用 huggingface-cli 下載
huggingface-cli download IndexTeam/IndexTTS-1.5 \
config.yaml bigvgan_discriminator.pth bigvgan_generator.pth bpe.model dvae.pth gpt.pth unigram_12000.vocab \
--local-dir checkpoints

# 中國用戶可使用鏡像
export HF_ENDPOINT="https://hf-mirror.com"

命令列使用

# 安裝命令列工具
pip install -e .

# 使用範例
indextts "大家好，我現在正在bilibili 體驗 ai 科技，說實話，來之前我絕對想不到！AI技術已經發展到這樣匪夷所思的地步了！" \
--voice reference_voice.wav \
--model_dir checkpoints \
--config checkpoints/config.yaml \
--output output.wav

網頁介面

# 安裝網頁介面依賴項
pip install -e ".[webui]"

# 啟動網頁介面
python webui.py

然後在瀏覽器中存取 http://127.0.0.1:7860

Python API 使用

from indextts.infer import IndexTTS

# 初始化模型
tts = IndexTTS(model_dir="checkpoints", cfg_path="checkpoints/config.yaml")

# 設定參考音訊和文字
voice = "reference_voice.wav"
text = "大家好，我現在正在bilibili 體驗 ai 科技，說實話，來之前我絕對想不到！AI技術已經發展到這樣匪夷所思的地步了！"

# 生成語音
tts.infer(voice, text, output_path)

線上體驗

專案優勢

工業級效能: 在多項評測中超越主流 TTS 系統
多語言支援: 特別優化中文語音合成，同時支援英文
彈性控制: 提供精確的語音控制能力
易於部署: 提供多種使用方式和完整的部署文件
持續更新: 團隊持續優化和改進系統效能

IndexTTS 代表了當前文字轉語音技術的先進水準，為語音合成應用提供了高品質、高效率的解決方案。