index-tts/index-ttsPlease refer to the latest official releases for information GitHub Homepage
IndexTTS 是一個工業級可控高效的零樣本文字轉語音系統,基於 XTTS 和 Tortoise 建構,支援中文拼音糾錯和精確語音控制
Apache-2.0Python 3.6kindex-ttsindex-tts Last Updated: 2025-06-17
IndexTTS專案詳細介紹
專案概述
IndexTTS 是一個工業級、可控高效的零樣本文字轉語音系統,主要基於 XTTS 和 Tortoise 建構。該系統採用 GPT 風格的架構,具備強大的語音合成能力,特別針對中文語音合成進行了優化。
核心特性
1. 零樣本語音複製
- 能夠僅憑少量參考音訊實現高品質的語音複製
- 支援多語言語音合成,特別是中文和英文
2. 中文拼音糾錯
- 能夠使用拼音糾正中文字元的發音
- 採用字元-拼音混合建模方法,快速糾正發音錯誤的字元
- 有效處理多音字和長尾字元的發音問題
3. 精確語音控制
- 透過標點符號控制任意位置的停頓
- 支援語音節奏和韻律的精確控制
- 提供豐富的語音表現力調節選項
技術架構
模型組件
- GPT 風格的文字轉語音模型:基於 Transformer 架構
- Conformer 條件編碼器:提升訓練穩定性和語音相似度
- BigVGAN2 語音解碼器:優化音訊品質和音色保真度
- 字元-拼音混合建模:專門針對中文語音合成優化
訓練資料
- 在數萬小時的資料上進行訓練
- 涵蓋多種語言和語音風格
- 包含豐富的中文語音資料集
效能表現
客觀評測指標
詞錯誤率(WER)對比
基於 seed-test 資料集的測試結果:
模型 | test_zh | test_en | test_hard |
---|---|---|---|
Human | 1.26 | 2.14 | - |
SeedTTS | 1.002 | 1.945 | 6.243 |
CosyVoice 2 | 1.45 | 2.57 | 6.83 |
F5TTS | 1.56 | 1.83 | 8.67 |
IndexTTS | 0.937 | 1.936 | 6.831 |
IndexTTS-1.5 | 0.821 | 1.606 | 6.565 |
說話者相似度(SS)對比
模型 | aishell1_test | commonvoice_20_test_zh | commonvoice_20_test_en | librispeech_test_clean | 平均 |
---|---|---|---|---|---|
Human | 0.846 | 0.809 | 0.820 | 0.858 | 0.836 |
CosyVoice 2 | 0.796 | 0.743 | 0.742 | 0.837 | 0.788 |
IndexTTS | 0.744 | 0.742 | 0.758 | 0.823 | 0.776 |
IndexTTS-1.5 | 0.741 | 0.722 | 0.753 | 0.819 | 0.771 |
主觀評估(MOS)分數
模型 | 韻律 | 音色 | 品質 | 平均 |
---|---|---|---|---|
CosyVoice 2 | 3.67 | 4.05 | 3.73 | 3.81 |
F5TTS | 3.56 | 3.88 | 3.56 | 3.66 |
XTTS | 3.23 | 2.99 | 3.10 | 3.11 |
IndexTTS | 3.79 | 4.20 | 4.05 | 4.01 |
安裝與使用
環境配置
# 複製儲存庫
git clone https://github.com/index-tts/index-tts.git
# 建立 conda 環境
conda create -n index-tts python=3.10
conda activate index-tts
# 安裝依賴項
pip install -r requirements.txt
apt-get install ffmpeg
模型下載
# 使用 huggingface-cli 下載
huggingface-cli download IndexTeam/IndexTTS-1.5 \
config.yaml bigvgan_discriminator.pth bigvgan_generator.pth bpe.model dvae.pth gpt.pth unigram_12000.vocab \
--local-dir checkpoints
# 中國用戶可使用鏡像
export HF_ENDPOINT="https://hf-mirror.com"
命令列使用
# 安裝命令列工具
pip install -e .
# 使用範例
indextts "大家好,我現在正在bilibili 體驗 ai 科技,說實話,來之前我絕對想不到!AI技術已經發展到這樣匪夷所思的地步了!" \
--voice reference_voice.wav \
--model_dir checkpoints \
--config checkpoints/config.yaml \
--output output.wav
網頁介面
# 安裝網頁介面依賴項
pip install -e ".[webui]"
# 啟動網頁介面
python webui.py
然後在瀏覽器中存取 http://127.0.0.1:7860
Python API 使用
from indextts.infer import IndexTTS
# 初始化模型
tts = IndexTTS(model_dir="checkpoints", cfg_path="checkpoints/config.yaml")
# 設定參考音訊和文字
voice = "reference_voice.wav"
text = "大家好,我現在正在bilibili 體驗 ai 科技,說實話,來之前我絕對想不到!AI技術已經發展到這樣匪夷所思的地步了!"
# 生成語音
tts.infer(voice, text, output_path)
線上體驗
專案優勢
- 工業級效能: 在多項評測中超越主流 TTS 系統
- 多語言支援: 特別優化中文語音合成,同時支援英文
- 彈性控制: 提供精確的語音控制能力
- 易於部署: 提供多種使用方式和完整的部署文件
- 持續更新: 團隊持續優化和改進系統效能
IndexTTS 代表了當前文字轉語音技術的先進水準,為語音合成應用提供了高品質、高效率的解決方案。