Login

IndexTTSは、XTTSとTortoiseをベースにした、産業レベルで制御可能かつ高効率なゼロショットテキスト音声合成システムです。中国語のピンイン修正と正確な音声制御をサポートしています。

Apache-2.0Python 3.6kindex-ttsindex-tts Last Updated: 2025-06-17

IndexTTSプロジェクト詳細紹介

プロジェクト概要

IndexTTSは、XTTSとTortoiseをベースに構築された、産業レベルの制御可能で高効率なゼロショットテキスト音声合成システムです。このシステムはGPTスタイルのアーキテクチャを採用し、強力な音声合成能力を備えており、特に中国語の音声合成に最適化されています。

コア機能

1. ゼロショット音声クローン

  • わずかな参照音声のみで高品質な音声クローンを実現可能
  • 多言語音声合成、特に中国語と英語に対応

2. 中国語ピンイン誤り訂正

  • ピンインを使用して中国語文字の発音を訂正可能
  • 文字-ピンイン混合モデリング手法を採用し、発音間違いのある文字を迅速に訂正
  • 多音字やロングテール文字の発音問題を効果的に処理

3. 正確な音声制御

  • 句読点を通じて任意の場所でのポーズを制御
  • 音声のリズムとイントネーションの正確な制御をサポート
  • 豊富な音声表現力調整オプションを提供

技術アーキテクチャ

モデルコンポーネント

  • GPTスタイルのテキスト音声合成モデル: Transformerアーキテクチャに基づく
  • Conformer条件エンコーダ: トレーニングの安定性と音声類似度を向上
  • BigVGAN2音声デコーダ: オーディオ品質と音色忠実度を最適化
  • 文字-ピンイン混合モデリング: 中国語音声合成に特化して最適化

トレーニングデータ

  • 数万時間のデータでトレーニング
  • 多様な言語と音声スタイルをカバー
  • 豊富な中国語音声データセットを含む

性能評価

客観評価指標

単語誤り率 (WER) 比較

seed-testデータセットに基づくテスト結果:

モデル test_zh test_en test_hard
Human 1.26 2.14 -
SeedTTS 1.002 1.945 6.243
CosyVoice 2 1.45 2.57 6.83
F5TTS 1.56 1.83 8.67
IndexTTS 0.937 1.936 6.831
IndexTTS-1.5 0.821 1.606 6.565

話者類似度 (SS) 比較

モデル aishell1_test commonvoice_20_test_zh commonvoice_20_test_en librispeech_test_clean 平均
Human 0.846 0.809 0.820 0.858 0.836
CosyVoice 2 0.796 0.743 0.742 0.837 0.788
IndexTTS 0.744 0.742 0.758 0.823 0.776
IndexTTS-1.5 0.741 0.722 0.753 0.819 0.771

主観評価 (MOS) スコア

モデル イントネーション 音色 品質 平均
CosyVoice 2 3.67 4.05 3.73 3.81
F5TTS 3.56 3.88 3.56 3.66
XTTS 3.23 2.99 3.10 3.11
IndexTTS 3.79 4.20 4.05 4.01

インストールと使用方法

環境設定

# リポジトリをクローン
git clone https://github.com/index-tts/index-tts.git

# conda環境を作成
conda create -n index-tts python=3.10
conda activate index-tts

# 依存関係をインストール
pip install -r requirements.txt
apt-get install ffmpeg

モデルのダウンロード

# huggingface-cliを使用してダウンロード
huggingface-cli download IndexTeam/IndexTTS-1.5 \
config.yaml bigvgan_discriminator.pth bigvgan_generator.pth bpe.model dvae.pth gpt.pth unigram_12000.vocab \
--local-dir checkpoints

# 中国のユーザーはミラーを使用可能
export HF_ENDPOINT="https://hf-mirror.com"

コマンドラインでの使用

# コマンドラインツールをインストール
pip install -e .

# 使用例
indextts "大家好,我现在正在bilibili 体验 ai 科技,说实话,来之前我绝对想不到!AI技术已经发展到这样匪夷所思的地步了!" \
--voice reference_voice.wav \
--model_dir checkpoints \
--config checkpoints/config.yaml \
--output output.wav

Webインターフェース

# Webインターフェースの依存関係をインストール
pip install -e ".[webui]"

# Webインターフェースを起動
python webui.py

その後、ブラウザで http://127.0.0.1:7860 にアクセスしてください。

Python APIでの使用

from indextts.infer import IndexTTS

# モデルを初期化
tts = IndexTTS(model_dir="checkpoints", cfg_path="checkpoints/config.yaml")

# 参照音声とテキストを設定
voice = "reference_voice.wav"
text = "大家好,我现在正在bilibili 体验 ai 科技,说实话,来之前我绝对想不到!AI技术已经发展到这样匪夷所思的地步了!"

# 音声を生成
tts.infer(voice, text, output_path)

オンラインデモ

プロジェクトの利点

  1. 産業レベルの性能: 複数の評価で主要なTTSシステムを上回る
  2. 多言語対応: 中国語音声合成に特に最適化されており、英語もサポート
  3. 柔軟な制御: 正確な音声制御機能を提供
  4. デプロイが容易: 多様な使用方法と完全なデプロイメントドキュメントを提供
  5. 継続的な更新: チームはシステムの性能を継続的に最適化・改善

IndexTTSは、現在のテキスト音声合成技術の最先端レベルを代表し、音声合成アプリケーションに高品質かつ高効率なソリューションを提供します。

Star History Chart