Login

IndexTTS는 산업 등급의 제어 가능하고 효율적인 제로샷 텍스트 음성 변환 시스템으로, XTTS 및 Tortoise를 기반으로 구축되었으며 중국어 병음 오류 수정 및 정확한 음성 제어를 지원합니다.

Apache-2.0Python 3.6kindex-ttsindex-tts Last Updated: 2025-06-17

IndexTTS 프로젝트 상세 소개

프로젝트 개요

IndexTTS는 XTTS와 Tortoise를 기반으로 구축된 산업용 제어 가능하고 효율적인 제로샷 텍스트 음성 변환 시스템입니다. 이 시스템은 GPT 스타일 아키텍처를 채택하여 강력한 음성 합성 기능을 갖추고 있으며, 특히 중국어 음성 합성에 최적화되어 있습니다.

핵심 기능

1. 제로샷 음성 복제

  • 소량의 참조 오디오만으로 고품질 음성 복제 가능
  • 다국어 음성 합성 지원, 특히 중국어 및 영어

2. 중국어 병음(Pinyin) 교정

  • 병음을 사용하여 중국어 문자의 발음 교정 가능
  • 문자-병음 혼합 모델링 방식을 채택하여 발음 오류가 있는 문자를 빠르게 교정
  • 다의어 및 롱테일 문자의 발음 문제 효과적으로 처리

3. 정밀한 음성 제어

  • 구두점을 통해 임의 위치의 일시 정지 제어
  • 음성 리듬 및 운율의 정밀 제어 지원
  • 풍부한 음성 표현력 조절 옵션 제공

기술 아키텍처

모델 구성 요소

  • GPT 스타일 텍스트 음성 변환 모델: Transformer 아키텍처 기반
  • Conformer 조건부 인코더: 훈련 안정성 및 음성 유사도 향상
  • BigVGAN2 음성 디코더: 오디오 품질 및 음색 충실도 최적화
  • 문자-병음 혼합 모델링: 중국어 음성 합성에 특화된 최적화

훈련 데이터

  • 수만 시간의 데이터로 훈련
  • 다양한 언어 및 음성 스타일 포함
  • 풍부한 중국어 음성 데이터셋 포함

성능 지표

객관적 평가 지표

단어 오류율(WER) 비교

seed-test 데이터셋 기반 테스트 결과:

모델 test_zh test_en test_hard
Human 1.26 2.14 -
SeedTTS 1.002 1.945 6.243
CosyVoice 2 1.45 2.57 6.83
F5TTS 1.56 1.83 8.67
IndexTTS 0.937 1.936 6.831
IndexTTS-1.5 0.821 1.606 6.565

화자 유사도(SS) 비교

모델 aishell1_test commonvoice_20_test_zh commonvoice_20_test_en librispeech_test_clean 평균
Human 0.846 0.809 0.820 0.858 0.836
CosyVoice 2 0.796 0.743 0.742 0.837 0.788
IndexTTS 0.744 0.742 0.758 0.823 0.776
IndexTTS-1.5 0.741 0.722 0.753 0.819 0.771

주관적 평가(MOS) 점수

모델 운율 음색 품질 평균
CosyVoice 2 3.67 4.05 3.73 3.81
F5TTS 3.56 3.88 3.56 3.66
XTTS 3.23 2.99 3.10 3.11
IndexTTS 3.79 4.20 4.05 4.01

설치 및 사용

환경 설정

# 저장소 복제
git clone https://github.com/index-tts/index-tts.git

# conda 환경 생성
conda create -n index-tts python=3.10
conda activate index-tts

# 의존성 설치
pip install -r requirements.txt
apt-get install ffmpeg

모델 다운로드

# huggingface-cli를 사용하여 다운로드
huggingface-cli download IndexTeam/IndexTTS-1.5 \
config.yaml bigvgan_discriminator.pth bigvgan_generator.pth bpe.model dvae.pth gpt.pth unigram_12000.vocab \
--local-dir checkpoints

# 중국 사용자는 미러 사용 가능
export HF_ENDPOINT="https://hf-mirror.com"

명령줄 사용

# 명령줄 도구 설치
pip install -e .

# 사용 예시
indextts "大家好,我现在正在bilibili 体验 ai 科技,说实话,来之前我绝对想不到!AI技术已经发展到这样匪夷所思的地步了!" \
--voice reference_voice.wav \
--model_dir checkpoints \
--config checkpoints/config.yaml \
--output output.wav

웹 인터페이스

# 웹 인터페이스 의존성 설치
pip install -e ".[webui]"

# 웹 인터페이스 시작
python webui.py

그 다음 브라우저에서 http://127.0.0.1:7860 에 접속하세요.

Python API 사용

from indextts.infer import IndexTTS

# 모델 초기화
tts = IndexTTS(model_dir="checkpoints", cfg_path="checkpoints/config.yaml")

# 참조 오디오 및 텍스트 설정
voice = "reference_voice.wav"
text = "大家好,我现在正在bilibili 体验 ai 科技,说实话,来之前我绝对想不到!AI技术已经发展到这样匪夷所思的地步了!"

# 음성 생성
tts.infer(voice, text, output_path)

온라인 체험

프로젝트 장점

  1. 산업용 성능: 여러 평가에서 주류 TTS 시스템 능가
  2. 다국어 지원: 중국어 음성 합성에 특별히 최적화되었으며, 영어도 지원
  3. 유연한 제어: 정밀한 음성 제어 기능 제공
  4. 쉬운 배포: 다양한 사용 방식과 완전한 배포 문서 제공
  5. 지속적인 업데이트: 팀이 시스템 성능을 지속적으로 최적화하고 개선

IndexTTS는 현재 텍스트 음성 변환 기술의 선진 수준을 대표하며, 음성 합성 애플리케이션에 고품질, 고효율 솔루션을 제공합니다.

Star History Chart