index-tts/index-tts View GitHub Homepage for Latest Official Releases

IndexTTS는 산업 등급의 제어 가능하고 효율적인 제로샷 텍스트 음성 변환 시스템으로, XTTS 및 Tortoise를 기반으로 구축되었으며 중국어 병음 오류 수정 및 정확한 음성 제어를 지원합니다.

NOASSERTIONPythonindex-ttsindex-tts 17.2k Last Updated: December 02, 2025

IndexTTS 프로젝트 상세 소개

프로젝트 개요

IndexTTS는 XTTS와 Tortoise를 기반으로 구축된 산업용 제어 가능하고 효율적인 제로샷 텍스트 음성 변환 시스템입니다. 이 시스템은 GPT 스타일 아키텍처를 채택하여 강력한 음성 합성 기능을 갖추고 있으며, 특히 중국어 음성 합성에 최적화되어 있습니다.

핵심 기능

1. 제로샷 음성 복제

소량의 참조 오디오만으로 고품질 음성 복제 가능
다국어 음성 합성 지원, 특히 중국어 및 영어

2. 중국어 병음(Pinyin) 교정

병음을 사용하여 중국어 문자의 발음 교정 가능
문자-병음 혼합 모델링 방식을 채택하여 발음 오류가 있는 문자를 빠르게 교정
다의어 및 롱테일 문자의 발음 문제 효과적으로 처리

3. 정밀한 음성 제어

구두점을 통해 임의 위치의 일시 정지 제어
음성 리듬 및 운율의 정밀 제어 지원
풍부한 음성 표현력 조절 옵션 제공

기술 아키텍처

모델 구성 요소

GPT 스타일 텍스트 음성 변환 모델: Transformer 아키텍처 기반
Conformer 조건부 인코더: 훈련 안정성 및 음성 유사도 향상
BigVGAN2 음성 디코더: 오디오 품질 및 음색 충실도 최적화
문자-병음 혼합 모델링: 중국어 음성 합성에 특화된 최적화

훈련 데이터

수만 시간의 데이터로 훈련
다양한 언어 및 음성 스타일 포함
풍부한 중국어 음성 데이터셋 포함

성능 지표

객관적 평가 지표

단어 오류율(WER) 비교

seed-test 데이터셋 기반 테스트 결과:

모델	test_zh	test_en	test_hard
Human	1.26	2.14	-
SeedTTS	1.002	1.945	6.243
CosyVoice 2	1.45	2.57	6.83
F5TTS	1.56	1.83	8.67
IndexTTS	0.937	1.936	6.831
IndexTTS-1.5	0.821	1.606	6.565

화자 유사도(SS) 비교

모델	aishell1_test	commonvoice_20_test_zh	commonvoice_20_test_en	librispeech_test_clean	평균
Human	0.846	0.809	0.820	0.858	0.836
CosyVoice 2	0.796	0.743	0.742	0.837	0.788
IndexTTS	0.744	0.742	0.758	0.823	0.776
IndexTTS-1.5	0.741	0.722	0.753	0.819	0.771

주관적 평가(MOS) 점수

모델	운율	음색	품질	평균
CosyVoice 2	3.67	4.05	3.73	3.81
F5TTS	3.56	3.88	3.56	3.66
XTTS	3.23	2.99	3.10	3.11
IndexTTS	3.79	4.20	4.05	4.01

설치 및 사용

환경 설정

# 저장소 복제
git clone https://github.com/index-tts/index-tts.git

# conda 환경 생성
conda create -n index-tts python=3.10
conda activate index-tts

# 의존성 설치
pip install -r requirements.txt
apt-get install ffmpeg

모델 다운로드

# huggingface-cli를 사용하여 다운로드
huggingface-cli download IndexTeam/IndexTTS-1.5 \
config.yaml bigvgan_discriminator.pth bigvgan_generator.pth bpe.model dvae.pth gpt.pth unigram_12000.vocab \
--local-dir checkpoints

# 중국 사용자는 미러 사용 가능
export HF_ENDPOINT="https://hf-mirror.com"

명령줄 사용

# 명령줄 도구 설치
pip install -e .

# 사용 예시
indextts "大家好，我现在正在bilibili 体验 ai 科技，说实话，来之前我绝对想不到！AI技术已经发展到这样匪夷所思的地步了！" \
--voice reference_voice.wav \
--model_dir checkpoints \
--config checkpoints/config.yaml \
--output output.wav

웹 인터페이스

# 웹 인터페이스 의존성 설치
pip install -e ".[webui]"

# 웹 인터페이스 시작
python webui.py

그 다음 브라우저에서 http://127.0.0.1:7860 에 접속하세요.

Python API 사용

from indextts.infer import IndexTTS

# 모델 초기화
tts = IndexTTS(model_dir="checkpoints", cfg_path="checkpoints/config.yaml")

# 참조 오디오 및 텍스트 설정
voice = "reference_voice.wav"
text = "大家好，我现在正在bilibili 体验 ai 科技，说实话，来之前我绝对想不到！AI技术已经发展到这样匪夷所思的地步了！"

# 음성 생성
tts.infer(voice, text, output_path)

온라인 체험

프로젝트 장점

산업용 성능: 여러 평가에서 주류 TTS 시스템 능가
다국어 지원: 중국어 음성 합성에 특별히 최적화되었으며, 영어도 지원
유연한 제어: 정밀한 음성 제어 기능 제공
쉬운 배포: 다양한 사용 방식과 완전한 배포 문서 제공
지속적인 업데이트: 팀이 시스템 성능을 지속적으로 최적화하고 개선

IndexTTS는 현재 텍스트 음성 변환 기술의 선진 수준을 대표하며, 음성 합성 애플리케이션에 고품질, 고효율 솔루션을 제공합니다.