index-tts/index-ttsPlease refer to the latest official releases for information GitHub Homepage
IndexTTS는 산업 등급의 제어 가능하고 효율적인 제로샷 텍스트 음성 변환 시스템으로, XTTS 및 Tortoise를 기반으로 구축되었으며 중국어 병음 오류 수정 및 정확한 음성 제어를 지원합니다.
Apache-2.0Python 3.6kindex-ttsindex-tts Last Updated: 2025-06-17
IndexTTS 프로젝트 상세 소개
프로젝트 개요
IndexTTS는 XTTS와 Tortoise를 기반으로 구축된 산업용 제어 가능하고 효율적인 제로샷 텍스트 음성 변환 시스템입니다. 이 시스템은 GPT 스타일 아키텍처를 채택하여 강력한 음성 합성 기능을 갖추고 있으며, 특히 중국어 음성 합성에 최적화되어 있습니다.
핵심 기능
1. 제로샷 음성 복제
- 소량의 참조 오디오만으로 고품질 음성 복제 가능
- 다국어 음성 합성 지원, 특히 중국어 및 영어
2. 중국어 병음(Pinyin) 교정
- 병음을 사용하여 중국어 문자의 발음 교정 가능
- 문자-병음 혼합 모델링 방식을 채택하여 발음 오류가 있는 문자를 빠르게 교정
- 다의어 및 롱테일 문자의 발음 문제 효과적으로 처리
3. 정밀한 음성 제어
- 구두점을 통해 임의 위치의 일시 정지 제어
- 음성 리듬 및 운율의 정밀 제어 지원
- 풍부한 음성 표현력 조절 옵션 제공
기술 아키텍처
모델 구성 요소
- GPT 스타일 텍스트 음성 변환 모델: Transformer 아키텍처 기반
- Conformer 조건부 인코더: 훈련 안정성 및 음성 유사도 향상
- BigVGAN2 음성 디코더: 오디오 품질 및 음색 충실도 최적화
- 문자-병음 혼합 모델링: 중국어 음성 합성에 특화된 최적화
훈련 데이터
- 수만 시간의 데이터로 훈련
- 다양한 언어 및 음성 스타일 포함
- 풍부한 중국어 음성 데이터셋 포함
성능 지표
객관적 평가 지표
단어 오류율(WER) 비교
seed-test 데이터셋 기반 테스트 결과:
모델 | test_zh | test_en | test_hard |
---|---|---|---|
Human | 1.26 | 2.14 | - |
SeedTTS | 1.002 | 1.945 | 6.243 |
CosyVoice 2 | 1.45 | 2.57 | 6.83 |
F5TTS | 1.56 | 1.83 | 8.67 |
IndexTTS | 0.937 | 1.936 | 6.831 |
IndexTTS-1.5 | 0.821 | 1.606 | 6.565 |
화자 유사도(SS) 비교
모델 | aishell1_test | commonvoice_20_test_zh | commonvoice_20_test_en | librispeech_test_clean | 평균 |
---|---|---|---|---|---|
Human | 0.846 | 0.809 | 0.820 | 0.858 | 0.836 |
CosyVoice 2 | 0.796 | 0.743 | 0.742 | 0.837 | 0.788 |
IndexTTS | 0.744 | 0.742 | 0.758 | 0.823 | 0.776 |
IndexTTS-1.5 | 0.741 | 0.722 | 0.753 | 0.819 | 0.771 |
주관적 평가(MOS) 점수
모델 | 운율 | 음색 | 품질 | 평균 |
---|---|---|---|---|
CosyVoice 2 | 3.67 | 4.05 | 3.73 | 3.81 |
F5TTS | 3.56 | 3.88 | 3.56 | 3.66 |
XTTS | 3.23 | 2.99 | 3.10 | 3.11 |
IndexTTS | 3.79 | 4.20 | 4.05 | 4.01 |
설치 및 사용
환경 설정
# 저장소 복제
git clone https://github.com/index-tts/index-tts.git
# conda 환경 생성
conda create -n index-tts python=3.10
conda activate index-tts
# 의존성 설치
pip install -r requirements.txt
apt-get install ffmpeg
모델 다운로드
# huggingface-cli를 사용하여 다운로드
huggingface-cli download IndexTeam/IndexTTS-1.5 \
config.yaml bigvgan_discriminator.pth bigvgan_generator.pth bpe.model dvae.pth gpt.pth unigram_12000.vocab \
--local-dir checkpoints
# 중국 사용자는 미러 사용 가능
export HF_ENDPOINT="https://hf-mirror.com"
명령줄 사용
# 명령줄 도구 설치
pip install -e .
# 사용 예시
indextts "大家好,我现在正在bilibili 体验 ai 科技,说实话,来之前我绝对想不到!AI技术已经发展到这样匪夷所思的地步了!" \
--voice reference_voice.wav \
--model_dir checkpoints \
--config checkpoints/config.yaml \
--output output.wav
웹 인터페이스
# 웹 인터페이스 의존성 설치
pip install -e ".[webui]"
# 웹 인터페이스 시작
python webui.py
그 다음 브라우저에서 http://127.0.0.1:7860 에 접속하세요.
Python API 사용
from indextts.infer import IndexTTS
# 모델 초기화
tts = IndexTTS(model_dir="checkpoints", cfg_path="checkpoints/config.yaml")
# 참조 오디오 및 텍스트 설정
voice = "reference_voice.wav"
text = "大家好,我现在正在bilibili 体验 ai 科技,说实话,来之前我绝对想不到!AI技术已经发展到这样匪夷所思的地步了!"
# 음성 생성
tts.infer(voice, text, output_path)
온라인 체험
프로젝트 장점
- 산업용 성능: 여러 평가에서 주류 TTS 시스템 능가
- 다국어 지원: 중국어 음성 합성에 특별히 최적화되었으며, 영어도 지원
- 유연한 제어: 정밀한 음성 제어 기능 제공
- 쉬운 배포: 다양한 사용 방식과 완전한 배포 문서 제공
- 지속적인 업데이트: 팀이 시스템 성능을 지속적으로 최적화하고 개선
IndexTTS는 현재 텍스트 음성 변환 기술의 선진 수준을 대표하며, 음성 합성 애플리케이션에 고품질, 고효율 솔루션을 제공합니다.