Home
Login

MegaTTS3: 바이트댄스에서 개발한 고품질 제로샷 음성 합성 모델로, 중국어와 영어 이중 언어 음성 복제를 지원합니다.

Apache-2.0Python 5.5kbytedance Last Updated: 2025-05-11

MegaTTS3 프로젝트 상세 소개

프로젝트 개요

MegaTTS3는 바이트댄스(ByteDance)에서 개발한 고품질 제로샷 음성 합성 시스템으로, 희소 정렬 강화 잠재 확산 트랜스포머(Sparse Alignment Enhanced Latent Diffusion Transformer) 기술을 기반으로 합니다. 이 프로젝트는 주로 학술 연구 목적으로 사용되며, 강력한 텍스트 음성 변환(TTS) 및 음성 복제 기능을 제공합니다.

핵심 특징

🚀 경량화 및 고효율

  • 파라미터 규모: TTS 확산 트랜스포머의 백본 네트워크는 0.45B 파라미터에 불과합니다.
  • 고효율 추론: 최적화된 아키텍처 설계를 통해 빠른 음성 생성을 구현합니다.

🎧 초고품질 음성 복제

  • 제로샷 합성: 학습 없이 새로운 화자의 음성을 복제할 수 있습니다.
  • 고충실도: 생성된 음성 품질이 원본 녹음에 가깝습니다.
  • 온라인 체험: Huggingface Demo에서 체험할 수 있습니다.

🌍 이중 언어 지원

  • 다국어: 중국어와 영어 음성 합성을 동시에 지원합니다.
  • 코드 전환: 중국어와 영어 혼합 음성 생성을 지원합니다.
  • 교차 언어: 영어 음성으로 중국어 음성을 합성할 수 있습니다 (억양 제어 포함).

✍️ 강력한 제어 가능성

  • 억양 강도 제어: 생성된 음성의 억양 정도를 조절할 수 있습니다.
  • 발음 정밀 조정: 세분화된 발음 및 길이 조정을 지원합니다 (출시 예정).
  • 지능도 가중치: p_w 파라미터를 통해 음성 선명도를 제어합니다.
  • 유사도 가중치: t_w 파라미터를 통해 원본 음성과의 유사도를 제어합니다.

기술 아키텍처

주요 구성 요소

  1. TTS 주 모델
  • 희소 정렬 강화 잠재 확산 트랜스포머 기반
  • 제로샷 음성 합성 지원
  • 고품질 음성 복제 능력
  1. 음성-텍스트 정렬기 (Speech-Text Aligner)
  • 대량의 MFA 전문가 모델에서 생성된 의사 레이블을 사용하여 학습
  • 용도: 데이터 세트 준비, 노이즈 필터링, 음소 인식, 음성 분할
  1. 글자소-음소 변환기 (G2P)
  • Qwen2.5-0.5B 모델을 기반으로 미세 조정
  • 강력한 글자소-음소 변환 제공
  1. WaveVAE
  • 강력한 파형 변분 자동 인코더
  • 24kHz 음성을 25Hz 음향 잠재 표현으로 압축
  • 거의 손실 없이 원본 파형 재구성

설치 및 사용

시스템 요구 사항

  • Python 3.10
  • Linux/Windows/Docker 지원
  • 선택적 GPU 가속 (권장)

빠른 시작

  1. 저장소 복제
git clone https://github.com/bytedance/MegaTTS3
cd MegaTTS3
  1. 환경 구성
conda create -n megatts3-env python=3.10
conda activate megatts3-env
pip install -r requirements.txt
export PYTHONPATH="/path/to/MegaTTS3:$PYTHONPATH"
  1. 모델 다운로드
  • Google Drive 또는 Huggingface에서 사전 훈련된 모델 다운로드
  • 모델 파일을 ./checkpoints/xxx 디렉토리에 배치

사용 방법

명령줄 추론 (표준)
# 중국어 음성 합성
python tts/infer_cli.py --input_wav 'assets/Chinese_prompt.wav' --input_text "另一边的桌上,一位读书人嗤之以鼻道,'佛子三藏,神子燕小鱼是什么样的人物,李家的那个李子夜如何与他们相提并论?'" --output_dir ./gen

# 영어 음성 합성 (높은 표현력)
python tts/infer_cli.py --input_wav 'assets/English_prompt.wav' --input_text 'As his long promised tariff threat turned into reality this week, top human advisers began fielding a wave of calls from business leaders.' --output_dir ./gen --p_w 2.0 --t_w 3.0
억양 제어 합성
# 원본 억양 유지 (p_w ≈ 1.0)
python tts/infer_cli.py --input_wav 'assets/English_prompt.wav' --input_text '这是一条有口音的音频。' --output_dir ./gen --p_w 1.0 --t_w 3.0

# 표준 발음 (p_w > 2.0)
python tts/infer_cli.py --input_wav 'assets/English_prompt.wav' --input_text '这条音频的发音标准一些了吗?' --output_dir ./gen --p_w 2.5 --t_w 2.5
웹 인터페이스
python tts/gradio_api.py

파라미터 설명

핵심 파라미터

  • p_w (지능도 가중치): 음성 선명도를 제어하며, 노이즈가 많은 프롬프트 오디오에는 더 높은 p_w 값이 필요합니다.
  • t_w (유사도 가중치): 원본 음성과의 유사도를 제어하며, 일반적으로 p_w보다 0-3점 높습니다.
  • 추론 단계: 기본 10단계, CPU 추론에는 약 30초 소요됩니다.

억양 제어

  • p_w ≈ 1.0: 화자의 원본 억양 유지
  • p_w 증가: 표준 발음에 가까워짐
  • t_w 범위: 일반적으로 2.0-5.0 사이이며, 합리적으로 증가시키면 표현력이 향상됩니다.

안전 및 제한 사항

안전 고려 사항

  • WaveVAE 인코더: 안전을 위해 인코더 파라미터는 공개되지 않았습니다.
  • 사전 추출된 잠재 표현: 사전 추출된 .npy 잠재 파일만 사용하여 추론할 수 있습니다.
  • 학술 용도: 프로젝트는 주로 학술 연구를 대상으로 합니다.

사용 절차

  1. 오디오 파일 준비 (.wav 형식, <24초, 파일 이름에 공백 없음)
  2. 음성 요청 대기열에 업로드
  3. 보안 검증 후 해당 .npy 잠재 파일 획득
  4. .wav 및 .npy 파일을 사용하여 추론

라이선스 및 인용

  • 라이선스: Apache-2.0 License
  • 출시일: 2025년 3월 22일
  • 유지 관리자: 바이트댄스 회사

응용 시나리오

주요 용도

  1. 음성 합성 연구: 연구자에게 고품질 TTS 기준 제공
  2. 음성 복제: 개인화된 음성 비서 구현
  3. 다국어 응용: 중국어 및 영어 이중 언어 콘텐츠 제작 지원
  4. 억양 연구: 음성에서 억양 특징 연구 및 제어

확장 응용

  • 데이터 세트 준비: 정렬기를 사용하여 모델 학습을 위한 데이터 준비
  • 음성 품질 필터링: 대규모 음성 데이터 세트 필터링
  • 음소 인식: 음성의 음소 수준 분석 수행
  • 음성 변환: 다른 화자 간의 음성 변환 구현

주의 사항

  1. 모델 다운로드: 사전 훈련된 모델 파일을 수동으로 다운로드해야 합니다.
  2. 종속성 관리: pydantic 및 gradio 버전 일치에 유의하십시오.
  3. 환경 변수: PYTHONPATH 및 CUDA_VISIBLE_DEVICES를 올바르게 설정하십시오.
  4. 파일 형식: 입력 오디오는 .wav 형식이어야 하며, 길이는 24초 미만이어야 합니다.
  5. 보안 심사: 업로드된 음성 파일은 보안 심사를 통과해야 합니다.