MegaTTS3는 바이트댄스(ByteDance)에서 개발한 고품질 제로샷 음성 합성 시스템으로, 희소 정렬 강화 잠재 확산 트랜스포머(Sparse Alignment Enhanced Latent Diffusion Transformer) 기술을 기반으로 합니다. 이 프로젝트는 주로 학술 연구 목적으로 사용되며, 강력한 텍스트 음성 변환(TTS) 및 음성 복제 기능을 제공합니다.
git clone https://github.com/bytedance/MegaTTS3
cd MegaTTS3
conda create -n megatts3-env python=3.10
conda activate megatts3-env
pip install -r requirements.txt
export PYTHONPATH="/path/to/MegaTTS3:$PYTHONPATH"
./checkpoints/xxx
디렉토리에 배치# 중국어 음성 합성
python tts/infer_cli.py --input_wav 'assets/Chinese_prompt.wav' --input_text "另一边的桌上,一位读书人嗤之以鼻道,'佛子三藏,神子燕小鱼是什么样的人物,李家的那个李子夜如何与他们相提并论?'" --output_dir ./gen
# 영어 음성 합성 (높은 표현력)
python tts/infer_cli.py --input_wav 'assets/English_prompt.wav' --input_text 'As his long promised tariff threat turned into reality this week, top human advisers began fielding a wave of calls from business leaders.' --output_dir ./gen --p_w 2.0 --t_w 3.0
# 원본 억양 유지 (p_w ≈ 1.0)
python tts/infer_cli.py --input_wav 'assets/English_prompt.wav' --input_text '这是一条有口音的音频。' --output_dir ./gen --p_w 1.0 --t_w 3.0
# 표준 발음 (p_w > 2.0)
python tts/infer_cli.py --input_wav 'assets/English_prompt.wav' --input_text '这条音频的发音标准一些了吗?' --output_dir ./gen --p_w 2.5 --t_w 2.5
python tts/gradio_api.py