MegaTTS3是由字節跳動(ByteDance)開發的高質量零樣本語音合成系統,基於稀疏對齊增強的潛在擴散變換器(Sparse Alignment Enhanced Latent Diffusion Transformer)技術。該項目主要用於學術研究目的,提供了強大的文本轉語音(TTS)和聲音克隆功能。
git clone https://github.com/bytedance/MegaTTS3
cd MegaTTS3
conda create -n megatts3-env python=3.10
conda activate megatts3-env
pip install -r requirements.txt
export PYTHONPATH="/path/to/MegaTTS3:$PYTHONPATH"
./checkpoints/xxx
目錄# 中文語音合成
python tts/infer_cli.py --input_wav 'assets/Chinese_prompt.wav' --input_text "另一邊的桌上,一位讀書人嗤之以鼻道,'佛子三藏,神子燕小魚是什麼樣的人物,李家的那個李子夜如何與他們相提並論?'" --output_dir ./gen
# 英文語音合成(高表現力)
python tts/infer_cli.py --input_wav 'assets/English_prompt.wav' --input_text 'As his long promised tariff threat turned into reality this week, top human advisers began fielding a wave of calls from business leaders.' --output_dir ./gen --p_w 2.0 --t_w 3.0
# 保持原始口音(p_w ≈ 1.0)
python tts/infer_cli.py --input_wav 'assets/English_prompt.wav' --input_text '這是一條有口音的音頻。' --output_dir ./gen --p_w 1.0 --t_w 3.0
# 標準發音(p_w > 2.0)
python tts/infer_cli.py --input_wav 'assets/English_prompt.wav' --input_text '這條音頻的發音標準一些了嗎?' --output_dir ./gen --p_w 2.5 --t_w 2.5
python tts/gradio_api.py