Chatterbox是由Resemble AI开发的首个生产级开源文本转语音(TTS)模型。该项目基于MIT许可证发布,是一个具有突破性的语音合成解决方案,在多项基准测试中表现出色,甚至在并排评估中持续优于ElevenLabs等领先的闭源系统。
Chatterbox适用于多种应用场景:
pip install chatterbox-tts
import torchaudio as ta
from chatterbox.tts import ChatterboxTTS
# 初始化模型
model = ChatterboxTTS.from_pretrained(device="cuda")
# 生成语音
text = "Ezreal and Jinx teamed up with Ahri, Yasuo, and Teemo to take down the enemy's Nexus in an epic late-game pentakill."
wav = model.generate(text)
ta.save("test-1.wav", wav, model.sr)
# 使用音频提示进行语音克隆
AUDIO_PROMPT_PATH = "YOUR_FILE.wav"
wav = model.generate(text, audio_prompt_path=AUDIO_PROMPT_PATH)
ta.save("test-2.wav", wav, model.sr)
exaggeration=0.5
, cfg=0.5
适用于大多数提示cfg
降低到约 0.3
以改善节奏cfg
值(如 ~0.3
)exaggeration
增加到约 0.7
或更高exaggeration
会加快语音速度,降低 cfg
有助于用更慢、更深思熟虑的节奏进行补偿对于需要扩展或针对更高精度进行调优的用户,Resemble AI提供竞争力定价的TTS服务,具有以下特点:
本模型应当负责任地使用,不应用于恶意目的。训练提示来源于互联网上的免费可用数据。
作为开源项目,Chatterbox欢迎社区贡献。开发者可以通过GitHub参与项目开发,提交问题报告或功能建议。