Chatterbox 是由 Resemble AI 開發的首個生產級開源文字轉語音(TTS)模型。該項目基於 MIT 許可證發布,是一個具有突破性的語音合成解決方案,在多項基準測試中表現出色,甚至在並排評估中持續優於 ElevenLabs 等領先的閉源系統。
Chatterbox 適用於多種應用場景:
pip install chatterbox-tts
import torchaudio as ta
from chatterbox.tts import ChatterboxTTS
# 初始化模型
model = ChatterboxTTS.from_pretrained(device="cuda")
# 生成語音
text = "Ezreal and Jinx teamed up with Ahri, Yasuo, and Teemo to take down the enemy's Nexus in an epic late-game pentakill."
wav = model.generate(text)
ta.save("test-1.wav", wav, model.sr)
# 使用音訊提示進行語音克隆
AUDIO_PROMPT_PATH = "YOUR_FILE.wav"
wav = model.generate(text, audio_prompt_path=AUDIO_PROMPT_PATH)
ta.save("test-2.wav", wav, model.sr)
exaggeration=0.5
, cfg=0.5
適用於大多數提示cfg
降低到約 0.3
以改善節奏cfg
值(如 ~0.3
)exaggeration
增加到約 0.7
或更高exaggeration
會加快語音速度,降低 cfg
有助於用更慢、更深思熟慮的節奏進行補償對於需要擴展或針對更高精度進行調優的用戶,Resemble AI 提供競爭力定價的 TTS 服務,具有以下特點:
本模型應當負責任地使用,不應用於惡意目的。訓練提示來源於互聯網上的免費可用數據。
作為開源項目,Chatterbox 歡迎社區貢獻。開發者可以通過 GitHub 參與項目開發,提交問題報告或功能建議。