Chatterboxは、Resemble AIによって開発された初のプロダクションレベルのオープンソーステキスト音声合成(TTS)モデルです。MITライセンスに基づいて公開されており、画期的な音声合成ソリューションとして、複数のベンチマークテストで優れた性能を発揮し、並列評価ではElevenLabsなどの主要なクローズドソースシステムを継続的に上回っています。
Chatterboxは、さまざまな応用シーンに適しています。
pip install chatterbox-tts
import torchaudio as ta
from chatterbox.tts import ChatterboxTTS
# モデルの初期化
model = ChatterboxTTS.from_pretrained(device="cuda")
# 音声の生成
text = "Ezreal and Jinx teamed up with Ahri, Yasuo, and Teemo to take down the enemy's Nexus in an epic late-game pentakill."
wav = model.generate(text)
ta.save("test-1.wav", wav, model.sr)
# オーディオプロンプトを使用した音声クローン
AUDIO_PROMPT_PATH = "YOUR_FILE.wav"
wav = model.generate(text, audio_prompt_path=AUDIO_PROMPT_PATH)
ta.save("test-2.wav", wav, model.sr)
exaggeration=0.5
, cfg=0.5
はほとんどのプロンプトに適していますcfg
を約 0.3
に下げてリズムを改善できますcfg
値(例:~0.3
)を試してくださいexaggeration
を約 0.7
以上に増やしますexaggeration
が高いほど音声速度が速くなるため、cfg
を下げると、より遅く、より熟考されたリズムで補正できます拡張や高精度な調整が必要なユーザー向けに、Resemble AIは競争力のある価格設定のTTSサービスを提供しており、以下の特徴があります。
本モデルは責任を持って使用し、悪意のある目的に使用しないでください。トレーニングプロンプトは、インターネット上の無料で利用可能なデータから取得されています。
オープンソースプロジェクトとして、Chatterboxはコミュニティの貢献を歓迎します。開発者はGitHubを通じてプロジェクト開発に参加し、問題報告や機能提案を提出できます。