resemble-ai/chatterboxView GitHub Homepage for Latest Official Releases
初のプロダクションレベルのオープンソーステキスト読み上げモデル。感情の誇張制御とゼロショット音声合成をサポート。
MITPythonchatterboxresemble-ai 10.1k Last Updated: August 01, 2025
Chatterbox - オープンソーステキスト音声合成モデル
プロジェクト概要
Chatterboxは、Resemble AIによって開発された初のプロダクションレベルのオープンソーステキスト音声合成(TTS)モデルです。MITライセンスに基づいて公開されており、画期的な音声合成ソリューションとして、複数のベンチマークテストで優れた性能を発揮し、並列評価ではElevenLabsなどの主要なクローズドソースシステムを継続的に上回っています。
コア機能
🎯 技術的優位性
- 最先端のゼロショットTTS技術:トレーニングなしで高品質な音声を生成
- 5億パラメータのLlamaバックボーンネットワーク:強力なモデルアーキテクチャが生成品質を保証
- 独自のエモーション誇張/強度制御:業界初の感情制御をサポートするオープンソースTTSモデル
- 超安定したアライメント認識推論:生成音声の安定性と一貫性を確保
- 大規模なトレーニングデータ:50万時間のクリーンデータに基づいてトレーニング
- 組み込みのウォーターマーク機能:生成されるすべてのオーディオにPerth知覚閾値ウォーターマークが含まれる
🚀 性能表現
- ElevenLabsよりも優れている:Podonosプラットフォームの比較テストでより優れたパフォーマンスを発揮
- 低遅延:商用版は200ms未満の超低遅延をサポート
- 高品質合成:大規模なクリーンデータに基づいてトレーニングされ、出力品質を確保
応用シーン
Chatterboxは、さまざまな応用シーンに適しています。
- コンテンツ作成:ミーム作成、ビデオ吹き替え
- ゲーム開発:キャラクターボイス、ゲームナレーション
- AIエージェント:スマートアシスタント、チャットボット
- インタラクティブメディア:インタラクティブアプリケーション、教育コンテンツ
- 音声変換:音声スタイルの変換
インストールと使用
迅速なインストール
pip install chatterbox-tts
基本的な使用例
import torchaudio as ta
from chatterbox.tts import ChatterboxTTS
# モデルの初期化
model = ChatterboxTTS.from_pretrained(device="cuda")
# 音声の生成
text = "Ezreal and Jinx teamed up with Ahri, Yasuo, and Teemo to take down the enemy's Nexus in an epic late-game pentakill."
wav = model.generate(text)
ta.save("test-1.wav", wav, model.sr)
# オーディオプロンプトを使用した音声クローン
AUDIO_PROMPT_PATH = "YOUR_FILE.wav"
wav = model.generate(text, audio_prompt_path=AUDIO_PROMPT_PATH)
ta.save("test-2.wav", wav, model.sr)
パラメータ調整ガイド
一般的な使用(TTSと音声エージェント)
- デフォルト設定:
exaggeration=0.5
,cfg=0.5
はほとんどのプロンプトに適しています - 高速音声スタイル:参照話者の語速が速い場合は、
cfg
を約0.3
に下げてリズムを改善できます
表現力豊かまたは劇的な音声
- 低いCFG値:低い
cfg
値(例:~0.3
)を試してください - 高い誇張度:
exaggeration
を約0.7
以上に増やします - 速度補償:
exaggeration
が高いほど音声速度が速くなるため、cfg
を下げると、より遅く、より熟考されたリズムで補正できます
技術アーキテクチャ
モデルアーキテクチャ
- バックボーンネットワーク:Llamaアーキテクチャに基づく5億パラメータモデル
- トレーニングデータ:50万時間の高品質クリーンデータ
- 推論最適化:アライメント認識推論技術が安定性を確保
安全機能
- 組み込みのウォーターマーク:Resemble AIのPerth(知覚閾値)ウォーターマーク技術を使用
- 検出精度:ウォーターマークは、MP3圧縮、オーディオ編集、および一般的な操作後もほぼ100%の検出精度を維持
- 透明性:オープンソースモデルは、完全な透明性と制御を提供
プロジェクトリソース
- GitHubリポジトリ:https://github.com/resemble-ai/chatterbox
- Hugging Faceデモ:オンラインGradioアプリケーション体験
- 公式サイト:https://www.resemble.ai/chatterbox/
- ライセンス:MIT License
商用サポート
拡張や高精度な調整が必要なユーザー向けに、Resemble AIは競争力のある価格設定のTTSサービスを提供しており、以下の特徴があります。
- 信頼性の高いパフォーマンス:安定したプロダクションレベルのサービス
- 超低遅延:200ms未満の応答時間
- 適用シーン:エージェント、アプリケーション、またはインタラクティブメディアのプロダクション使用
使用上の注意
本モデルは責任を持って使用し、悪意のある目的に使用しないでください。トレーニングプロンプトは、インターネット上の無料で利用可能なデータから取得されています。
貢献とコミュニティ
オープンソースプロジェクトとして、Chatterboxはコミュニティの貢献を歓迎します。開発者はGitHubを通じてプロジェクト開発に参加し、問題報告や機能提案を提出できます。