resemble-ai/chatterbox View GitHub Homepage for Latest Official Releases

初のプロダクションレベルのオープンソーステキスト読み上げモデル。感情の誇張制御とゼロショット音声合成をサポート。

MITPythonchatterboxresemble-ai 18.6k Last Updated: December 15, 2025

Chatterbox - オープンソーステキスト音声合成モデル

プロジェクト概要

Chatterboxは、Resemble AIによって開発された初のプロダクションレベルのオープンソーステキスト音声合成（TTS）モデルです。MITライセンスに基づいて公開されており、画期的な音声合成ソリューションとして、複数のベンチマークテストで優れた性能を発揮し、並列評価ではElevenLabsなどの主要なクローズドソースシステムを継続的に上回っています。

コア機能

🎯 技術的優位性

最先端のゼロショットTTS技術：トレーニングなしで高品質な音声を生成
5億パラメータのLlamaバックボーンネットワーク：強力なモデルアーキテクチャが生成品質を保証
独自のエモーション誇張/強度制御：業界初の感情制御をサポートするオープンソースTTSモデル
超安定したアライメント認識推論：生成音声の安定性と一貫性を確保
大規模なトレーニングデータ：50万時間のクリーンデータに基づいてトレーニング
組み込みのウォーターマーク機能：生成されるすべてのオーディオにPerth知覚閾値ウォーターマークが含まれる

🚀 性能表現

ElevenLabsよりも優れている：Podonosプラットフォームの比較テストでより優れたパフォーマンスを発揮
低遅延：商用版は200ms未満の超低遅延をサポート
高品質合成：大規模なクリーンデータに基づいてトレーニングされ、出力品質を確保

応用シーン

Chatterboxは、さまざまな応用シーンに適しています。

コンテンツ作成：ミーム作成、ビデオ吹き替え
ゲーム開発：キャラクターボイス、ゲームナレーション
AIエージェント：スマートアシスタント、チャットボット
インタラクティブメディア：インタラクティブアプリケーション、教育コンテンツ
音声変換：音声スタイルの変換

インストールと使用

迅速なインストール

pip install chatterbox-tts

基本的な使用例

import torchaudio as ta
from chatterbox.tts import ChatterboxTTS

# モデルの初期化
model = ChatterboxTTS.from_pretrained(device="cuda")

# 音声の生成
text = "Ezreal and Jinx teamed up with Ahri, Yasuo, and Teemo to take down the enemy's Nexus in an epic late-game pentakill."
wav = model.generate(text)
ta.save("test-1.wav", wav, model.sr)

# オーディオプロンプトを使用した音声クローン
AUDIO_PROMPT_PATH = "YOUR_FILE.wav"
wav = model.generate(text, audio_prompt_path=AUDIO_PROMPT_PATH)
ta.save("test-2.wav", wav, model.sr)

パラメータ調整ガイド

一般的な使用（TTSと音声エージェント）

デフォルト設定：exaggeration=0.5, cfg=0.5 はほとんどのプロンプトに適しています
高速音声スタイル：参照話者の語速が速い場合は、cfg を約 0.3 に下げてリズムを改善できます

表現力豊かまたは劇的な音声

低いCFG値：低い cfg 値（例：~0.3）を試してください
高い誇張度：exaggeration を約 0.7 以上に増やします
速度補償：exaggeration が高いほど音声速度が速くなるため、cfg を下げると、より遅く、より熟考されたリズムで補正できます

技術アーキテクチャ

モデルアーキテクチャ

バックボーンネットワーク：Llamaアーキテクチャに基づく5億パラメータモデル
トレーニングデータ：50万時間の高品質クリーンデータ
推論最適化：アライメント認識推論技術が安定性を確保

安全機能

組み込みのウォーターマーク：Resemble AIのPerth（知覚閾値）ウォーターマーク技術を使用
検出精度：ウォーターマークは、MP3圧縮、オーディオ編集、および一般的な操作後もほぼ100％の検出精度を維持
透明性：オープンソースモデルは、完全な透明性と制御を提供

プロジェクトリソース

GitHubリポジトリ：https://github.com/resemble-ai/chatterbox
Hugging Faceデモ：オンラインGradioアプリケーション体験
公式サイト：https://www.resemble.ai/chatterbox/
ライセンス：MIT License

商用サポート

拡張や高精度な調整が必要なユーザー向けに、Resemble AIは競争力のある価格設定のTTSサービスを提供しており、以下の特徴があります。

信頼性の高いパフォーマンス：安定したプロダクションレベルのサービス
超低遅延：200ms未満の応答時間
適用シーン：エージェント、アプリケーション、またはインタラクティブメディアのプロダクション使用

使用上の注意

本モデルは責任を持って使用し、悪意のある目的に使用しないでください。トレーニングプロンプトは、インターネット上の無料で利用可能なデータから取得されています。

貢献とコミュニティ

オープンソースプロジェクトとして、Chatterboxはコミュニティの貢献を歓迎します。開発者はGitHubを通じてプロジェクト開発に参加し、問題報告や機能提案を提出できます。