Home
Login

初のプロダクションレベルのオープンソーステキスト読み上げモデル。感情の誇張制御とゼロショット音声合成をサポート。

MITPython 8.7kresemble-aichatterbox Last Updated: 2025-06-13

Chatterbox - オープンソーステキスト音声合成モデル

プロジェクト概要

Chatterboxは、Resemble AIによって開発された初のプロダクションレベルのオープンソーステキスト音声合成(TTS)モデルです。MITライセンスに基づいて公開されており、画期的な音声合成ソリューションとして、複数のベンチマークテストで優れた性能を発揮し、並列評価ではElevenLabsなどの主要なクローズドソースシステムを継続的に上回っています。

コア機能

🎯 技術的優位性

  • 最先端のゼロショットTTS技術:トレーニングなしで高品質な音声を生成
  • 5億パラメータのLlamaバックボーンネットワーク:強力なモデルアーキテクチャが生成品質を保証
  • 独自のエモーション誇張/強度制御:業界初の感情制御をサポートするオープンソースTTSモデル
  • 超安定したアライメント認識推論:生成音声の安定性と一貫性を確保
  • 大規模なトレーニングデータ:50万時間のクリーンデータに基づいてトレーニング
  • 組み込みのウォーターマーク機能:生成されるすべてのオーディオにPerth知覚閾値ウォーターマークが含まれる

🚀 性能表現

  • ElevenLabsよりも優れている:Podonosプラットフォームの比較テストでより優れたパフォーマンスを発揮
  • 低遅延:商用版は200ms未満の超低遅延をサポート
  • 高品質合成:大規模なクリーンデータに基づいてトレーニングされ、出力品質を確保

応用シーン

Chatterboxは、さまざまな応用シーンに適しています。

  • コンテンツ作成:ミーム作成、ビデオ吹き替え
  • ゲーム開発:キャラクターボイス、ゲームナレーション
  • AIエージェント:スマートアシスタント、チャットボット
  • インタラクティブメディア:インタラクティブアプリケーション、教育コンテンツ
  • 音声変換:音声スタイルの変換

インストールと使用

迅速なインストール

pip install chatterbox-tts

基本的な使用例

import torchaudio as ta
from chatterbox.tts import ChatterboxTTS

# モデルの初期化
model = ChatterboxTTS.from_pretrained(device="cuda")

# 音声の生成
text = "Ezreal and Jinx teamed up with Ahri, Yasuo, and Teemo to take down the enemy's Nexus in an epic late-game pentakill."
wav = model.generate(text)
ta.save("test-1.wav", wav, model.sr)

# オーディオプロンプトを使用した音声クローン
AUDIO_PROMPT_PATH = "YOUR_FILE.wav"
wav = model.generate(text, audio_prompt_path=AUDIO_PROMPT_PATH)
ta.save("test-2.wav", wav, model.sr)

パラメータ調整ガイド

一般的な使用(TTSと音声エージェント)

  • デフォルト設定exaggeration=0.5, cfg=0.5 はほとんどのプロンプトに適しています
  • 高速音声スタイル:参照話者の語速が速い場合は、cfg を約 0.3 に下げてリズムを改善できます

表現力豊かまたは劇的な音声

  • 低いCFG値:低い cfg 値(例:~0.3)を試してください
  • 高い誇張度exaggeration を約 0.7 以上に増やします
  • 速度補償exaggeration が高いほど音声速度が速くなるため、cfg を下げると、より遅く、より熟考されたリズムで補正できます

技術アーキテクチャ

モデルアーキテクチャ

  • バックボーンネットワーク:Llamaアーキテクチャに基づく5億パラメータモデル
  • トレーニングデータ:50万時間の高品質クリーンデータ
  • 推論最適化:アライメント認識推論技術が安定性を確保

安全機能

  • 組み込みのウォーターマーク:Resemble AIのPerth(知覚閾値)ウォーターマーク技術を使用
  • 検出精度:ウォーターマークは、MP3圧縮、オーディオ編集、および一般的な操作後もほぼ100%の検出精度を維持
  • 透明性:オープンソースモデルは、完全な透明性と制御を提供

プロジェクトリソース

商用サポート

拡張や高精度な調整が必要なユーザー向けに、Resemble AIは競争力のある価格設定のTTSサービスを提供しており、以下の特徴があります。

  • 信頼性の高いパフォーマンス:安定したプロダクションレベルのサービス
  • 超低遅延:200ms未満の応答時間
  • 適用シーン:エージェント、アプリケーション、またはインタラクティブメディアのプロダクション使用

使用上の注意

本モデルは責任を持って使用し、悪意のある目的に使用しないでください。トレーニングプロンプトは、インターネット上の無料で利用可能なデータから取得されています。

貢献とコミュニティ

オープンソースプロジェクトとして、Chatterboxはコミュニティの貢献を歓迎します。開発者はGitHubを通じてプロジェクト開発に参加し、問題報告や機能提案を提出できます。

Star History Chart