resemble-ai/chatterbox View GitHub Homepage for Latest Official Releases

首個生產級開源文本轉語音模型，支援情感誇張控制和零樣本語音合成

MITPythonchatterboxresemble-ai 18.6k Last Updated: December 15, 2025

Chatterbox - 開源文字轉語音模型

項目概述

Chatterbox 是由 Resemble AI 開發的首個生產級開源文字轉語音（TTS）模型。該項目基於 MIT 許可證發布，是一個具有突破性的語音合成解決方案，在多項基準測試中表現出色，甚至在並排評估中持續優於 ElevenLabs 等領先的閉源系統。

核心特性

🎯 技術優勢

最先進的零樣本 TTS 技術：無需訓練即可生成高品質語音
5 億參數 Llama 骨幹網路：強大的模型架構保證生成品質
獨特的情感誇張/強度控制：業界首個支持情感控制的開源 TTS 模型
超穩定的對齊感知推理：確保生成語音的穩定性和一致性
大規模訓練數據：基於 50 萬小時的清潔數據訓練
內置水印功能：所有生成的音訊都包含 Perth 感知閾值水印

🚀 性能表現

優於 ElevenLabs：在 Podonos 平台的對比測試中表現更優
低延遲：商業版本支持低於 200ms 的超低延遲
高品質合成：基於大規模清潔數據訓練，確保輸出品質

應用場景

Chatterbox 適用於多種應用場景：

內容創作：迷因製作、影片配音
遊戲開發：角色語音、遊戲旁白
AI 代理：智能助手、聊天機器人
互動媒體：互動應用、教育內容
語音轉換：聲音風格轉換

安裝和使用

快速安裝

pip install chatterbox-tts

基礎使用示例

import torchaudio as ta
from chatterbox.tts import ChatterboxTTS

# 初始化模型
model = ChatterboxTTS.from_pretrained(device="cuda")

# 生成語音
text = "Ezreal and Jinx teamed up with Ahri, Yasuo, and Teemo to take down the enemy's Nexus in an epic late-game pentakill."
wav = model.generate(text)
ta.save("test-1.wav", wav, model.sr)

# 使用音訊提示進行語音克隆
AUDIO_PROMPT_PATH = "YOUR_FILE.wav"
wav = model.generate(text, audio_prompt_path=AUDIO_PROMPT_PATH)
ta.save("test-2.wav", wav, model.sr)

參數調優指南

通用使用（TTS 和語音代理）

默認設置：exaggeration=0.5, cfg=0.5 適用於大多數提示
快速語音風格：如果參考說話者語速較快，可將 cfg 降低到約 0.3 以改善節奏

表達性或戲劇性語音

低 CFG 值：嘗試較低的 cfg 值（如 ~0.3）
高誇張度：將 exaggeration 增加到約 0.7 或更高
速度補償：較高的 exaggeration 會加快語音速度，降低 cfg 有助於用更慢、更深思熟慮的節奏進行補償

技術架構

模型架構

骨幹網路：基於 Llama 架構的 5 億參數模型
訓練數據：50 萬小時的高品質清潔數據
推理優化：對齊感知推理技術確保穩定性

安全特性

內置水印：使用 Resemble AI 的 Perth（感知閾值）水印技術
檢測精度：水印在 MP3 壓縮、音訊編輯和常見操作後仍能保持近 100% 的檢測精度
透明度：開源模型提供完全的透明度和控制權

項目資源

GitHub 倉庫：https://github.com/resemble-ai/chatterbox
Hugging Face 演示：在線 Gradio 應用體驗
官方網站：https://www.resemble.ai/chatterbox/
許可證：MIT License

商業支持

對於需要擴展或針對更高精度進行調優的用戶，Resemble AI 提供競爭力定價的 TTS 服務，具有以下特點：

可靠性能：穩定的生產級服務
超低延遲：低於 200ms 的響應時間
適用場景：代理、應用程式或互動媒體的生產使用

使用須知

本模型應當負責任地使用，不應用於惡意目的。訓練提示來源於互聯網上的免費可用數據。

貢獻與社區

作為開源項目，Chatterbox 歡迎社區貢獻。開發者可以通過 GitHub 參與項目開發，提交問題報告或功能建議。