Home
Login

首個生產級開源文本轉語音模型,支援情感誇張控制和零樣本語音合成

MITPython 8.7kresemble-aichatterbox Last Updated: 2025-06-13

Chatterbox - 開源文字轉語音模型

項目概述

Chatterbox 是由 Resemble AI 開發的首個生產級開源文字轉語音(TTS)模型。該項目基於 MIT 許可證發布,是一個具有突破性的語音合成解決方案,在多項基準測試中表現出色,甚至在並排評估中持續優於 ElevenLabs 等領先的閉源系統。

核心特性

🎯 技術優勢

  • 最先進的零樣本 TTS 技術:無需訓練即可生成高品質語音
  • 5 億參數 Llama 骨幹網路:強大的模型架構保證生成品質
  • 獨特的情感誇張/強度控制:業界首個支持情感控制的開源 TTS 模型
  • 超穩定的對齊感知推理:確保生成語音的穩定性和一致性
  • 大規模訓練數據:基於 50 萬小時的清潔數據訓練
  • 內置水印功能:所有生成的音訊都包含 Perth 感知閾值水印

🚀 性能表現

  • 優於 ElevenLabs:在 Podonos 平台的對比測試中表現更優
  • 低延遲:商業版本支持低於 200ms 的超低延遲
  • 高品質合成:基於大規模清潔數據訓練,確保輸出品質

應用場景

Chatterbox 適用於多種應用場景:

  • 內容創作:迷因製作、影片配音
  • 遊戲開發:角色語音、遊戲旁白
  • AI 代理:智能助手、聊天機器人
  • 互動媒體:互動應用、教育內容
  • 語音轉換:聲音風格轉換

安裝和使用

快速安裝

pip install chatterbox-tts

基礎使用示例

import torchaudio as ta
from chatterbox.tts import ChatterboxTTS

# 初始化模型
model = ChatterboxTTS.from_pretrained(device="cuda")

# 生成語音
text = "Ezreal and Jinx teamed up with Ahri, Yasuo, and Teemo to take down the enemy's Nexus in an epic late-game pentakill."
wav = model.generate(text)
ta.save("test-1.wav", wav, model.sr)

# 使用音訊提示進行語音克隆
AUDIO_PROMPT_PATH = "YOUR_FILE.wav"
wav = model.generate(text, audio_prompt_path=AUDIO_PROMPT_PATH)
ta.save("test-2.wav", wav, model.sr)

參數調優指南

通用使用(TTS 和語音代理)

  • 默認設置exaggeration=0.5, cfg=0.5 適用於大多數提示
  • 快速語音風格:如果參考說話者語速較快,可將 cfg 降低到約 0.3 以改善節奏

表達性或戲劇性語音

  • 低 CFG 值:嘗試較低的 cfg 值(如 ~0.3
  • 高誇張度:將 exaggeration 增加到約 0.7 或更高
  • 速度補償:較高的 exaggeration 會加快語音速度,降低 cfg 有助於用更慢、更深思熟慮的節奏進行補償

技術架構

模型架構

  • 骨幹網路:基於 Llama 架構的 5 億參數模型
  • 訓練數據:50 萬小時的高品質清潔數據
  • 推理優化:對齊感知推理技術確保穩定性

安全特性

  • 內置水印:使用 Resemble AI 的 Perth(感知閾值)水印技術
  • 檢測精度:水印在 MP3 壓縮、音訊編輯和常見操作後仍能保持近 100% 的檢測精度
  • 透明度:開源模型提供完全的透明度和控制權

項目資源

商業支持

對於需要擴展或針對更高精度進行調優的用戶,Resemble AI 提供競爭力定價的 TTS 服務,具有以下特點:

  • 可靠性能:穩定的生產級服務
  • 超低延遲:低於 200ms 的響應時間
  • 適用場景:代理、應用程式或互動媒體的生產使用

使用須知

本模型應當負責任地使用,不應用於惡意目的。訓練提示來源於互聯網上的免費可用數據。

貢獻與社區

作為開源項目,Chatterbox 歡迎社區貢獻。開發者可以通過 GitHub 參與項目開發,提交問題報告或功能建議。

Star History Chart