resemble-ai/chatterbox View GitHub Homepage for Latest Official Releases

Das erste Open-Source-Text-to-Speech-Modell in Produktionsqualität, das emotionale Übertreibungskontrolle und Zero-Shot-Sprachsynthese unterstützt.

MITPythonchatterboxresemble-ai 18.6k Last Updated: December 15, 2025

Chatterbox - Open-Source-Text-to-Speech-Modell

Projektübersicht

Chatterbox ist das erste produktionsreife Open-Source-Text-to-Speech (TTS)-Modell, das von Resemble AI entwickelt wurde. Das Projekt wird unter der MIT-Lizenz veröffentlicht und ist eine bahnbrechende Sprachsyntheselösung, die in mehreren Benchmarks hervorragende Leistungen erbringt und in Side-by-Side-Bewertungen sogar konsequent führende Closed-Source-Systeme wie ElevenLabs übertrifft.

Kernfunktionen

🎯 Technische Vorteile

Modernste Zero-Shot-TTS-Technologie: Erzeugt hochwertige Sprache ohne Training
500-Millionen-Parameter-Llama-Backbone: Leistungsstarke Modellarchitektur garantiert die Erzeugungsqualität
Einzigartige Emotionsübertreibungs-/Intensitätskontrolle: Das branchenweit erste Open-Source-TTS-Modell mit Unterstützung für Emotionskontrolle
Superstabile, ausrichtungsbewusste Inferenz: Gewährleistet die Stabilität und Konsistenz der erzeugten Sprache
Umfangreiche Trainingsdaten: Trainiert auf Basis von 500.000 Stunden sauberer Daten
Integrierte Wasserzeichenfunktion: Alle erzeugten Audiodaten enthalten Perth-Wahrnehmungsschwellen-Wasserzeichen

🚀 Leistungsmerkmale

Übertrifft ElevenLabs: Bessere Leistung in Vergleichstests auf der Podonos-Plattform
Geringe Latenz: Die kommerzielle Version unterstützt extrem niedrige Latenzzeiten von unter 200 ms
Hochwertige Synthese: Trainiert auf Basis umfangreicher, sauberer Daten, um die Ausgabequalität sicherzustellen

Anwendungsbereiche

Chatterbox eignet sich für eine Vielzahl von Anwendungsbereichen:

Content-Erstellung: Meme-Erstellung, Videovertonung
Spieleentwicklung: Charakterstimmen, Spielkommentare
KI-Agenten: Intelligente Assistenten, Chatbots
Interaktive Medien: Interaktive Anwendungen, Bildungsinhalte
Sprachkonvertierung: Sprachstilkonvertierung

Installation und Verwendung

Schnelle Installation

pip install chatterbox-tts

Grundlegendes Anwendungsbeispiel

import torchaudio as ta
from chatterbox.tts import ChatterboxTTS

# Initialisierung des Modells
model = ChatterboxTTS.from_pretrained(device="cuda")

# Sprachgenerierung
text = "Ezreal and Jinx teamed up with Ahri, Yasuo, and Teemo to take down the enemy's Nexus in an epic late-game pentakill."
wav = model.generate(text)
ta.save("test-1.wav", wav, model.sr)

# Sprachklonierung mit Audio-Prompt
AUDIO_PROMPT_PATH = "YOUR_FILE.wav"
wav = model.generate(text, audio_prompt_path=AUDIO_PROMPT_PATH)
ta.save("test-2.wav", wav, model.sr)

Parameteroptimierungsleitfaden

Allgemeine Verwendung (TTS und Sprachagenten)

Standardeinstellungen: exaggeration=0.5, cfg=0.5 geeignet für die meisten Prompts
Schneller Sprachstil: Wenn der Referenzsprecher schnell spricht, kann cfg auf ca. 0.3 reduziert werden, um den Rhythmus zu verbessern

Ausdrucksstarke oder dramatische Sprache

Niedriger CFG-Wert: Versuchen Sie einen niedrigeren cfg-Wert (z. B. ~0.3)
Hohe Übertreibung: Erhöhen Sie exaggeration auf ca. 0.7 oder höher
Geschwindigkeitskompensation: Eine höhere exaggeration beschleunigt die Sprechgeschwindigkeit, eine niedrigere cfg hilft, dies mit einem langsameren, überlegteren Rhythmus auszugleichen

Technische Architektur

Modellarchitektur

Backbone: 500-Millionen-Parameter-Modell basierend auf der Llama-Architektur
Trainingsdaten: 500.000 Stunden hochwertige, saubere Daten
Inferenzoptimierung: Ausrichtungsbewusste Inferenztechnologie gewährleistet Stabilität

Sicherheitsmerkmale

Integriertes Wasserzeichen: Verwendung der Perth (Perceptual Threshold)-Wasserzeichentechnologie von Resemble AI
Erkennungsgenauigkeit: Das Wasserzeichen behält auch nach MP3-Komprimierung, Audiobearbeitung und gängigen Operationen eine Erkennungsgenauigkeit von nahezu 100 %
Transparenz: Das Open-Source-Modell bietet vollständige Transparenz und Kontrolle

Projektressourcen

GitHub-Repository: https://github.com/resemble-ai/chatterbox
Hugging Face Demo: Online-Gradio-Anwendung zum Ausprobieren
Offizielle Website: https://www.resemble.ai/chatterbox/
Lizenz: MIT License

Kommerzielle Unterstützung

Für Benutzer, die eine Skalierung oder Feinabstimmung für höhere Genauigkeit benötigen, bietet Resemble AI wettbewerbsfähige TTS-Dienste mit folgenden Merkmalen:

Zuverlässige Leistung: Stabiler Produktionsdienst
Extrem niedrige Latenz: Reaktionszeiten unter 200 ms
Anwendungsbereiche: Produktionseinsatz für Agenten, Anwendungen oder interaktive Medien

Nutzungshinweise

Dieses Modell sollte verantwortungsvoll und nicht für böswillige Zwecke verwendet werden. Die Trainingsprompts stammen aus frei verfügbaren Daten aus dem Internet.

Beitrag und Community

Als Open-Source-Projekt freut sich Chatterbox über Beiträge der Community. Entwickler können sich über GitHub an der Projektentwicklung beteiligen, Fehlerberichte einreichen oder Funktionsvorschläge machen.