Premier modèle open source de synthèse vocale de qualité production, prenant en charge le contrôle de l'exagération émotionnelle et la synthèse vocale zéro-shot.

MITPythonchatterboxresemble-ai 10.1k Last Updated: August 01, 2025

Chatterbox - Modèle de synthèse vocale open source

Aperçu du projet

Chatterbox est le premier modèle de synthèse vocale (TTS) open source de qualité production développé par Resemble AI. Publié sous licence MIT, ce projet est une solution révolutionnaire de synthèse vocale qui surpasse les systèmes propriétaires leaders comme ElevenLabs dans plusieurs benchmarks, et même de manière constante dans les évaluations côte à côte.

Caractéristiques principales

🎯 Avantages techniques

  • Technologie TTS zéro-shot de pointe : Génère une voix de haute qualité sans entraînement préalable.
  • Architecture Llama avec 500 millions de paramètres : Une architecture de modèle puissante garantit la qualité de la génération.
  • Contrôle unique de l'exagération/intensité émotionnelle : Premier modèle TTS open source prenant en charge le contrôle émotionnel.
  • Inférence stable et sensible à l'alignement : Assure la stabilité et la cohérence de la voix générée.
  • Données d'entraînement à grande échelle : Entraîné sur 500 000 heures de données propres.
  • Filigrane intégré : Tous les audios générés contiennent un filigrane de seuil de perception Perth.

🚀 Performances

  • Supérieur à ElevenLabs : Surpasse ElevenLabs dans les tests comparatifs de la plateforme Podonos.
  • Faible latence : La version commerciale prend en charge une latence ultra-faible inférieure à 200 ms.
  • Synthèse de haute qualité : Entraîné sur des données propres à grande échelle, garantissant la qualité de la sortie.

Cas d'utilisation

Chatterbox est adapté à divers cas d'utilisation :

  • Création de contenu : Création de mèmes, doublage de vidéos
  • Développement de jeux : Voix de personnages, narration de jeux
  • Agents IA : Assistants intelligents, chatbots
  • Médias interactifs : Applications interactives, contenu éducatif
  • Conversion vocale : Conversion de style de voix

Installation et utilisation

Installation rapide

pip install chatterbox-tts

Exemple d'utilisation de base

import torchaudio as ta
from chatterbox.tts import ChatterboxTTS

# Initialiser le modèle
model = ChatterboxTTS.from_pretrained(device="cuda")

# Générer la voix
text = "Ezreal and Jinx teamed up with Ahri, Yasuo, and Teemo to take down the enemy's Nexus in an epic late-game pentakill."
wav = model.generate(text)
ta.save("test-1.wav", wav, model.sr)

# Utiliser une invite audio pour le clonage vocal
AUDIO_PROMPT_PATH = "YOUR_FILE.wav"
wav = model.generate(text, audio_prompt_path=AUDIO_PROMPT_PATH)
ta.save("test-2.wav", wav, model.sr)

Guide d'optimisation des paramètres

Utilisation générale (TTS et agent vocal)

  • Paramètres par défaut : exaggeration=0.5, cfg=0.5 convient à la plupart des invites.
  • Style de voix rapide : Si le locuteur de référence parle rapidement, réduisez cfg à environ 0.3 pour améliorer le rythme.

Voix expressive ou dramatique

  • Faible valeur CFG : Essayez une valeur cfg plus faible (par exemple, ~0.3).
  • Exagération élevée : Augmentez exaggeration à environ 0.7 ou plus.
  • Compensation de vitesse : Une exaggeration plus élevée accélère la vitesse de la voix, la réduction de cfg aide à compenser avec un rythme plus lent et plus réfléchi.

Architecture technique

Architecture du modèle

  • Architecture : Modèle de 500 millions de paramètres basé sur l'architecture Llama.
  • Données d'entraînement : 500 000 heures de données propres de haute qualité.
  • Optimisation de l'inférence : La technologie d'inférence sensible à l'alignement assure la stabilité.

Caractéristiques de sécurité

  • Filigrane intégré : Utilise la technologie de filigrane Perth (seuil de perception) de Resemble AI.
  • Précision de la détection : Le filigrane conserve une précision de détection proche de 100 % après la compression MP3, l'édition audio et les opérations courantes.
  • Transparence : Le modèle open source offre une transparence et un contrôle complets.

Ressources du projet

Support commercial

Pour les utilisateurs qui ont besoin d'une mise à l'échelle ou d'un réglage fin pour une plus grande précision, Resemble AI propose des services TTS à des prix compétitifs, avec les caractéristiques suivantes :

  • Performances fiables : Service stable de qualité production
  • Latence ultra-faible : Temps de réponse inférieur à 200 ms
  • Cas d'utilisation : Utilisation en production pour les agents, les applications ou les médias interactifs

Avis d'utilisation

Ce modèle doit être utilisé de manière responsable et ne doit pas être utilisé à des fins malveillantes. Les invites d'entraînement proviennent de données disponibles gratuitement sur Internet.

Contribution et communauté

En tant que projet open source, Chatterbox accueille les contributions de la communauté. Les développeurs peuvent participer au développement du projet via GitHub, soumettre des rapports de problèmes ou des suggestions de fonctionnalités.

Star History Chart