resemble-ai/chatterbox View GitHub Homepage for Latest Official Releases

El primer modelo de texto a voz de código abierto de nivel de producción, que admite el control de exageración emocional y la síntesis de voz de cero disparos.

MITPythonchatterboxresemble-ai 18.6k Last Updated: December 15, 2025

Chatterbox - Modelo de Texto a Voz de Código Abierto

Resumen del Proyecto

Chatterbox es el primer modelo de texto a voz (TTS) de código abierto de nivel de producción desarrollado por Resemble AI. Publicado bajo la licencia MIT, este proyecto es una solución innovadora de síntesis de voz que supera a sistemas líderes de código cerrado como ElevenLabs en múltiples pruebas de referencia e incluso de forma consistente en evaluaciones comparativas.

Características Principales

🎯 Ventajas Técnicas

Tecnología TTS de cero-shot de última generación: Genera voz de alta calidad sin necesidad de entrenamiento.
Red troncal Llama de 500 millones de parámetros: Una arquitectura de modelo potente que garantiza la calidad de la generación.
Control único de exageración/intensidad emocional: El primer modelo TTS de código abierto de la industria que admite el control emocional.
Inferencia estable y consciente de la alineación: Asegura la estabilidad y consistencia de la voz generada.
Datos de entrenamiento a gran escala: Entrenado con 500,000 horas de datos limpios.
Funcionalidad de marca de agua incorporada: Todo el audio generado contiene una marca de agua de umbral de percepción Perth.

🚀 Rendimiento

Superior a ElevenLabs: Mejor rendimiento en las pruebas comparativas de la plataforma Podonos.
Baja latencia: La versión comercial admite una latencia ultrabaja de menos de 200 ms.
Síntesis de alta calidad: Entrenado con datos limpios a gran escala, lo que garantiza la calidad de la salida.

Casos de Uso

Chatterbox es adecuado para una variedad de casos de uso:

Creación de contenido: Creación de memes, doblaje de videos.
Desarrollo de juegos: Voces de personajes, narración de juegos.
Agentes de IA: Asistentes inteligentes, chatbots.
Medios interactivos: Aplicaciones interactivas, contenido educativo.
Conversión de voz: Conversión de estilo de voz.

Instalación y Uso

Instalación Rápida

pip install chatterbox-tts

Ejemplo de Uso Básico

import torchaudio as ta
from chatterbox.tts import ChatterboxTTS

# Inicializar el modelo
model = ChatterboxTTS.from_pretrained(device="cuda")

# Generar voz
text = "Ezreal and Jinx teamed up with Ahri, Yasuo, and Teemo to take down the enemy's Nexus in an epic late-game pentakill."
wav = model.generate(text)
ta.save("test-1.wav", wav, model.sr)

# Usar un audio como referencia para clonar la voz
AUDIO_PROMPT_PATH = "YOUR_FILE.wav"
wav = model.generate(text, audio_prompt_path=AUDIO_PROMPT_PATH)
ta.save("test-2.wav", wav, model.sr)

Guía de Ajuste de Parámetros

Uso General (TTS y Agentes de Voz)

Configuración predeterminada: exaggeration=0.5, cfg=0.5 adecuado para la mayoría de las indicaciones.
Estilo de voz rápido: Si el hablante de referencia habla rápido, reduzca cfg a aproximadamente 0.3 para mejorar el ritmo.

Voz Expresiva o Dramática

Valor CFG bajo: Pruebe con un valor cfg más bajo (como ~0.3).
Alta exageración: Aumente exaggeration a aproximadamente 0.7 o más.
Compensación de velocidad: Una exaggeration más alta acelerará la velocidad de la voz, reducir cfg ayuda a compensar con un ritmo más lento y reflexivo.

Arquitectura Técnica

Arquitectura del Modelo

Red troncal: Modelo de 500 millones de parámetros basado en la arquitectura Llama.
Datos de entrenamiento: 500,000 horas de datos limpios de alta calidad.
Optimización de la inferencia: La tecnología de inferencia consciente de la alineación garantiza la estabilidad.

Características de Seguridad

Marca de agua incorporada: Utiliza la tecnología de marca de agua Perth (umbral de percepción) de Resemble AI.
Precisión de detección: La marca de agua mantiene una precisión de detección de casi el 100% después de la compresión MP3, la edición de audio y las operaciones comunes.
Transparencia: El modelo de código abierto proporciona total transparencia y control.

Recursos del Proyecto

Repositorio de GitHub: https://github.com/resemble-ai/chatterbox
Demostración de Hugging Face: Experiencia de aplicación Gradio en línea.
Sitio web oficial: https://www.resemble.ai/chatterbox/
Licencia: MIT License

Soporte Comercial

Para los usuarios que necesitan escalar o ajustar para una mayor precisión, Resemble AI ofrece servicios TTS con precios competitivos, con las siguientes características:

Rendimiento confiable: Servicio estable de nivel de producción.
Latencia ultrabaja: Tiempo de respuesta inferior a 200 ms.
Casos de uso: Uso en producción para agentes, aplicaciones o medios interactivos.

Aviso de Uso

Este modelo debe utilizarse de forma responsable y no debe utilizarse con fines maliciosos. Las indicaciones de entrenamiento provienen de datos disponibles gratuitamente en Internet.

Contribución y Comunidad

Como proyecto de código abierto, Chatterbox da la bienvenida a las contribuciones de la comunidad. Los desarrolladores pueden participar en el desarrollo del proyecto a través de GitHub, enviando informes de problemas o sugerencias de funciones.