Home
Login

El primer modelo de texto a voz de código abierto de nivel de producción, que admite el control de exageración emocional y la síntesis de voz de cero disparos.

MITPython 8.7kresemble-aichatterbox Last Updated: 2025-06-13

Chatterbox - Modelo de Texto a Voz de Código Abierto

Resumen del Proyecto

Chatterbox es el primer modelo de texto a voz (TTS) de código abierto de nivel de producción desarrollado por Resemble AI. Publicado bajo la licencia MIT, este proyecto es una solución innovadora de síntesis de voz que supera a sistemas líderes de código cerrado como ElevenLabs en múltiples pruebas de referencia e incluso de forma consistente en evaluaciones comparativas.

Características Principales

🎯 Ventajas Técnicas

  • Tecnología TTS de cero-shot de última generación: Genera voz de alta calidad sin necesidad de entrenamiento.
  • Red troncal Llama de 500 millones de parámetros: Una arquitectura de modelo potente que garantiza la calidad de la generación.
  • Control único de exageración/intensidad emocional: El primer modelo TTS de código abierto de la industria que admite el control emocional.
  • Inferencia estable y consciente de la alineación: Asegura la estabilidad y consistencia de la voz generada.
  • Datos de entrenamiento a gran escala: Entrenado con 500,000 horas de datos limpios.
  • Funcionalidad de marca de agua incorporada: Todo el audio generado contiene una marca de agua de umbral de percepción Perth.

🚀 Rendimiento

  • Superior a ElevenLabs: Mejor rendimiento en las pruebas comparativas de la plataforma Podonos.
  • Baja latencia: La versión comercial admite una latencia ultrabaja de menos de 200 ms.
  • Síntesis de alta calidad: Entrenado con datos limpios a gran escala, lo que garantiza la calidad de la salida.

Casos de Uso

Chatterbox es adecuado para una variedad de casos de uso:

  • Creación de contenido: Creación de memes, doblaje de videos.
  • Desarrollo de juegos: Voces de personajes, narración de juegos.
  • Agentes de IA: Asistentes inteligentes, chatbots.
  • Medios interactivos: Aplicaciones interactivas, contenido educativo.
  • Conversión de voz: Conversión de estilo de voz.

Instalación y Uso

Instalación Rápida

pip install chatterbox-tts

Ejemplo de Uso Básico

import torchaudio as ta
from chatterbox.tts import ChatterboxTTS

# Inicializar el modelo
model = ChatterboxTTS.from_pretrained(device="cuda")

# Generar voz
text = "Ezreal and Jinx teamed up with Ahri, Yasuo, and Teemo to take down the enemy's Nexus in an epic late-game pentakill."
wav = model.generate(text)
ta.save("test-1.wav", wav, model.sr)

# Usar un audio como referencia para clonar la voz
AUDIO_PROMPT_PATH = "YOUR_FILE.wav"
wav = model.generate(text, audio_prompt_path=AUDIO_PROMPT_PATH)
ta.save("test-2.wav", wav, model.sr)

Guía de Ajuste de Parámetros

Uso General (TTS y Agentes de Voz)

  • Configuración predeterminada: exaggeration=0.5, cfg=0.5 adecuado para la mayoría de las indicaciones.
  • Estilo de voz rápido: Si el hablante de referencia habla rápido, reduzca cfg a aproximadamente 0.3 para mejorar el ritmo.

Voz Expresiva o Dramática

  • Valor CFG bajo: Pruebe con un valor cfg más bajo (como ~0.3).
  • Alta exageración: Aumente exaggeration a aproximadamente 0.7 o más.
  • Compensación de velocidad: Una exaggeration más alta acelerará la velocidad de la voz, reducir cfg ayuda a compensar con un ritmo más lento y reflexivo.

Arquitectura Técnica

Arquitectura del Modelo

  • Red troncal: Modelo de 500 millones de parámetros basado en la arquitectura Llama.
  • Datos de entrenamiento: 500,000 horas de datos limpios de alta calidad.
  • Optimización de la inferencia: La tecnología de inferencia consciente de la alineación garantiza la estabilidad.

Características de Seguridad

  • Marca de agua incorporada: Utiliza la tecnología de marca de agua Perth (umbral de percepción) de Resemble AI.
  • Precisión de detección: La marca de agua mantiene una precisión de detección de casi el 100% después de la compresión MP3, la edición de audio y las operaciones comunes.
  • Transparencia: El modelo de código abierto proporciona total transparencia y control.

Recursos del Proyecto

Soporte Comercial

Para los usuarios que necesitan escalar o ajustar para una mayor precisión, Resemble AI ofrece servicios TTS con precios competitivos, con las siguientes características:

  • Rendimiento confiable: Servicio estable de nivel de producción.
  • Latencia ultrabaja: Tiempo de respuesta inferior a 200 ms.
  • Casos de uso: Uso en producción para agentes, aplicaciones o medios interactivos.

Aviso de Uso

Este modelo debe utilizarse de forma responsable y no debe utilizarse con fines maliciosos. Las indicaciones de entrenamiento provienen de datos disponibles gratuitamente en Internet.

Contribución y Comunidad

Como proyecto de código abierto, Chatterbox da la bienvenida a las contribuciones de la comunidad. Los desarrolladores pueden participar en el desarrollo del proyecto a través de GitHub, enviando informes de problemas o sugerencias de funciones.

Star History Chart