Chatterbox - Modelo de Texto a Voz de Código Abierto
Resumen del Proyecto
Chatterbox es el primer modelo de texto a voz (TTS) de código abierto de nivel de producción desarrollado por Resemble AI. Publicado bajo la licencia MIT, este proyecto es una solución innovadora de síntesis de voz que supera a sistemas líderes de código cerrado como ElevenLabs en múltiples pruebas de referencia e incluso de forma consistente en evaluaciones comparativas.
Características Principales
🎯 Ventajas Técnicas
- Tecnología TTS de cero-shot de última generación: Genera voz de alta calidad sin necesidad de entrenamiento.
- Red troncal Llama de 500 millones de parámetros: Una arquitectura de modelo potente que garantiza la calidad de la generación.
- Control único de exageración/intensidad emocional: El primer modelo TTS de código abierto de la industria que admite el control emocional.
- Inferencia estable y consciente de la alineación: Asegura la estabilidad y consistencia de la voz generada.
- Datos de entrenamiento a gran escala: Entrenado con 500,000 horas de datos limpios.
- Funcionalidad de marca de agua incorporada: Todo el audio generado contiene una marca de agua de umbral de percepción Perth.
🚀 Rendimiento
- Superior a ElevenLabs: Mejor rendimiento en las pruebas comparativas de la plataforma Podonos.
- Baja latencia: La versión comercial admite una latencia ultrabaja de menos de 200 ms.
- Síntesis de alta calidad: Entrenado con datos limpios a gran escala, lo que garantiza la calidad de la salida.
Casos de Uso
Chatterbox es adecuado para una variedad de casos de uso:
- Creación de contenido: Creación de memes, doblaje de videos.
- Desarrollo de juegos: Voces de personajes, narración de juegos.
- Agentes de IA: Asistentes inteligentes, chatbots.
- Medios interactivos: Aplicaciones interactivas, contenido educativo.
- Conversión de voz: Conversión de estilo de voz.
Instalación y Uso
Instalación Rápida
pip install chatterbox-tts
Ejemplo de Uso Básico
import torchaudio as ta
from chatterbox.tts import ChatterboxTTS
# Inicializar el modelo
model = ChatterboxTTS.from_pretrained(device="cuda")
# Generar voz
text = "Ezreal and Jinx teamed up with Ahri, Yasuo, and Teemo to take down the enemy's Nexus in an epic late-game pentakill."
wav = model.generate(text)
ta.save("test-1.wav", wav, model.sr)
# Usar un audio como referencia para clonar la voz
AUDIO_PROMPT_PATH = "YOUR_FILE.wav"
wav = model.generate(text, audio_prompt_path=AUDIO_PROMPT_PATH)
ta.save("test-2.wav", wav, model.sr)
Guía de Ajuste de Parámetros
Uso General (TTS y Agentes de Voz)
- Configuración predeterminada:
exaggeration=0.5
, cfg=0.5
adecuado para la mayoría de las indicaciones.
- Estilo de voz rápido: Si el hablante de referencia habla rápido, reduzca
cfg
a aproximadamente 0.3
para mejorar el ritmo.
Voz Expresiva o Dramática
- Valor CFG bajo: Pruebe con un valor
cfg
más bajo (como ~0.3
).
- Alta exageración: Aumente
exaggeration
a aproximadamente 0.7
o más.
- Compensación de velocidad: Una
exaggeration
más alta acelerará la velocidad de la voz, reducir cfg
ayuda a compensar con un ritmo más lento y reflexivo.
Arquitectura Técnica
Arquitectura del Modelo
- Red troncal: Modelo de 500 millones de parámetros basado en la arquitectura Llama.
- Datos de entrenamiento: 500,000 horas de datos limpios de alta calidad.
- Optimización de la inferencia: La tecnología de inferencia consciente de la alineación garantiza la estabilidad.
Características de Seguridad
- Marca de agua incorporada: Utiliza la tecnología de marca de agua Perth (umbral de percepción) de Resemble AI.
- Precisión de detección: La marca de agua mantiene una precisión de detección de casi el 100% después de la compresión MP3, la edición de audio y las operaciones comunes.
- Transparencia: El modelo de código abierto proporciona total transparencia y control.
Recursos del Proyecto
Soporte Comercial
Para los usuarios que necesitan escalar o ajustar para una mayor precisión, Resemble AI ofrece servicios TTS con precios competitivos, con las siguientes características:
- Rendimiento confiable: Servicio estable de nivel de producción.
- Latencia ultrabaja: Tiempo de respuesta inferior a 200 ms.
- Casos de uso: Uso en producción para agentes, aplicaciones o medios interactivos.
Aviso de Uso
Este modelo debe utilizarse de forma responsable y no debe utilizarse con fines maliciosos. Las indicaciones de entrenamiento provienen de datos disponibles gratuitamente en Internet.
Contribución y Comunidad
Como proyecto de código abierto, Chatterbox da la bienvenida a las contribuciones de la comunidad. Los desarrolladores pueden participar en el desarrollo del proyecto a través de GitHub, enviando informes de problemas o sugerencias de funciones.
