Dia es un modelo de texto a voz (TTS) de 1.6 mil millones de parámetros desarrollado por Nari Labs, diseñado específicamente para generar contenido de diálogo altamente realista directamente a partir de guiones de texto. A diferencia de los modelos TTS tradicionales, Dia se centra en escenarios de diálogo con múltiples hablantes, siendo capaz de capturar el flujo natural y las características de interacción de la conversación.
Este proyecto utiliza la licencia de código abierto Apache 2.0, con el objetivo de acelerar el desarrollo de la investigación en síntesis de voz, proporcionando una herramienta poderosa para investigadores, desarrolladores y creadores de contenido.
Tipo de Precisión | Multiplicador de Tiempo Real Compilado | Multiplicador de Tiempo Real Sin Compilar | Uso de Memoria de Video |
---|---|---|---|
bfloat16 | x2.1 | x1.5 | ~10GB |
float16 | x2.2 | x1.3 | ~10GB |
float32 | x1 | x0.9 | ~13GB |
Dia representa un avance importante en la tecnología TTS de código abierto, especialmente en el campo de la generación de diálogos. No solo ofrece una calidad comparable a las soluciones comerciales (como ElevenLabs), sino que también cuenta con las ventajas de ser completamente de código abierto y desplegable localmente. Para los investigadores y desarrolladores que necesitan capacidades de síntesis de voz de alta calidad, Dia ofrece una solución potente y flexible.