nari-labs/dia

Dia: un modelo de texto a voz (TTS) capaz de generar diálogos hiperrealistas de una sola vez.

Apache-2.0Python 16.9knari-labs Last Updated: 2025-05-28

Dia - Modelo TTS de Código Abierto para Generación de Diálogo Hiperrealista

Resumen del Proyecto

Dia es un modelo de texto a voz (TTS) de 1.6 mil millones de parámetros desarrollado por Nari Labs, diseñado específicamente para generar contenido de diálogo altamente realista directamente a partir de guiones de texto. A diferencia de los modelos TTS tradicionales, Dia se centra en escenarios de diálogo con múltiples hablantes, siendo capaz de capturar el flujo natural y las características de interacción de la conversación.

Este proyecto utiliza la licencia de código abierto Apache 2.0, con el objetivo de acelerar el desarrollo de la investigación en síntesis de voz, proporcionando una herramienta poderosa para investigadores, desarrolladores y creadores de contenido.

Funciones y Características Principales

🎯 Capacidades Centrales

Generación de Diálogo con Múltiples Hablantes: Soporte para escenarios de diálogo entre dos personas a través de las etiquetas [S1] y [S2].
Generación Única: Genera diálogos altamente realistas directamente desde el guion de texto, sin necesidad de procesamiento en múltiples pasos.
Comunicación No Verbal: Soporte para la generación de sonidos no verbales como risas, toses, carraspeos, etc.
Control de Emoción y Tono: Capacidad de controlar la emoción y el tono basándose en condiciones de entrada de audio.

🔧 Características Técnicas

Escala de 1.6 Mil Millones de Parámetros: Proporciona una potente capacidad de generación de voz.
Clonación de Voz Zero-Shot: Permite la clonación de voz con solo unos segundos de audio de referencia.
Rendimiento en Tiempo Real: Soporta la ejecución en tiempo real en una sola GPU.
Optimización de Hardware: Alcanza una velocidad 2.2 veces superior al tiempo real en RTX 4090 (precisión float16).

📊 Métricas de Rendimiento

Tipo de Precisión	Multiplicador de Tiempo Real Compilado	Multiplicador de Tiempo Real Sin Compilar	Uso de Memoria de Video
bfloat16	x2.1	x1.5	~10GB
float16	x2.2	x1.3	~10GB
float32	x1	x0.9	~13GB

🛠️ Modo de Uso

Instalación Directa: Soporte para la instalación directa desde GitHub a través de pip.
Interfaz Gradio: Proporciona una interfaz web amigable para el usuario.
Llamada a la Biblioteca Python: Puede integrarse como una biblioteca Python en proyectos.
Experiencia en Línea: Ofrece HuggingFace Space y demostraciones en línea.

🌟 Escenarios de Aplicación

Asistentes Virtuales: Proporciona voz de diálogo natural para asistentes de IA.
Desarrollo de Juegos: Genera diálogos entre personajes de juegos.
Audiolibros: Crea contenido de audiolibros con múltiples personajes.
Herramientas de Accesibilidad: Proporciona servicios de lectura de texto para usuarios con discapacidad visual.
Creación de Contenido: Produce podcasts, radionovelas y otros contenidos de audio.

Arquitectura Técnica

Características del Modelo

Arquitectura de extremo a extremo basada en aprendizaje profundo.
Soporte para PyTorch 2.0+ y CUDA 12.6.
Integración de Descript Audio Codec para el procesamiento de audio.
Soporte para la optimización de la velocidad de inferencia con torch.compile.

Requisitos del Formato de Entrada

Utiliza las etiquetas [S1] y [S2] para distinguir entre diferentes hablantes.
Soporte para etiquetas no verbales como (laughs), (coughs), etc.
Se recomienda que la longitud de la entrada corresponda a 5-20 segundos de audio.
Se recomienda que la duración de la pista de audio sea de 5-10 segundos.

Ecosistema de Código Abierto

Repositorios de Código

GitHub: https://github.com/nari-labs/dia
Pesos del Modelo: Alojados en la plataforma HuggingFace.
Soporte de la Comunidad: Proporciona un servidor Discord para el intercambio técnico.

Licencia y Cumplimiento

Utiliza la licencia de código abierto Apache License 2.0.
Prohibición estricta del uso malicioso, como la suplantación de identidad y la generación de contenido engañoso.
Énfasis en el uso legal para fines de investigación y educación.

Resumen

Dia representa un avance importante en la tecnología TTS de código abierto, especialmente en el campo de la generación de diálogos. No solo ofrece una calidad comparable a las soluciones comerciales (como ElevenLabs), sino que también cuenta con las ventajas de ser completamente de código abierto y desplegable localmente. Para los investigadores y desarrolladores que necesitan capacidades de síntesis de voz de alta calidad, Dia ofrece una solución potente y flexible.