Dia est un modèle de synthèse vocale (TTS) de 1,6 milliard de paramètres développé par Nari Labs, spécialement conçu pour générer du contenu de dialogue hautement réaliste directement à partir de scripts textuels. Contrairement aux modèles TTS traditionnels, Dia se concentre sur les scénarios de dialogue multi-locuteurs, capable de capturer le flux naturel et les caractéristiques interactives des conversations.
Ce projet est publié sous la licence open source Apache 2.0, dans le but d'accélérer le développement de la recherche en synthèse vocale, en fournissant aux chercheurs, aux développeurs et aux créateurs de contenu un outil puissant.
Type de précision | Multiplicateur de temps réel compilé | Multiplicateur de temps réel non compilé | Occupation de la mémoire vidéo |
---|---|---|---|
bfloat16 | x2.1 | x1.5 | ~10GB |
float16 | x2.2 | x1.3 | ~10GB |
float32 | x1 | x0.9 | ~13GB |
Dia représente une avancée significative dans la technologie TTS open source, en particulier dans le domaine de la génération de dialogues. Il offre non seulement une qualité comparable aux solutions commerciales (telles que ElevenLabs), mais présente également l'avantage d'être entièrement open source et déployable localement. Pour les chercheurs et les développeurs qui ont besoin de capacités de synthèse vocale de haute qualité, Dia offre une solution puissante et flexible.