nari-labs/diaPlease refer to the latest official releases for information GitHub Homepage

Dia : Un modèle de synthèse vocale (TTS) capable de générer des dialogues ultra-réalistes en une seule fois.

Apache-2.0Python 16.9knari-labs Last Updated: 2025-05-28

Dia - Un modèle TTS open source pour la génération de dialogues ultra-réalistes

Aperçu du projet

Dia est un modèle de synthèse vocale (TTS) de 1,6 milliard de paramètres développé par Nari Labs, spécialement conçu pour générer du contenu de dialogue hautement réaliste directement à partir de scripts textuels. Contrairement aux modèles TTS traditionnels, Dia se concentre sur les scénarios de dialogue multi-locuteurs, capable de capturer le flux naturel et les caractéristiques interactives des conversations.

Ce projet est publié sous la licence open source Apache 2.0, dans le but d'accélérer le développement de la recherche en synthèse vocale, en fournissant aux chercheurs, aux développeurs et aux créateurs de contenu un outil puissant.

Fonctionnalités et caractéristiques principales

🎯 Capacités essentielles

Génération de dialogues multi-locuteurs : Prise en charge des scénarios de dialogue à deux personnes via les balises [S1] et [S2]
Génération en une seule étape : Génère des dialogues hautement réalistes directement à partir de scripts textuels, sans traitement en plusieurs étapes
Communication non verbale : Prise en charge de la génération de sons non verbaux tels que les rires, la toux, les raclements de gorge, etc.
Contrôle de l'émotion et de l'intonation : Possibilité de contrôler l'émotion et l'intonation en fonction des conditions d'entrée audio

🔧 Caractéristiques techniques

Modèle de 1,6 milliard de paramètres : Offre une puissante capacité de génération vocale
Clonage vocal zéro-shot : Nécessite seulement quelques secondes d'audio de référence pour le clonage vocal
Performance en temps réel : Prise en charge de l'exécution en temps réel sur un seul GPU
Optimisation matérielle : Atteint une vitesse 2,2 fois supérieure au temps réel sur RTX 4090 (précision float16)

📊 Indicateurs de performance

Type de précision	Multiplicateur de temps réel compilé	Multiplicateur de temps réel non compilé	Occupation de la mémoire vidéo
bfloat16	x2.1	x1.5	~10GB
float16	x2.2	x1.3	~10GB
float32	x1	x0.9	~13GB

🛠️ Utilisation

Installation directe : Prise en charge de l'installation directe via pip à partir de GitHub
Interface Gradio : Fournit une interface Web conviviale
Appel de bibliothèque Python : Peut être intégré aux projets en tant que bibliothèque Python
Expérience en ligne : Offre un espace HuggingFace et une démonstration en ligne

🌟 Cas d'utilisation

Assistants virtuels : Fournit une voix de dialogue naturelle pour les assistants IA
Développement de jeux : Génère des dialogues entre les personnages de jeux
Livres audio : Crée du contenu de livres audio multi-personnages
Outils d'accessibilité : Fournit des services de lecture de texte pour les utilisateurs malvoyants
Création de contenu : Produit des podcasts, des pièces radiophoniques et d'autres contenus audio

Architecture technique

Caractéristiques du modèle

Architecture de bout en bout basée sur l'apprentissage profond
Prise en charge de PyTorch 2.0+ et CUDA 12.6
Intégration du codec audio Descript pour le traitement audio
Prise en charge de l'optimisation de la vitesse d'inférence via torch.compile

Exigences de format d'entrée

Utilisation des balises [S1] et [S2] pour distinguer les différents locuteurs
Prise en charge des balises non verbales telles que (laughs), (coughs), etc.
La longueur d'entrée recommandée correspond à 5-20 secondes d'audio
La durée des invites audio est recommandée entre 5 et 10 secondes

Écosystème open source

Dépôts de code

GitHub : https://github.com/nari-labs/dia
Poids du modèle : Hébergés sur la plateforme HuggingFace
Support communautaire : Fournit un serveur Discord pour les échanges techniques

Licence et conformité

Utilise la licence open source Apache License 2.0
Interdiction stricte de l'usurpation d'identité, de la génération de contenu trompeur et d'autres utilisations malveillantes
Souligne l'utilisation légale à des fins de recherche et d'éducation

Conclusion

Dia représente une avancée significative dans la technologie TTS open source, en particulier dans le domaine de la génération de dialogues. Il offre non seulement une qualité comparable aux solutions commerciales (telles que ElevenLabs), mais présente également l'avantage d'être entièrement open source et déployable localement. Pour les chercheurs et les développeurs qui ont besoin de capacités de synthèse vocale de haute qualité, Dia offre une solution puissante et flexible.