ديا هو نموذج لتحويل النص إلى كلام (TTS) بحجم 1.6 مليار معلمة تم تطويره بواسطة Nari Labs، وهو مصمم خصيصًا لتوليد محتوى حوار واقعي للغاية مباشرةً من النصوص المكتوبة. على عكس نماذج TTS التقليدية، يركز ديا على سيناريوهات الحوار متعددة المتحدثين، وهو قادر على التقاط التدفق الطبيعي للحوار وخصائص التفاعل.
يعتمد هذا المشروع على ترخيص Apache 2.0 مفتوح المصدر، ويهدف إلى تسريع تطوير أبحاث تركيب الكلام، وتوفير أدوات قوية للباحثين والمطورين ومنشئي المحتوى.
نوع الدقة | مضاعف الوقت الفعلي بعد الترجمة البرمجية | مضاعف الوقت الفعلي قبل الترجمة البرمجية | استخدام ذاكرة الفيديو (VRAM) |
---|---|---|---|
bfloat16 | x2.1 | x1.5 | ~10GB |
float16 | x2.2 | x1.3 | ~10GB |
float32 | x1 | x0.9 | ~13GB |
يمثل ديا اختراقًا مهمًا في تقنية TTS مفتوحة المصدر، خاصة في مجال توليد الحوار. فهو لا يوفر جودة تضاهي الحلول التجارية (مثل ElevenLabs) فحسب، بل يتمتع أيضًا بميزة المصدر المفتوح بالكامل والنشر المحلي. بالنسبة للباحثين والمطورين الذين يحتاجون إلى قدرات تركيب صوت عالية الجودة، يوفر ديا حلاً قويًا ومرنًا.