Home
Login

ضياء: نموذج تحويل النص إلى كلام (TTS) قادر على إنشاء حوار واقعي للغاية دفعة واحدة.

Apache-2.0Python 16.9knari-labs Last Updated: 2025-05-28

ديا - نموذج مفتوح المصدر لتحويل النص إلى كلام (TTS) لتوليد حوار واقعي للغاية

نظرة عامة على المشروع

ديا هو نموذج لتحويل النص إلى كلام (TTS) بحجم 1.6 مليار معلمة تم تطويره بواسطة Nari Labs، وهو مصمم خصيصًا لتوليد محتوى حوار واقعي للغاية مباشرةً من النصوص المكتوبة. على عكس نماذج TTS التقليدية، يركز ديا على سيناريوهات الحوار متعددة المتحدثين، وهو قادر على التقاط التدفق الطبيعي للحوار وخصائص التفاعل.

يعتمد هذا المشروع على ترخيص Apache 2.0 مفتوح المصدر، ويهدف إلى تسريع تطوير أبحاث تركيب الكلام، وتوفير أدوات قوية للباحثين والمطورين ومنشئي المحتوى.

الوظائف والميزات الأساسية

🎯 القدرات الأساسية

  • توليد حوار متعدد المتحدثين: يدعم سيناريوهات الحوار بين شخصين من خلال علامتي [S1] و [S2]
  • توليد لمرة واحدة: يولد حوارًا واقعيًا للغاية مباشرةً من النص المكتوب، دون الحاجة إلى معالجة متعددة الخطوات
  • التواصل غير اللفظي: يدعم توليد أصوات غير لفظية مثل الضحك والسعال وتنحنح الحلق
  • التحكم في العاطفة والنبرة: يمكن التحكم في العاطفة والنبرة بناءً على مدخلات الصوت

🔧 الخصائص التقنية

  • حجم 1.6 مليار معلمة: يوفر قدرة قوية على توليد الكلام
  • استنساخ الصوت بدون عينات: يتطلب بضع ثوانٍ فقط من الصوت المرجعي لاستنساخ الصوت
  • أداء في الوقت الفعلي: يدعم التشغيل في الوقت الفعلي على وحدة معالجة رسومات واحدة (GPU)
  • تحسين الأجهزة: يمكن أن يصل إلى 2.2 ضعف السرعة في الوقت الفعلي على RTX 4090 (دقة float16)

📊 مؤشرات الأداء

نوع الدقة مضاعف الوقت الفعلي بعد الترجمة البرمجية مضاعف الوقت الفعلي قبل الترجمة البرمجية استخدام ذاكرة الفيديو (VRAM)
bfloat16 x2.1 x1.5 ~10GB
float16 x2.2 x1.3 ~10GB
float32 x1 x0.9 ~13GB

🛠️ كيفية الاستخدام

  1. التثبيت المباشر: يدعم التثبيت المباشر عبر pip من GitHub
  2. واجهة Gradio: يوفر واجهة ويب سهلة الاستخدام
  3. استدعاء مكتبة Python: يمكن دمجه كمكتبة Python في المشاريع
  4. تجربة عبر الإنترنت: يوفر مساحة HuggingFace وعرضًا تجريبيًا عبر الإنترنت

🌟 سيناريوهات التطبيق

  • المساعدون الافتراضيون: يوفر صوت حوار طبيعي للمساعدين الذين يعملون بالذكاء الاصطناعي
  • تطوير الألعاب: يولد حوارًا بين شخصيات اللعبة
  • الكتب الصوتية: إنشاء محتوى كتب صوتية متعددة الشخصيات
  • أدوات الوصول: يوفر خدمات قراءة النصوص للمستخدمين ضعاف البصر
  • إنشاء المحتوى: إنتاج محتوى صوتي مثل البودكاست والمسلسلات الإذاعية

البنية التقنية

ميزات النموذج

  • بنية شاملة تعتمد على التعلم العميق
  • يدعم PyTorch 2.0+ و CUDA 12.6
  • يدمج Descript Audio Codec لمعالجة الصوت
  • يدعم torch.compile لتحسين سرعة الاستدلال

متطلبات تنسيق الإدخال

  • استخدم علامتي [S1] و [S2] للتمييز بين المتحدثين المختلفين
  • يدعم العلامات غير اللفظية مثل (laughs) و (coughs) وما إلى ذلك
  • يوصى بأن يتوافق طول الإدخال مع 5-20 ثانية من الصوت
  • يوصى بأن يكون طول المطالبة الصوتية 5-10 ثوانٍ

النظام البيئي مفتوح المصدر

مستودع التعليمات البرمجية

  • GitHub: https://github.com/nari-labs/dia
  • أوزان النموذج: مستضافة على منصة HuggingFace
  • دعم المجتمع: يوفر خادم Discord للتبادل التقني

الترخيص والامتثال

  • يعتمد على ترخيص Apache License 2.0 مفتوح المصدر
  • يحظر بشدة الاستخدام الضار مثل انتحال الهوية وتوليد محتوى خادع
  • يؤكد على الاستخدام القانوني لأغراض البحث والتعليم

ملخص

يمثل ديا اختراقًا مهمًا في تقنية TTS مفتوحة المصدر، خاصة في مجال توليد الحوار. فهو لا يوفر جودة تضاهي الحلول التجارية (مثل ElevenLabs) فحسب، بل يتمتع أيضًا بميزة المصدر المفتوح بالكامل والنشر المحلي. بالنسبة للباحثين والمطورين الذين يحتاجون إلى قدرات تركيب صوت عالية الجودة، يوفر ديا حلاً قويًا ومرنًا.