Home
Login

إطار عمل الذكاء الاصطناعي التوليدي القابل للتطوير والمصمم للباحثين والمطورين، مع التركيز على نماذج اللغة الكبيرة والذكاء الاصطناعي متعدد الوسائط والذكاء الاصطناعي الصوتي (التعرف التلقائي على الكلام وتحويل النص إلى كلام)

Apache-2.0Python 14.9kNVIDIA Last Updated: 2025-06-19

نظرة عامة على مشروع NVIDIA NeMo

إطار عمل NVIDIA NeMo هو إطار عمل توسعي وسحابي أصيل للذكاء الاصطناعي التوليدي، مصمم للباحثين ومطوري PyTorch، ويركز على نماذج اللغة الكبيرة (LLMs)، والنماذج متعددة الوسائط (MMs)، والتعرف التلقائي على الكلام (ASR)، وتحويل النص إلى كلام (TTS)، ومجال رؤية الكمبيوتر (CV). يهدف هذا الإطار إلى مساعدة المستخدمين على إنشاء وتخصيص ونشر نماذج الذكاء الاصطناعي التوليدي الجديدة بكفاءة من خلال الاستفادة من التعليمات البرمجية الحالية ونقاط تفتيش النماذج المدربة مسبقًا.

الميزات الأساسية

تحديثات NeMo 2.0 الرئيسية

قدم NeMo 2.0 العديد من التحسينات الهامة مقارنة بسابقه NeMo 1.0، مما عزز المرونة والأداء وقابلية التوسع:

  • التكوين المستند إلى Python - التحول من ملفات YAML إلى التكوين المستند إلى Python، مما يوفر مرونة وتحكمًا أكبر.
  • التجريد المعياري - اعتماد التجريد المعياري لـ PyTorch Lightning، مما يبسط عملية التكيف والتجريب.
  • قابلية التوسع - استخدام NeMo-Run للتوسع بسلاسة إلى تجارب واسعة النطاق على آلاف وحدات معالجة الرسومات (GPUs).

مزايا البنية التقنية

تستخدم جميع نماذج NeMo Lightning للتدريب، ويمكن توسيع التدريب تلقائيًا إلى آلاف وحدات معالجة الرسومات. يدمج الإطار تقنيات التدريب الموزع المتطورة، بما في ذلك:

  • التوازي الموتري (TP)
  • التوازي الأنبوبي (PP)
  • التوازي الكامل للبيانات المجزأة (FSDP)
  • خليط الخبراء (MoE)
  • التدريب المختلط الدقة (يدعم BFloat16 و FP8)

تستفيد LLMs و MMs المستندة إلى Transformer من NVIDIA Transformer Engine للتدريب على FP8 على وحدات معالجة الرسومات NVIDIA Hopper، مع الاستفادة أيضًا من NVIDIA Megatron Core لتوسيع تدريب نماذج Transformer.

مجالات التطبيق الرئيسية

1. نماذج اللغة الكبيرة والنماذج متعددة الوسائط

آخر تحديثات الميزات

  • دعم AutoModel - تدعم أحدث ميزة في NeMo Framework، AutoModel، نماذج 🤗Hugging Face، ويركز الإصدار 25.02 على AutoModelForCausalLM في فئة إنشاء النصوص.
  • دعم Blackwell - أضاف NeMo Framework دعم Blackwell، ويركز الإصدار 25.02 على تكافؤ ميزات B200.

تقنيات محاذاة النماذج

يمكن محاذاة NeMo LLMs باستخدام أحدث الأساليب، مثل SteerLM، وتحسين التفضيل المباشر (DPO)، والتعلم المعزز من ردود الفعل البشرية (RLHF). بالإضافة إلى الضبط الدقيق الخاضع للإشراف (SFT)، يدعم NeMo أيضًا أحدث تقنيات الضبط الدقيق الفعال للمعلمات (PEFT)، مثل LoRA و P-Tuning و Adapters و IA3.

2. نماذج الأساس العالمي Cosmos

تعمل منصة NVIDIA Cosmos على تسريع تطوير نماذج العالم للأنظمة الفيزيائية للذكاء الاصطناعي. استنادًا إلى CUDA، يجمع Cosmos بين أحدث نماذج الأساس العالمي، ومجزئات الفيديو، وخطوط أنابيب معالجة البيانات المعجلة بالذكاء الاصطناعي. يمكن للمطورين تسريع تطوير نماذج العالم عن طريق الضبط الدقيق لنماذج الأساس العالمي Cosmos أو بناء نماذج جديدة من البداية.

3. تقنية التعرف على الكلام

سلسلة نماذج Parakeet

  • Parakeet-TDT - أداء أفضل في الدقة، وأسرع بنسبة 64٪ من أفضل نموذج سابق Parakeet-RNNT-1.1B.
  • نموذج Canary متعدد اللغات - يمكنه نسخ الصوت باللغات الإنجليزية والإسبانية والألمانية والفرنسية، مع علامات الترقيم والأحرف الكبيرة، ويوفر أيضًا ترجمة ثنائية الاتجاه بين هذه اللغات.

تحسين الأداء

نشر فريق NVIDIA NeMo العديد من تحسينات الاستدلال لنماذج CTC و RNN-T و TDT، مما حقق تحسينات في سرعة الاستدلال تصل إلى 10 أضعاف، وتتجاوز هذه النماذج الآن 2000 عامل الوقت الحقيقي العكسي (RTFx)، وبعضها يصل إلى 6000 RTFx.

التثبيت والنشر

طرق التثبيت المدعومة

  1. تثبيت Conda/Pip - مناسب لاستكشاف NeMo، ويوصى به لمجالات ASR و TTS.
  2. حاوية NGC PyTorch - التثبيت من التعليمات البرمجية المصدر في حاوية محسنة للغاية.
  3. حاوية NGC NeMo - حل جاهز للاستخدام، يتضمن جميع التبعيات.

متطلبات النظام

  • Python 3.10 أو إصدار أحدث
  • PyTorch 2.5 أو إصدار أحدث
  • NVIDIA GPU (إذا كنت تنوي إجراء تدريب على النموذج)

دعم النظام الأساسي

نظام التشغيل/النظام الأساسي تثبيت PyPi تثبيت التعليمات البرمجية المصدر لحاوية NGC
Linux - amd64/x84_64 دعم محدود دعم كامل
Linux - arm64 دعم محدود دعم محدود
macOS - amd64/x64_64 مهمل مهمل
macOS - arm64 دعم محدود دعم محدود

النظام البيئي وسلسلة الأدوات

المشاريع ذات الصلة

  • NeMo-Run - أداة لتكوين وبدء وإدارة تجارب التعلم الآلي.
  • NeMo Curator - مجموعة أدوات لمعالجة البيانات المسبقة وتنسيقها القابلة للتطوير لـ LLM.
  • NeMo Guardrails - مجموعة أدوات مفتوحة المصدر لإضافة حواجز حماية قابلة للبرمجة إلى أنظمة المحادثة المستندة إلى LLM.
  • NeMo Aligner - أداة محاذاة النماذج.
  • NeMo Skills - مشروع لتحسين "مهارات" نماذج اللغة الكبيرة.

النشر والتحسين

  • يمكن نشر وتحسين NeMo LLMs و MMs من خلال NVIDIA NeMo Microservices.
  • يمكن تحسين الاستدلال لنماذج NeMo ASR و TTS ونشرها لحالات الاستخدام الإنتاجية من خلال NVIDIA Riva.

أداء

نتائج القياس

  • MLPerf Training v4.0 - باستخدام NVIDIA NeMo Framework و NVIDIA Hopper GPU، تمكنت NVIDIA من التوسع إلى 11,616 H100 GPU وتحقيق توسع أداء خطي تقريبًا في التدريب المسبق لـ LLM.
  • تحسين أداء H200 - زيادة سرعة التدريب المسبق لـ Llama 2 بما يصل إلى 4.2 مرة على NVIDIA H200 Tensor Core GPU.

حالات الاستخدام والشركاء

تطبيقات المؤسسات

  • نماذج الأساس Amazon Titan - يوفر NVIDIA NeMo Framework الآن دعمًا فعالاً لتدريب نماذج اللغة الكبيرة لنماذج الأساس Amazon Titan.
  • منصة Bria.ai - الاستفادة من التنفيذ المرجعي لمجموعة NeMo متعددة الوسائط لتحقيق إنتاجية عالية وزمن انتقال منخفض لتوليد الصور.

دعم النظام الأساسي السحابي

  • Amazon EKS - دعم تشغيل أحمال عمل التدريب الموزع على مجموعات Amazon Elastic Kubernetes Service.
  • Google GKE - توفير إرشادات شاملة لتدريب نماذج الذكاء الاصطناعي التوليدي على Google Kubernetes Engine.

مفتوح المصدر والترخيص

NeMo Framework مفتوح المصدر بموجب ترخيص Apache 2.0، ونرحب بمساهمات المجتمع. يتم الحفاظ على المشروع بنشاط على GitHub مع تطوير ودعم واسعين، ويوفر وثائق شاملة وبرامج تعليمية ونصوص برمجية نموذجية.

مصادر التعلم

  • الوثائق الرسمية - توفير دليل مستخدم كامل ووثائق فنية.
  • البرامج التعليمية - مجموعة واسعة من البرامج التعليمية التي يمكن تشغيلها على Google Colab.
  • النصوص البرمجية النموذجية - مجموعة كاملة من الأمثلة التي تدعم التدريب متعدد وحدات معالجة الرسومات/متعدد العقد.
  • دعم المجتمع - توفير الأسئلة الشائعة ودعم المجتمع من خلال لوحة مناقشات GitHub.

يمثل NVIDIA NeMo Framework طليعة تطوير الذكاء الاصطناعي التوليدي، ويوفر للباحثين والمطورين منصة قوية ومرنة وقابلة للتطوير لبناء الجيل التالي من تطبيقات الذكاء الاصطناعي.