NVIDIA/Megatron-LMView GitHub Homepage for Latest Official Releases

Megatron-LM هو إطار عمل قوي لتدريب نماذج لغوية كبيرة، يركز على استراتيجيات التوازي الفعالة، ويهدف إلى دعم تدريب النماذج ذات مقياس تريليونات وحتى تريليونات المعلمات.

NOASSERTIONPythonMegatron-LMNVIDIA 13.5k Last Updated: September 04, 2025

NVIDIA Megatron-LM

نظرة عامة على المشروع

Megatron-LM هو إطار عمل تم تطويره بواسطة NVIDIA لتدريب نماذج لغوية كبيرة تعتمد على Transformer. يهدف إلى تحقيق تدريب فعال للنماذج واسعة النطاق من خلال الاستفادة من تقنيات مثل التوازي على مستوى البيانات، والتوازي على مستوى الموتر، والتوازي على مستوى خط الأنابيب. يوفر المشروع مجموعة من الأدوات والأمثلة لمساعدة الباحثين والمطورين على بناء وتدريب نماذجهم اللغوية الضخمة.

الخلفية

مع تطور التعلم العميق، يتزايد حجم النماذج اللغوية باستمرار، حيث يرتفع عدد المعلمات من ملايين إلى مئات المليارات وحتى التريليونات. يتطلب تدريب هذه النماذج الضخمة موارد حاسوبية كبيرة واستراتيجيات توازي فعالة. ظهر Megatron-LM لمعالجة تحديات تدريب النماذج اللغوية واسعة النطاق، وتمكين الباحثين من استكشاف نماذج أكبر، وبالتالي دفع التقدم في مجال معالجة اللغة الطبيعية.

الميزات الأساسية

التوازي متعدد الأبعاد: يدعم Megatron-LM استراتيجيات توازي متعددة مثل التوازي على مستوى البيانات، والتوازي على مستوى الموتر، والتوازي على مستوى خط الأنابيب. يمكن دمج هذه الاستراتيجيات بمرونة لتناسب بيئات الأجهزة المختلفة وأحجام النماذج.
- التوازي على مستوى البيانات: يتم تقسيم بيانات التدريب إلى دفعات متعددة، تتم معالجة كل دفعة على وحدة معالجة رسومية (GPU) مختلفة.
- التوازي على مستوى الموتر: يتم تقسيم موترات النموذج (مثل مصفوفات الأوزان) إلى وحدات معالجة رسومية متعددة، حيث تكون كل وحدة معالجة رسومية مسؤولة عن حساب جزء من الموتر.
- التوازي على مستوى خط الأنابيب: يتم تقسيم طبقات النموذج إلى مراحل متعددة، تتم معالجة كل مرحلة على وحدة معالجة رسومية مختلفة، لتشكيل خط أنابيب.
اتصال فعال: يعمل Megatron-LM على تحسين الاتصال بين وحدات معالجة الرسوميات، مما يقلل من النفقات العامة للاتصال ويحسن كفاءة التدريب. يستخدم NCCL (مكتبة NVIDIA للاتصالات الجماعية) للاتصالات الجماعية الفعالة.
التدريب بالدقة المختلطة: يدعم Megatron-LM التدريب بالدقة المختلطة، أي استخدام FP16 (أرقام الفاصلة العائمة نصف الدقة) للحساب لتقليل استخدام الذاكرة وزيادة سرعة الحساب.
سهولة التوسع: يتميز تصميم Megatron-LM بقابلية توسع جيدة، مما يسهل إضافة هياكل نماذج جديدة واستراتيجيات توازي.
أدوات وأمثلة غنية: يوفر Megatron-LM أدوات وأمثلة غنية، بما في ذلك تعريفات النموذج، وبرامج التدريب النصية، وبرامج التقييم النصية، لتسهيل البدء السريع للمستخدمين.
دعم هياكل نماذج متعددة: لا يدعم Megatron-LM نماذج Transformer فحسب، بل يدعم أيضًا أنواعًا أخرى من هياكل النماذج، مثل GPT و BERT وما إلى ذلك.
نقطة التفتيش (Checkpointing): يدعم حفظ وتحميل نقاط تفتيش النموذج، مما يسهل الاستئناف بعد انقطاع التدريب، أو إجراء الضبط الدقيق للنموذج.
محسن تقليل التكرار الصفري (ZeRO): يدمج محسن ZeRO، مما يقلل من استخدام الذاكرة بشكل أكبر، ويسمح بتدريب نماذج أكبر.

سيناريوهات التطبيق

توليد اللغة الطبيعية: يمكن استخدام Megatron-LM لتدريب نماذج لغوية توليدية، مثل GPT، لتوليد النصوص والمحادثات وما إلى ذلك.
تصنيف النصوص: يمكن استخدام Megatron-LM لتدريب نماذج تصنيف النصوص، مثل BERT، لتصنيف النصوص وتحليل المشاعر وما إلى ذلك.
الترجمة الآلية: يمكن استخدام Megatron-LM لتدريب نماذج الترجمة الآلية، لترجمة لغة إلى لغة أخرى.
أنظمة الإجابة على الأسئلة: يمكن استخدام Megatron-LM لتدريب أنظمة الإجابة على الأسئلة، لتوليد إجابات لأسئلة المستخدمين.
توليد التعليمات البرمجية: يمكن استخدام Megatron-LM لتدريب نماذج توليد التعليمات البرمجية، لتوليد التعليمات البرمجية بناءً على أوصاف اللغة الطبيعية.
نماذج التدريب المسبق: يمكن استخدام Megatron-LM لتدريب نماذج لغوية كبيرة مسبقًا، ثم استخدام نماذج التدريب المسبق للمهام اللاحقة لتحسين الأداء.

ملخص

Megatron-LM هو إطار عمل قوي يمكن استخدامه لتدريب نماذج لغوية ضخمة. يحقق تدريبًا فعالًا للنماذج واسعة النطاق من خلال تقنيات مثل التوازي متعدد الأبعاد والاتصال الفعال والتدريب بالدقة المختلطة. يوفر Megatron-LM أداة قوية للباحثين والمطورين لاستكشاف نماذج أكبر، وبالتالي دفع التقدم في مجال معالجة اللغة الطبيعية.