Home
Login

نموذج لغوي موحد مُدرَّب مسبقًا ذاتيًا على نطاق واسع من Microsoft، يدعم أبحاث النماذج الأساسية عبر المهام واللغات والوسائط.

MITPython 21.5kmicrosoftunilm Last Updated: 2025-06-03

مشروع Microsoft UniLM: نظرة عامة تفصيلية

نظرة عامة على المشروع

Microsoft UniLM عبارة عن مكتبة نماذج مُدرَّبة مسبقًا ذاتية الإشراف واسعة النطاق تم تطويرها بواسطة Microsoft Research، وتركز على البحث في النماذج الأساسية عبر المهام واللغات والوسائط. يهدف هذا المشروع إلى تطوير بنى نماذج أساسية جديدة وذكاء اصطناعي، مع التركيز على نمذجة العمومية والقدرة، بالإضافة إلى استقرار وكفاءة التدريب.

عنوان المشروع: https://github.com/microsoft/unilm

المفهوم الأساسي: التقارب الكبير

المفهوم الأساسي لمشروع UniLM هو "التقارب الكبير" (The Big Convergence)، أي تحقيق تدريب مسبق ذاتي الإشراف واسع النطاق في الأبعاد الثلاثة التالية:

  • عبر المهام: مهام تنبؤية وتوليدية
  • عبر اللغات: دعم أكثر من 100 لغة
  • عبر الوسائط: اللغة والصورة والصوت وتنسيق التخطيط والصورة + اللغة والصوت + اللغة، إلخ.

حزمة التكنولوجيا الرئيسية

1. مكتبة بنية TorchScale

أبحاث البنية التحتية، مع التركيز على:

  • الاستقرار: DeepNet - توسيع المحولات إلى 1000 طبقة أو أكثر
  • العمومية: Foundation Transformers (Magneto) - نمذجة عامة حقيقية عبر المهام والوسائط
  • القدرة: Length-Extrapolatable Transformer - قدرة معالجة التسلسل الطويل
  • الكفاءة: بنى فعالة مثل X-MoE و BitNet و RetNet و LongNet

2. سلسلة النماذج اللغوية

سلسلة UniLM
  • UniLM: تدريب مسبق موحد لفهم اللغة وتوليدها
  • InfoXLM/XLM-E: نماذج تدريب مسبق متعددة اللغات/عبر اللغات تدعم أكثر من 100 لغة
  • DeltaLM/mT6: تدريب مسبق للمشفر-فك الشفرة لتوليد اللغة والترجمة
  • MiniLM: نموذج تدريب مسبق صغير وسريع لفهم اللغة وتوليدها
  • AdaLM: تكييف نموذج مُدرَّب مسبقًا للمجال واللغة والمهمة
  • EdgeLM: نموذج تدريب مسبق صغير على الأجهزة الطرفية/العميل
  • SimLM: تدريب مسبق واسع النطاق لمطابقة التشابه
  • E5: نموذج تضمين النص
  • MiniLLM: تقطير المعرفة لنماذج اللغة الكبيرة
نماذج لغة كبيرة متعددة الوسائط
  • Kosmos-1: نموذج لغة كبير متعدد الوسائط (MLLM)
  • Kosmos-2: نموذج لغة كبير متعدد الوسائط يعتمد على العالم
  • Kosmos-2.5: نموذج فهم المستندات متعدد الوسائط
  • MetaLM: نموذج اللغة كواجهة عامة للنماذج الأساسية

3. سلسلة النماذج المرئية

سلسلة BEiT
  • BEiT: تدريب مسبق ذاتي الإشراف توليدي مرئي
  • BEiT-2: تدريب مسبق لمحولات الصور على غرار BERT
  • BEiT-3: نموذج أساسي عام متعدد الوسائط، وهو معلم هام في التدريب المسبق واسع النطاق عبر المهام واللغات والوسائط
نماذج الذكاء الاصطناعي للمستندات
  • DiT: تدريب مسبق ذاتي الإشراف لمحولات صور المستندات
  • TextDiffuser/TextDiffuser-2: نموذج انتشار كرسام نصوص
  • LayoutLM/LayoutLMv2/LayoutLMv3: نموذج أساسي للمستندات متعدد الوسائط (نص + تخطيط + صورة)
  • LayoutXLM: نموذج أساسي متعدد الوسائط للذكاء الاصطناعي للمستندات متعدد اللغات
  • MarkupLM: تدريب مسبق لنموذج لغة الترميز لفهم المستندات الغنية بصريًا
  • XDoc: تدريب مسبق موحد لفهم المستندات عبر التنسيقات
  • TrOCR: نموذج تدريب مسبق OCR يعتمد على المحولات
  • LayoutReader: تدريب مسبق للنص والتخطيط للكشف عن ترتيب القراءة

4. سلسلة النماذج الصوتية

  • WavLM: تدريب مسبق صوتي لمهام المكدس الكامل
  • VALL-E: نموذج لغة ترميز وفك ترميز عصبي لـ TTS
  • UniSpeech: تدريب مسبق موحد ذاتي الإشراف وخاضع للإشراف لـ ASR
  • UniSpeech-SAT: تعلم تمثيل صوتي عام مع تدريب مسبق لإدراك المتحدث
  • SpeechT5: تدريب مسبق للمشفر-فك الشفرة لمعالجة اللغة المنطوقة
  • SpeechLM: تدريب مسبق صوتي مُحسَّن باستخدام بيانات نصية غير مقترنة

5. نماذج اللغة المرئية

  • VLMo: تدريب مسبق موحد للغة المرئية
  • VL-BEiT: تدريب مسبق توليدي للغة المرئية

الميزات التقنية الأساسية

1. ابتكار البنية

  • DeepNet: يدعم التوسع إلى شبكات عميقة مكونة من 1000 طبقة
  • Magneto: بنية نمذجة عامة حقيقية
  • BitNet: بنية محول 1 بت
  • RetNet: شبكة الاحتفاظ كخليفة للمحولات
  • LongNet: معالجة تسلسل طويل ممتد إلى 1 مليار رمز

2. تحسين كفاءة التدريب

  • X-MoE: نموذج خليط خبراء متفرق قابل للتطوير وقابل للضبط الدقيق
  • Aggressive Decoding: خوارزمية فك ترميز تسلسل إلى تسلسل فعالة وغير ضارة
  • Knowledge Distillation: تقنيات ضغط وتسريع النموذج

3. دعم متعدد اللغات

  • دعم أكثر من 100 لغة
  • تعلم النقل عبر اللغات
  • فهم المستندات متعدد اللغات

4. دمج متعدد الوسائط

  • نمذجة موحدة للنص + الصورة + التخطيط
  • فهم وتوليد اللغة المرئية
  • معالجة عبر الوسائط للصوت والنص

مجالات التطبيق

1. معالجة اللغة الطبيعية

  • فهم اللغة وتوليدها
  • الترجمة الآلية
  • تصنيف النصوص وتحليل المشاعر
  • أنظمة الإجابة على الأسئلة

2. الذكاء الاصطناعي للمستندات

  • تحليل تخطيط المستند
  • فهم النماذج
  • التعرف الضوئي على الحروف (OCR)
  • الإجابة على أسئلة المستندات

3. رؤية الكمبيوتر

  • تصنيف الصور
  • كشف الكائنات
  • توليد الصور
  • الإجابة على الأسئلة المرئية

4. معالجة الصوت

  • التعرف على الكلام (ASR)
  • تركيب الكلام (TTS)
  • فهم الكلام
  • معالجة الصوت متعدد اللغات

حزمة التكنولوجيا والأدوات

إطار التطوير

  • تم تطويره بناءً على PyTorch
  • تكامل HuggingFace Transformers
  • دعم التدريب الموزع

بيانات التدريب المسبق

  • بيانات نصية متعددة اللغات واسعة النطاق
  • بيانات مقترنة بالصورة والنص
  • بيانات صوتية
  • بيانات صور المستندات

معايير التقييم

  • معايير فهم اللغة GLUE و SuperGLUE
  • معيار XTREME متعدد اللغات
  • معيار VQA للإجابة على الأسئلة المرئية
  • معيار DocVQA للإجابة على أسئلة المستندات
  • معيار SUPERB الصوتي

يمثل مشروع UniLM أبحاث Microsoft المتطورة في مجال النماذج الأساسية والذكاء الاصطناعي العام، ويوفر أدوات وبنية تحتية قوية للأوساط الأكاديمية والصناعية، مما يدفع تطوير وتطبيق تقنيات الذكاء الاصطناعي متعددة الوسائط.

Star History Chart