المرحلة الرابعة: التعلم العميق والشبكات العصبية

يحتوي على أكثر من 100 رسم توضيحي أصلي، مورد تعليمي مرئي لخوارزميات النماذج الكبيرة، شرح منهجي لـ LLM والتعلم المعزز وتقنيات الضبط الدقيق والمواءمة.

النماذج_الكبيرةالتعلم_المعززRLHFGitHubTextFreeChinese

LLM-RL-Visualized: مقدمة مفصلة لموارد تعلم خوارزميات النماذج اللغوية الكبيرة

نظرة عامة على المشروع

LLM-RL-Visualized هو مستودع موارد تعليمية مفتوح المصدر يحتوي على أكثر من 100 رسم بياني أصلي لمبادئ النماذج اللغوية الكبيرة (LLM) والتعلم المعزز (RL). إنه مورد تعليمي منهجي لتصور خوارزميات النماذج اللغوية الكبيرة، يغطي نظامًا معرفيًا كاملاً من المفاهيم الأساسية إلى التطبيقات المتقدمة.

هيكل المحتوى الأساسي

الفصل الأول: مبادئ النماذج اللغوية الكبيرة ونظرة عامة على التقنيات

  • 1.1 هيكل النموذج اللغوي الكبير بالرسوم البيانية
    • نظرة شاملة على هيكل النماذج اللغوية الكبيرة (LLM)
    • طبقة الإدخال: تجزئة الكلمات، تعيين الرموز (Token Mapping)، وتوليد المتجهات
    • طبقة الإخراج: اللوجيتات (Logits)، توزيع الاحتمالات، وفك التشفير
    • النماذج اللغوية متعددة الوسائط (MLLM) والنماذج اللغوية البصرية (VLM)
  • 1.2 نظرة شاملة على تدريب النماذج اللغوية الكبيرة
  • 1.3 قانون التوسع (Scaling Law) (قوانين التوسع الأربعة الرئيسية للأداء)

الفصل الثاني: SFT (الضبط الدقيق تحت الإشراف)

  • 2.1 تقنيات الضبط الدقيق المتعددة بالرسوم البيانية
    • الضبط الدقيق لكامل المعلمات، الضبط الدقيق لبعض المعلمات
    • LoRA (الضبط الدقيق للتكيف منخفض الرتبة) - تحقيق نتائج كبيرة بجهد قليل
    • مشتقات LoRA: QLoRA، AdaLoRA، PiSSA، إلخ.
    • الضبط الدقيق القائم على الموجهات (Prompts): Prefix-Tuning، Prompt Tuning، إلخ.
    • Adapter Tuning
    • مقارنة تقنيات الضبط الدقيق ودليل الاختيار
  • 2.2 تحليل متعمق لمبادئ SFT
    • بيانات SFT وتنسيق ChatML
    • حساب اللوجيتات (Logits) واحتمالات الرموز (Token Probabilities)
    • رسوم بيانية لتوضيح Label و Loss في SFT
    • الاحتمالات اللوغاريتمية (LogProbs) و LogSoftmax
  • 2.3 جمع ومعالجة التعليمات
  • 2.4 دليل ممارسة SFT

الفصل الثالث: DPO (تحسين التفضيل المباشر)

  • 3.1 الفكرة الأساسية لـ DPO
    • نموذج المكافأة الضمني
    • دالة الخسارة (Loss) وهدف التحسين
  • 3.2 بناء مجموعات بيانات التفضيل
  • 3.3 توضيح تنفيذ وتدريب DPO بالرسوم البيانية
  • 3.4 خبرة عملية في DPO
  • 3.5 DPO المتقدم

الفصل الرابع: تقنيات تحسين الأداء بدون تدريب

  • 4.1 هندسة الموجهات (Prompt Engineering)
  • 4.2 CoT (سلسلة التفكير)
    • توضيح مبادئ CoT بالرسوم البيانية
    • طرق مشتقة مثل ToT، GoT، XoT، إلخ.
  • 4.3 التحكم في التوليد واستراتيجيات فك التشفير
    • البحث الجشع (Greedy Search)، البحث الشعاعي (Beam Search)
    • توضيح طرق أخذ العينات مثل Top-K، Top-P، إلخ.
  • 4.4 RAG (التوليد المعزز بالاسترجاع)
  • 4.5 استدعاء الوظائف والأدوات (Function Calling)

الفصل الخامس: أساسيات التعلم المعزز

  • 5.1 جوهر التعلم المعزز
    • البنية الأساسية للتعلم المعزز، المفاهيم الأساسية
    • عملية قرار ماركوف (MDP)
    • الاستكشاف والاستغلال، استراتيجية ε-الجشعة
    • السياسة الداخلية (On-policy)، السياسة الخارجية (Off-policy)
  • 5.2 دالة القيمة، تقدير العائد
  • 5.3 الفرق الزمني (TD)
  • 5.4 الخوارزميات القائمة على القيمة
  • 5.5 خوارزميات تدرج السياسة (Policy Gradient)
  • 5.6 التعلم المعزز متعدد الوكلاء (MARL)
  • 5.7 التعلم بالمحاكاة (IL)
  • 5.8 توسعات متقدمة في التعلم المعزز

الفصل السادس: خوارزميات تحسين السياسة

  • 6.1 بنية Actor-Critic (الممثل-الناقد)
  • 6.2 دالة الميزة (Advantage Function) و A2C
  • 6.3 PPO والخوارزميات ذات الصلة
    • تطور خوارزمية PPO
    • TRPO (تحسين السياسة في منطقة الثقة)
    • أخذ العينات الهامة (Importance Sampling)
    • شرح مفصل لـ PPO-Clip
  • 6.4 خوارزمية GRPO
  • 6.5 تدرج السياسة الحتمي (DPG)

الفصل السابع: RLHF و RLAIF

  • 7.1 نظرة عامة على RLHF (التعلم المعزز من التغذية الراجعة البشرية)
    • نمذجة التعلم المعزز للنماذج اللغوية
    • عينات تدريب RLHF، العملية الكلية
  • 7.2 المرحلة الأولى: تصميم وتدريب نموذج المكافأة بالرسوم البيانية
    • هيكل نموذج المكافأة (Reward Model)
    • مدخلات نموذج المكافأة ودرجة المكافأة
    • تحليل دالة الخسارة (Loss) لنموذج المكافأة
  • 7.3 المرحلة الثانية: تدريب PPO متعدد النماذج المتكامل
    • توضيح أدوار النماذج الأربعة بالرسوم البيانية
    • قيود السياسة القائمة على تباعد KL
    • التنفيذ الأساسي لـ RLHF القائم على PPO
  • 7.4 نصائح عملية لـ RLHF
  • 7.5 التعلم المعزز القائم على التغذية الراجعة من الذكاء الاصطناعي

الفصل الثامن: تحسين قدرة الاستدلال المنطقي

  • 8.1 نظرة عامة على التقنيات المتعلقة بالاستدلال المنطقي (Reasoning)
  • 8.2 البحث عن مسار الاستدلال وتحسينه
    • MCTS (بحث شجرة مونت كارلو)
    • بحث A*
    • أخذ عينات BoN والتقطير
  • 8.3 تدريب التعلم المعزز

الفصل التاسع: الممارسة الشاملة وتحسين الأداء

  • 9.1 نظرة شاملة على الممارسة
  • 9.2 التدريب والنشر
  • 9.3 تدريب DeepSeek والنشر المحلي
  • 9.4 تقييم الأداء
  • 9.5 خريطة تقنيات تحسين أداء النماذج اللغوية الكبيرة

مميزات المورد

1. تعليم مرئي

  • أكثر من 100 رسم بياني معماري أصلي، تشرح بشكل منهجي النماذج اللغوية الكبيرة والتعلم المعزز
  • غني بالرسوم التوضيحية والنصوص، كل مفهوم معقد مصحوب برسم توضيحي مصمم بعناية
  • يوفر رسومات متجهة بصيغة SVG، تدعم التكبير غير المحدود

2. دمج النظرية والتطبيق

  • لا يقتصر على الرسوم البيانية للمبادئ النظرية فحسب، بل يتضمن أيضًا العديد من الأدلة العملية
  • يوفر أمثلة برمجية كاملة وتطبيقات شبه برمجية (pseudocode)
  • يغطي العملية الكاملة من البحث إلى التنفيذ الهندسي

3. تغطية التقنيات المتطورة

  • يغطي أحدث تقنيات النماذج اللغوية الكبيرة: LLM، VLM، MLLM، إلخ.
  • يتضمن خوارزميات التدريب المتطورة: RLHF، DPO، GRPO، إلخ.
  • يواكب تطورات الصناعة، ويتم تحديث المحتوى باستمرار

4. مسار تعليمي منهجي

  • تعلم تدريجي من المفاهيم الأساسية إلى التطبيقات المتقدمة
  • محتوى الفصول مترابط عضويًا، مكونًا نظامًا معرفيًا كاملاً
  • يناسب احتياجات المتعلمين من مختلف المستويات

العمق التقني

جزء التعلم المعزز

  • يقدم شرحًا مفصلاً لتاريخ تطور التعلم المعزز، من أصوله في الخمسينيات إلى أحدث التطورات في نموذج OpenAI o1 لعام 2024
  • يغطي الخوارزميات الأساسية: PPO، DQN، Actor-Critic، تدرج السياسة، إلخ.
  • يشرح بشكل خاص تطبيقات التعلم المعزز في النماذج اللغوية الكبيرة

تقنيات الضبط الدقيق للنماذج اللغوية الكبيرة

  • يشرح بالتفصيل الفكرة الأساسية ومبادئ تنفيذ LoRA (التكيف منخفض الرتبة)
  • يقارن ويحلل طرق الضبط الدقيق لكامل المعلمات، LoRA، Prefix-Tuning، إلخ.
  • يقدم إعدادات معلمات محددة ونصائح عملية

تقنيات المحاذاة (Alignment)

  • يحلل بعمق عملية تدريب RLHF ذات المرحلتين: تدريب نموذج المكافأة والتعلم المعزز PPO
  • يشرح بالتفصيل كيف يبسط DPO عملية RLHF
  • يقدم طرق المحاذاة الناشئة مثل RLAIF، CAI، إلخ.

القيمة التعليمية

للباحثين

  • يوفر إطارًا نظريًا كاملاً وأحدث التطورات البحثية
  • يتضمن مراجع غنية وقراءات إضافية
  • مناسب للبحث المتعمق في مبادئ الخوارزميات المختلفة

للمهندسين

  • يوفر أدلة تنفيذ عملية وأمثلة برمجية
  • يتضمن إعدادات معلمات مفصلة ونصائح للضبط
  • مناسب للبدء السريع والتنفيذ الهندسي

للمتعلمين

  • تصميم مسار تعليمي تدريجي
  • طريقة تعليم مرئية غنية بالرسوم التوضيحية والنصوص
  • تغطية شاملة من الأساسيات إلى التطبيقات المتقدمة

نصائح الاستخدام

  1. التعلم المنهجي: ادرس الفصول بالترتيب لبناء نظام معرفي كامل
  2. التركيز على نقاط القوة: اختر فصولًا محددة للتعلم المتعمق حسب الحاجة
  3. دمج الممارسة: ادمج التعلم النظري مع الممارسة البرمجية
  4. المتابعة المستمرة: تابع تحديثات المستودع لمواكبة أحدث التطورات التقنية

يوفر هذا المورد التعليمي منصة معرفية منهجية، شاملة، وعملية لمتعلمي النماذج اللغوية الكبيرة والتعلم المعزز، وهو أحد أفضل موارد التعلم باللغة الصينية في هذا المجال حاليًا.