Home
Login

مساعد ذكاء اصطناعي مفتوح المصدر يعتمد على الدردشة، تم تدريبه باستخدام التعلم المعزز من خلال ردود الفعل البشرية، ويهدف إلى توفير وصول مجاني إلى نماذج لغوية كبيرة للجميع.

Apache-2.0Python 37.4kLAION-AI Last Updated: 2024-08-17

نظرة عامة على مشروع Open Assistant

ملخص المشروع

Open Assistant هو مشروع مساعد ذكاء اصطناعي مفتوح المصدر يعتمد على الدردشة، تم تطويره بواسطة منظمة LAION-AI. يهدف المشروع إلى توفير وصول ممتاز إلى نماذج لغوية كبيرة تعتمد على الدردشة للجميع، من خلال إنشاء ثورة في تكنولوجيا اللغة بطريقة مفتوحة المصدر.

⚠️ إشعار هام: اكتمل مشروع OpenAssistant، وقد انتهى المشروع الآن. يمكن العثور على مجموعة البيانات النهائية المنشورة في OpenAssistant/oasst2 على HuggingFace.

رؤية المشروع

يؤمن Open Assistant بأن التعاون مفتوح المصدر يمكن أن يخلق ثورة في مجال تكنولوجيا اللغة، تمامًا كما ساعد Stable Diffusion العالم على إنشاء الفن والصور بطرق جديدة. الهدف النهائي للمشروع ليس مجرد تكرار ChatGPT، بل بناء مساعد المستقبل القادر على:

  • كتابة رسائل البريد الإلكتروني ورسائل التغطية للوظائف
  • أداء أعمال ذات مغزى
  • استخدام واجهات برمجة التطبيقات (APIs)
  • البحث عن المعلومات بشكل ديناميكي
  • دعم التخصيص والتوسع

المنهجية التقنية

المكدس التقني الأساسي

الهدف الرئيسي للمشروع هو امتلاك روبوت محادثة قادر على الإجابة على الأسئلة، من خلال تكييف نماذج لغوية كبيرة (LLM) لاتباع التعليمات بشكل أفضل. تحقيقًا لهذه الغاية، استخدم المشروع الطريقة المقترحة في ورقة InstructGPT، والتي تعتمد على التعلم المعزز من خلال التغذية الراجعة البشرية (RLHF).

طريقة التدريب المكونة من ثلاث خطوات

يتبع المشروع الطريقة المكونة من ثلاث خطوات الموضحة في ورقة InstructGPT:

الخطوة الأولى: جمع البيانات

  • جمع عينات تعليمات-إكمال عالية الجودة تم إنشاؤها بواسطة الإنسان (مطالبات + استجابات)
  • الهدف: أكثر من 50,000 عينة
  • تصميم عملية التعهيد الجماعي لجمع ومراجعة المطالبات
  • تجنب هجمات الفيضانات التدريبية / البيانات السامة / غير المرغوب فيها / المعلومات الشخصية
  • تحفيز المجتمع من خلال لوحات المتصدرين، وعرض التقدم وأكثر المستخدمين نشاطًا

الخطوة الثانية: جمع الترتيب

  • أخذ عينات متعددة للإكمال لكل مطالبة تم جمعها
  • عرض نتائج إكمال المطالبة بشكل عشوائي للمستخدمين لترتيبها (من الأفضل إلى الأسوأ)
  • معالجة المستخدمين غير الموثوق بهم أو الخبيثين بطريقة التعهيد الجماعي
  • جمع أصوات من عدة مستخدمين مستقلين لقياس الاتساق العام
  • استخدام بيانات الترتيب التي تم جمعها لتدريب نموذج المكافأة

الخطوة الثالثة: تدريب RLHF

  • مرحلة التدريب على التعلم المعزز من خلال التغذية الراجعة البشرية بناءً على المطالبات ونموذج المكافأة
  • يمكن استخدام النموذج الناتج لمواصلة أخذ عينات الإكمال للتكرار التالي

هيكل المشروع

إعداد بيئة التطوير

يدعم المشروع نشر مكدس Docker كامل، بما في ذلك موقع الويب والخلفية وخدمات التبعية ذات الصلة.

أمر البدء الأساسي:

docker compose --profile ci up --build --attach-dependencies

يحتاج مستخدمو شريحة MacOS M1 إلى استخدام:

DB_PLATFORM=linux/x86_64 docker compose ...

الوصول المحلي:

دعم حاوية التطوير

يوفر المشروع دعمًا لبيئة تطوير موحدة:

  • حاوية تطوير VSCode محلية
  • بيئة متصفح الويب GitHub Codespaces
  • يقع ملف التكوين في مجلد .devcontainer

الميزات والوظائف

وظيفة الدردشة

  • تم إطلاق واجهة الدردشة الأمامية، ويمكن للمستخدمين تسجيل الدخول وبدء الدردشة
  • دعم الإعجاب أو عدم الإعجاب باستجابات المساعد
  • تجربة تفاعلية في الوقت الفعلي

جمع البيانات

  • تم إطلاق واجهة جمع البيانات الأمامية، ويمكن للمستخدمين تسجيل الدخول وبدء تنفيذ المهام
  • المساعدة المباشرة في تحسين قدرات Open Assistant من خلال إرسال وترتيب ووضع علامات على مطالبات واستجابات النموذج
  • جمع بيانات عالية الجودة بطريقة التعهيد الجماعي

نظام الاستدلال

يحتوي المشروع على نظام استدلال كامل، يدعم:

  • نشر خدمة الاستدلال محليًا
  • القدرة على التشغيل على أجهزة المستهلك
  • تصميم معماري قابل للتطوير

ميزات مفتوحة المصدر

مشاركة المجتمع

  • يتم تنظيم المشروع من قبل LAION وأفراد من جميع أنحاء العالم مهتمين بتقديم هذه التكنولوجيا للجميع
  • نرحب بالمطورين للمساهمة في الكود
  • توفير دليل مساهمة مفصل

حالة المشروع

تذكير هام: اكتمل مشروع OpenAssistant وانتهى. على الرغم من أن المشروع نفسه قد انتهى، إلا أن:

  • مجموعة البيانات النهائية oasst2 متاحة على HuggingFace
  • الكود لا يزال مفتوح المصدر ويمكن الوصول إليه
  • يمكن للمجتمع الاستمرار في التطوير بناءً على العمل الحالي

المتطلبات التقنية

متطلبات الأجهزة

  • تتمثل رؤية المشروع في إنشاء نموذج لغوي كبير يمكن تشغيله على وحدة معالجة رسومات استهلاكية متطورة واحدة
  • دعم نشر الأجهزة الاستهلاكية
  • أداء استدلال محسن

خيارات النشر

  • نشر حاوية Docker
  • بيئة تطوير محلية
  • دعم النشر السحابي
  • نشر خدمة الاستدلال بشكل مستقل

موارد ذات صلة