DLR-RM/stable-baselines3View GitHub Homepage for Latest Official Releases

Stable Baselines3 (SB3) هي مكتبة خوارزميات للتعلم المعزز تعتمد على PyTorch.

MITPythonstable-baselines3DLR-RM 11.5k Last Updated: September 08, 2025

Stable Baselines3 (SB3)

نظرة عامة على المشروع

Stable Baselines3 (SB3) هي مكتبة خوارزميات تعزيز التعلم مبنية على PyTorch. إنها خليفة Stable Baselines، وتهدف إلى توفير مجموعة سهلة الاستخدام ووحدات وأدوات عالية الأداء لتدريب مجموعة متنوعة من وكلاء تعزيز التعلم. تركز SB3 على توفير وثائق واضحة، وكود قابل للاختبار، ونتائج قابلة للتكرار، مما يجعلها خيارًا مثاليًا للباحثين والمهندسين.

الخلفية

غالبًا ما تكون تطبيقات خوارزميات تعزيز التعلم التقليدية معقدة ويصعب تصحيحها. تهدف Stable Baselines إلى تبسيط هذه العملية، وتوفير مجموعة موثوقة من الخوارزميات الأساسية لتسهيل التجريب والمقارنة للمستخدمين. ومع ذلك، تعتمد Stable Baselines على TensorFlow 1.x، ومع انتشار TensorFlow 2.x، والشعبية المتزايدة لـ PyTorch في مجال البحث، هناك حاجة إلى مكتبة جديدة لتلبية احتياجات المجتمع.

ظهرت Stable Baselines3 لتلبية هذه الحاجة، وهي مبنية على PyTorch، وتستفيد من الدروس المستفادة من Stable Baselines، وتوفر تصميمًا أكثر إيجازًا ووحدات، وأداءً أفضل.

الميزات الأساسية

مبنية على PyTorch: تعتمد SB3 بالكامل على PyTorch، وتستفيد من ميزات الرسم البياني الديناميكي وسهولة الاستخدام في PyTorch.
تصميم معياري: هيكل كود SB3 واضح، ويمكن بسهولة دمج وتخصيص مكونات الخوارزمية، مما يسهل على المستخدمين إجراء البحوث والتطوير.
سهولة الاستخدام: توفر SB3 واجهة برمجة تطبيقات (API) موجزة ووثائق غنية، مما يتيح للمستخدمين البدء بسرعة وتدريب الوكلاء الخاصين بهم.
أداء عالي: تم تحسين SB3 لتحقيق أداء عالٍ في مجموعة متنوعة من البيئات، بما في ذلك ألعاب Atari ومهام التحكم المستمر MuJoCo وما إلى ذلك.
خوارزميات غنية: تنفذ SB3 مجموعة متنوعة من خوارزميات تعزيز التعلم الكلاسيكية، بما في ذلك:
- طرق تدرج السياسة: A2C, PPO
- طرق دالة القيمة: DQN, Double DQN, Dueling DQN, QRDQN, C51
- طرق الممثل-الناقد: SAC, TD3
دعم بيئات متعددة: يمكن لـ SB3 التكامل بسلاسة مع مجموعة متنوعة من البيئات مثل OpenAI Gym و PyBullet وبيئات الروبوتات وما إلى ذلك.
وظائف الاستدعاء: توفر SB3 آلية وظائف الاستدعاء، مما يسمح للمستخدمين بتنفيذ عمليات مخصصة أثناء التدريب، مثل تسجيل السجلات وحفظ النماذج وتقييم الأداء وما إلى ذلك.
البيئات المتجهة: تدعم SB3 البيئات المتجهة، والتي يمكنها تشغيل مثيلات بيئات متعددة بالتوازي، وبالتالي تسريع عملية التدريب.
تحسين المعلمات الفائقة: يمكن دمج SB3 مع أدوات تحسين المعلمات الفائقة مثل Optuna، للبحث تلقائيًا عن أفضل مجموعة من المعلمات الفائقة.
وثائق وأمثلة كاملة: توفر SB3 وثائق مفصلة والكثير من أمثلة التعليمات البرمجية لمساعدة المستخدمين على فهم المكتبة واستخدامها.
تلميحات الأنواع والاختبار: تتمتع SB3 بتلميحات أنواع جيدة وتغطية اختبار شاملة، مما يضمن جودة وموثوقية الكود.

سيناريوهات التطبيق

يمكن تطبيق Stable Baselines3 على مجموعة متنوعة من مهام تعزيز التعلم، بما في ذلك:

التحكم في الروبوتات: تدريب الروبوتات على إكمال مهام مختلفة، مثل الملاحة والإمساك والتجميع وما إلى ذلك.
الذكاء الاصطناعي للألعاب: تطوير وكلاء أذكياء في الألعاب، مثل ألعاب Atari و StarCraft وما إلى ذلك.
القيادة الذاتية: تدريب السيارات ذاتية القيادة لتمكينها من القيادة بأمان في بيئات مرورية معقدة.
إدارة الموارد: تحسين تخصيص الموارد، مثل توزيع الطاقة والتحكم في حركة مرور الشبكة وما إلى ذلك.
التداول المالي: تطوير استراتيجيات التداول لتحقيق التداول الآلي.
أنظمة التوصية: تحسين خوارزميات التوصية لتحسين رضا المستخدم.
بيئات مخصصة: يمكن تطبيقه على أي بيئة مخصصة يمكن حلها باستخدام تعزيز التعلم.

ملخص

Stable Baselines3 هي مكتبة تعزيز تعلم قوية ومرنة، وهي مبنية على PyTorch، وتوفر مجموعة غنية من الخوارزميات والأدوات التي يمكن أن تساعد المستخدمين على بناء وتدريب وكلاء تعزيز التعلم بسرعة. سواء كانوا باحثين أو مهندسين، يمكنهم الاستفادة من SB3 وتطبيقه على مجموعة متنوعة من المشكلات العملية.