Alibaba-NLP/WebAgentPlease refer to the latest official releases for information GitHub Homepage
نظام وكيل ويب ذكي تم تطويره بواسطة مختبر تونغي التابع لشركة علي بابا، ويتضمن ثلاثة مكونات: WebWalker و WebDancer و WebSailor، ويركز على مهام البحث المستقل عن المعلومات والتنقل في صفحات الويب.
MITPython 3.1kAlibaba-NLPWebAgent Last Updated: 2025-07-10
WebAgent - نظام وكيل ويب ذكي
نظرة عامة على المشروع
WebAgent هو نظام وكيل ويب ذكي مبتكر تم تطويره بواسطة مختبر تونغي (Tongyi Lab) التابع لشركة علي بابا، ويركز على مهام البحث الذاتي عن المعلومات والتنقل عبر الويب. يدمج هذا المشروع العديد من المكونات المتقدمة بهدف بناء وكلاء أذكياء قادرين على تنفيذ مهام استرجاع المعلومات المعقدة واجتياز الويب بشكل مستقل.
المكونات الرئيسية
1. WebWalker (ACL 2025)
- الوظيفة المستهدفة: أداة اختبار أداء معياري لنماذج اللغة الكبيرة (LLM) في مهام اجتياز الويب.
- الميزات الأساسية:
- يوفر إطار تقييم موحد لاجتياز الويب.
- يدعم البحث عن المعلومات بالتعاون بين الوكلاء المتعددين.
- يقدم مؤشرات تقييم كمية لقدرات التنقل عبر الويب لنماذج اللغة الكبيرة.
2. WebDancer (مسودة بحثية 2025)
- الوظيفة المستهدفة: إطار تدريب شامل (من البداية إلى النهاية) لوكلاء البحث الذاتي عن المعلومات.
- الميزات الأساسية:
- نموذج استدلال بحث ذكي أصلي، يستخدم إطار عمل ReAct.
- يحقق وكلاء بحث ذاتي عن المعلومات ونماذج من نوع البحث العميق.
- نموذج تدريب من أربع مراحل:
- بناء بيانات التصفح
- أخذ عينات المسار
- الضبط الدقيق الخاضع للإشراف (لتحقيق تشغيل بارد فعال)
- التعلم المعزز (لتحسين القدرة على التعميم)
3. WebSailor
- الوظيفة المستهدفة: توسيع نطاق وظائف وكيل الويب.
- الميزات الأساسية: يوفر قدرات أوسع لعمليات الويب والتنقل.
الميزات التقنية
منهجية تركز على البيانات
- الضبط الدقيق الخاضع للإشراف على مستوى المسار: تدريب النموذج باستخدام بيانات مسار دقيقة.
- تكامل التعلم المعزز: استخدام تقنية DAPO (تحسين السياسة المعزز بالبيانات).
- مسار تدريب قابل للتوسع: يدعم وضعي تدريب SFT (الضبط الدقيق الخاضع للإشراف) و RL (التعلم المعزز).
قدرات التعلم الذاتي
- الوكلاء الأذكياء قادرون على اكتساب مهارات البحث والاستدلال بشكل مستقل.
- يدعم مهام الاستدلال المعقدة متعددة الخطوات على مدى زمني طويل.
- يحقق معالجة شاملة (من البداية إلى النهاية) لاجتياز الويب، والبحث عن المعلومات، والإجابة على الأسئلة.
الأداء
وفقًا لوثائق المشروع، يُظهر WebDancer أداءً ممتازًا في اختبارات الأداء المعيارية القياسية:
- اختبار الأداء المعياري GAIA: درجة Pass@3 تصل إلى 61.1%.
- اختبار الأداء المعياري WebWalkerQA: درجة Pass@3 تصل إلى 54.6%.
سيناريوهات التطبيق
أنواع المهام المدعومة
- اجتياز الويب: التنقل الذكي واستكشاف الصفحات.
- البحث عن المعلومات: جمع المعلومات وتنظيمها بشكل مستقل.
- نظام الإجابة على الأسئلة: الإجابة على الأسئلة المعقدة بناءً على محتوى الويب.
- الاستدلال طويل الأمد: مهام الاستدلال المنطقي المعقدة متعددة الخطوات.
بيئات العرض التوضيحي
يوفر المشروع العديد من بيئات العرض التوضيحي:
- عرض WebWalkerQA التوضيحي
- عرض اختبار الأداء المعياري GAIA التوضيحي
- عرض سيناريوهات الاستخدام اليومي التوضيحي
البنية التقنية
نموذج التدريب
1. بناء بيانات التصفح ← 2. أخذ عينات المسار ← 3. الضبط الدقيق الخاضع للإشراف ← 4. التعلم المعزز
حزمة التقنيات الأساسية
- الإطار الأساسي: ReAct (الاستدلال والعمل)
- طريقة التدريب: SFT + RL (الضبط الدقيق الخاضع للإشراف + التعلم المعزز)
- معالجة البيانات: DAPO (تحسين السياسة المعزز بالبيانات)
الخلاصة
يمثل WebAgent أحدث التطورات في تقنية وكلاء الويب الذكية، حيث حقق قدرات البحث الذاتي عن المعلومات والتنقل في بيئات الويب المعقدة من خلال دمج مكونات متقدمة متعددة واعتماد منهجية تدريب تركز على البيانات. لم يؤثر هذا المشروع بشكل كبير في الأوساط الأكاديمية فحسب، بل وفر أيضًا أساسًا تقنيًا قويًا للتطبيقات العملية.