عائلة قوية من الوكلاء الأذكياء لأتمتة واجهة المستخدم الرسومية متعددة الوسائط، تدعم التشغيل الشامل للأجهزة المحمولة ومنصات الكمبيوتر الشخصي
تفاصيل مشروع Mobile-Agent
نظرة عامة على المشروع
Mobile-Agent هي عائلة قوية من وكلاء واجهة المستخدم الرسومية (GUI) تم تطويرها بواسطة فريق Alibaba X-PLUG، وهي نظام وكيل متعدد الوسائط وشامل مصمم خصيصًا للأجهزة المحمولة ومنصات الكمبيوتر الشخصي. يهدف هذا المشروع إلى تحقيق أتمتة واجهة المستخدم الرسومية، من خلال التشغيل الذاتي لمختلف التطبيقات عبر الإدراك البصري، وتخطيط الاستدلال، وتنفيذ الإجراءات.
هندسة المشروع ومكوناته
سلسلة المكونات الأساسية
1. نموذج GUI-Owl الأساسي
GUI-Owl هو نموذج وكيل واجهة مستخدم رسومية أساسي، حقق أداءً متطورًا (SOTA) بين النماذج الشاملة مفتوحة المصدر في عشرة اختبارات معيارية لواجهة المستخدم الرسومية، ويغطي تحديد المواقع، والإجابة على الأسئلة، والتخطيط، واتخاذ القرارات، والمعرفة البرمجية في بيئات سطح المكتب والجوال. حقق GUI-Owl-7B 66.4 نقطة في AndroidWorld و 29.4 نقطة في OSWorld.
2. Mobile-Agent-v3
Mobile-Agent-v3 هو إطار عمل متعدد الوكلاء وعبر الأنظمة الأساسية يعتمد على GUI-Owl، ويوفر وظائف مثل التخطيط وإدارة التقدم والتفكير والذاكرة. إنه وكيل أصلي متعدد الوسائط وشامل، مصمم كنموذج أساسي لأتمتة واجهة المستخدم الرسومية، ويوحد الإدراك وتحديد المواقع والاستدلال والتخطيط وتنفيذ الإجراءات في شبكة سياسة واحدة.
3. Mobile-Agent-E
Mobile-Agent-E هو إطار عمل متعدد الوكلاء هرمي يتمتع بقدرة التطور الذاتي، ويمكنه التطور ذاتيًا من خلال التجارب السابقة، ويظهر أداءً أقوى في المهام المعقدة متعددة التطبيقات.
4. PC-Agent
PC-Agent هو نظام تعاون متعدد الوكلاء يمكنه تحقيق التحكم الآلي في سيناريوهات الإنتاجية بناءً على تعليمات المستخدم (مثل Chrome و Word و WeChat). تتكيف وحدة الإدراك النشط المصممة خصيصًا لعناصر التفاعل الكثيفة والمتنوعة بشكل أفضل مع منصة الكمبيوتر الشخصي. يزيد هيكل التعاون الهرمي متعدد الوكلاء من معدل نجاح تسلسلات المهام الأكثر تعقيدًا. يدعم الآن Windows و Mac في نفس الوقت.
5. Mobile-Agent-v2
Mobile-Agent-v2 هو مساعد تشغيل للأجهزة المحمولة يحقق تنقلاً فعالاً من خلال التعاون متعدد الوكلاء. يعالج هيكل الوكلاء المتعددين تحديات التنقل في سيناريوهات إدخال السياق الطويل. وقد أدت وحدة الإدراك البصري المحسنة إلى تحسين دقة التشغيل بشكل كبير.
الميزات التقنية
المزايا التقنية الأساسية
- التوافق عبر الأنظمة الأساسية: يدعم منصات متعددة مثل Android و iOS و Windows و Mac.
- قدرة الإدراك البصري: يستخدم أدوات الإدراك البصري لتحديد وتحديد موقع العناصر المرئية والنصية بدقة في واجهة المستخدم الأمامية للتطبيق.
- الفهم متعدد الوسائط: يجمع بين الفهم البصري واللغوي للاستدلال في المهام المعقدة.
- التشغيل الشامل (End-to-End): عملية أتمتة كاملة من فهم المهمة إلى التنفيذ.
- التطور الذاتي: تحسين الأداء باستمرار من خلال التعلم من الخبرة.
نقاط الابتكار التقني
الابتكارات الثلاثة الرئيسية لـ GUI-Owl
- بنية تحتية بيئية واسعة النطاق: بيئات افتراضية قائمة على السحابة، تغطي Android و Ubuntu و macOS و Windows، وتدعم إطار عمل إنتاج مسار واجهة المستخدم الرسومية ذاتي التطور.
- قدرات وكيل أساسية متنوعة: تدمج تحديد موقع واجهة المستخدم، والتخطيط، ودلالات الإجراءات، وأنماط الاستدلال، وتدعم اتخاذ القرارات الشاملة.
- تعلم تعزيز بيئي قابل للتطوير: تم تطوير إطار عمل تعلم تعزيز قابل للتطوير مع تدريب غير متزامن بالكامل، للمواءمة مع العالم الحقيقي.
الأداء
نتائج الاختبارات المعيارية
- حقق Mobile-Agent-v3 73.3 نقطة في AndroidWorld و 37.7 نقطة في OSWorld، مما يضع معيارًا جديدًا متطورًا لأطر عمل وكلاء واجهة المستخدم الرسومية مفتوحة المصدر.
- حقق أداءً متطورًا (SOTA) في العديد من قوائم تقييم أتمتة واجهة المستخدم الرسومية، بما في ذلك ScreenSpot-V2 و ScreenSpot-Pro و OSWorld-G و MMBench-GUI و Android Control و Android World و OSWorld.
تحسين أداء النظام
- استهلاك منخفض للذاكرة (8 جيجابايت).
- سرعة استدلال عالية (10-15 ثانية لكل عملية).
- يستخدم نماذج مفتوحة المصدر بالكامل.
التنفيذ التقني
متطلبات البيئة
# إعداد البيئة الأساسية
git clone https://github.com/X-PLUG/MobileAgent.git
cd MobileAgent
pip install -r requirements.txt
تكوين منصة Android
- قم بتنزيل Android Debug Bridge (ADB).
- قم بتمكين تصحيح أخطاء ADB على هاتف Android.
- قم بتوصيل الهاتف بالكمبيوتر باستخدام كابل البيانات واختر "نقل الملفات".
- اختبر بيئة ADB:
/path/to/adb devices
.
تكوين منصة الكمبيوتر الشخصي
# بيئة Windows
pip install -r requirements.txt
# بيئة Mac
pip install -r requirements_mac.txt
تكوين واجهة برمجة التطبيقات (API)
{
"vl_model_name": "gpt-4o",
"llm_model_name": "gpt-4o",
"token": "sk-...",
"url": "https://api.openai.com/v1"
}
سيناريوهات التطبيق
أنواع العمليات المدعومة
- عمليات تطبيقات الهاتف المحمول: النقر، التمرير، إدخال النص، تبديل التطبيقات.
- عمليات تطبيقات الكمبيوتر الشخصي: التحكم في المتصفح، تشغيل برامج المكتب، استخدام برامج الاتصال.
- المهام عبر التطبيقات: سير عمل معقد بين تطبيقات متعددة.
- مهام الاستدلال المعقدة: مهام طويلة الأمد تتطلب استدلالًا متعدد الخطوات.
أمثلة على التطبيقات العملية
- التسوق عبر الإنترنت: البحث عن المنتجات، مقارنة الأسعار، إضافة إلى سلة التسوق.
- الاستعلام عن المعلومات: البحث عن الأخبار، الحصول على نتائج المباريات الرياضية.
- أتمتة المكاتب: كتابة المستندات، إرسال رسائل البريد الإلكتروني، معالجة البيانات.
- وسائل التواصل الاجتماعي: نشر المحتوى، الرد على الرسائل، مشاركة المعلومات.
الإنجازات الأكاديمية
الأوراق البحثية المنشورة
- Mobile-Agent-v3 (2025): وكلاء أساسيون لأتمتة واجهة المستخدم الرسومية.
- PC-Agent (ورشة عمل ICLR 2025): إطار عمل تعاون هرمي متعدد الوكلاء لأتمتة المهام المعقدة على الكمبيوتر الشخصي.
- Mobile-Agent-E (2025): مساعد محمول ذاتي التطور للمهام المعقدة.
- Mobile-Agent-v2 (NeurIPS 2024): مساعد تشغيل الأجهزة المحمولة مع تنقل فعال عبر التعاون متعدد الوكلاء.
- Mobile-Agent (ورشة عمل ICLR 2024): وكيل جهاز محمول مستقل متعدد الوسائط مع إدراك بصري.
الجوائز
- جائزة أفضل عرض تقديمي في المؤتمر الصيني الرابع والعشرين للغويات الحاسوبية (CCL 2025) لعام 2025.
- جائزة أفضل عرض تقديمي في المؤتمر الصيني الثالث والعشرين للغويات الحاسوبية (CCL 2024) لعام 2024.
معايير التقييم
معيار Mobile-Eval
Mobile-Eval هو معيار مصمم لتقييم أداء وكلاء الأجهزة المحمولة، ويتضمن 10 سيناريوهات تطبيق فردي رئيسية وسيناريو تطبيق متعدد واحد. تم تصميم ثلاثة أنواع من التعليمات لكل سيناريو.
أمثلة على سيناريوهات الاختبار
- مهمة التسوق: البحث عن قبعة على موقع Alibaba وإضافتها إلى سلة التسوق.
- تشغيل الموسيقى: البحث عن المغني جاي تشو في Amazon Music.
- الاستعلام عن المعلومات: البحث عن نتائج مباراة فريق ليكرز اليوم.
- إرسال بريد إلكتروني: إرسال بريد إلكتروني فارغ إلى عنوان محدد.
المكدس التقني
التقنيات الأساسية
- نماذج اللغة الكبيرة متعددة الوسائط: GPT-4V، Qwen-VL، إلخ.
- الإدراك البصري: CLIP، GroundingDINO، إلخ.
- التعلم المعزز: تحسين السياسة النسبية المدركة للمسار (TRPO).
- إطار عمل متعدد الوكلاء: بنية تعاون هرمية.
المنصات المدعومة
- منصات الهاتف المحمول: Android، HarmonyOS (الإصدارات ≤ 4).
- منصات سطح المكتب: Windows، macOS، Ubuntu.
- المتصفحات: Chrome والمتصفحات الرئيسية الأخرى.
- برامج المكتب: Word، Excel، PowerPoint، إلخ.
معلومات المصدر المفتوح
هيكل المستودع
MobileAgent/
├── Mobile-Agent/ # الإصدار الأصلي
├── Mobile-Agent-v2/ # إصدار التعاون متعدد الوكلاء
├── Mobile-Agent-v3/ # أحدث إصدار يعتمد على GUI-Owl
├── Mobile-Agent-E/ # إصدار التطور الذاتي
├── PC-Agent/ # إصدار منصة الكمبيوتر الشخصي
└── requirements.txt # حزم التبعيات
إصدار النماذج
- تم إصدار نقاط فحص نماذج GUI-Owl-7B و GUI-Owl-32B.
- يدعم النشر على منصتي HuggingFace و ModelScope.
- يوفر تجربة عرض توضيحي عبر الإنترنت.
المجتمع والنظام البيئي
التجربة عبر الإنترنت
المشاريع ذات الصلة
- AppAgent: وكيل متعدد الوسائط كمستخدم للهاتف الذكي.
- mPLUG-Owl: نموذج لغة كبير متعدد الوسائط معياري.
- Qwen-VL: نموذج لغة بصرية عام.
- GroundingDINO: اكتشاف الكائنات ذات المجموعة المفتوحة.
التطوير المستقبلي
يمثل هذا المشروع الاتجاه الرائد في تطوير وكلاء أتمتة واجهة المستخدم الرسومية، ومن خلال الابتكار التقني المستمر وتحسين الأداء، فإنه يمهد الطريق لتحقيق مساعد ذكاء اصطناعي عام حقيقي. مع تحسين قدرات النموذج وتوسيع سيناريوهات التطبيق، من المتوقع أن يلعب Mobile-Agent دورًا مهمًا في المزيد من السيناريوهات العملية.