وكلاء واجهة المستخدم الرسومية الأساسيون الواقعيون، مع تفاعل مستخدم أصلي، وتكامل أدوات MCP، وقدرات التعاون بين الجهاز والسحابة.

Apache-2.0Jupyter NotebookMAI-UITongyi-MAI 1.6k Last Updated: January 15, 2026

MAI-UI: وكلاء واجهة المستخدم الرسومية الأساسيون المرتكزون على العالم الحقيقي

نظرة عامة

MAI-UI هي عائلة شاملة من وكلاء واجهة المستخدم الرسومية الأساسيين التي طورتها مختبرات Tongyi التابعة لشركة Alibaba، والتي تغطي الطيف الكامل لأحجام النماذج من 2 مليار إلى 235 مليار معلمة A22B. يمثل المشروع تقدمًا كبيرًا في جعل وكلاء واجهة المستخدم الرسومية عمليين للنشر في العالم الحقيقي من خلال أساليب مبتكرة للتفاعل مع المستخدم، وتكامل الأدوات، وهندسة النشر.

الميزات والابتكارات الرئيسية

1. نماذج أساسية متعددة المقاييس

  • متغيرات النموذج: 2 مليار، 8 مليار، 32 مليار، و 235 مليار معلمة A22B
  • البنية الأساسية: مبنية على نماذج اللغة الكبيرة متعددة الوسائط Qwen3-VL
  • نهج التدريب: الضبط الدقيق المشرف عليه والتعلم المعزز
  • مرونة النشر: مناسبة لقيود الأجهزة المختلفة ومتطلبات الأداء

2. مساحة إجراءات موسعة

يقدم MAI-UI ثلاث قدرات حاسمة تتجاوز عمليات واجهة المستخدم الرسومية التقليدية:

التفاعل بين الوكيل والمستخدم

  • إجراء ask_user: يطلب استباقيًا توضيحًا للتعليمات الغامضة
  • محادثة ديناميكية: تتعامل مع متطلبات المستخدم غير المكتملة أو غير الواضحة
  • قابلية التطبيق في العالم الحقيقي: تعالج السيناريو الشائع حيث تفتقر تعليمات المستخدم إلى التحديد

تكامل أدوات MCP

  • إجراء mcp_call: استدعاء مباشر للأدوات الخارجية عبر بروتوكول سياق النموذج (Model Context Protocol)
  • عمليات على مستوى واجهة برمجة التطبيقات (API): بدائل فعالة لمعالجة واجهة المستخدم الرسومية المعقدة
  • وظائف محسنة: الوصول إلى خدمات مثل رسم الخرائط وإدارة الملفات واسترجاع البيانات

التعاون بين الجهاز والسحابة

  • توجيه ذكي: اختيار ديناميكي بين التنفيذ على الجهاز والتنفيذ السحابي
  • الحفاظ على الخصوصية: الاحتفاظ بالعمليات الحساسة محليًا مع الاستفادة من السحابة للمهام المعقدة
  • تحسين التكلفة: تقليل استدعاءات واجهة برمجة تطبيقات السحابة بأكثر من 40%

3. خط أنابيب بيانات يتطور ذاتيًا

  • توليد بيانات مستقل: تحسين مستمر لمجموعة بيانات التدريب
  • تعاون متعدد الوكلاء: مزيج من التعليقات التوضيحية البشرية ومسارات التنفيذ التي تم إنشاؤها بواسطة النموذج
  • تصفية الجودة: تقييم نماذج الحكم والاحتفاظ بمسارات التنفيذ عالية الجودة
  • التكيف الديناميكي: تتطور بيانات التدريب مع قدرات النموذج

4. تعلم معزز عبر الإنترنت على نطاق واسع

  • توازي هائل: ما يصل إلى 512 بيئة Android متوازية
  • سياق ممتد: دعم ما يصل إلى 50 خطوة بيئية
  • تحسينات كبيرة: +5.2 نقطة من توسيع البيئة، +4.3 نقطة من زيادة ميزانية الخطوات
  • متانة العالم الحقيقي: التدريب في بيئات ديناميكية مع نوافذ منبثقة وإعلانات وتغييرات في واجهة المستخدم

إنجازات الأداء

معايير تقييم ربط واجهة المستخدم الرسومية

  • ScreenSpot-Pro: دقة 73.5% (تتفوق على Gemini-3-Pro و Seed1.8)
  • MMBench GUI L2: دقة 91.3%
  • OSWorld-G: دقة 70.9%
  • UI-Vision: دقة 49.2%

معايير تقييم التنقل عبر الهاتف المحمول

  • AndroidWorld: معدل نجاح 76.7% (أحدث حالة فنية، تتفوق على UI-Tars-2 و Gemini-2.5-Pro و Seed1.8)
  • MobileWorld: معدل نجاح 41.7% (تحسن بمقدار 20.8 نقطة عن أقوى خطوط الأساس)

نتائج التعاون بين الجهاز والسحابة

  • تحسين الأداء: تحسن بنسبة 33% في الأداء على الجهاز
  • تقليل التكلفة: انخفاض بأكثر من 40% في استدعاءات نماذج السحابة
  • الحفاظ على الخصوصية: تم إكمال 40.5% من المهام بالكامل على الجهاز

البنية التقنية

أساس النموذج

  • العمود الفقري: بنية Qwen3-VL متعددة الوسائط
  • وسائط الإدخال: تعليمات اللغة الطبيعية ولقطات شاشة واجهة المستخدم المعروضة
  • الإخراج: إجراءات منظمة لأجهزة Android الحية
  • مساحة الإجراءات: النقر، السحب، إدخال النص، أزرار النظام، بالإضافة إلى قدرات تفاعل محسنة

منهجية التدريب

  1. الضبط الدقيق المشرف عليه: التدريب الأولي على بيانات ربط واجهة المستخدم الرسومية والتنقل المنسقة
  2. التعلم المعزز عبر الإنترنت: التحسين المستمر من خلال التفاعل مع البيئات الحية
  3. خط أنابيب يتطور ذاتيًا: توليد بيانات مستقل وتحسين الجودة
  4. التكامل متعدد الأبعاد: تفاعلات المستخدم، استدعاءات أدوات MCP، وعمليات واجهة المستخدم الرسومية التقليدية

نظام النشر

  • بنية هجينة: تكامل سلس بين نماذج الجهاز والنماذج السحابية
  • توجيه مدرك للمهام: اتخاذ قرارات ذكية بناءً على تعقيد المهمة ومتطلبات الخصوصية
  • تصميم يركز على الخصوصية أولاً: تبقى العمليات الحساسة محلية بينما تستفيد المهام المعقدة من القدرات السحابية
  • تحسين التكلفة: استخدام فعال للموارد من خلال توزيع ذكي لأعباء العمل

تطبيقات العالم الحقيقي

الاستخدام المنزلي والشخصي

  • التسوق الذكي: اقتراحات استباقية بناءً على تكامل التقويم
  • أتمتة المهام: سير عمل معقد متعدد التطبيقات للأنشطة اليومية
  • المساعدة السياقية: فهم نية المستخدم من خلال المحادثة الطبيعية

الاستخدام المهني والمكتبي

  • إدارة المستندات: معالجة الملفات ومشاركتها بذكاء
  • مساعدة الاتصالات: صياغة البريد الإلكتروني مع الوعي بالسياق
  • التكامل بين التطبيقات: سير عمل سلس عبر تطبيقات متعددة

خدمات الملاحة والمواقع

  • تخطيط المسار: التكامل مع خدمات رسم الخرائط من خلال أدوات MCP
  • اقتراحات تعتمد على الموقع: توصيات حساسة للسياق
  • النقل متعدد الوسائط: دعم طرق النقل المختلفة

المواصفات الفنية

المتطلبات

  • vLLM: الإصدار ≥0.11.0
  • Transformers: الإصدار ≥4.57.0
  • Python: متوافق مع النظام البيئي القياسي للتعلم الآلي
  • الأجهزة: قابلة للتوسع من الأجهزة المحمولة إلى البنية التحتية السحابية

النماذج المتاحة

  • MAI-UI-2B: نموذج خفيف الوزن للبيئات ذات القيود على الموارد
  • MAI-UI-8B: أداء وكفاءة متوازنة
  • متغيرات أكبر: 32 مليار و 235 مليار A22B لتحقيق أقصى قدر من القدرة

خيارات التكامل

  • خدمة واجهة برمجة التطبيقات (API): واجهة متوافقة مع OpenAI عبر vLLM
  • التكامل المباشر: حزمة تطوير البرامج (SDK) بلغة Python للتطبيقات المخصصة
  • نشر الحاويات: دعم Docker للنشر القابل للتوسع

التأثير البحثي

الريادة في المعايير

يضع MAI-UI أحدث حالة فنية جديدة عبر معايير متعددة موثوقة، مما يدل على التقدم النظري والتطبيق العملي.

المساهمات المنهجية

  • التعاون بين الجهاز والسحابة: بنية نشر مبتكرة لوكلاء واجهة المستخدم الرسومية
  • بيانات تتطور ذاتيًا: تحسين مستقل لمجموعات بيانات التدريب
  • نموذج تفاعل موسع: دعم أصلي لحوار المستخدم وتكامل الأدوات

التطبيقات الصناعية

يعالج المشروع تحديات النشر في العالم الحقيقي التي حدت تاريخيًا من اعتماد وكلاء واجهة المستخدم الرسومية، مما يجعله مناسبًا لبيئات الإنتاج.

التزام المصدر المفتوح

الترخيص

  • ترخيص Apache 2.0: ترخيص متساهل للاستخدام التجاري والبحثي
  • المكونات الخارجية: موثقة بوضوح مع الإسنادات المناسبة
  • مساهمة المجتمع: نموذج تطوير مفتوح يشجع على التعاون

الموارد المتاحة

  • النماذج: MAI-UI-2B و MAI-UI-8B على Hugging Face
  • الكود: تنفيذ كامل على GitHub
  • الوثائق: تقارير فنية شاملة وأدلة استخدام
  • المعايير: معيار MobileWorld للتقييم

الاتجاهات المستقبلية

امتدادات البحث

  • متغيرات نماذج أكبر: التطوير المستمر لنماذج 32 مليار و 235 مليار
  • دعم عبر المنصات: التوسع خارج Android إلى منصات iOS وسطح المكتب
  • تكامل أدوات محسّن: نظام بيئي أوسع لأدوات MCP

التطبيقات التجارية

  • نشر المؤسسات: التكامل مع سير عمل الأعمال
  • حلول إمكانية الوصول: المساعدة للمستخدمين ذوي الإعاقة
  • تحسين الإنتاجية: أتمتة متقدمة للعاملين في مجال المعرفة

معلومات الاستشهاد

@misc{zhou2025maiuitechnicalreportrealworld,
  title={MAI-UI Technical Report: Real-World Centric Foundation GUI Agents},
  author={Hanzhang Zhou and Xu Zhang and Panrong Tong and Jianan Zhang and Liangyu Chen and Quyu Kong and Chenglin Cai and Chen Liu and Yue Wang and Jingren Zhou and Steven Hoi},
  year={2025},
  eprint={2512.22047},
  archivePrefix={arXiv},
  primaryClass={cs.CV},
  url={https://arxiv.org/abs/2512.22047}
}

معلومات الاتصال

موارد إضافية

Star History Chart