مشروع معاينة نموذج استخدام الكمبيوتر Gemini 2.5 الذي أصدرته Google رسميًا، يدعم وكيل الذكاء الاصطناعي الذي يتحكم في المتصفح لتنفيذ المهام من خلال تعليمات اللغة الطبيعية.

Apache-2.0Pythoncomputer-use-previewgoogle 1.6k Last Updated: October 10, 2025

مقدمة عن مشروع Google Computer Use Preview

نظرة عامة على المشروع

Google Computer Use Preview هو مشروع مفتوح المصدر أطلقته Google رسميًا، ويعرض قدرات نموذج استخدام الكمبيوتر (Computer Use) القائم على Gemini 2.5. يتيح هذا المشروع للمطورين التحكم في المتصفح لتنفيذ مهام متنوعة عبر تعليمات اللغة الطبيعية، مما يحقق وكيل أتمتة متصفح حقيقي.

عنوان المشروع: https://github.com/google/computer-use-preview

بروتوكول المصدر المفتوح: Apache 2.0

الميزات الأساسية

1. التحكم باللغة الطبيعية

يمكن للمستخدمين وصف المهام باستخدام لغة طبيعية بسيطة، وسيقوم وكيل الذكاء الاصطناعي تلقائيًا بتحليل وتنفيذ عمليات المتصفح المناسبة، مثل:

  • النقر على الأزرار
  • ملء النماذج
  • تمرير الصفحات
  • إدخال النصوص
  • إجراء عمليات البحث

2. دعم بيئات متعددة

يدعم المشروع بيئتي تشغيل:

  • Playwright: التحكم بالمتصفح المحلي، باستخدام متصفح Chrome لتنفيذ المهام محليًا.
  • Browserbase: خدمة المتصفح السحابي، تدعم التحكم بالمتصفح عن بعد.

3. يعتمد على نموذج Gemini 2.5

يستخدم هذا المشروع أحدث نموذج من Google gemini-2.5-computer-use-preview-10-2025، والذي تم تحسينه خصيصًا لتفاعلات واجهة المستخدم (UI)، ويتميز بـ:

  • قدرة قوية على الفهم البصري
  • تحديد دقيق لعناصر واجهة المستخدم
  • استجابة منخفضة التأخير
  • قدرة استدلال ممتازة

4. مرونة واجهة برمجة التطبيقات (API)

يدعم طريقتين للوصول إلى واجهة برمجة التطبيقات:

  • Gemini Developer API: مناسب للتطوير والاختبار السريع.
  • Vertex AI: مناسب لنشر تطبيقات على مستوى المؤسسات.

البنية التقنية

المكونات الأساسية

  1. طبقة التحكم بالمتصفح
    • Playwright: إطار عمل لأتمتة المتصفح المحلي
    • Browserbase: بنية تحتية للمتصفح السحابي
  2. طبقة نموذج الذكاء الاصطناعي
    • نموذج Gemini 2.5 لاستخدام الكمبيوتر
    • قدرات الفهم البصري والاستدلال
    • توليد إجراءات واجهة المستخدم
  3. حلقة الوكيل (Agent Loop)
    • استقبال استعلامات المستخدم
    • التقاط لقطات الشاشة
    • توليد الإجراءات وتنفيذها
    • تتبع العمليات السابقة

كيف يعمل

  1. يقدم المستخدم وصفًا للمهمة عبر اللغة الطبيعية.
  2. يلتقط النظام لقطة شاشة للمتصفح الحالي.
  3. يحلل نموذج Gemini لقطة الشاشة ومتطلبات المهمة.
  4. يولد النموذج تعليمات محددة لعمليات واجهة المستخدم (النقر، الإدخال، التمرير، إلخ).
  5. يتم تنفيذ العملية والحصول على حالة الشاشة الجديدة.
  6. تتكرر الخطوات 2-5 حتى اكتمال المهمة.

البدء السريع

متطلبات البيئة

  • Python 3.x
  • متصفح Chrome
  • مفتاح Gemini API (أو صلاحيات الوصول إلى Vertex AI)

خطوات التثبيت

  1. استنساخ المشروع

    git clone https://github.com/google/computer-use-preview.git
    cd computer-use-preview
    
  2. إنشاء بيئة افتراضية وتثبيت التبعيات

    python3 -m venv .venv
    source .venv/bin/activate
    pip install -r requirements.txt
    
  3. تثبيت Playwright والمتصفح

    # تثبيت تبعيات النظام المطلوبة لـ Chrome
    playwright install-deps chrome
    
    # تثبيت متصفح Chrome
    playwright install chrome
    

تكوين مفتاح API

استخدام Gemini Developer API

export GEMINI_API_KEY="YOUR_GEMINI_API_KEY"

أو إضافته بشكل دائم إلى البيئة الافتراضية:

echo 'export GEMINI_API_KEY="YOUR_GEMINI_API_KEY"' >> .venv/bin/activate
deactivate
source .venv/bin/activate

استخدام Vertex AI

export USE_VERTEXAI=true
export VERTEXAI_PROJECT="YOUR_PROJECT_ID"
export VERTEXAI_LOCATION="YOUR_LOCATION"

أمثلة الاستخدام

1. الاستخدام الأساسي (بيئة Playwright المحلية)

python main.py --query="Go to Google and type 'Hello World' into the search bar" --env="playwright"

2. تحديد عنوان URL الأولي

python main.py \
  --query="Go to Google and type 'Hello World' into the search bar" \
  --env="playwright" \
  --initial_url="https://www.google.com/search?q=latest+AI+news"

3. استخدام بيئة Browserbase السحابية

أولاً، قم بتعيين متغيرات بيئة Browserbase:

export BROWSERBASE_API_KEY="YOUR_BROWSERBASE_API_KEY"
export BROWSERBASE_PROJECT_ID="YOUR_BROWSERBASE_PROJECT_ID"

ثم قم بالتشغيل:

python main.py \
  --query="Go to Google and type 'Hello World' into the search bar" \
  --env="browserbase"

وصف وسائط سطر الأوامر

المعلمات الرئيسية

المعلمة الوصف إلزامي القيمة الافتراضية البيئات المدعومة
--query وصف المهمة باللغة الطبيعية نعم N/A الكل
--env بيئة التشغيل (playwright/browserbase) لا N/A الكل
--initial_url عنوان URL الأولي الذي يتم تحميله عند بدء تشغيل المتصفح لا https://www.google.com playwright
--highlight_mouse إبراز موضع الماوس في لقطة الشاشة (للتصحيح) لا false playwright

متغيرات البيئة

اسم المتغير الوصف إلزامي
GEMINI_API_KEY مفتاح Gemini API نعم (عند استخدام Gemini API)
BROWSERBASE_API_KEY مفتاح Browserbase API نعم (عند استخدام بيئة browserbase)
BROWSERBASE_PROJECT_ID معرف مشروع Browserbase نعم (عند استخدام بيئة browserbase)
USE_VERTEXAI تمكين Vertex AI لا
VERTEXAI_PROJECT معرف مشروع Vertex AI نعم (عند استخدام Vertex AI)
VERTEXAI_LOCATION موقع Vertex AI نعم (عند استخدام Vertex AI)

سيناريوهات التطبيق

1. الاختبار الآلي

  • اختبار الانحدار لواجهة المستخدم (UI Regression Testing)
  • اختبار شامل (End-to-End Testing)
  • اختبار عبر المتصفحات (Cross-Browser Testing)

2. استخراج البيانات

  • ملء النماذج تلقائيًا
  • استخراج بيانات الويب
  • تنفيذ المهام المجدولة

3. أتمتة سير العمل

  • أتمتة المهام المتكررة
  • عمليات الأعمال متعددة الخطوات
  • معالجة العمليات الدفعية (Batch Operations)

4. المساعد الشخصي

  • أتمتة عمليات الويب اليومية
  • جمع المعلومات وتنظيمها
  • التنقل الذكي في الويب

الأداء

وفقًا لبيانات التقييم من Google و Browserbase، أظهر نموذج Gemini 2.5 Computer Use أداءً ممتازًا في العديد من الاختبارات المعيارية:

  • OnlineMind2Web: دقة رائدة في مهام التحكم بالويب
  • WebVoyager: أداء متميز في مهام التنقل المعقدة عبر الويب
  • تأخير منخفض: استجابة أسرع مقارنة بالنماذج المنافسة
  • دقة عالية: يتفوق على النماذج الرئيسية الأخرى في اختبارات التحكم بالمتصفح والجوال

ملاحظات هامة

الأمان

  • هذا النموذج هو إصدار معاينة وقد يحتوي على أخطاء وثغرات أمنية.
  • قد تكون الإجراءات المقترحة من النموذج غير مناسبة أو غير آمنة.
  • قد تؤدي المدخلات العدائية إلى عمليات ضارة.
  • يوصى بإجراء اختبارات كافية قبل الاستخدام في بيئات الإنتاج.

قيود الاستخدام

  • يتطلب آلية تأكيد يدوية واضحة.
  • يجب الالتزام بسياسة Google للاستخدام المحظور للذكاء الاصطناعي التوليدي.
  • يخضع هذا المنتج لشروط ما قبل الإطلاق (Pre-GA Terms).

أفضل الممارسات

  • الاختبار دائمًا في بيئة خاضعة للرقابة.
  • مراقبة سلوك عمليات الوكيل.
  • إضافة مراجعة يدوية للعمليات الهامة.
  • التحديث بانتظام إلى أحدث إصدار.

الموارد ذات الصلة

  • الوثائق الرسمية: وثائق Vertex AI Computer Use
  • Google AI Studio: للاختبار السريع وتطوير النماذج الأولية
  • عرض Browserbase التوضيحي: تجربة ميزة Computer Use عبر الإنترنت
  • منتدى المطورين: لتقديم الملاحظات والحصول على الدعم

المزايا التقنية

  1. قدرة الفهم البصري: قدرة قوية على التعرف البصري بناءً على Gemini 2.5 Pro.
  2. تفاعل واجهة المستخدم الأصلي: لا يتطلب واجهات برمجة تطبيقات منظمة، بل يتعامل مباشرة مع الواجهة الرسومية.
  3. العمليات بعد تسجيل الدخول: يدعم المهام المعقدة التي تتطلب المصادقة.
  4. معالجة النماذج: ملء وتقديم النماذج المعقدة بذكاء.
  5. التعامل مع العناصر التفاعلية: معالجة المكونات التفاعلية مثل القوائم المنسدلة والفلاتر.

أهمية المشروع

يمثل Google Computer Use Preview تقدمًا هامًا في تقنية وكلاء الذكاء الاصطناعي. من خلال السماح لنموذج الذكاء الاصطناعي بالتفاعل مباشرة مع الواجهة الرسومية مثل البشر، بدلاً من الاعتماد على واجهات برمجة التطبيقات المنظمة، تفتح هذه التقنية إمكانيات جديدة لبناء وكلاء للأغراض العامة. إنها تمكن المطورين من:

  • أتمتة المهام المعقدة التي كانت تتطلب تدخلًا بشريًا في السابق.
  • بناء تطبيقات أتمتة متصفح ذكية بسرعة.
  • تقليل تكاليف تطوير اختبارات واجهة المستخدم وأتمتة سير العمل.
  • استكشاف طرق جديدة للتفاعل بين الإنسان والكمبيوتر.

التوقعات المستقبلية

مع التحسين المستمر لقدرات النموذج، ستتطور تقنية استخدام الكمبيوتر في الجوانب التالية:

  • دقة وموثوقية أعلى.
  • تنفيذ مهام متعددة الخطوات أكثر تعقيدًا.
  • أمان وتحكم أفضل.
  • تكامل عميق مع قدرات الذكاء الاصطناعي الأخرى.
  • تغطية أوسع لسيناريوهات التطبيق.

Star History Chart