Login

إطار عمل لأتمتة المتصفح مدعوم بالذكاء الاصطناعي، يجمع بين اللغة الطبيعية والتعليمات البرمجية للتحكم في المتصفح

MITTypeScript 13.9kbrowserbasestagehand Last Updated: 2025-07-14

Stagehand - إطار عمل لأتمتة المتصفح مدعوم بالذكاء الاصطناعي

نظرة عامة على المشروع

Stagehand هو إطار عمل لأتمتة المتصفح مدعوم بالذكاء الاصطناعي وجاهز للإنتاج، تم تطويره بواسطة شركة Browserbase. إنه يعالج نقاط الضعف في أدوات أتمتة المتصفح الحالية: التي إما تتطلب كتابة تعليمات برمجية منخفضة المستوى (مثل Selenium، Playwright، Puppeteer)، أو تستخدم وكلاء عاليي المستوى ولكنها غير متوقعة في بيئات الإنتاج.

الميزات الأساسية

1. طرق تحكم مرنة

  • الجمع بين التعليمات البرمجية واللغة الطبيعية: يمكن للمطورين اختيار متى يستخدمون التعليمات البرمجية ومتى يستخدمون اللغة الطبيعية.
  • التنقل بالذكاء الاصطناعي: استخدام الذكاء الاصطناعي للتنقل في الصفحات غير المألوفة.
  • تحكم دقيق: استخدام التعليمات البرمجية (Playwright) عندما يكون ما يجب فعله معروفًا بوضوح.

2. ميزات المعاينة والتخزين المؤقت

  • معاينة العمليات: معاينة عمليات الذكاء الاصطناعي قبل تنفيذها.
  • آلية التخزين المؤقت: تخزين العمليات المتكررة مؤقتًا بسهولة، مما يوفر الوقت واستهلاك الرموز (tokens).

3. تكامل نماذج رؤية الكمبيوتر بنقرة واحدة

  • دعم نماذج SOTA: دمج أحدث نماذج رؤية الكمبيوتر من OpenAI و Anthropic بسطر واحد من التعليمات البرمجية.
  • تكامل سلس: تقديم stagehand.agent: طريقة جديدة قوية لدمج نماذج رؤية الكمبيوتر المتطورة (SOTA) أو Open Operator من Browserbase في Stagehand بسطر واحد من التعليمات البرمجية.

البدء السريع

التثبيت

npx create-browser-app

التطوير المحلي

git clone https://github.com/browserbase/stagehand.git
cd stagehand
npm install
npx playwright install
npm run build
npm run example # تشغيل السكريبت التجريبي في ./examples/example.ts

إعداد البيئة

cp .env.example .env
nano .env # قم بتحرير ملف .env لإضافة مفتاح API

مثال الاستخدام

الاستخدام الأساسي

// استخدام دوال Playwright لمعالجة كائن الصفحة
const page = stagehand.page;
await page.goto("https://github.com/browserbase");

// استخدام act() لتنفيذ عملية واحدة
await page.act("click on the stagehand repo");

// استخدام وكيل رؤية الكمبيوتر لتنفيذ عمليات أكبر
const agent = stagehand.agent({
  provider: "openai",
  model: "computer-use-preview",
});
await agent.execute("Get to the latest PR");

// استخدام extract() لقراءة البيانات من الصفحة
const { author, title } = await page.extract({
  instruction: "extract the author and title of the PR",
  schema: z.object({
    author: z.string().describe("The username of the PR author"),
    title: z.string().describe("The title of the PR"),
  }),
});

الطرق الأساسية

1. طريقة act()

  • تنفيذ عملية متصفح واحدة.
  • تدعم تعليمات اللغة الطبيعية.
  • مناسبة لعمليات النقر، الإدخال، التنقل، إلخ.

2. طريقة extract()

  • استخراج البيانات المهيكلة من الصفحة.
  • تتكامل مع التحقق من نمط Zod.
  • تدعم مهام استخراج البيانات المعقدة.

3. طريقة observe()

  • مراقبة حالة الصفحة وتغيراتها.
  • تستخدم للتحقق من الشروط ومراقبة الحالة.

4. طريقة agent() (ميزة جديدة في الإصدار 2)

  • دمج نماذج رؤية الكمبيوتر المتقدمة.
  • تدعم سير العمل متعدد الخطوات.
  • مناسبة لسيناريوهات التفاعل المعقدة.

الميزات الجديدة في الإصدار 2.0

يقدم Stagehand V2 العديد من التحسينات الكبيرة:

تحسينات الأداء

  • سرعة فائقة في act و extract: تحسينات كبيرة في الأداء تجعل الأتمتة تعمل بشكل أسرع.
  • تحسينات قائمة على شجرة إمكانية الوصول (a11y-tree): طرق act/extract أسرع تعتمد على شجرة إمكانية الوصول.

تسجيل محسّن

  • رؤية أفضل لعملية الأتمتة.
  • تحسينات في تسجيل وتصحيح الأخطاء.

وثائق شاملة

  • موقع وثائق معاد تصميمه بالكامل.
  • أمثلة أفضل، أدلة، وأفضل الممارسات.

تحسينات معالجة الأخطاء

  • آلية معالجة أخطاء أكثر استقرارًا.
  • رسائل خطأ ودعم تصحيح أخطاء أفضل.

البنية التقنية

التبعيات

  • Playwright: بمثابة العمود الفقري الأساسي لأتمتة الويب.
  • Zod: يستخدم للتحقق من بنية البيانات.
  • TypeScript: لغة التطوير الرئيسية.

دعم متعدد اللغات

بالإضافة إلى إصدار TypeScript/JavaScript، يوفر المشروع:

التكامل مع Browserbase

Browserbase هو مزود المتصفح السحابي الخاص بك، استخدم Stagehand لبناء وظائف أكثر قوة، بما في ذلك إعادة تشغيل الجلسة، قابلية ملاحظة المطالبات، وحل الكابتشا، وغيرها من الميزات المتقدمة.

ملخص

Stagehand هو إطار عمل ثوري لأتمتة المتصفح، يدمج بشكل مثالي دقة التحكم بالتعليمات البرمجية التقليدية ومرونة معالجة اللغة الطبيعية بالذكاء الاصطناعي. سواء كانت عمليات ويب بسيطة أو مهام استخراج بيانات معقدة، يوفر Stagehand حلاً جاهزًا للإنتاج. إن تحسينات الأداء والميزات الجديدة في إصداره 2.0 تجعله الأداة المفضلة لأتمتة المتصفح الحديثة.

Star History Chart