أداة وكيل ذكاء اصطناعي مفتوحة المصدر لأتمتة مهام سير عمل المتصفح باستخدام نماذج اللغة الكبيرة وتقنيات رؤية الكمبيوتر
سكايفيرن - منصة أتمتة المتصفح المدعومة بالذكاء الاصطناعي
نظرة عامة على المشروع
سكايفيرن هي منصة تساعد الشركات على أتمتة مهام سير العمل في المتصفح باستخدام نماذج اللغة الكبيرة (LLM) وتقنيات رؤية الكمبيوتر. توفر نقاط نهاية API بسيطة لأتمتة مهام سير العمل اليدوية بالكامل، واستبدال حلول الأتمتة الهشة أو غير الموثوقة.
خلفية المشروع
تأسست سكايفيرن في عام 2023 على يد سوتشينتان سينغ وشوتشانغ تشنغ، ويقع مقرها الرئيسي في سان فرانسيسكو، كاليفورنيا، الولايات المتحدة، ولديها حاليًا 3 موظفين. تواصل الفريق المؤسس مع مئات الشركات واكتشف أن معظمها يعتمد على مهام سير عمل يدوية متكررة، وكان نطاق هذه المهام مدهشًا - تبدأ معظم الشركات في إنجاز العمل يدويًا في البداية، وينتهي بها الأمر إما بتوظيف أشخاص لتوسيع نطاق العمل اليدوي أو كتابة نصوص برمجية باستخدام مكتبات أتمتة المتصفح المشابهة لـ Selenium.
الميزات الأساسية
1. عمليات ذكية مدعومة بالذكاء الاصطناعي
- تكامل LLM: سكايفيرن هي أداة أتمتة أصلية للمتصفح مدعومة بالذكاء الاصطناعي، تحاكي التفاعلات البشرية - النقر، الإدخال، التنقل، التحميل - وتعمل على أي واجهة ويب.
- رؤية الكمبيوتر: تجمع بين تقنيات رؤية الكمبيوتر للتعرف على عناصر صفحة الويب ومعالجتها.
- واجهة برمجة تطبيقات اللغة الطبيعية (API): توفر واجهة برمجة تطبيقات اللغة الطبيعية لأتمتة مهام سير العمل اليدوية المتكررة التي تحدث في المكاتب الخلفية للشركات.
2. مطابقة المعلومات السياقية
تقبل سكايفيرن كتل المعلومات أثناء التنقل في مهام سير العمل - مجرد كتلة بيانات JSON تحتوي على أي معلومات تريد إدخالها، ثم تستخدم LLM لربطها بالمعلومات الموجودة على الشاشة. على سبيل المثال: إذا كنت تقوم بإنشاء عرض أسعار لتأمين سيارات في الولايات المتحدة، فيمكن للنظام ربط البيانات بذكاء بحقول النموذج المقابلة.
3. إدارة مهام سير العمل
تدعم سكايفيرن ربط مهام متعددة في مهام سير عمل، وتنفيذ كل مهمة بالتسلسل من خلال نقاط نهاية API لإكمال عمليات معقدة.
4. المراقبة والتصحيح في الوقت الفعلي
- البث المباشر: تسمح لك سكايفيرن ببث نافذة المتصفح مباشرة إلى جهازك المحلي، حتى تتمكن من رؤية ما تفعله سكايفيرن على الويب بالضبط.
- مصحح الأخطاء المرئي: تسمح لك الأداة المرئية بتصحيح الأخطاء في التفاعلات على الويب، ويوفر Skyvern AI استنتاجًا تفصيليًا للعمليات، مما يضمن الشفافية والتحكم.
المزايا التقنية
1. لا حاجة لإعادة كتابة التعليمات البرمجية
على عكس الأتمتة باستخدام التعليمات البرمجية، يمكن لـ سكايفيرن التعامل مع التغييرات الطفيفة في بنية موقع الويب دون أي مشاكل، مما يحل مشكلة فشل نصوص الأتمتة التقليدية بعد تحديثات موقع الويب.
2. توافق واسع
- يدعم مجموعة متنوعة من مواقع الويب وواجهات الويب.
- لا حاجة لكتابة نصوص برمجية محددة لكل موقع ويب.
- القدرة على التعامل مع المحتوى الديناميكي والتفاعلات المعقدة.
3. ميزات مفتوحة المصدر
المشروع مفتوح المصدر بالكامل، ويتم استضافة التعليمات البرمجية على GitHub، مما يسمح للمطورين باستخدامها وتعديلها والمساهمة فيها بحرية.
التثبيت والنشر
يعد البدء في استخدام سكايفيرن عملية بسيطة، حيث يوفر إرشادات شاملة للتثبيت المحلي باستخدام GitHub و Docker وأدوات سطر الأوامر. يتضمن التثبيت عادةً ما يلي:
# استنساخ المشروع
git clone https://github.com/Skyvern-AI/skyvern.git
# النشر باستخدام Docker
docker-compose up -d
# أو التثبيت عبر أداة سطر الأوامر
pip install skyvern
سيناريوهات التطبيق
1. أتمتة المكاتب الخلفية للشركات
- إدخال البيانات وملء النماذج
- إنشاء التقارير واستخراج البيانات
- العمليات والمعالجة المجمعة
2. التجارة الإلكترونية وعمليات التسوق
على سبيل المثال، يمكن للنظام الانتقال إلى عربة التسوق والتحقق من حالة عربة التسوق، وأخيراً شراء المنتجات من خلال عملية الدفع.
3. خدمات التأمين والخدمات المالية
- إنشاء عروض أسعار التأمين تلقائيًا
- معالجة النماذج وإدارة بيانات العملاء
- فحوصات الامتثال والتدقيق
نموذج العمل
على الرغم من أنها خدمة مدفوعة، إلا أن إنشاء حساب أمر سهل نسبيًا في وقت كتابة هذا التقرير، ويوفر المشروع كلاً من الإصدارات مفتوحة المصدر والخدمات التجارية.
ملخص
تمثل سكايفيرن اختراقًا كبيرًا في مجال أتمتة المتصفح. فهو يجمع بين تقنيات الذكاء الاصطناعي المتقدمة والميزات مفتوحة المصدر والموثوقية على مستوى المؤسسات، مما يوفر حلاً قويًا ومرنًا للشركات التي تحتاج إلى أتمتة عمليات الويب المتكررة. من خلال القضاء على تعقيد وهشاشة كتابة النصوص البرمجية التقليدية، تجعل سكايفيرن أتمتة المتصفح أكثر ذكاءً وموثوقية وسهولة في الصيانة.