AnyCrawl هو تطبيق عالي الأداء لزحف الويب واستخلاص البيانات، مبني على Node.js/TypeScript. تم تصميم هذا المشروع خصيصًا لتحسين نماذج اللغة الكبيرة (LLM)، وهو قادر على تحويل محتوى مواقع الويب إلى تنسيقات بيانات قابلة للاستخدام بواسطة LLM، واستخراج بيانات صفحة نتائج البحث (SERP) المنظمة من محركات البحث مثل Google و Bing و Baidu.
يتفوق AnyCrawl في مجالات متعددة:
يدعم AnyCrawl مجموعة متنوعة من محركات الزحف:
ابدأ بسرعة باستخدام Docker Compose:
docker compose up --build
اسم المتغير | الوصف | القيمة الافتراضية | مثال |
---|---|---|---|
NODE_ENV |
بيئة وقت التشغيل | production | production, development |
ANYCRAWL_API_PORT |
منفذ خدمة API | 8080 | 8080 |
ANYCRAWL_HEADLESS |
ما إذا كان محرك المتصفح يستخدم الوضع بدون رأس | true | true, false |
ANYCRAWL_PROXY_URL |
عنوان URL لخادم الوكيل (يدعم HTTP و SOCKS) | (لا يوجد) | http://proxy:8080 |
ANYCRAWL_IGNORE_SSL_ERROR |
تجاهل أخطاء شهادة SSL | true | true, false |
ANYCRAWL_KEEP_ALIVE |
الحفاظ على الاتصال بين الطلبات | true | true, false |
ANYCRAWL_AVAILABLE_ENGINES |
محركات الزحف المتاحة (مفصولة بفواصل) | cheerio,playwright,puppeteer | playwright,puppeteer |
ANYCRAWL_API_DB_TYPE |
نوع قاعدة البيانات | sqlite | sqlite, postgresql |
ANYCRAWL_API_DB_CONNECTION |
سلسلة/مسار اتصال قاعدة البيانات | /usr/src/app/db/database.db | /path/to/db.sqlite |
ANYCRAWL_REDIS_URL |
عنوان URL لاتصال Redis | redis://redis:6379 | redis://localhost:6379 |
ANYCRAWL_API_AUTH_ENABLED |
تمكين مصادقة API | false | true, false |
ANYCRAWL_API_CREDITS_ENABLED |
تمكين نظام النقاط | false | true, false |
curl -X POST http://localhost:8080/v1/scrape \
-H 'Content-Type: application/json' \
-H 'Authorization: Bearer YOUR_ANYCRAWL_API_KEY' \
-d '{
"url": "https://example.com",
"engine": "cheerio"
}'
المعلمة | النوع | الوصف | القيمة الافتراضية |
---|---|---|---|
url |
string (مطلوب) | عنوان URL المراد زحفه. يجب أن يكون عنوان URL صالحًا يبدأ بـ http:// أو https:// | - |
engine |
string | محرك الزحف المستخدم. الخيارات: cheerio (تحليل HTML ثابت، الأسرع)، playwright (عرض JavaScript، محرك حديث)، puppeteer (عرض JavaScript، محرك Chrome) | cheerio |
proxy |
string | عنوان URL للوكيل للطلب. يدعم وكلاء HTTP و SOCKS. التنسيق: http://[username]:[password]@proxy:port | (لا يوجد) |
curl -X POST http://localhost:8080/v1/search \
-H 'Content-Type: application/json' \
-H 'Authorization: Bearer YOUR_ANYCRAWL_API_KEY' \
-d '{
"query": "AnyCrawl",
"limit": 10,
"engine": "google",
"lang": "all"
}'
المعلمة | النوع | الوصف | القيمة الافتراضية |
---|---|---|---|
query |
string (مطلوب) | استعلام البحث المراد تنفيذه | - |
engine |
string | محرك البحث المستخدم. الخيارات: google | |
pages |
integer | عدد صفحات نتائج البحث المراد استردادها | 1 |
lang |
string | رمز لغة نتائج البحث (على سبيل المثال: 'en'، 'zh'، 'all') | en-US |
يمكنك استخدام Playground لاختبار API وإنشاء أمثلة التعليمات البرمجية للغة البرمجة المفضلة لديك.
💡 ملاحظة: إذا كنت تستضيف AnyCrawl ذاتيًا، فتأكد من استبدال https://api.anycrawl.dev
بعنوان URL الخاص بالخادم الخاص بك.
ج: نعم، يدعم AnyCrawl وكلاء HTTP و SOCKS. قم بالتكوين من خلال متغير البيئة ANYCRAWL_PROXY_URL
.
ج: يدعم AnyCrawl Puppeteer و Playwright للتعامل مع احتياجات عرض JavaScript.
يمثل AnyCrawl طليعة تكنولوجيا زحف الويب الحديثة، خاصة في تطبيقات الذكاء الاصطناعي والتعلم الآلي. إن أدائه العالي وسهولة استخدامه وميزاته الغنية تجعله الخيار الأمثل للمطورين والشركات للتعامل مع مهام استخلاص البيانات واسعة النطاق.