Home
Login

مكتبة لأتمتة استخراج البيانات وتصفح الويب مبنية خصيصًا لـ Python، لبناء برامج زحف موثوقة، تدعم استخراج البيانات لتطبيقات الذكاء الاصطناعي أو نماذج اللغة الكبيرة أو RAG أو GPT.

Apache-2.0Python 5.7kapifycrawlee-python Last Updated: 2025-06-23

Crawlee Python - مكتبة استخلاص البيانات وأتمتة المتصفح

نظرة عامة على المشروع

Crawlee هي مكتبة لاستخلاص بيانات الويب وأتمتة المتصفح مصممة خصيصًا لـ Python، وتستخدم لبناء برامج زحف موثوقة. يمكنها استخراج البيانات لتطبيقات الذكاء الاصطناعي، ونماذج اللغات الكبيرة (LLM)، والاسترجاع المعزز بالجيل (RAG) أو تطبيقات GPT، وتنزيل ملفات HTML و PDF و JPG و PNG وغيرها من الملفات من مواقع الويب. تم تطوير هذا المشروع بواسطة شركة Apify، وهو مكتبة استخلاص بيانات الويب مفتوحة المصدر الخاصة بها، مبنية على BeautifulSoup و Playwright، وتعتمد على نهج شامل لاستخلاص بيانات الويب.

الميزات الرئيسية

الوظائف الأساسية

  • دعم محركات متعددة: تعمل مع BeautifulSoup و Playwright و HTTP الأصلي
  • أوضاع مرنة: تدعم الأوضاع المرئية وغير المرئية (headless)
  • تدوير الوكيل: وظيفة تدوير الوكيل مدمجة
  • تنزيل الملفات: تدعم تنزيل ملفات بتنسيقات مختلفة مثل HTML و PDF و JPG و PNG
  • تحسين التكامل مع الذكاء الاصطناعي: مُحسَّنة خصيصًا لاستخراج البيانات لتطبيقات الذكاء الاصطناعي، ونماذج اللغات الكبيرة (LLM)، والاسترجاع المعزز بالجيل (RAG) وتطبيقات GPT

المزايا التقنية

  • تلميحات الأنواع: تصميم حديث يتضمن تلميحات أنواع Python، مما يساعد على اكتشاف الأخطاء مبكرًا
  • مستقرة وموثوقة: تم بناؤها بواسطة مطورين محترفين يقومون باستخلاص ملايين الصفحات يوميًا
  • سهلة الاستخدام: تسمح بالتبديل بسهولة بين مكتبات الزحف المختلفة حسب الحاجة
  • معالجة الأخطاء: معالجة قوية للأخطاء وآليات إعادة المحاولة مدمجة

البنية التقنية

المكدس التقني الأساسي

# التبعيات الرئيسية
- BeautifulSoup: تحليل HTML ثابت
- Playwright: معالجة صفحات عرض JavaScript الديناميكية
- عميل HTTP: دعم طلبات HTTP الأصلية

قدرات التكامل

  • تكامل منصة Apify: تكامل سلس مع منصة Apify
  • تقنيات زحف متعددة: تدعم تقنيات الزحف المختلفة من تحليل HTML ثابت إلى عرض JavaScript الديناميكي

حالات الاستخدام

مجالات التطبيق الرئيسية

  1. جمع بيانات الذكاء الاصطناعي: جمع بيانات التدريب لتطبيقات التعلم الآلي والذكاء الاصطناعي
  2. أنظمة RAG: توفير مصادر البيانات لأنظمة الاسترجاع المعزز بالجيل
  3. تطبيقات GPT: توفير بيانات في الوقت الفعلي لمختلف تطبيقات GPT
  4. مراقبة المحتوى: مراقبة تغييرات محتوى موقع الويب
  5. تحليل البيانات: جمع البيانات لتحليل الأعمال

مقارنة مع المنافسين

من بين خياري Python الرئيسيين مفتوحي المصدر Scrapy و Crawlee، اختارت Apify الأخير، معتقدة أن المبتدئين سيفضلونه لأنه يسمح بإنشاء برامج زحف بأقل قدر من التعليمات البرمجية ووقت قراءة أقل.

حالة المشروع

معلومات الإصدار

  • ترخيص مفتوح المصدر: مفتوح المصدر ومجاني تمامًا
  • دعم اللغة: إصدار Python (يوجد أيضًا إصدار Node.js)
  • وقت الإصدار: حصل إصدار Python على الكثير من الاهتمام في غضون أسابيع قليلة فقط من إطلاقه
  • حالة الصيانة: قيد الصيانة النشطة

ردود فعل المجتمع

  • حصل على اهتمام واسع النطاق على GitHub
  • تم إطلاق إصدار Python نظرًا لنجاح إصدار JavaScript وطلب مجتمع Python
  • تلقى ردود فعل إيجابية في المجتمعات التقنية مثل Hacker News

التثبيت والبدء السريع

طريقة التثبيت

pip install crawlee

مثال على الاستخدام الأساسي

from crawlee import BeautifulSoupCrawler

# إنشاء مثيل الزاحف
crawler = BeautifulSoupCrawler()

# تحديد معالج الطلبات
@crawler.router.default_handler
async def handler(context):
    # استخراج البيانات
    data = {
        'title': context.soup.find('title').get_text(),
        'url': context.request.url
    }
    
    # حفظ البيانات
    await context.push_data(data)

# تشغيل الزاحف
await crawler.run(['https://example.com'])

وظائف متقدمة

دعم الوكيل

# تكوين تدوير الوكيل
crawler = BeautifulSoupCrawler(
    proxy_configuration={
        'proxy_urls': ['http://proxy1:8000', 'http://proxy2:8000']
    }
)

معالجة الأخطاء وإعادة المحاولة

# تكوين إعادة المحاولة التلقائية
crawler = BeautifulSoupCrawler(
    max_requests_per_crawl=1000,
    request_timeout=30,
    retry_on_blocked=True
)

ملخص

Crawlee Python هي مكتبة حديثة وقوية لاستخلاص بيانات الويب، وهي مناسبة بشكل خاص للسيناريوهات التي تتطلب جمع البيانات لتطبيقات الذكاء الاصطناعي. فهو يجمع بين مزايا تقنيات الزحف المتعددة الناضجة، ويوفر واجهة برمجة تطبيقات (API) موجزة ووظائف قوية، وهو خيار ممتاز لمطوري Python لاستخلاص بيانات الويب. سواء كان استخراج بيانات بسيطًا أو مهام أتمتة متصفح معقدة، يمكن لـ Crawlee توفير حلول موثوقة.

Star History Chart