scrapy/scrapyView GitHub Homepage for Latest Official Releases

إطار عمل سريع وعالي المستوى لبرامج زحف الويب واستخراج البيانات في Python، يُستخدم لزحف المواقع واستخراج البيانات المنظمة من الصفحات.

BSD-3-ClausePythonscrapyscrapy 58.4k Last Updated: October 06, 2025

Scrapy - إطار عمل قوي لبرامج زحف الويب بلغة Python

نظرة عامة على المشروع

Scrapy هو إطار عمل سريع وعالي المستوى لبرامج زحف الويب واستخلاص البيانات، مرخص بموجب ترخيص BSD، وهو مصمم خصيصًا لزحف مواقع الويب واستخراج البيانات المنظمة من الصفحات. إنه إطار عمل مفتوح المصدر وتعاوني، قادر على استخراج البيانات المطلوبة من مواقع الويب بطريقة سريعة وسهلة وقابلة للتطوير.

الميزات الأساسية

زحف عالي الأداء

معالجة غير متزامنة: يعتمد على إطار عمل Twisted غير المتزامن للشبكة، ويدعم الزحف المتزامن العالي
سريع وفعال: معالجة محسّنة لطلبات الشبكة، قادرة على معالجة كميات كبيرة من الصفحات بسرعة
صديق للذاكرة: استخدام فعال للذاكرة، مناسب لمهام الزحف طويلة الأمد

استخلاص بيانات قوي

محددات XPath و CSS: يدعم طرقًا متعددة لاستخراج البيانات
إخراج بيانات منظم: يدعم تنسيقات متعددة مثل JSON و CSV و XML
تنظيف البيانات التلقائي: وظائف معالجة وتنظيف البيانات المضمنة

بنية قابلة للتوسيع

نظام البرامج الوسيطة: يدعم البرامج الوسيطة للطلبات/الاستجابات، ويمكن تخصيص منطق المعالجة
آلية التوسيع: واجهات توسيع غنية، تدعم تطوير وظائف مخصصة
نظام بيئي للمكونات الإضافية: دعم كبير من المكونات الإضافية والأدوات التابعة لجهات خارجية

المواصفات الفنية

متطلبات النظام

إصدار Python: Python 3.9+
نظام التشغيل: دعم عبر الأنظمة الأساسية
- Linux
- Windows
- macOS
- BSD

طريقة التثبيت

pip install scrapy

سيناريوهات التطبيق الرئيسية

التنقيب عن البيانات

مراقبة أسعار مواقع التجارة الإلكترونية
تجميع محتوى مواقع الأخبار
تحليل بيانات وسائل التواصل الاجتماعي
جمع معلومات العقارات

الاختبار الآلي

اختبار وظائف الموقع
التحقق من صلاحية الروابط
مراقبة أداء الموقع
التحقق من سلامة المحتوى

ذكاء الأعمال

تحليل المنافسين
جمع بيانات أبحاث السوق
تحليل المشاعر لتعليقات المستخدمين
مقارنة معلومات المنتج

المكونات الأساسية

Spider (برنامج الزحف)

يحدد كيفية زحف موقع ويب معين
يحدد عنوان URL الأولي وقواعد تتبع الروابط
يعالج استجابات الصفحة ويستخرج البيانات

Items (عناصر البيانات)

يحدد هيكل البيانات المستخرجة
يوفر وظائف التحقق من صحة البيانات وتنظيفها
يدعم معالجة أنواع البيانات المعقدة

Pipelines (الأنابيب)

يعالج عناصر البيانات المستخرجة
تنظيف البيانات والتحقق من صحتها
تخزين البيانات في قاعدة بيانات أو ملف

البرامج الوسيطة

البرامج الوسيطة للتنزيل: معالجة الطلبات والاستجابات
البرامج الوسيطة لـ Spider: معالجة مدخلات ومخرجات Spider
البرامج الوسيطة المخصصة: تنفيذ منطق أعمال محدد

صيانة المشروع

الفريق الأساسي

المشرفون الرئيسيون: شركة Zyte (Scrapinghub سابقًا)
مساهمات المجتمع: يشارك العديد من المساهمين مفتوحي المصدر في التطوير
مجتمع نشط: يستخدمه الملايين من المطورين حول العالم

مسار التطوير

مشروع مفتوح المصدر ناضج ومستقر
تحديثات مستمرة وتحسينات في الوظائف
تطبيقات واسعة النطاق على مستوى المؤسسات

مصادر التعلم

الوثائق الرسمية

الموقع الرئيسي: https://scrapy.org
الوثائق: https://docs.scrapy.org

التطبيقات التجارية

مستخدمو المؤسسات

تستخدم العديد من الشركات حول العالم Scrapy لجمع البيانات، بما في ذلك:

تحليل بيانات منصات التجارة الإلكترونية
جمع معلومات المؤسسات المالية
تجميع محتوى شركات الإعلام
التنقيب عن البيانات لمؤسسات البحوث

المزايا التقنية

مستقر وموثوق: تم التحقق منه في بيئات إنتاج واسعة النطاق
أداء ممتاز: قدرة معالجة متزامنة عالية
توسع مرن: خيارات تخصيص غنية
نظام بيئي كامل: دعم كبير من الأدوات والمكونات الإضافية

أفضل الممارسات

اقتراحات التطوير

اتبع بروتوكول robots.txt
اضبط فترات الطلب بشكل معقول
استخدم مجموعات الوكلاء لتجنب حظر IP
تنفيذ استراتيجيات إزالة البيانات المكررة

اقتراحات النشر

استخدم Scrapyd للنشر الموزع
تكوين أنظمة المراقبة والتسجيل
تنفيذ آليات استعادة الأخطاء
التحديث والصيانة الدورية

ملخص

Scrapy هو معيار في مجال برامج زحف الويب، وبفضل وظائفه القوية وأدائه الممتاز ومجتمعه النشط، أصبح الأداة المفضلة لمطوري Python لجمع بيانات الويب. سواء كانت مهمة استخلاص بيانات بسيطة أو نظام زحف معقد على مستوى المؤسسات، يمكن لـ Scrapy توفير حلول كاملة.