إنشاء ملفات llms.txt جاهزة للذكاء الاصطناعي من عمليات الزحف باستخدام Screaming Frog

Generate AI-Ready llms.txt Files from Screaming Frog Website Crawls

إنشاء تلقائي لملفات فهرس المحتوى llms.txt المتوافقة مع معايير نماذج اللغة الكبيرة (LLM) من بيانات CSV المصدرة من أداة الزحف Screaming Frog، مع دعم متعدد اللغات والتصنيف الذكي بواسطة الذكاء الاصطناعي

23 NodesAI & MLتحسين SEO، تكامل الذكاء الاصطناعي، إدارة المحتوى

نظرة عامة على سير العمل

يُستخدم هذا السير لإنشاء ملف llms.txt تلقائيًا من البيانات المصدرة من أداة الزحف Screaming Frog، بحيث يكون الملف متوافقًا مع المعايير الخاصة بالنماذج اللغوية الكبيرة (LLM). يُعدّ llms.txt تنسيقًا قياسيًا يساعد النماذج اللغوية الكبيرة على فهم محتوى الموقع وتحديد صفحاته بشكل أفضل. يستقبل السير ملف CSV المصدر من Screaming Frog عبر نموذج، ثم يمرّر البيانات عبر خطوات متعددة تشمل استخراج البيانات، ربط الحقول، تصفية الروابط، والتصنيف الذكي الاختياري بواسطة الذكاء الاصطناعي، ليُنتج في النهاية ملف llms.txt جاهزًا للتنزيل.

اسم سير العمل

إنشاء ملفات llms.txt جاهزة للذكاء الاصطناعي من عمليات الزحف عبر Screaming Frog

الوظائف الأساسية

يُنفّذ سير العمل الوظائف الأساسية التالية:

جمع بيانات النموذج: استقبال اسم الموقع، ووصفه، وملف CSV الصادر من Screaming Frog عبر نموذج ويب.
تحليل بيانات CSV: استخراج البيانات المنظمة من ملف CSV المرفوع.
الدعم متعدد اللغات: التعرّف تلقائيًا ومعالجة ملفات CSV المصدرة من Screaming Frog باللغات الإنجليزية، الفرنسية، الألمانية، الإيطالية، والإسبانية.
التصفية الذكية: تصفية الروابط بناءً على رموز الحالة، قابلية الفهرسة، نوع المحتوى، وغيرها.
التصنيف بواسطة الذكاء الاصطناعي (اختياري): استخدام نموذج OpenAI لتصنيف المحتوى ذكيًا وتمييز المحتوى عالي الجودة.
الإخراج بتنسيق معياري: إنشاء ملف يتوافق مع التنسيق القياسي لملف llms.txt.

شرح تفصيلي لعقد سير العمل

1. عقدة المشغّل

نموذج - رفع ملف internal_html.csv من Screaming Frog

النوع: مشغّل نموذج (formTrigger)
الوظيفة: توفير واجهة مستخدم لجمع المعلومات التالية:
- اسم الموقع
- وصف موجز للموقع (يجب أن يكون بلغة الموقع المستهدفة)
- ملف CSV الصادر من Screaming Frog (internal_html.csv أو internal_all.csv)
طريقة التشغيل: يبدأ سير العمل تلقائيًا عند إرسال المستخدم للنموذج.

2. عقدة استخراج البيانات

استخراج البيانات من ملف Screaming Frog

النوع: عقدة استخراج من ملف (extractFromFile)
الوظيفة: تحليل ملف CSV المرفوع واستخراج بياناته
المدخلات: بيانات الملف الثنائية المستلمة من النموذج
المخرجات: مصفوفة بيانات JSON منظمة

3. عقدة ربط الحقول

تعيين الحقول المفيدة

النوع: عقدة Set
الوظيفة: استخراج وربط الحقول الأساسية من بيانات Screaming Frog
الحقول المستخرجة:
- url: عنوان الصفحة
- title: عنوان الصفحة
- description: وصف Meta
- status: رمز حالة HTTP
- indexability: حالة القابلية للفهرسة
- content_type: نوع المحتوى
- word_count: عدد الكلمات
ربط الحقول متعدد اللغات: يدعم أسماء الأعمدة باللغات الإنجليزية، الفرنسية، الألمانية، الإيطالية، والإسبانية.

4. عقدة تصفية الروابط

تصفية الروابط

النوع: عقدة Filter
الوظيفة: تصفية الروابط وفق شروط محددة مسبقًا
شروط التصفية:
- رمز الحالة = 200 (وصول ناجح)
- القابلية للفهرسة = indexable (قابلة للفهرسة من قبل محركات البحث)
- نوع المحتوى يحتوي على "text/html" (صفحات HTML)
القابلية للتوسعة: يمكن للمستخدم إضافة شروط تصفية إضافية (مثل عدد الكلمات، مسار الرابط، وصف Meta، إلخ).

5. عقدة التصنيف بالذكاء الاصطناعي (معطلة افتراضيًا)

مصنّف النصوص

النوع: مصنّف نصوص (textClassifier)
الحالة: معطل افتراضيًا
الوظيفة: استخدام نموذج ذكاء اصطناعي لتحديد جودة محتوى الصفحة
فئات التصنيف:
- useful_content: محتوى عالي الجودة، مناسب للإدراج في llms.txt
- other_content: محتوى منخفض القيمة أو صفحات تجزئة لا يجب تضمينها
بيانات الإدخال: الرابط، العنوان، الوصف، عدد الكلمات
نموذج الذكاء الاصطناعي المرتبط: نموذج دردشة OpenAI

6. عقدة نموذج الذكاء الاصطناعي

نموذج دردشة OpenAI

النوع: نموذج دردشة OpenAI (lmChatOpenAi)
النموذج: gpt-4o-mini
الوظيفة: تزويد مصنّف النصوص بقدرة الاستدلال عبر الذكاء الاصطناعي
المتطلبات: بيانات اعتماد API من OpenAI

7. عقدة معالجة البيانات

تعيين الحقل - سطر llms.txt

النوع: عقدة Set
الوظيفة: تنسيق كل رابط وفق التنسيق القياسي لملف llms.txt
تنسيق الإخراج: - [عنوان الصفحة](الرابط): الوصف

8. عقدة تجميع البيانات

تلخيص - دمج السطور

النوع: عقدة Aggregate
الوظيفة: دمج جميع السطور المنسّقة في نص واحد
العملية: ربط جميع السجلات بفواصل سطر جديدة

9. عقدة تجميع المحتوى

تعيين الحقول - محتوى llms.txt

النوع: عقدة Set
الوظيفة: تجميع محتوى ملف llms.txt الكامل
المحتوى المضمّن:
- اسم الموقع
- وصف الموقع
- قائمة جميع الروابط المُرشّحة

10. عقدة إنشاء الملف

إنشاء ملف llms.txt

النوع: تحويل إلى ملف (convertToFile)
الوظيفة: تحويل النص إلى ملف قابل للتنزيل
اسم الملف: llms.txt
الترميز: UTF-8
المخرجات: ملف قابل للتنزيل مباشرة من واجهة n8n

11. العقدة المساعدة

لا عملية، لا شيء

النوع: عقدة No Operation (noOp)
الوظيفة: التعامل مع فرع البيانات المصنّف كـ "other_content" من قبل مصنّف الذكاء الاصطناعي

12. عقد الملاحظات

يتضمّن سير العمل عدة عقد ملاحظات لاصقة (Sticky Note) توفر إرشادات وتفاصيل استخدام شاملة:

الملاحظة الرئيسية: مقدمة عامة عن سير العمل وخطوات الاستخدام
ملاحظة النموذج: شرح تفصيلي لحقول الإدخال
ملاحظة استخراج البيانات: ملاحظات حول معالجة ملفات CSV
ملاحظة ربط الحقول: تفاصيل الدعم متعدد اللغات
ملاحظة التصفية: شروط التصفية واقتراحات التوسعة

سير تنفيذ العمل

إدخال المستخدم ← يقدم المستخدم معلومات الموقع وملف CSV عبر النموذج
استخراج البيانات ← تحليل ملف CSV للحصول على البيانات الخام
ربط الحقول ← استخراج الحقول الأساسية وتوحيد أسمائها
تصفية الروابط ← ترشيح الروابط حسب الحالة، القابلية للفهرسة، ونوع المحتوى
التصنيف بالذكاء الاصطناعي (اختياري) ← استخدام الذكاء الاصطناعي لانتقاء المحتوى عالي الجودة
تحويل التنسيق ← تحويل كل رابط إلى تنسيق llms.txt
تجميع البيانات ← دمج جميع السطور
تجميع المحتوى ← إضافة معلومات رأس الموقع
إنشاء الملف ← إنتاج ملف llms.txt قابل للتنزيل

الخصائص التقنية

الدعم متعدد اللغات

يُميّز سير العمل تلقائيًا بين ملفات Screaming Frog المصدرة بلغات مختلفة، ويدعم:

الإنجليزية (English)
الفرنسية (Français)
الألمانية (Deutsch)
الإيطالية (Italiano)
الإسبانية (Español)

المرونة

يدعم تنسيقي التصدير internal_html.csv و internal_all.csv
شروط التصفية قابلة للتخصيص والتوسعة حسب الحاجة
يمكن تمكين أو تعطيل مصنّف الذكاء الاصطناعي حسب الرغبة
يسهُل إضافة عقد لاحقة (مثل رفع الملف تلقائيًا إلى Google Drive أو OneDrive)

سهولة الاستخدام

واجهة نموذج واضحة
شروحات تفصيلية عبر الملاحظات
تنزيل الملف الناتج مباشرة من واجهة n8n
يُوصى باستخدام ميزة "Test Workflow" مباشرة في واجهة n8n

حالات الاستخدام

يناسب سير العمل السيناريوهات التالية:

تحسين محركات البحث (SEO): إنشاء فهرس محتوى متوافق مع الذكاء الاصطناعي
إدارة المحتوى: تنظيم صفحات الموقع القابلة للفهرسة بشكل جماعي
تكامل الذكاء الاصطناعي: مساعدة النماذج اللغوية الكبيرة على فهم هيكل ومحتوى الموقع
تدقيق المواقع: ترشيح وتصنيف صفحات الموقع
المواقع متعددة اللغات: معالجة موحدة لبيانات إصدارات الموقع المختلفة لغويًا

المتطلبات المسبقة

Screaming Frog SEO Spider: لأغراض زحف الموقع وتصدير بياناته
منصة n8n: لتشغيل سير العمل
واجهة برمجة تطبيقات OpenAI (API) (اختياري): مطلوبة عند تفعيل وظيفة التصنيف بالذكاء الاصطناعي

نتائج الإخراج

يتضمّن ملف llms.txt الناتج:

اسم الموقع ووصفه (معلومات الرأس)
قائمة بالصفحات المُرشّحة، بصيغة سطر واحد لكل منها: - [عنوان الصفحة](الرابط): وصف الصفحة
ترميز UTF-8 لضمان التوافق مع اللغات المتعددة

اقتراحات للتوسعة

النشر الآلي: إضافة عقدة لرفع الملف تلقائيًا إلى مجلد الجذر في الموقع
التحديث الدوري: دمجه مع مشغّل جدولة لإعادة الإنشاء تلقائيًا
دمج مصادر متعددة: دمج مصادر بيانات أخرى لإثراء محتوى llms.txt
ضبط الجودة: إضافة شروط تصفية إضافية (مثل الحد الأدنى لعدد الكلمات، وجود وصف إلزامي، إلخ)
إشعارات آلية: إضافة عقدة إرسال إشعارات عبر البريد الإلكتروني أو Slack عند اكتمال العملية

ملاحظات هامة

يجب أن يكون الملف المرفوع بتنسيق تصدير قياسي من Screaming Frog، وإلا فقد تفشل الخطوات اللاحقة
مصنّف الذكاء الاصطناعي معطّل افتراضيًا لتقليل التكاليف، ويمكن تفعيله يدويًا عند الحاجة
يجب تنزيل الملف يدويًا من آخر عقدة في واجهة n8n
يتطلب استخدام وظيفة التصنيف بالذكاء الاصطناعي بيانات اعتماد API صالحة من OpenAI
يُفضّل استخدام تصدير internal_html.csv، رغم أن internal_all.csv يعمل أيضًا

الخلاصة

هذا سير عمل مصمم بعناية في منصة n8n، يجمع بين أدوات تحسين محركات البحث (Screaming Frog) وتقنيات الذكاء الاصطناعي لإنشاء ملف فهرسة محتوى موقع متوافق تلقائيًا مع معايير النماذج اللغوية الحديثة. يتميّز السير بتجربة مستخدم ممتازة، دعم قوي متعدد اللغات، ومرونة عالية في التوسعة، مما يجعله مناسبًا لمواقع بمختلف الأحجام.