إنشاء ملفات llms.txt جاهزة للذكاء الاصطناعي من عمليات الزحف باستخدام Screaming Frog
Generate AI-Ready llms.txt Files from Screaming Frog Website Crawls
إنشاء تلقائي لملفات فهرس المحتوى llms.txt المتوافقة مع معايير نماذج اللغة الكبيرة (LLM) من بيانات CSV المصدرة من أداة الزحف Screaming Frog، مع دعم متعدد اللغات والتصنيف الذكي بواسطة الذكاء الاصطناعي
نظرة عامة على سير العمل
يُستخدم هذا السير لإنشاء ملف llms.txt تلقائيًا من البيانات المصدرة من أداة الزحف Screaming Frog، بحيث يكون الملف متوافقًا مع المعايير الخاصة بالنماذج اللغوية الكبيرة (LLM). يُعدّ llms.txt تنسيقًا قياسيًا يساعد النماذج اللغوية الكبيرة على فهم محتوى الموقع وتحديد صفحاته بشكل أفضل. يستقبل السير ملف CSV المصدر من Screaming Frog عبر نموذج، ثم يمرّر البيانات عبر خطوات متعددة تشمل استخراج البيانات، ربط الحقول، تصفية الروابط، والتصنيف الذكي الاختياري بواسطة الذكاء الاصطناعي، ليُنتج في النهاية ملف llms.txt جاهزًا للتنزيل.
اسم سير العمل
إنشاء ملفات llms.txt جاهزة للذكاء الاصطناعي من عمليات الزحف عبر Screaming Frog
الوظائف الأساسية
يُنفّذ سير العمل الوظائف الأساسية التالية:
- جمع بيانات النموذج: استقبال اسم الموقع، ووصفه، وملف CSV الصادر من Screaming Frog عبر نموذج ويب.
- تحليل بيانات CSV: استخراج البيانات المنظمة من ملف CSV المرفوع.
- الدعم متعدد اللغات: التعرّف تلقائيًا ومعالجة ملفات CSV المصدرة من Screaming Frog باللغات الإنجليزية، الفرنسية، الألمانية، الإيطالية، والإسبانية.
- التصفية الذكية: تصفية الروابط بناءً على رموز الحالة، قابلية الفهرسة، نوع المحتوى، وغيرها.
- التصنيف بواسطة الذكاء الاصطناعي (اختياري): استخدام نموذج OpenAI لتصنيف المحتوى ذكيًا وتمييز المحتوى عالي الجودة.
- الإخراج بتنسيق معياري: إنشاء ملف يتوافق مع التنسيق القياسي لملف llms.txt.
شرح تفصيلي لعقد سير العمل
1. عقدة المشغّل
نموذج - رفع ملف internal_html.csv من Screaming Frog
- النوع: مشغّل نموذج (formTrigger)
- الوظيفة: توفير واجهة مستخدم لجمع المعلومات التالية:
- اسم الموقع
- وصف موجز للموقع (يجب أن يكون بلغة الموقع المستهدفة)
- ملف CSV الصادر من Screaming Frog (internal_html.csv أو internal_all.csv)
- طريقة التشغيل: يبدأ سير العمل تلقائيًا عند إرسال المستخدم للنموذج.
2. عقدة استخراج البيانات
استخراج البيانات من ملف Screaming Frog
- النوع: عقدة استخراج من ملف (extractFromFile)
- الوظيفة: تحليل ملف CSV المرفوع واستخراج بياناته
- المدخلات: بيانات الملف الثنائية المستلمة من النموذج
- المخرجات: مصفوفة بيانات JSON منظمة
3. عقدة ربط الحقول
تعيين الحقول المفيدة
- النوع: عقدة Set
- الوظيفة: استخراج وربط الحقول الأساسية من بيانات Screaming Frog
- الحقول المستخرجة:
url: عنوان الصفحةtitle: عنوان الصفحةdescription: وصف Metastatus: رمز حالة HTTPindexability: حالة القابلية للفهرسةcontent_type: نوع المحتوىword_count: عدد الكلمات
- ربط الحقول متعدد اللغات: يدعم أسماء الأعمدة باللغات الإنجليزية، الفرنسية، الألمانية، الإيطالية، والإسبانية.
4. عقدة تصفية الروابط
تصفية الروابط
- النوع: عقدة Filter
- الوظيفة: تصفية الروابط وفق شروط محددة مسبقًا
- شروط التصفية:
- رمز الحالة = 200 (وصول ناجح)
- القابلية للفهرسة = indexable (قابلة للفهرسة من قبل محركات البحث)
- نوع المحتوى يحتوي على "text/html" (صفحات HTML)
- القابلية للتوسعة: يمكن للمستخدم إضافة شروط تصفية إضافية (مثل عدد الكلمات، مسار الرابط، وصف Meta، إلخ).
5. عقدة التصنيف بالذكاء الاصطناعي (معطلة افتراضيًا)
مصنّف النصوص
- النوع: مصنّف نصوص (textClassifier)
- الحالة: معطل افتراضيًا
- الوظيفة: استخدام نموذج ذكاء اصطناعي لتحديد جودة محتوى الصفحة
- فئات التصنيف:
useful_content: محتوى عالي الجودة، مناسب للإدراج في llms.txtother_content: محتوى منخفض القيمة أو صفحات تجزئة لا يجب تضمينها
- بيانات الإدخال: الرابط، العنوان، الوصف، عدد الكلمات
- نموذج الذكاء الاصطناعي المرتبط: نموذج دردشة OpenAI
6. عقدة نموذج الذكاء الاصطناعي
نموذج دردشة OpenAI
- النوع: نموذج دردشة OpenAI (lmChatOpenAi)
- النموذج: gpt-4o-mini
- الوظيفة: تزويد مصنّف النصوص بقدرة الاستدلال عبر الذكاء الاصطناعي
- المتطلبات: بيانات اعتماد API من OpenAI
7. عقدة معالجة البيانات
تعيين الحقل - سطر llms.txt
- النوع: عقدة Set
- الوظيفة: تنسيق كل رابط وفق التنسيق القياسي لملف llms.txt
- تنسيق الإخراج:
- [عنوان الصفحة](الرابط): الوصف
8. عقدة تجميع البيانات
تلخيص - دمج السطور
- النوع: عقدة Aggregate
- الوظيفة: دمج جميع السطور المنسّقة في نص واحد
- العملية: ربط جميع السجلات بفواصل سطر جديدة
9. عقدة تجميع المحتوى
تعيين الحقول - محتوى llms.txt
- النوع: عقدة Set
- الوظيفة: تجميع محتوى ملف llms.txt الكامل
- المحتوى المضمّن:
- اسم الموقع
- وصف الموقع
- قائمة جميع الروابط المُرشّحة
10. عقدة إنشاء الملف
إنشاء ملف llms.txt
- النوع: تحويل إلى ملف (convertToFile)
- الوظيفة: تحويل النص إلى ملف قابل للتنزيل
- اسم الملف: llms.txt
- الترميز: UTF-8
- المخرجات: ملف قابل للتنزيل مباشرة من واجهة n8n
11. العقدة المساعدة
لا عملية، لا شيء
- النوع: عقدة No Operation (noOp)
- الوظيفة: التعامل مع فرع البيانات المصنّف كـ "other_content" من قبل مصنّف الذكاء الاصطناعي
12. عقد الملاحظات
يتضمّن سير العمل عدة عقد ملاحظات لاصقة (Sticky Note) توفر إرشادات وتفاصيل استخدام شاملة:
- الملاحظة الرئيسية: مقدمة عامة عن سير العمل وخطوات الاستخدام
- ملاحظة النموذج: شرح تفصيلي لحقول الإدخال
- ملاحظة استخراج البيانات: ملاحظات حول معالجة ملفات CSV
- ملاحظة ربط الحقول: تفاصيل الدعم متعدد اللغات
- ملاحظة التصفية: شروط التصفية واقتراحات التوسعة
سير تنفيذ العمل
- إدخال المستخدم ← يقدم المستخدم معلومات الموقع وملف CSV عبر النموذج
- استخراج البيانات ← تحليل ملف CSV للحصول على البيانات الخام
- ربط الحقول ← استخراج الحقول الأساسية وتوحيد أسمائها
- تصفية الروابط ← ترشيح الروابط حسب الحالة، القابلية للفهرسة، ونوع المحتوى
- التصنيف بالذكاء الاصطناعي (اختياري) ← استخدام الذكاء الاصطناعي لانتقاء المحتوى عالي الجودة
- تحويل التنسيق ← تحويل كل رابط إلى تنسيق llms.txt
- تجميع البيانات ← دمج جميع السطور
- تجميع المحتوى ← إضافة معلومات رأس الموقع
- إنشاء الملف ← إنتاج ملف llms.txt قابل للتنزيل
الخصائص التقنية
الدعم متعدد اللغات
يُميّز سير العمل تلقائيًا بين ملفات Screaming Frog المصدرة بلغات مختلفة، ويدعم:
- الإنجليزية (English)
- الفرنسية (Français)
- الألمانية (Deutsch)
- الإيطالية (Italiano)
- الإسبانية (Español)
المرونة
- يدعم تنسيقي التصدير internal_html.csv و internal_all.csv
- شروط التصفية قابلة للتخصيص والتوسعة حسب الحاجة
- يمكن تمكين أو تعطيل مصنّف الذكاء الاصطناعي حسب الرغبة
- يسهُل إضافة عقد لاحقة (مثل رفع الملف تلقائيًا إلى Google Drive أو OneDrive)
سهولة الاستخدام
- واجهة نموذج واضحة
- شروحات تفصيلية عبر الملاحظات
- تنزيل الملف الناتج مباشرة من واجهة n8n
- يُوصى باستخدام ميزة "Test Workflow" مباشرة في واجهة n8n
حالات الاستخدام
يناسب سير العمل السيناريوهات التالية:
- تحسين محركات البحث (SEO): إنشاء فهرس محتوى متوافق مع الذكاء الاصطناعي
- إدارة المحتوى: تنظيم صفحات الموقع القابلة للفهرسة بشكل جماعي
- تكامل الذكاء الاصطناعي: مساعدة النماذج اللغوية الكبيرة على فهم هيكل ومحتوى الموقع
- تدقيق المواقع: ترشيح وتصنيف صفحات الموقع
- المواقع متعددة اللغات: معالجة موحدة لبيانات إصدارات الموقع المختلفة لغويًا
المتطلبات المسبقة
- Screaming Frog SEO Spider: لأغراض زحف الموقع وتصدير بياناته
- منصة n8n: لتشغيل سير العمل
- واجهة برمجة تطبيقات OpenAI (API) (اختياري): مطلوبة عند تفعيل وظيفة التصنيف بالذكاء الاصطناعي
نتائج الإخراج
يتضمّن ملف llms.txt الناتج:
- اسم الموقع ووصفه (معلومات الرأس)
- قائمة بالصفحات المُرشّحة، بصيغة سطر واحد لكل منها:
- [عنوان الصفحة](الرابط): وصف الصفحة - ترميز UTF-8 لضمان التوافق مع اللغات المتعددة
اقتراحات للتوسعة
- النشر الآلي: إضافة عقدة لرفع الملف تلقائيًا إلى مجلد الجذر في الموقع
- التحديث الدوري: دمجه مع مشغّل جدولة لإعادة الإنشاء تلقائيًا
- دمج مصادر متعددة: دمج مصادر بيانات أخرى لإثراء محتوى llms.txt
- ضبط الجودة: إضافة شروط تصفية إضافية (مثل الحد الأدنى لعدد الكلمات، وجود وصف إلزامي، إلخ)
- إشعارات آلية: إضافة عقدة إرسال إشعارات عبر البريد الإلكتروني أو Slack عند اكتمال العملية
ملاحظات هامة
- يجب أن يكون الملف المرفوع بتنسيق تصدير قياسي من Screaming Frog، وإلا فقد تفشل الخطوات اللاحقة
- مصنّف الذكاء الاصطناعي معطّل افتراضيًا لتقليل التكاليف، ويمكن تفعيله يدويًا عند الحاجة
- يجب تنزيل الملف يدويًا من آخر عقدة في واجهة n8n
- يتطلب استخدام وظيفة التصنيف بالذكاء الاصطناعي بيانات اعتماد API صالحة من OpenAI
- يُفضّل استخدام تصدير internal_html.csv، رغم أن internal_all.csv يعمل أيضًا
الخلاصة
هذا سير عمل مصمم بعناية في منصة n8n، يجمع بين أدوات تحسين محركات البحث (Screaming Frog) وتقنيات الذكاء الاصطناعي لإنشاء ملف فهرسة محتوى موقع متوافق تلقائيًا مع معايير النماذج اللغوية الحديثة. يتميّز السير بتجربة مستخدم ممتازة، دعم قوي متعدد اللغات، ومرونة عالية في التوسعة، مما يجعله مناسبًا لمواقع بمختلف الأحجام.