從 Screaming Frog 爬蟲生成 AI 就緒的 llms.txt 檔案

Generate AI-Ready llms.txt Files from Screaming Frog Website Crawls

自動從 Screaming Frog 網站爬蟲匯出的 CSV 資料生成符合 LLM 標準的 llms.txt 內容索引檔案,支援多語言和 AI 智慧分類

23 NodesAI & MLSEO最佳化 AI整合 內容管理

工作流程概述

本工作流程用於從 Screaming Frog 網站爬蟲匯出的資料自動產生符合 AI 標準的 llms.txt 檔案。llms.txt 是一種協助大型語言模型(LLM)更有效理解與發現網站內容的標準化檔案格式。此工作流程透過表單接收 Screaming Frog 的 CSV 匯出檔案,經過資料提取、欄位對應、URL 過濾、可選的 AI 分類等步驟,最終生成可下載的 llms.txt 檔案。

工作流程名稱

Generate AI-Ready llms.txt Files from Screaming Frog Website Crawls

核心功能

該工作流程實現了以下核心功能:

  1. 表單資料收集:透過網頁表單接收網站名稱、描述及 Screaming Frog 匯出檔案
  2. CSV 資料解析:從上傳的 CSV 檔案中提取結構化資料
  3. 多語言支援:自動辨識並處理英語、法語、德語、義大利語、西班牙語版本的 Screaming Frog 匯出檔案
  4. 智慧過濾:根據狀態碼、可索引性、內容類型等條件篩選 URL
  5. AI 分類(可選):使用 OpenAI 模型對內容進行智慧分類,區分高品質內容
  6. 格式化輸出:生成符合 llms.txt 標準格式的檔案

工作流程節點詳解

1. 觸發器節點

Form - Screaming frog internal_html.csv upload

  • 類型:表單觸發器 (formTrigger)
  • 功能:提供使用者介面收集以下資訊:
    • 網站名稱
    • 網站簡短描述(需使用網站的目標語言)
    • Screaming Frog 匯出的 CSV 檔案(internal_html.csv 或 internal_all.csv)
  • 觸發方式:使用者提交表單後自動觸發工作流程

2. 資料提取節點

Extract data from Screaming Frog file

  • 類型:檔案提取節點 (extractFromFile)
  • 功能:解析上傳的 CSV 檔案並提取資料
  • 輸入:從表單接收的二進位檔案資料
  • 輸出:結構化的 JSON 資料陣列

3. 欄位對應節點

Set useful fields

  • 類型:Set 節點
  • 功能:從 Screaming Frog 匯出的資料中提取並對應關鍵欄位
  • 提取的欄位:
    • url:頁面網址
    • title:頁面標題
    • description:Meta 描述
    • status:HTTP 狀態碼
    • indexability:可索引性狀態
    • content_type:內容類型
    • word_count:字數統計
  • 多語言欄位對應:支援英語、法語、德語、義大利語、西班牙語的欄位名稱

4. URL 過濾節點

Filter URLs

  • 類型:Filter 節點
  • 功能:根據預設條件篩選符合條件的 URL
  • 過濾條件:
    • 狀態碼 = 200(正常存取)
    • 可索引性 = indexable(可被搜尋引擎索引)
    • 內容類型包含 "text/html"(HTML 頁面)
  • 可擴充性:使用者可新增額外過濾條件(如字數、URL 路徑、Meta 描述等)

5. AI 分類節點(預設停用)

Text Classifier

  • 類型:文字分類器 (textClassifier)
  • 狀態:預設停用
  • 功能:使用 AI 模型智慧判斷頁面內容品質
  • 分類類別:
    • useful_content:高品質內容,適合包含在 llms.txt 中
    • other_content:低價值內容或分頁等不應包含的頁面
  • 輸入資料:URL、標題、描述、字數
  • 連接的 AI 模型:OpenAI Chat Model

6. AI 模型節點

OpenAI Chat Model

  • 類型:OpenAI 聊天模型 (lmChatOpenAi)
  • 模型:gpt-4o-mini
  • 功能:為文字分類器提供 AI 推理能力
  • 需求:OpenAI API 憑證

7. 資料處理節點

Set Field - llms.txt Row

  • 類型:Set 節點
  • 功能:將每個 URL 格式化為 llms.txt 標準格式
  • 輸出格式:- [頁面標題](URL): 描述

8. 資料聚合節點

Summarize - Concatenate

  • 類型:Aggregate 節點
  • 功能:將所有格式化後的行合併成單一文字
  • 操作:使用換行符號連接所有記錄

9. 內容組裝節點

Set Fields - llms.txt Content

  • 類型:Set 節點
  • 功能:組裝完整的 llms.txt 檔案內容
  • 包含內容:
    • 網站名稱
    • 網站描述
    • 所有篩選後的 URL 清單

10. 檔案產生節點

Generate llms.txt file

  • 類型:轉換為檔案 (convertToFile)
  • 功能:將文字內容轉換為可下載的檔案
  • 檔案名稱:llms.txt
  • 編碼:UTF-8
  • 輸出:可從 n8n UI 直接下載的檔案

11. 輔助節點

No Operation, do nothing

  • 類型:無操作節點 (noOp)
  • 功能:處理被 AI 分類器標記為 "other_content" 的資料分支

12. 註解節點

工作流程包含多個 Sticky Note 節點,提供詳細的使用說明與提示:

  • 主要說明:工作流程的整體介紹與使用步驟
  • 表單說明:輸入欄位的詳細說明
  • 資料提取說明:CSV 檔案處理的注意事項
  • 欄位對應說明:多語言支援的詳細資訊
  • 過濾說明:過濾條件與可擴充建議

工作流程執行流程

  1. 使用者輸入 → 使用者透過表單提交網站資訊與 CSV 檔案
  2. 資料提取 → 解析 CSV 檔案取得原始資料
  3. 欄位對應 → 提取關鍵欄位並統一欄位名稱
  4. URL 過濾 → 根據狀態、可索引性與內容類型篩選 URL
  5. AI 分類(可選) → 使用 AI 進一步篩選高品質內容
  6. 格式轉換 → 將每個 URL 轉換為 llms.txt 格式
  7. 資料聚合 → 合併所有行
  8. 內容組裝 → 新增網站標頭資訊
  9. 檔案產生 → 生成可下載的 llms.txt 檔案

技術特色

多語言支援

工作流程智慧辨識不同語言版本的 Screaming Frog 匯出檔案,支援:

  • 英語(English)
  • 法語(Français)
  • 德語(Deutsch)
  • 義大利語(Italiano)
  • 西班牙語(Español)

彈性

  • 支援 internal_html.csv 與 internal_all.csv 兩種匯出格式
  • 過濾條件可依需求自訂擴充
  • AI 分類器可依需求啟用或停用
  • 可輕鬆新增後續節點(例如上傳至 Google Drive、OneDrive 等)

使用者友善

  • 清晰的表單介面
  • 詳細的註解說明
  • 可直接從 n8n UI 下載結果檔案
  • 建議直接在 n8n UI 中使用 "Test Workflow" 功能

使用情境

該工作流程適用於以下情境:

  1. SEO 優化:為網站建立 AI 友善的內容索引
  2. 內容管理:批次整理網站可索引頁面
  3. AI 整合:協助 LLM 更好地理解網站結構與內容
  4. 網站稽核:篩選與分類網站頁面
  5. 多語言網站:統一處理不同語言版本的網站資料

前置需求

  1. Screaming Frog SEO Spider:用於爬取網站並匯出資料
  2. n8n 平台:執行工作流程
  3. OpenAI API(可選):啟用 AI 分類功能時需要

輸出結果

生成的 llms.txt 檔案包含:

  • 網站名稱與描述(標頭資訊)
  • 篩選後的頁面清單,每行格式為:- [頁面標題](URL): 頁面描述
  • UTF-8 編碼,確保多語言相容性

擴充建議

  1. 自動化部署:新增節點將產生的檔案自動上傳至網站根目錄
  2. 定期更新:搭配排程觸發器實現定期重新產生
  3. 多來源整合:結合其他資料來源豐富 llms.txt 內容
  4. 品質控管:新增更多過濾條件(例如最小字數、必須有描述等)
  5. 通知機制:新增電子郵件或 Slack 通知節點,完成時自動通知

注意事項

  1. 上傳的檔案必須是 Screaming Frog 的標準匯出格式,否則可能導致後續步驟失敗
  2. AI 分類器預設停用以節省成本,需要時手動啟用
  3. 檔案需從 n8n UI 的最後一個節點手動下載
  4. 使用 AI 分類功能需要有效的 OpenAI API 憑證
  5. 建議使用 internal_html.csv 匯出,雖然 internal_all.csv 也可運作

總結

這是一個設計精良的 n8n 工作流程,將 SEO 工具(Screaming Frog)與 AI 技術相結合,自動化產生符合現代 LLM 標準的網站內容索引檔案。工作流程具備良好的使用者體驗、強大的多語言支援與靈活的擴充性,適合各種規模的網站使用。