從 Screaming Frog 爬蟲生成 AI 就緒的 llms.txt 檔案
Generate AI-Ready llms.txt Files from Screaming Frog Website Crawls
自動從 Screaming Frog 網站爬蟲匯出的 CSV 資料生成符合 LLM 標準的 llms.txt 內容索引檔案,支援多語言和 AI 智慧分類
工作流程概述
本工作流程用於從 Screaming Frog 網站爬蟲匯出的資料自動產生符合 AI 標準的 llms.txt 檔案。llms.txt 是一種協助大型語言模型(LLM)更有效理解與發現網站內容的標準化檔案格式。此工作流程透過表單接收 Screaming Frog 的 CSV 匯出檔案,經過資料提取、欄位對應、URL 過濾、可選的 AI 分類等步驟,最終生成可下載的 llms.txt 檔案。
工作流程名稱
Generate AI-Ready llms.txt Files from Screaming Frog Website Crawls
核心功能
該工作流程實現了以下核心功能:
- 表單資料收集:透過網頁表單接收網站名稱、描述及 Screaming Frog 匯出檔案
- CSV 資料解析:從上傳的 CSV 檔案中提取結構化資料
- 多語言支援:自動辨識並處理英語、法語、德語、義大利語、西班牙語版本的 Screaming Frog 匯出檔案
- 智慧過濾:根據狀態碼、可索引性、內容類型等條件篩選 URL
- AI 分類(可選):使用 OpenAI 模型對內容進行智慧分類,區分高品質內容
- 格式化輸出:生成符合 llms.txt 標準格式的檔案
工作流程節點詳解
1. 觸發器節點
Form - Screaming frog internal_html.csv upload
- 類型:表單觸發器 (formTrigger)
- 功能:提供使用者介面收集以下資訊:
- 網站名稱
- 網站簡短描述(需使用網站的目標語言)
- Screaming Frog 匯出的 CSV 檔案(internal_html.csv 或 internal_all.csv)
- 觸發方式:使用者提交表單後自動觸發工作流程
2. 資料提取節點
Extract data from Screaming Frog file
- 類型:檔案提取節點 (extractFromFile)
- 功能:解析上傳的 CSV 檔案並提取資料
- 輸入:從表單接收的二進位檔案資料
- 輸出:結構化的 JSON 資料陣列
3. 欄位對應節點
Set useful fields
- 類型:Set 節點
- 功能:從 Screaming Frog 匯出的資料中提取並對應關鍵欄位
- 提取的欄位:
url:頁面網址title:頁面標題description:Meta 描述status:HTTP 狀態碼indexability:可索引性狀態content_type:內容類型word_count:字數統計
- 多語言欄位對應:支援英語、法語、德語、義大利語、西班牙語的欄位名稱
4. URL 過濾節點
Filter URLs
- 類型:Filter 節點
- 功能:根據預設條件篩選符合條件的 URL
- 過濾條件:
- 狀態碼 = 200(正常存取)
- 可索引性 = indexable(可被搜尋引擎索引)
- 內容類型包含 "text/html"(HTML 頁面)
- 可擴充性:使用者可新增額外過濾條件(如字數、URL 路徑、Meta 描述等)
5. AI 分類節點(預設停用)
Text Classifier
- 類型:文字分類器 (textClassifier)
- 狀態:預設停用
- 功能:使用 AI 模型智慧判斷頁面內容品質
- 分類類別:
useful_content:高品質內容,適合包含在 llms.txt 中other_content:低價值內容或分頁等不應包含的頁面
- 輸入資料:URL、標題、描述、字數
- 連接的 AI 模型:OpenAI Chat Model
6. AI 模型節點
OpenAI Chat Model
- 類型:OpenAI 聊天模型 (lmChatOpenAi)
- 模型:gpt-4o-mini
- 功能:為文字分類器提供 AI 推理能力
- 需求:OpenAI API 憑證
7. 資料處理節點
Set Field - llms.txt Row
- 類型:Set 節點
- 功能:將每個 URL 格式化為 llms.txt 標準格式
- 輸出格式:
- [頁面標題](URL): 描述
8. 資料聚合節點
Summarize - Concatenate
- 類型:Aggregate 節點
- 功能:將所有格式化後的行合併成單一文字
- 操作:使用換行符號連接所有記錄
9. 內容組裝節點
Set Fields - llms.txt Content
- 類型:Set 節點
- 功能:組裝完整的 llms.txt 檔案內容
- 包含內容:
- 網站名稱
- 網站描述
- 所有篩選後的 URL 清單
10. 檔案產生節點
Generate llms.txt file
- 類型:轉換為檔案 (convertToFile)
- 功能:將文字內容轉換為可下載的檔案
- 檔案名稱:llms.txt
- 編碼:UTF-8
- 輸出:可從 n8n UI 直接下載的檔案
11. 輔助節點
No Operation, do nothing
- 類型:無操作節點 (noOp)
- 功能:處理被 AI 分類器標記為 "other_content" 的資料分支
12. 註解節點
工作流程包含多個 Sticky Note 節點,提供詳細的使用說明與提示:
- 主要說明:工作流程的整體介紹與使用步驟
- 表單說明:輸入欄位的詳細說明
- 資料提取說明:CSV 檔案處理的注意事項
- 欄位對應說明:多語言支援的詳細資訊
- 過濾說明:過濾條件與可擴充建議
工作流程執行流程
- 使用者輸入 → 使用者透過表單提交網站資訊與 CSV 檔案
- 資料提取 → 解析 CSV 檔案取得原始資料
- 欄位對應 → 提取關鍵欄位並統一欄位名稱
- URL 過濾 → 根據狀態、可索引性與內容類型篩選 URL
- AI 分類(可選) → 使用 AI 進一步篩選高品質內容
- 格式轉換 → 將每個 URL 轉換為 llms.txt 格式
- 資料聚合 → 合併所有行
- 內容組裝 → 新增網站標頭資訊
- 檔案產生 → 生成可下載的 llms.txt 檔案
技術特色
多語言支援
工作流程智慧辨識不同語言版本的 Screaming Frog 匯出檔案,支援:
- 英語(English)
- 法語(Français)
- 德語(Deutsch)
- 義大利語(Italiano)
- 西班牙語(Español)
彈性
- 支援 internal_html.csv 與 internal_all.csv 兩種匯出格式
- 過濾條件可依需求自訂擴充
- AI 分類器可依需求啟用或停用
- 可輕鬆新增後續節點(例如上傳至 Google Drive、OneDrive 等)
使用者友善
- 清晰的表單介面
- 詳細的註解說明
- 可直接從 n8n UI 下載結果檔案
- 建議直接在 n8n UI 中使用 "Test Workflow" 功能
使用情境
該工作流程適用於以下情境:
- SEO 優化:為網站建立 AI 友善的內容索引
- 內容管理:批次整理網站可索引頁面
- AI 整合:協助 LLM 更好地理解網站結構與內容
- 網站稽核:篩選與分類網站頁面
- 多語言網站:統一處理不同語言版本的網站資料
前置需求
- Screaming Frog SEO Spider:用於爬取網站並匯出資料
- n8n 平台:執行工作流程
- OpenAI API(可選):啟用 AI 分類功能時需要
輸出結果
生成的 llms.txt 檔案包含:
- 網站名稱與描述(標頭資訊)
- 篩選後的頁面清單,每行格式為:
- [頁面標題](URL): 頁面描述 - UTF-8 編碼,確保多語言相容性
擴充建議
- 自動化部署:新增節點將產生的檔案自動上傳至網站根目錄
- 定期更新:搭配排程觸發器實現定期重新產生
- 多來源整合:結合其他資料來源豐富 llms.txt 內容
- 品質控管:新增更多過濾條件(例如最小字數、必須有描述等)
- 通知機制:新增電子郵件或 Slack 通知節點,完成時自動通知
注意事項
- 上傳的檔案必須是 Screaming Frog 的標準匯出格式,否則可能導致後續步驟失敗
- AI 分類器預設停用以節省成本,需要時手動啟用
- 檔案需從 n8n UI 的最後一個節點手動下載
- 使用 AI 分類功能需要有效的 OpenAI API 憑證
- 建議使用 internal_html.csv 匯出,雖然 internal_all.csv 也可運作
總結
這是一個設計精良的 n8n 工作流程,將 SEO 工具(Screaming Frog)與 AI 技術相結合,自動化產生符合現代 LLM 標準的網站內容索引檔案。工作流程具備良好的使用者體驗、強大的多語言支援與靈活的擴充性,適合各種規模的網站使用。