从 Screaming Frog 爬虫生成 AI 就绪的 llms.txt 文件

Generate AI-Ready llms.txt Files from Screaming Frog Website Crawls

自动从 Screaming Frog 网站爬虫导出的 CSV 数据生成符合 LLM 标准的 llms.txt 内容索引文件,支持多语言和 AI 智能分类

23 NodesAI & MLSEO优化 AI集成 内容管理

工作流概述

本工作流用于从 Screaming Frog 网站爬虫导出的数据自动生成符合 AI 标准的 llms.txt 文件。llms.txt 是一种帮助大型语言模型(LLM)更好地理解和发现网站内容的标准化文件格式。该工作流通过表单接收 Screaming Frog 的 CSV 导出文件,经过数据提取、字段映射、URL 过滤、可选的 AI 分类等步骤,最终生成可下载的 llms.txt 文件。

工作流名称

Generate AI-Ready llms.txt Files from Screaming Frog Website Crawls

核心功能

该工作流实现了以下核心功能:

  1. 表单数据收集:通过 Web 表单接收网站名称、描述和 Screaming Frog 导出文件
  2. CSV 数据解析:从上传的 CSV 文件中提取结构化数据
  3. 多语言支持:自动识别并处理英语、法语、德语、意大利语、西班牙语版本的 Screaming Frog 导出文件
  4. 智能过滤:根据状态码、可索引性、内容类型等条件筛选 URL
  5. AI 分类(可选):使用 OpenAI 模型对内容进行智能分类,区分高质量内容
  6. 格式化输出:生成符合 llms.txt 标准格式的文件

工作流节点详解

1. 触发器节点

Form - Screaming frog internal_html.csv upload

  • 类型:表单触发器 (formTrigger)
  • 功能:提供用户界面收集以下信息:
    • 网站名称
    • 网站简短描述(需使用网站的目标语言)
    • Screaming Frog 导出的 CSV 文件(internal_html.csv 或 internal_all.csv)
  • 触发方式:用户提交表单后自动触发工作流

2. 数据提取节点

Extract data from Screaming Frog file

  • 类型:文件提取节点 (extractFromFile)
  • 功能:解析上传的 CSV 文件并提取数据
  • 输入:从表单接收的二进制文件数据
  • 输出:结构化的 JSON 数据数组

3. 字段映射节点

Set useful fields

  • 类型:Set 节点
  • 功能:从 Screaming Frog 导出的数据中提取并映射关键字段
  • 提取的字段:
    • url:页面地址
    • title:页面标题
    • description:Meta 描述
    • status:HTTP 状态码
    • indexability:可索引性状态
    • content_type:内容类型
    • word_count:字数统计
  • 多语言字段映射:支持英语、法语、德语、意大利语、西班牙语的列名

4. URL 过滤节点

Filter URLs

  • 类型:Filter 节点
  • 功能:根据预设条件筛选符合条件的 URL
  • 过滤条件:
    • 状态码 = 200(正常访问)
    • 可索引性 = indexable(可被搜索引擎索引)
    • 内容类型包含 "text/html"(HTML 页面)
  • 可扩展性:用户可添加额外过滤条件(如字数、URL 路径、Meta 描述等)

5. AI 分类节点(默认禁用)

Text Classifier

  • 类型:文本分类器 (textClassifier)
  • 状态:默认禁用
  • 功能:使用 AI 模型智能判断页面内容质量
  • 分类类别:
    • useful_content:高质量内容,适合包含在 llms.txt 中
    • other_content:低价值内容或分页等不应包含的页面
  • 输入数据:URL、标题、描述、字数
  • 连接的 AI 模型:OpenAI Chat Model

6. AI 模型节点

OpenAI Chat Model

  • 类型:OpenAI 聊天模型 (lmChatOpenAi)
  • 模型:gpt-4o-mini
  • 功能:为文本分类器提供 AI 推理能力
  • 需要:OpenAI API 凭证

7. 数据处理节点

Set Field - llms.txt Row

  • 类型:Set 节点
  • 功能:将每个 URL 格式化为 llms.txt 标准格式
  • 输出格式:- [页面标题](URL): 描述

8. 数据聚合节点

Summarize - Concatenate

  • 类型:Aggregate 节点
  • 功能:将所有格式化后的行合并成单一文本
  • 操作:使用换行符连接所有记录

9. 内容组装节点

Set Fields - llms.txt Content

  • 类型:Set 节点
  • 功能:组装完整的 llms.txt 文件内容
  • 包含内容:
    • 网站名称
    • 网站描述
    • 所有筛选后的 URL 列表

10. 文件生成节点

Generate llms.txt file

  • 类型:转换为文件 (convertToFile)
  • 功能:将文本内容转换为可下载的文件
  • 文件名:llms.txt
  • 编码:UTF-8
  • 输出:可从 n8n UI 直接下载的文件

11. 辅助节点

No Operation, do nothing

  • 类型:无操作节点 (noOp)
  • 功能:处理被 AI 分类器标记为 "other_content" 的数据分支

12. 注释节点

工作流包含多个 Sticky Note 节点,提供详细的使用说明和提示:

  • 主说明:工作流的整体介绍和使用步骤
  • 表单说明:输入字段的详细说明
  • 数据提取说明:CSV 文件处理的注意事项
  • 字段映射说明:多语言支持的详细信息
  • 过滤说明:过滤条件和可扩展建议

工作流执行流程

  1. 用户输入 → 用户通过表单提交网站信息和 CSV 文件
  2. 数据提取 → 解析 CSV 文件获取原始数据
  3. 字段映射 → 提取关键字段并统一字段名称
  4. URL 过滤 → 根据状态、可索引性和内容类型筛选 URL
  5. AI 分类(可选) → 使用 AI 进一步筛选高质量内容
  6. 格式转换 → 将每个 URL 转换为 llms.txt 格式
  7. 数据聚合 → 合并所有行
  8. 内容组装 → 添加网站头部信息
  9. 文件生成 → 生成可下载的 llms.txt 文件

技术特点

多语言支持

工作流智能识别不同语言版本的 Screaming Frog 导出文件,支持:

  • 英语(English)
  • 法语(Français)
  • 德语(Deutsch)
  • 意大利语(Italiano)
  • 西班牙语(Español)

灵活性

  • 支持 internal_html.csv 和 internal_all.csv 两种导出格式
  • 过滤条件可根据需求自定义扩展
  • AI 分类器可按需启用或禁用
  • 可轻松添加后续节点(如上传到 Google Drive、OneDrive 等)

用户友好

  • 清晰的表单界面
  • 详细的注释说明
  • 直接从 n8n UI 下载结果文件
  • 推荐直接在 n8n UI 中使用 "Test Workflow" 功能

使用场景

该工作流适用于以下场景:

  1. SEO 优化:为网站创建 AI 友好的内容索引
  2. 内容管理:批量整理网站可索引页面
  3. AI 集成:帮助 LLM 更好地理解网站结构和内容
  4. 网站审计:筛选和分类网站页面
  5. 多语言网站:统一处理不同语言版本的网站数据

前置要求

  1. Screaming Frog SEO Spider:用于爬取网站并导出数据
  2. n8n 平台:运行工作流
  3. OpenAI API(可选):启用 AI 分类功能时需要

输出结果

生成的 llms.txt 文件包含:

  • 网站名称和描述(头部信息)
  • 筛选后的页面列表,每行格式为:- [页面标题](URL): 页面描述
  • UTF-8 编码,确保多语言兼容性

扩展建议

  1. 自动化部署:添加节点将生成的文件自动上传到网站根目录
  2. 定期更新:配合调度触发器实现定期重新生成
  3. 多源整合:结合其他数据源丰富 llms.txt 内容
  4. 质量控制:添加更多过滤条件(如最小字数、必须有描述等)
  5. 通知机制:添加邮件或 Slack 通知节点,完成时自动通知

注意事项

  1. 上传的文件必须是 Screaming Frog 的标准导出格式,否则可能导致后续步骤失败
  2. AI 分类器默认禁用以节省成本,需要时手动启用
  3. 文件需要从 n8n UI 的最后一个节点手动下载
  4. 使用 AI 分类功能需要有效的 OpenAI API 凭证
  5. 建议使用 internal_html.csv 导出,虽然 internal_all.csv 也可以工作

总结

这是一个设计精良的 n8n 工作流,将 SEO 工具(Screaming Frog)与 AI 技术相结合,自动化生成符合现代 LLM 标准的网站内容索引文件。工作流具有良好的用户体验、强大的多语言支持和灵活的扩展性,适合各类规模的网站使用。