从 Screaming Frog 爬虫生成 AI 就绪的 llms.txt 文件
Generate AI-Ready llms.txt Files from Screaming Frog Website Crawls
自动从 Screaming Frog 网站爬虫导出的 CSV 数据生成符合 LLM 标准的 llms.txt 内容索引文件,支持多语言和 AI 智能分类
工作流概述
本工作流用于从 Screaming Frog 网站爬虫导出的数据自动生成符合 AI 标准的 llms.txt 文件。llms.txt 是一种帮助大型语言模型(LLM)更好地理解和发现网站内容的标准化文件格式。该工作流通过表单接收 Screaming Frog 的 CSV 导出文件,经过数据提取、字段映射、URL 过滤、可选的 AI 分类等步骤,最终生成可下载的 llms.txt 文件。
工作流名称
Generate AI-Ready llms.txt Files from Screaming Frog Website Crawls
核心功能
该工作流实现了以下核心功能:
- 表单数据收集:通过 Web 表单接收网站名称、描述和 Screaming Frog 导出文件
- CSV 数据解析:从上传的 CSV 文件中提取结构化数据
- 多语言支持:自动识别并处理英语、法语、德语、意大利语、西班牙语版本的 Screaming Frog 导出文件
- 智能过滤:根据状态码、可索引性、内容类型等条件筛选 URL
- AI 分类(可选):使用 OpenAI 模型对内容进行智能分类,区分高质量内容
- 格式化输出:生成符合 llms.txt 标准格式的文件
工作流节点详解
1. 触发器节点
Form - Screaming frog internal_html.csv upload
- 类型:表单触发器 (formTrigger)
- 功能:提供用户界面收集以下信息:
- 网站名称
- 网站简短描述(需使用网站的目标语言)
- Screaming Frog 导出的 CSV 文件(internal_html.csv 或 internal_all.csv)
- 触发方式:用户提交表单后自动触发工作流
2. 数据提取节点
Extract data from Screaming Frog file
- 类型:文件提取节点 (extractFromFile)
- 功能:解析上传的 CSV 文件并提取数据
- 输入:从表单接收的二进制文件数据
- 输出:结构化的 JSON 数据数组
3. 字段映射节点
Set useful fields
- 类型:Set 节点
- 功能:从 Screaming Frog 导出的数据中提取并映射关键字段
- 提取的字段:
url:页面地址title:页面标题description:Meta 描述status:HTTP 状态码indexability:可索引性状态content_type:内容类型word_count:字数统计
- 多语言字段映射:支持英语、法语、德语、意大利语、西班牙语的列名
4. URL 过滤节点
Filter URLs
- 类型:Filter 节点
- 功能:根据预设条件筛选符合条件的 URL
- 过滤条件:
- 状态码 = 200(正常访问)
- 可索引性 = indexable(可被搜索引擎索引)
- 内容类型包含 "text/html"(HTML 页面)
- 可扩展性:用户可添加额外过滤条件(如字数、URL 路径、Meta 描述等)
5. AI 分类节点(默认禁用)
Text Classifier
- 类型:文本分类器 (textClassifier)
- 状态:默认禁用
- 功能:使用 AI 模型智能判断页面内容质量
- 分类类别:
useful_content:高质量内容,适合包含在 llms.txt 中other_content:低价值内容或分页等不应包含的页面
- 输入数据:URL、标题、描述、字数
- 连接的 AI 模型:OpenAI Chat Model
6. AI 模型节点
OpenAI Chat Model
- 类型:OpenAI 聊天模型 (lmChatOpenAi)
- 模型:gpt-4o-mini
- 功能:为文本分类器提供 AI 推理能力
- 需要:OpenAI API 凭证
7. 数据处理节点
Set Field - llms.txt Row
- 类型:Set 节点
- 功能:将每个 URL 格式化为 llms.txt 标准格式
- 输出格式:
- [页面标题](URL): 描述
8. 数据聚合节点
Summarize - Concatenate
- 类型:Aggregate 节点
- 功能:将所有格式化后的行合并成单一文本
- 操作:使用换行符连接所有记录
9. 内容组装节点
Set Fields - llms.txt Content
- 类型:Set 节点
- 功能:组装完整的 llms.txt 文件内容
- 包含内容:
- 网站名称
- 网站描述
- 所有筛选后的 URL 列表
10. 文件生成节点
Generate llms.txt file
- 类型:转换为文件 (convertToFile)
- 功能:将文本内容转换为可下载的文件
- 文件名:llms.txt
- 编码:UTF-8
- 输出:可从 n8n UI 直接下载的文件
11. 辅助节点
No Operation, do nothing
- 类型:无操作节点 (noOp)
- 功能:处理被 AI 分类器标记为 "other_content" 的数据分支
12. 注释节点
工作流包含多个 Sticky Note 节点,提供详细的使用说明和提示:
- 主说明:工作流的整体介绍和使用步骤
- 表单说明:输入字段的详细说明
- 数据提取说明:CSV 文件处理的注意事项
- 字段映射说明:多语言支持的详细信息
- 过滤说明:过滤条件和可扩展建议
工作流执行流程
- 用户输入 → 用户通过表单提交网站信息和 CSV 文件
- 数据提取 → 解析 CSV 文件获取原始数据
- 字段映射 → 提取关键字段并统一字段名称
- URL 过滤 → 根据状态、可索引性和内容类型筛选 URL
- AI 分类(可选) → 使用 AI 进一步筛选高质量内容
- 格式转换 → 将每个 URL 转换为 llms.txt 格式
- 数据聚合 → 合并所有行
- 内容组装 → 添加网站头部信息
- 文件生成 → 生成可下载的 llms.txt 文件
技术特点
多语言支持
工作流智能识别不同语言版本的 Screaming Frog 导出文件,支持:
- 英语(English)
- 法语(Français)
- 德语(Deutsch)
- 意大利语(Italiano)
- 西班牙语(Español)
灵活性
- 支持 internal_html.csv 和 internal_all.csv 两种导出格式
- 过滤条件可根据需求自定义扩展
- AI 分类器可按需启用或禁用
- 可轻松添加后续节点(如上传到 Google Drive、OneDrive 等)
用户友好
- 清晰的表单界面
- 详细的注释说明
- 直接从 n8n UI 下载结果文件
- 推荐直接在 n8n UI 中使用 "Test Workflow" 功能
使用场景
该工作流适用于以下场景:
- SEO 优化:为网站创建 AI 友好的内容索引
- 内容管理:批量整理网站可索引页面
- AI 集成:帮助 LLM 更好地理解网站结构和内容
- 网站审计:筛选和分类网站页面
- 多语言网站:统一处理不同语言版本的网站数据
前置要求
- Screaming Frog SEO Spider:用于爬取网站并导出数据
- n8n 平台:运行工作流
- OpenAI API(可选):启用 AI 分类功能时需要
输出结果
生成的 llms.txt 文件包含:
- 网站名称和描述(头部信息)
- 筛选后的页面列表,每行格式为:
- [页面标题](URL): 页面描述 - UTF-8 编码,确保多语言兼容性
扩展建议
- 自动化部署:添加节点将生成的文件自动上传到网站根目录
- 定期更新:配合调度触发器实现定期重新生成
- 多源整合:结合其他数据源丰富 llms.txt 内容
- 质量控制:添加更多过滤条件(如最小字数、必须有描述等)
- 通知机制:添加邮件或 Slack 通知节点,完成时自动通知
注意事项
- 上传的文件必须是 Screaming Frog 的标准导出格式,否则可能导致后续步骤失败
- AI 分类器默认禁用以节省成本,需要时手动启用
- 文件需要从 n8n UI 的最后一个节点手动下载
- 使用 AI 分类功能需要有效的 OpenAI API 凭证
- 建议使用 internal_html.csv 导出,虽然 internal_all.csv 也可以工作
总结
这是一个设计精良的 n8n 工作流,将 SEO 工具(Screaming Frog)与 AI 技术相结合,自动化生成符合现代 LLM 标准的网站内容索引文件。工作流具有良好的用户体验、强大的多语言支持和灵活的扩展性,适合各类规模的网站使用。