Screaming FrogのクローラーからAI対応のllms.txtファイルを生成

Generate AI-Ready llms.txt Files from Screaming Frog Website Crawls

Screaming FrogのウェブサイトクロールでエクスポートされたCSVデータから、LLM標準に準拠したllms.txtコンテンツインデックスファイルを自動生成します。多言語対応およびAIによるスマート分類をサポートします。

23 NodesAI & MLSEO最適化 AI連携 コンテンツ管理

ワークフロー概要

本ワークフローは、Screaming Frog ウェブサイトクローラーからエクスポートされたデータをもとに、AI 標準に準拠した llms.txt ファイルを自動生成するものです。llms.txt は、大規模言語モデル(LLM)がウェブサイトのコンテンツをより正確に理解・発見できるように支援する標準化されたファイル形式です。このワークフローは、フォームを通じて Screaming Frog の CSV エクスポートファイルを受け取り、データ抽出、フィールドマッピング、URL フィルタリング、オプションの AI 分類などの処理を経て、ダウンロード可能な llms.txt ファイルを生成します。

ワークフロー名

Generate AI-Ready llms.txt Files from Screaming Frog Website Crawls

コア機能

本ワークフローは以下の主要機能を実装しています:

  1. フォームによるデータ収集:ウェブフォームを通じて、ウェブサイト名、説明文、および Screaming Frog のエクスポートファイルを受信
  2. CSV データの解析:アップロードされた CSV ファイルから構造化データを抽出
  3. 多言語対応:英語、フランス語、ドイツ語、イタリア語、スペイン語版の Screaming Frog エクスポートファイルを自動認識・処理
  4. スマートフィルタリング:ステータスコード、インデックス可能性、コンテンツタイプなどの条件に基づき URL をフィルタリング
  5. AI 分類(オプション):OpenAI モデルを使用してコンテンツをスマートに分類し、高品質なコンテンツを識別
  6. フォーマット出力:llms.txt 標準形式に準拠したファイルを生成

ワークフロー各ノードの詳細

1. トリガーノード

Form - Screaming frog internal_html.csv upload

  • タイプ:フォームトリガー (formTrigger)
  • 機能:以下の情報を収集するユーザーインターフェースを提供
    • ウェブサイト名
    • ウェブサイトの短い説明文(ウェブサイトの対象言語で記述)
    • Screaming Frog がエクスポートした CSV ファイル(internal_html.csv または internal_all.csv)
  • トリガー方法:ユーザーがフォームを送信すると自動的にワークフローが起動

2. データ抽出ノード

Extract data from Screaming Frog file

  • タイプ:ファイル抽出ノード (extractFromFile)
  • 機能:アップロードされた CSV ファイルを解析し、データを抽出
  • 入力:フォームから受け取ったバイナリファイルデータ
  • 出力:構造化された JSON データ配列

3. フィールドマッピングノード

Set useful fields

  • タイプ:Set ノード
  • 機能:Screaming Frog エクスポートデータから重要なフィールドを抽出・マッピング
  • 抽出フィールド:
    • url:ページ URL
    • title:ページタイトル
    • description:メタディスクリプション
    • status:HTTP ステータスコード
    • indexability:インデックス可能性ステータス
    • content_type:コンテンツタイプ
    • word_count:単語数
  • 多言語フィールドマッピング:英語、フランス語、ドイツ語、イタリア語、スペイン語のカラム名に対応

4. URL フィルタリングノード

Filter URLs

  • タイプ:Filter ノード
  • 機能:事前設定された条件に基づき、該当する URL をフィルタリング
  • フィルター条件:
    • ステータスコード = 200(正常アクセス)
    • インデックス可能性 = indexable(検索エンジンでインデックス可能)
    • コンテンツタイプに "text/html" を含む(HTML ページ)
  • 拡張性:ユーザーが追加フィルター条件(例:単語数、URL パス、メタディスクリプションなど)を自由に追加可能

5. AI 分類ノード(デフォルト無効)

Text Classifier

  • タイプ:テキスト分類器 (textClassifier)
  • 状態:デフォルトでは無効
  • 機能:AI モデルを使用してページコンテンツの品質をスマートに判定
  • 分類カテゴリ:
    • useful_content:高品質コンテンツ。llms.txt に含めるべき
    • other_content:低価値コンテンツやページネーションなど、含めるべきでないページ
  • 入力データ:URL、タイトル、説明文、単語数
  • 接続 AI モデル:OpenAI Chat Model

6. AI モデルノード

OpenAI Chat Model

  • タイプ:OpenAI チャットモデル (lmChatOpenAi)
  • モデル:gpt-4o-mini
  • 機能:テキスト分類器に AI 推論機能を提供
  • 必須:OpenAI API 認証情報

7. データ処理ノード

Set Field - llms.txt Row

  • タイプ:Set ノード
  • 機能:各 URL を llms.txt 標準形式にフォーマット
  • 出力形式:- [ページタイトル](URL): 説明文

8. データ集約ノード

Summarize - Concatenate

  • タイプ:Aggregate ノード
  • 機能:すべてのフォーマット済み行を単一のテキストに結合
  • 処理内容:改行文字で全レコードを連結

9. コンテンツ組み立てノード

Set Fields - llms.txt Content

  • タイプ:Set ノード
  • 機能:完全な llms.txt ファイルコンテンツを組み立て
  • 含まれる内容:
    • ウェブサイト名
    • ウェブサイト説明文
    • フィルタリング後の全 URL リスト

10. ファイル生成ノード

Generate llms.txt file

  • タイプ:ファイル変換 (convertToFile)
  • 機能:テキストコンテンツをダウンロード可能なファイルに変換
  • ファイル名:llms.txt
  • エンコーディング:UTF-8
  • 出力:n8n UI から直接ダウンロード可能なファイル

11. 補助ノード

No Operation, do nothing

  • タイプ:NoOp ノード (noOp)
  • 機能:AI 分類器により "other_content" とラベル付けされたデータブランチを処理

12. 注釈ノード

ワークフローには複数の Sticky Note ノードが含まれ、詳細な使用方法とヒントを提供:

  • 主な説明:ワークフロー全体の紹介と使用手順
  • フォーム説明:入力フィールドの詳細
  • データ抽出説明:CSV ファイル処理時の注意点
  • フィールドマッピング説明:多言語対応の詳細情報
  • フィルタリング説明:フィルター条件と拡張提案

ワークフロー実行フロー

  1. ユーザー入力 → ユーザーがフォームからウェブサイト情報と CSV ファイルを送信
  2. データ抽出 → CSV ファイルを解析し、生データを取得
  3. フィールドマッピング → 重要なフィールドを抽出し、フィールド名を統一
  4. URL フィルタリング → ステータス、インデックス可能性、コンテンツタイプに基づき URL をフィルタリング
  5. AI 分類(オプション) → AI を使用して高品質コンテンツをさらに選別
  6. フォーマット変換 → 各 URL を llms.txt 形式に変換
  7. データ集約 → すべての行を結合
  8. コンテンツ組み立て → ウェブサイトヘッダー情報を追加
  9. ファイル生成 → ダウンロード可能な llms.txt ファイルを生成

技術的特徴

多言語対応

ワークフローは Screaming Frog の異なる言語版エクスポートファイルをスマートに認識し、以下をサポート:

  • 英語(English)
  • フランス語(Français)
  • ドイツ語(Deutsch)
  • イタリア語(Italiano)
  • スペイン語(Español)

柔軟性

  • internal_html.csv および internal_all.csv の両方のエクスポート形式に対応
  • フィルター条件はニーズに応じてカスタマイズ可能
  • AI 分類器は必要に応じて有効化/無効化可能
  • 後続ノード(Google Drive や OneDrive へのアップロードなど)を簡単に追加可能

ユーザーフレンドリー

  • 明確なフォームインターフェース
  • 詳細な注釈と説明
  • n8n UI から結果ファイルを直接ダウンロード可能
  • n8n UI 内の「Test Workflow」機能の使用を推奨

使用シーン

本ワークフローは以下のシナリオに適しています:

  1. SEO 最適化:ウェブサイト向けに AI フレンドリーなコンテンツインデックスを作成
  2. コンテンツ管理:インデックス可能なウェブページを一括整理
  3. AI 統合:LLM がウェブサイト構造とコンテンツをより正確に理解できるように支援
  4. ウェブサイト監査:ウェブページのフィルタリングと分類
  5. 多言語ウェブサイト:異なる言語版のウェブサイトデータを統一処理

前提条件

  1. Screaming Frog SEO Spider:ウェブサイトをクロールし、データをエクスポートするために使用
  2. n8n プラットフォーム:ワークフローを実行
  3. OpenAI API(オプション):AI 分類機能を有効にする場合に必要

出力結果

生成される llms.txt ファイルには以下が含まれます:

  • ウェブサイト名と説明文(ヘッダー情報)
  • フィルタリング後のページリスト。各行の形式:- [ページタイトル](URL): ページ説明文
  • UTF-8 エンコーディングにより、多言語互換性を確保

拡張提案

  1. 自動デプロイ:生成されたファイルを自動的にウェブサイトルートディレクトリにアップロードするノードを追加
  2. 定期更新:スケジュールトリガーと連携し、定期的に再生成を実現
  3. マルチソース統合:他のデータソースと組み合わせて llms.txt コンテンツを充実
  4. 品質管理:追加フィルター条件(例:最小単語数、必須メタディスクリプションなど)を導入
  5. 通知機能:メールや Slack 通知ノードを追加し、完了時に自動通知

注意事項

  1. アップロードするファイルは Screaming Frog の標準エクスポート形式である必要があります。そうでない場合、後続ステップで失敗する可能性があります。
  2. コスト削減のため、AI 分類器はデフォルトで無効になっています。必要な場合は手動で有効化してください。
  3. ファイルは n8n UI の最終ノードから手動でダウンロードする必要があります。
  4. AI 分類機能を使用するには、有効な OpenAI API 認証情報が必要です。
  5. internal_html.csv のエクスポート使用を推奨しますが、internal_all.csv も動作可能です。

まとめ

これは、SEO ツール(Screaming Frog)と AI 技術を組み合わせ、現代の LLM 標準に準拠したウェブサイトコンテンツインデックスファイルを自動生成する、洗練された n8n ワークフローです。優れたユーザーエクスペリエンス、強力な多言語対応、柔軟な拡張性を備えており、あらゆる規模のウェブサイトに適しています。