Erstellen Sie aus Screaming Frog Crawls AI-fertige llms.txt-Dateien

Generate AI-Ready llms.txt Files from Screaming Frog Website Crawls

Automatisches Generieren von LLM-konformen llms.txt-Inhaltsindexdateien aus CSV-Daten, die von Screaming Frog Website-Crawls exportiert wurden. Unterstützt mehrere Sprachen und KI-basierte intelligente Klassifizierung.

23 NodesAI & MLSEO-Optimierung KI-Integration Content-Management

Workflow-Übersicht

Dieser Workflow generiert automatisch eine llms.txt-Datei im AI-kompatiblen Standardformat aus Daten, die von Screaming Frog Website Crawler exportiert wurden. Die llms.txt ist ein standardisiertes Dateiformat, das Large Language Models (LLMs) dabei unterstützt, Website-Inhalte besser zu verstehen und auffindbar zu machen. Der Workflow empfängt über ein Formular die CSV-Exportdatei von Screaming Frog, führt Datenextraktion, Feldzuordnung, URL-Filterung sowie optionale KI-basierte Klassifizierung durch und erzeugt schließlich eine herunterladbare llms.txt-Datei.

Workflow-Name

Generiere AI-fertige llms.txt-Dateien aus Screaming-Frog-Website-Crawls

Kernfunktionen

Der Workflow implementiert folgende Kernfunktionen:

  1. Formulardatenerfassung: Empfängt über ein Webformular Website-Name, -Beschreibung und die Screaming-Frog-Exportdatei
  2. CSV-Datenanalyse: Extrahiert strukturierte Daten aus der hochgeladenen CSV-Datei
  3. Mehrsprachigkeit: Erkennt und verarbeitet automatisch englische, französische, deutsche, italienische und spanische Versionen der Screaming-Frog-Exportdateien
  4. Intelligente Filterung: Filtert URLs basierend auf Statuscode, Indexierbarkeit, Inhaltstyp usw.
  5. KI-Klassifizierung (optional): Nutzt OpenAI-Modelle zur intelligenten Inhaltsklassifizierung und Identifikation hochwertiger Inhalte
  6. Formatierte Ausgabe: Generiert eine Datei im standardkonformen llms.txt-Format

Detaillierte Workflow-Knoten

1. Trigger-Knoten

Formular – Screaming-Frog-internal_html.csv-Upload

  • Typ: Formular-Trigger (formTrigger)
  • Funktion: Stellt eine Benutzeroberfläche zur Erfassung folgender Informationen bereit:
    • Website-Name
    • Kurzbeschreibung der Website (in der Zielsprache der Website verfassen)
    • Von Screaming Frog exportierte CSV-Datei (internal_html.csv oder internal_all.csv)
  • Auslöser: Automatischer Workflow-Start nach Formularabsendung

2. Datenextraktionsknoten

Daten aus Screaming-Frog-Datei extrahieren

  • Typ: Dateiextraktionsknoten (extractFromFile)
  • Funktion: Analysiert die hochgeladene CSV-Datei und extrahiert deren Daten
  • Eingabe: Binärdateidaten aus dem Formular
  • Ausgabe: Strukturiertes JSON-Datenarray

3. Feldzuordnungsknoten

Nützliche Felder festlegen

  • Typ: Set-Knoten
  • Funktion: Extrahiert und ordnet Schlüsselfelder aus den Screaming-Frog-Daten zu
  • Extrahierte Felder:
    • url: Seitenadresse
    • title: Seitentitel
    • description: Meta-Beschreibung
    • status: HTTP-Statuscode
    • indexability: Indexierbarkeitsstatus
    • content_type: Inhaltstyp
    • word_count: Wortanzahl
  • Mehrsprachige Feldzuordnung: Unterstützt Spaltennamen in Englisch, Französisch, Deutsch, Italienisch und Spanisch

4. URL-Filterknoten

URLs filtern

  • Typ: Filter-Knoten
  • Funktion: Filtert URLs gemäß vorgegebener Kriterien
  • Filterbedingungen:
    • Statuscode = 200 (erfolgreicher Zugriff)
    • Indexierbarkeit = indexable (für Suchmaschinen indexierbar)
    • Inhaltstyp enthält „text/html“ (HTML-Seiten)
  • Erweiterbarkeit: Zusätzliche Filterbedingungen können hinzugefügt werden (z. B. Wortanzahl, URL-Pfad, Meta-Beschreibung usw.)

5. KI-Klassifizierungsknoten (standardmäßig deaktiviert)

Textklassifizierer

  • Typ: Textklassifizierer (textClassifier)
  • Status: Standardmäßig deaktiviert
  • Funktion: Beurteilt mithilfe eines KI-Modells die Inhaltsqualität einer Seite
  • Klassifizierungskategorien:
    • useful_content: Hochwertiger Inhalt, geeignet für Aufnahme in llms.txt
    • other_content: Geringwertiger Inhalt oder Paginierungsseiten, die nicht enthalten sein sollten
  • Eingabedaten: URL, Titel, Beschreibung, Wortanzahl
  • Verbundenes KI-Modell: OpenAI Chat Model

6. KI-Modellknoten

OpenAI Chat Modell

  • Typ: OpenAI-Chatmodell (lmChatOpenAi)
  • Modell: gpt-4o-mini
  • Funktion: Stellt dem Textklassifizierer KI-gestützte Inferenzfähigkeiten bereit
  • Voraussetzung: OpenAI-API-Zugangsdaten

7. Datenverarbeitungsknoten

Feld festlegen – llms.txt-Zeile

  • Typ: Set-Knoten
  • Funktion: Formatieren jeder URL gemäß llms.txt-Standardformat
  • Ausgabeformat: - [Seitentitel](URL): Beschreibung

8. Datenaggregationsknoten

Zusammenfassung – Verketten

  • Typ: Aggregate-Knoten
  • Funktion: Fasst alle formatierten Zeilen zu einem einzigen Text zusammen
  • Operation: Verbindet alle Datensätze mit Zeilenumbrüchen

9. Inhaltszusammenstellungsknoten

Felder festlegen – llms.txt-Inhalt

  • Typ: Set-Knoten
  • Funktion: Stellt den vollständigen Inhalt der llms.txt-Datei zusammen
  • Enthaltene Inhalte:
    • Website-Name
    • Website-Beschreibung
    • Liste aller gefilterten URLs

10. Dateigenerierungsknoten

llms.txt-Datei generieren

  • Typ: In Datei konvertieren (convertToFile)
  • Funktion: Wandelt den Textinhalt in eine herunterladbare Datei um
  • Dateiname: llms.txt
  • Kodierung: UTF-8
  • Ausgabe: Direkt aus der n8n-Oberfläche herunterladbare Datei

11. Hilfsknoten

Keine Operation, nichts tun

  • Typ: NoOp-Knoten (noOp)
  • Funktion: Verarbeitet den Datenzweig, der vom KI-Klassifizierer als „other_content“ markiert wurde

12. Anmerkungsknoten

Der Workflow enthält mehrere Sticky-Note-Knoten mit detaillierten Anleitungen und Hinweisen:

  • Hauptanleitung: Allgemeine Workflow-Einführung und Nutzungsschritte
  • Formularhinweise: Detaillierte Erläuterungen zu den Eingabefeldern
  • Datenextraktionshinweise: Wichtige Hinweise zur CSV-Verarbeitung
  • Feldzuordnungshinweise: Detaillierte Informationen zur Mehrsprachunterstützung
  • Filterhinweise: Filterkriterien und Erweiterungsvorschläge

Workflow-Ausführungsablauf

  1. Benutzereingabe → Benutzer reicht Website-Informationen und CSV-Datei per Formular ein
  2. Datenextraktion → Analyse der CSV-Datei zur Gewinnung der Rohdaten
  3. Feldzuordnung → Extraktion wichtiger Felder und Vereinheitlichung der Feldnamen
  4. URL-Filterung → Filterung der URLs nach Status, Indexierbarkeit und Inhaltstyp
  5. KI-Klassifizierung (optional) → Weitere Filterung hochwertiger Inhalte mittels KI
  6. Formatumwandlung → Konvertierung jeder URL ins llms.txt-Format
  7. Datenaggregation → Zusammenführung aller Zeilen
  8. Inhaltszusammenstellung → Hinzufügen der Website-Kopfdaten
  9. Dateigenerierung → Erstellung der herunterladbaren llms.txt-Datei

Technische Merkmale

Mehrsprachigkeit

Der Workflow erkennt intelligente verschiedene Sprachversionen der Screaming-Frog-Exportdateien und unterstützt:

  • Englisch (English)
  • Französisch (Français)
  • Deutsch (Deutsch)
  • Italienisch (Italiano)
  • Spanisch (Español)

Flexibilität

  • Unterstützt zwei Exportformate: internal_html.csv und internal_all.csv
  • Filterbedingungen können bedarfsgerecht erweitert werden
  • KI-Klassifizierer kann bei Bedarf aktiviert oder deaktiviert werden
  • Einfache Erweiterbarkeit durch zusätzliche Nachfolgeknoten (z. B. Upload zu Google Drive, OneDrive etc.)

Benutzerfreundlichkeit

  • Klare Formularoberfläche
  • Ausführliche Anmerkungen und Hinweise
  • Direkter Download der Ergebnisdatei aus der n8n-Oberfläche
  • Empfehlung, die „Test Workflow“-Funktion direkt in der n8n-Oberfläche zu nutzen

Anwendungsfälle

Dieser Workflow eignet sich für folgende Szenarien:

  1. SEO-Optimierung: Erstellung eines KI-freundlichen Inhaltsindexes für Websites
  2. Content-Management: Massenverwaltung indexierbarer Website-Seiten
  3. KI-Integration: Unterstützung von LLMs beim besseren Verständnis der Website-Struktur und -Inhalte
  4. Website-Audits: Filterung und Klassifizierung von Website-Seiten
  5. Mehrsprachige Websites: Einheitliche Verarbeitung von Website-Daten verschiedener Sprachversionen

Voraussetzungen

  1. Screaming Frog SEO Spider: Zum Crawlen der Website und Exportieren der Daten
  2. n8n-Plattform: Zur Ausführung des Workflows
  3. OpenAI API (optional): Erforderlich, wenn die KI-Klassifizierungsfunktion genutzt wird

Ausgabeergebnis

Die generierte llms.txt-Datei enthält:

  • Website-Name und -Beschreibung (Kopfdaten)
  • Gefilterte Seitenliste im Format: - [Seitentitel](URL): Seitenbeschreibung
  • UTF-8-Kodierung zur Sicherstellung der Mehrsprachkompatibilität

Erweiterungsvorschläge

  1. Automatisierte Bereitstellung: Hinzufügen eines Knotens zum automatischen Hochladen der generierten Datei ins Website-Stammverzeichnis
  2. Regelmäßige Aktualisierung: Kombination mit einem Zeitplan-Trigger zur periodischen Neugenerierung
  3. Mehrfachquellenintegration: Anreicherung des llms.txt-Inhalts durch weitere Datenquellen
  4. Qualitätskontrolle: Hinzufügen weiterer Filterkriterien (z. B. Mindestwortanzahl, Pflichtangabe einer Beschreibung etc.)
  5. Benachrichtigungssystem: Integration von E-Mail- oder Slack-Benachrichtigungsknoten zur automatischen Fertigstellungsmeldung

Hinweise

  1. Die hochgeladene Datei muss dem Standardexportformat von Screaming Frog entsprechen, andernfalls können nachfolgende Schritte fehlschlagen
  2. Der KI-Klassifizierer ist standardmäßig deaktiviert, um Kosten zu sparen; bei Bedarf manuell aktivieren
  3. Die Datei muss manuell aus dem letzten Knoten der n8n-Oberfläche heruntergeladen werden
  4. Für die Nutzung der KI-Klassifizierungsfunktion sind gültige OpenAI-API-Zugangsdaten erforderlich
  5. Es wird empfohlen, internal_html.csv zu exportieren, obwohl auch internal_all.csv funktioniert

Zusammenfassung

Dies ist ein sorgfältig gestalteter n8n-Workflow, der SEO-Tools (Screaming Frog) mit KI-Technologie kombiniert, um automatisiert eine Website-Inhaltsindexdatei gemäß modernem LLM-Standard zu erstellen. Der Workflow zeichnet sich durch hervorragende Benutzerfreundlichkeit, robuste Mehrsprachunterstützung und flexible Erweiterbarkeit aus und eignet sich für Websites jeglicher Größe.