Erstellen Sie aus Screaming Frog Crawls AI-fertige llms.txt-Dateien

Generate AI-Ready llms.txt Files from Screaming Frog Website Crawls

Automatisches Generieren von LLM-konformen llms.txt-Inhaltsindexdateien aus CSV-Daten, die von Screaming Frog Website-Crawls exportiert wurden. Unterstützt mehrere Sprachen und KI-basierte intelligente Klassifizierung.

23 NodesAI & MLSEO-Optimierung KI-Integration Content-Management

Workflow-Übersicht

Dieser Workflow generiert automatisch eine llms.txt-Datei im AI-kompatiblen Standardformat aus Daten, die von Screaming Frog Website Crawler exportiert wurden. Die llms.txt ist ein standardisiertes Dateiformat, das Large Language Models (LLMs) dabei unterstützt, Website-Inhalte besser zu verstehen und auffindbar zu machen. Der Workflow empfängt über ein Formular die CSV-Exportdatei von Screaming Frog, führt Datenextraktion, Feldzuordnung, URL-Filterung sowie optionale KI-basierte Klassifizierung durch und erzeugt schließlich eine herunterladbare llms.txt-Datei.

Workflow-Name

Generiere AI-fertige llms.txt-Dateien aus Screaming-Frog-Website-Crawls

Kernfunktionen

Der Workflow implementiert folgende Kernfunktionen:

Formulardatenerfassung: Empfängt über ein Webformular Website-Name, -Beschreibung und die Screaming-Frog-Exportdatei
CSV-Datenanalyse: Extrahiert strukturierte Daten aus der hochgeladenen CSV-Datei
Mehrsprachigkeit: Erkennt und verarbeitet automatisch englische, französische, deutsche, italienische und spanische Versionen der Screaming-Frog-Exportdateien
Intelligente Filterung: Filtert URLs basierend auf Statuscode, Indexierbarkeit, Inhaltstyp usw.
KI-Klassifizierung (optional): Nutzt OpenAI-Modelle zur intelligenten Inhaltsklassifizierung und Identifikation hochwertiger Inhalte
Formatierte Ausgabe: Generiert eine Datei im standardkonformen llms.txt-Format

Detaillierte Workflow-Knoten

1. Trigger-Knoten

Formular – Screaming-Frog-internal_html.csv-Upload

Typ: Formular-Trigger (formTrigger)
Funktion: Stellt eine Benutzeroberfläche zur Erfassung folgender Informationen bereit:
- Website-Name
- Kurzbeschreibung der Website (in der Zielsprache der Website verfassen)
- Von Screaming Frog exportierte CSV-Datei (internal_html.csv oder internal_all.csv)
Auslöser: Automatischer Workflow-Start nach Formularabsendung

2. Datenextraktionsknoten

Daten aus Screaming-Frog-Datei extrahieren

Typ: Dateiextraktionsknoten (extractFromFile)
Funktion: Analysiert die hochgeladene CSV-Datei und extrahiert deren Daten
Eingabe: Binärdateidaten aus dem Formular
Ausgabe: Strukturiertes JSON-Datenarray

3. Feldzuordnungsknoten

Nützliche Felder festlegen

Typ: Set-Knoten
Funktion: Extrahiert und ordnet Schlüsselfelder aus den Screaming-Frog-Daten zu
Extrahierte Felder:
- url: Seitenadresse
- title: Seitentitel
- description: Meta-Beschreibung
- status: HTTP-Statuscode
- indexability: Indexierbarkeitsstatus
- content_type: Inhaltstyp
- word_count: Wortanzahl
Mehrsprachige Feldzuordnung: Unterstützt Spaltennamen in Englisch, Französisch, Deutsch, Italienisch und Spanisch

4. URL-Filterknoten

URLs filtern

Typ: Filter-Knoten
Funktion: Filtert URLs gemäß vorgegebener Kriterien
Filterbedingungen:
- Statuscode = 200 (erfolgreicher Zugriff)
- Indexierbarkeit = indexable (für Suchmaschinen indexierbar)
- Inhaltstyp enthält „text/html“ (HTML-Seiten)
Erweiterbarkeit: Zusätzliche Filterbedingungen können hinzugefügt werden (z. B. Wortanzahl, URL-Pfad, Meta-Beschreibung usw.)

5. KI-Klassifizierungsknoten (standardmäßig deaktiviert)

Textklassifizierer

Typ: Textklassifizierer (textClassifier)
Status: Standardmäßig deaktiviert
Funktion: Beurteilt mithilfe eines KI-Modells die Inhaltsqualität einer Seite
Klassifizierungskategorien:
- useful_content: Hochwertiger Inhalt, geeignet für Aufnahme in llms.txt
- other_content: Geringwertiger Inhalt oder Paginierungsseiten, die nicht enthalten sein sollten
Eingabedaten: URL, Titel, Beschreibung, Wortanzahl
Verbundenes KI-Modell: OpenAI Chat Model

6. KI-Modellknoten

OpenAI Chat Modell

Typ: OpenAI-Chatmodell (lmChatOpenAi)
Modell: gpt-4o-mini
Funktion: Stellt dem Textklassifizierer KI-gestützte Inferenzfähigkeiten bereit
Voraussetzung: OpenAI-API-Zugangsdaten

7. Datenverarbeitungsknoten

Feld festlegen – llms.txt-Zeile

Typ: Set-Knoten
Funktion: Formatieren jeder URL gemäß llms.txt-Standardformat
Ausgabeformat: - [Seitentitel](URL): Beschreibung

8. Datenaggregationsknoten

Zusammenfassung – Verketten

Typ: Aggregate-Knoten
Funktion: Fasst alle formatierten Zeilen zu einem einzigen Text zusammen
Operation: Verbindet alle Datensätze mit Zeilenumbrüchen

9. Inhaltszusammenstellungsknoten

Felder festlegen – llms.txt-Inhalt

Typ: Set-Knoten
Funktion: Stellt den vollständigen Inhalt der llms.txt-Datei zusammen
Enthaltene Inhalte:
- Website-Name
- Website-Beschreibung
- Liste aller gefilterten URLs

10. Dateigenerierungsknoten

llms.txt-Datei generieren

Typ: In Datei konvertieren (convertToFile)
Funktion: Wandelt den Textinhalt in eine herunterladbare Datei um
Dateiname: llms.txt
Kodierung: UTF-8
Ausgabe: Direkt aus der n8n-Oberfläche herunterladbare Datei

11. Hilfsknoten

Keine Operation, nichts tun

Typ: NoOp-Knoten (noOp)
Funktion: Verarbeitet den Datenzweig, der vom KI-Klassifizierer als „other_content“ markiert wurde

12. Anmerkungsknoten

Der Workflow enthält mehrere Sticky-Note-Knoten mit detaillierten Anleitungen und Hinweisen:

Hauptanleitung: Allgemeine Workflow-Einführung und Nutzungsschritte
Formularhinweise: Detaillierte Erläuterungen zu den Eingabefeldern
Datenextraktionshinweise: Wichtige Hinweise zur CSV-Verarbeitung
Feldzuordnungshinweise: Detaillierte Informationen zur Mehrsprachunterstützung
Filterhinweise: Filterkriterien und Erweiterungsvorschläge

Workflow-Ausführungsablauf

Benutzereingabe → Benutzer reicht Website-Informationen und CSV-Datei per Formular ein
Datenextraktion → Analyse der CSV-Datei zur Gewinnung der Rohdaten
Feldzuordnung → Extraktion wichtiger Felder und Vereinheitlichung der Feldnamen
URL-Filterung → Filterung der URLs nach Status, Indexierbarkeit und Inhaltstyp
KI-Klassifizierung (optional) → Weitere Filterung hochwertiger Inhalte mittels KI
Formatumwandlung → Konvertierung jeder URL ins llms.txt-Format
Datenaggregation → Zusammenführung aller Zeilen
Inhaltszusammenstellung → Hinzufügen der Website-Kopfdaten
Dateigenerierung → Erstellung der herunterladbaren llms.txt-Datei

Technische Merkmale

Mehrsprachigkeit

Der Workflow erkennt intelligente verschiedene Sprachversionen der Screaming-Frog-Exportdateien und unterstützt:

Englisch (English)
Französisch (Français)
Deutsch (Deutsch)
Italienisch (Italiano)
Spanisch (Español)

Flexibilität

Unterstützt zwei Exportformate: internal_html.csv und internal_all.csv
Filterbedingungen können bedarfsgerecht erweitert werden
KI-Klassifizierer kann bei Bedarf aktiviert oder deaktiviert werden
Einfache Erweiterbarkeit durch zusätzliche Nachfolgeknoten (z. B. Upload zu Google Drive, OneDrive etc.)

Benutzerfreundlichkeit

Klare Formularoberfläche
Ausführliche Anmerkungen und Hinweise
Direkter Download der Ergebnisdatei aus der n8n-Oberfläche
Empfehlung, die „Test Workflow“-Funktion direkt in der n8n-Oberfläche zu nutzen

Anwendungsfälle

Dieser Workflow eignet sich für folgende Szenarien:

SEO-Optimierung: Erstellung eines KI-freundlichen Inhaltsindexes für Websites
Content-Management: Massenverwaltung indexierbarer Website-Seiten
KI-Integration: Unterstützung von LLMs beim besseren Verständnis der Website-Struktur und -Inhalte
Website-Audits: Filterung und Klassifizierung von Website-Seiten
Mehrsprachige Websites: Einheitliche Verarbeitung von Website-Daten verschiedener Sprachversionen

Voraussetzungen

Screaming Frog SEO Spider: Zum Crawlen der Website und Exportieren der Daten
n8n-Plattform: Zur Ausführung des Workflows
OpenAI API (optional): Erforderlich, wenn die KI-Klassifizierungsfunktion genutzt wird

Ausgabeergebnis

Die generierte llms.txt-Datei enthält:

Website-Name und -Beschreibung (Kopfdaten)
Gefilterte Seitenliste im Format: - [Seitentitel](URL): Seitenbeschreibung
UTF-8-Kodierung zur Sicherstellung der Mehrsprachkompatibilität

Erweiterungsvorschläge

Automatisierte Bereitstellung: Hinzufügen eines Knotens zum automatischen Hochladen der generierten Datei ins Website-Stammverzeichnis
Regelmäßige Aktualisierung: Kombination mit einem Zeitplan-Trigger zur periodischen Neugenerierung
Mehrfachquellenintegration: Anreicherung des llms.txt-Inhalts durch weitere Datenquellen
Qualitätskontrolle: Hinzufügen weiterer Filterkriterien (z. B. Mindestwortanzahl, Pflichtangabe einer Beschreibung etc.)
Benachrichtigungssystem: Integration von E-Mail- oder Slack-Benachrichtigungsknoten zur automatischen Fertigstellungsmeldung

Hinweise

Die hochgeladene Datei muss dem Standardexportformat von Screaming Frog entsprechen, andernfalls können nachfolgende Schritte fehlschlagen
Der KI-Klassifizierer ist standardmäßig deaktiviert, um Kosten zu sparen; bei Bedarf manuell aktivieren
Die Datei muss manuell aus dem letzten Knoten der n8n-Oberfläche heruntergeladen werden
Für die Nutzung der KI-Klassifizierungsfunktion sind gültige OpenAI-API-Zugangsdaten erforderlich
Es wird empfohlen, internal_html.csv zu exportieren, obwohl auch internal_all.csv funktioniert

Zusammenfassung

Dies ist ein sorgfältig gestalteter n8n-Workflow, der SEO-Tools (Screaming Frog) mit KI-Technologie kombiniert, um automatisiert eine Website-Inhaltsindexdatei gemäß modernem LLM-Standard zu erstellen. Der Workflow zeichnet sich durch hervorragende Benutzerfreundlichkeit, robuste Mehrsprachunterstützung und flexible Erweiterbarkeit aus und eignet sich für Websites jeglicher Größe.