Erstellen Sie aus Screaming Frog Crawls AI-fertige llms.txt-Dateien
Generate AI-Ready llms.txt Files from Screaming Frog Website Crawls
Automatisches Generieren von LLM-konformen llms.txt-Inhaltsindexdateien aus CSV-Daten, die von Screaming Frog Website-Crawls exportiert wurden. Unterstützt mehrere Sprachen und KI-basierte intelligente Klassifizierung.
Workflow-Übersicht
Dieser Workflow generiert automatisch eine llms.txt-Datei im AI-kompatiblen Standardformat aus Daten, die von Screaming Frog Website Crawler exportiert wurden. Die llms.txt ist ein standardisiertes Dateiformat, das Large Language Models (LLMs) dabei unterstützt, Website-Inhalte besser zu verstehen und auffindbar zu machen. Der Workflow empfängt über ein Formular die CSV-Exportdatei von Screaming Frog, führt Datenextraktion, Feldzuordnung, URL-Filterung sowie optionale KI-basierte Klassifizierung durch und erzeugt schließlich eine herunterladbare llms.txt-Datei.
Workflow-Name
Generiere AI-fertige llms.txt-Dateien aus Screaming-Frog-Website-Crawls
Kernfunktionen
Der Workflow implementiert folgende Kernfunktionen:
- Formulardatenerfassung: Empfängt über ein Webformular Website-Name, -Beschreibung und die Screaming-Frog-Exportdatei
- CSV-Datenanalyse: Extrahiert strukturierte Daten aus der hochgeladenen CSV-Datei
- Mehrsprachigkeit: Erkennt und verarbeitet automatisch englische, französische, deutsche, italienische und spanische Versionen der Screaming-Frog-Exportdateien
- Intelligente Filterung: Filtert URLs basierend auf Statuscode, Indexierbarkeit, Inhaltstyp usw.
- KI-Klassifizierung (optional): Nutzt OpenAI-Modelle zur intelligenten Inhaltsklassifizierung und Identifikation hochwertiger Inhalte
- Formatierte Ausgabe: Generiert eine Datei im standardkonformen llms.txt-Format
Detaillierte Workflow-Knoten
1. Trigger-Knoten
Formular – Screaming-Frog-internal_html.csv-Upload
- Typ: Formular-Trigger (formTrigger)
- Funktion: Stellt eine Benutzeroberfläche zur Erfassung folgender Informationen bereit:
- Website-Name
- Kurzbeschreibung der Website (in der Zielsprache der Website verfassen)
- Von Screaming Frog exportierte CSV-Datei (internal_html.csv oder internal_all.csv)
- Auslöser: Automatischer Workflow-Start nach Formularabsendung
2. Datenextraktionsknoten
Daten aus Screaming-Frog-Datei extrahieren
- Typ: Dateiextraktionsknoten (extractFromFile)
- Funktion: Analysiert die hochgeladene CSV-Datei und extrahiert deren Daten
- Eingabe: Binärdateidaten aus dem Formular
- Ausgabe: Strukturiertes JSON-Datenarray
3. Feldzuordnungsknoten
Nützliche Felder festlegen
- Typ: Set-Knoten
- Funktion: Extrahiert und ordnet Schlüsselfelder aus den Screaming-Frog-Daten zu
- Extrahierte Felder:
url: Seitenadressetitle: Seitentiteldescription: Meta-Beschreibungstatus: HTTP-Statuscodeindexability: Indexierbarkeitsstatuscontent_type: Inhaltstypword_count: Wortanzahl
- Mehrsprachige Feldzuordnung: Unterstützt Spaltennamen in Englisch, Französisch, Deutsch, Italienisch und Spanisch
4. URL-Filterknoten
URLs filtern
- Typ: Filter-Knoten
- Funktion: Filtert URLs gemäß vorgegebener Kriterien
- Filterbedingungen:
- Statuscode = 200 (erfolgreicher Zugriff)
- Indexierbarkeit = indexable (für Suchmaschinen indexierbar)
- Inhaltstyp enthält „text/html“ (HTML-Seiten)
- Erweiterbarkeit: Zusätzliche Filterbedingungen können hinzugefügt werden (z. B. Wortanzahl, URL-Pfad, Meta-Beschreibung usw.)
5. KI-Klassifizierungsknoten (standardmäßig deaktiviert)
Textklassifizierer
- Typ: Textklassifizierer (textClassifier)
- Status: Standardmäßig deaktiviert
- Funktion: Beurteilt mithilfe eines KI-Modells die Inhaltsqualität einer Seite
- Klassifizierungskategorien:
useful_content: Hochwertiger Inhalt, geeignet für Aufnahme in llms.txtother_content: Geringwertiger Inhalt oder Paginierungsseiten, die nicht enthalten sein sollten
- Eingabedaten: URL, Titel, Beschreibung, Wortanzahl
- Verbundenes KI-Modell: OpenAI Chat Model
6. KI-Modellknoten
OpenAI Chat Modell
- Typ: OpenAI-Chatmodell (lmChatOpenAi)
- Modell: gpt-4o-mini
- Funktion: Stellt dem Textklassifizierer KI-gestützte Inferenzfähigkeiten bereit
- Voraussetzung: OpenAI-API-Zugangsdaten
7. Datenverarbeitungsknoten
Feld festlegen – llms.txt-Zeile
- Typ: Set-Knoten
- Funktion: Formatieren jeder URL gemäß llms.txt-Standardformat
- Ausgabeformat:
- [Seitentitel](URL): Beschreibung
8. Datenaggregationsknoten
Zusammenfassung – Verketten
- Typ: Aggregate-Knoten
- Funktion: Fasst alle formatierten Zeilen zu einem einzigen Text zusammen
- Operation: Verbindet alle Datensätze mit Zeilenumbrüchen
9. Inhaltszusammenstellungsknoten
Felder festlegen – llms.txt-Inhalt
- Typ: Set-Knoten
- Funktion: Stellt den vollständigen Inhalt der llms.txt-Datei zusammen
- Enthaltene Inhalte:
- Website-Name
- Website-Beschreibung
- Liste aller gefilterten URLs
10. Dateigenerierungsknoten
llms.txt-Datei generieren
- Typ: In Datei konvertieren (convertToFile)
- Funktion: Wandelt den Textinhalt in eine herunterladbare Datei um
- Dateiname: llms.txt
- Kodierung: UTF-8
- Ausgabe: Direkt aus der n8n-Oberfläche herunterladbare Datei
11. Hilfsknoten
Keine Operation, nichts tun
- Typ: NoOp-Knoten (noOp)
- Funktion: Verarbeitet den Datenzweig, der vom KI-Klassifizierer als „other_content“ markiert wurde
12. Anmerkungsknoten
Der Workflow enthält mehrere Sticky-Note-Knoten mit detaillierten Anleitungen und Hinweisen:
- Hauptanleitung: Allgemeine Workflow-Einführung und Nutzungsschritte
- Formularhinweise: Detaillierte Erläuterungen zu den Eingabefeldern
- Datenextraktionshinweise: Wichtige Hinweise zur CSV-Verarbeitung
- Feldzuordnungshinweise: Detaillierte Informationen zur Mehrsprachunterstützung
- Filterhinweise: Filterkriterien und Erweiterungsvorschläge
Workflow-Ausführungsablauf
- Benutzereingabe → Benutzer reicht Website-Informationen und CSV-Datei per Formular ein
- Datenextraktion → Analyse der CSV-Datei zur Gewinnung der Rohdaten
- Feldzuordnung → Extraktion wichtiger Felder und Vereinheitlichung der Feldnamen
- URL-Filterung → Filterung der URLs nach Status, Indexierbarkeit und Inhaltstyp
- KI-Klassifizierung (optional) → Weitere Filterung hochwertiger Inhalte mittels KI
- Formatumwandlung → Konvertierung jeder URL ins llms.txt-Format
- Datenaggregation → Zusammenführung aller Zeilen
- Inhaltszusammenstellung → Hinzufügen der Website-Kopfdaten
- Dateigenerierung → Erstellung der herunterladbaren llms.txt-Datei
Technische Merkmale
Mehrsprachigkeit
Der Workflow erkennt intelligente verschiedene Sprachversionen der Screaming-Frog-Exportdateien und unterstützt:
- Englisch (English)
- Französisch (Français)
- Deutsch (Deutsch)
- Italienisch (Italiano)
- Spanisch (Español)
Flexibilität
- Unterstützt zwei Exportformate: internal_html.csv und internal_all.csv
- Filterbedingungen können bedarfsgerecht erweitert werden
- KI-Klassifizierer kann bei Bedarf aktiviert oder deaktiviert werden
- Einfache Erweiterbarkeit durch zusätzliche Nachfolgeknoten (z. B. Upload zu Google Drive, OneDrive etc.)
Benutzerfreundlichkeit
- Klare Formularoberfläche
- Ausführliche Anmerkungen und Hinweise
- Direkter Download der Ergebnisdatei aus der n8n-Oberfläche
- Empfehlung, die „Test Workflow“-Funktion direkt in der n8n-Oberfläche zu nutzen
Anwendungsfälle
Dieser Workflow eignet sich für folgende Szenarien:
- SEO-Optimierung: Erstellung eines KI-freundlichen Inhaltsindexes für Websites
- Content-Management: Massenverwaltung indexierbarer Website-Seiten
- KI-Integration: Unterstützung von LLMs beim besseren Verständnis der Website-Struktur und -Inhalte
- Website-Audits: Filterung und Klassifizierung von Website-Seiten
- Mehrsprachige Websites: Einheitliche Verarbeitung von Website-Daten verschiedener Sprachversionen
Voraussetzungen
- Screaming Frog SEO Spider: Zum Crawlen der Website und Exportieren der Daten
- n8n-Plattform: Zur Ausführung des Workflows
- OpenAI API (optional): Erforderlich, wenn die KI-Klassifizierungsfunktion genutzt wird
Ausgabeergebnis
Die generierte llms.txt-Datei enthält:
- Website-Name und -Beschreibung (Kopfdaten)
- Gefilterte Seitenliste im Format:
- [Seitentitel](URL): Seitenbeschreibung - UTF-8-Kodierung zur Sicherstellung der Mehrsprachkompatibilität
Erweiterungsvorschläge
- Automatisierte Bereitstellung: Hinzufügen eines Knotens zum automatischen Hochladen der generierten Datei ins Website-Stammverzeichnis
- Regelmäßige Aktualisierung: Kombination mit einem Zeitplan-Trigger zur periodischen Neugenerierung
- Mehrfachquellenintegration: Anreicherung des llms.txt-Inhalts durch weitere Datenquellen
- Qualitätskontrolle: Hinzufügen weiterer Filterkriterien (z. B. Mindestwortanzahl, Pflichtangabe einer Beschreibung etc.)
- Benachrichtigungssystem: Integration von E-Mail- oder Slack-Benachrichtigungsknoten zur automatischen Fertigstellungsmeldung
Hinweise
- Die hochgeladene Datei muss dem Standardexportformat von Screaming Frog entsprechen, andernfalls können nachfolgende Schritte fehlschlagen
- Der KI-Klassifizierer ist standardmäßig deaktiviert, um Kosten zu sparen; bei Bedarf manuell aktivieren
- Die Datei muss manuell aus dem letzten Knoten der n8n-Oberfläche heruntergeladen werden
- Für die Nutzung der KI-Klassifizierungsfunktion sind gültige OpenAI-API-Zugangsdaten erforderlich
- Es wird empfohlen, internal_html.csv zu exportieren, obwohl auch internal_all.csv funktioniert
Zusammenfassung
Dies ist ein sorgfältig gestalteter n8n-Workflow, der SEO-Tools (Screaming Frog) mit KI-Technologie kombiniert, um automatisiert eine Website-Inhaltsindexdatei gemäß modernem LLM-Standard zu erstellen. Der Workflow zeichnet sich durch hervorragende Benutzerfreundlichkeit, robuste Mehrsprachunterstützung und flexible Erweiterbarkeit aus und eignet sich für Websites jeglicher Größe.