Générer depuis Screaming Frog des fichiers llms.txt prêts pour l'IA

Generate AI-Ready llms.txt Files from Screaming Frog Website Crawls

Génère automatiquement à partir des données CSV exportées par Screaming Frog un fichier d’index de contenu llms.txt conforme aux standards des LLM, avec prise en charge multilingue et classification intelligente par IA.

23 NodesAI & MLOptimisation SEO Intégration IA Gestion de contenu

Aperçu du workflow

Ce workflow génère automatiquement un fichier llms.txt conforme aux standards IA à partir des données exportées par le crawler Screaming Frog. Le fichier llms.txt est un format standardisé qui aide les grands modèles de langage (LLM) à mieux comprendre et découvrir le contenu d’un site web. Ce workflow reçoit, via un formulaire, le fichier CSV exporté par Screaming Frog, puis effectue successivement l’extraction des données, le mappage des champs, le filtrage des URL et, éventuellement, une classification IA, avant de produire un fichier llms.txt téléchargeable.

Nom du workflow

Générer des fichiers llms.txt prêts pour l’IA à partir des crawls de sites Screaming Frog

Fonctionnalités principales

Ce workflow implémente les fonctionnalités suivantes :

Collecte de données via formulaire : réception, via un formulaire web, du nom du site, de sa description et du fichier exporté par Screaming Frog
Analyse des données CSV : extraction de données structurées depuis le fichier CSV téléchargé
Prise en charge multilingue : reconnaissance et traitement automatiques des exports Screaming Frog en anglais, français, allemand, italien et espagnol
Filtrage intelligent : sélection des URL selon leur code de statut, leur indexabilité, leur type de contenu, etc.
Classification IA (optionnelle) : utilisation d’un modèle OpenAI pour classer intelligemment le contenu et identifier les pages de haute qualité
Sortie formatée : génération d’un fichier conforme au format standard llms.txt

Détail des nœuds du workflow

1. Nœud déclencheur

Formulaire – Téléversement du fichier internal_html.csv de Screaming Frog

Type : déclencheur de formulaire (formTrigger)
Fonction : interface utilisateur permettant de saisir les informations suivantes :
- Nom du site
- Brève description du site (rédigée dans la langue cible du site)
- Fichier CSV exporté par Screaming Frog (internal_html.csv ou internal_all.csv)
Déclenchement : automatique après soumission du formulaire par l’utilisateur

2. Nœud d’extraction de données

Extraire les données du fichier Screaming Frog

Type : nœud d’extraction de fichier (extractFromFile)
Fonction : analyse du fichier CSV téléchargé et extraction des données
Entrée : données binaires du fichier reçues via le formulaire
Sortie : tableau JSON structuré

3. Nœud de mappage des champs

Définir les champs utiles

Type : nœud Set
Fonction : extraction et mappage des champs clés issus des données exportées par Screaming Frog
Champs extraits :
- url : adresse de la page
- title : titre de la page
- description : méta-description
- status : code de statut HTTP
- indexability : état d’indexabilité
- content_type : type de contenu
- word_count : nombre de mots
Mappage multilingue : prise en charge des noms de colonnes en anglais, français, allemand, italien et espagnol

4. Nœud de filtrage des URL

Filtrer les URL

Type : nœud Filter
Fonction : sélection des URL répondant à des critères prédéfinis
Critères de filtrage :
- Code de statut = 200 (accès normal)
- Indexabilité = indexable (page indexable par les moteurs de recherche)
- Type de contenu contenant « text/html » (pages HTML)
Extensibilité : possibilité d’ajouter d’autres conditions (ex. : nombre de mots, chemin d’URL, méta-description, etc.)

5. Nœud de classification IA (désactivé par défaut)

Classificateur de texte

Type : classificateur de texte (textClassifier)
État : désactivé par défaut
Fonction : évaluation intelligente de la qualité du contenu à l’aide d’un modèle IA
Catégories de classification :
- useful_content : contenu de haute qualité, à inclure dans llms.txt
- other_content : contenu peu pertinent (ex. : pages de pagination) à exclure
Données en entrée : URL, titre, description, nombre de mots
Modèle IA associé : modèle OpenAI Chat

6. Nœud de modèle IA

Modèle OpenAI Chat

Type : modèle OpenAI Chat (lmChatOpenAi)
Modèle : gpt-4o-mini
Fonction : fournir au classificateur de texte la capacité d’inférence IA
Prérequis : identifiants d’API OpenAI

7. Nœud de traitement des données

Définir le champ – Ligne llms.txt

Type : nœud Set
Fonction : formater chaque URL selon le standard llms.txt
Format de sortie : - [Titre de la page](URL) : Description

8. Nœud d’agrégation des données

Résumer – Concaténer

Type : nœud Aggregate
Fonction : fusionner toutes les lignes formatées en un seul texte
Opération : concaténation de tous les enregistrements séparés par des retours à la ligne

9. Nœud d’assemblage du contenu

Définir les champs – Contenu llms.txt

Type : nœud Set
Fonction : assembler le contenu complet du fichier llms.txt
Contenu inclus :
- Nom du site
- Description du site
- Liste de toutes les URL filtrées

10. Nœud de génération de fichier

Générer le fichier llms.txt

Type : conversion en fichier (convertToFile)
Fonction : transformer le contenu textuel en fichier téléchargeable
Nom du fichier : llms.txt
Encodage : UTF-8
Sortie : fichier directement téléchargeable depuis l’interface n8n

11. Nœud auxiliaire

Aucune opération

Type : nœud noOp
Fonction : gérer la branche des données marquées comme « other_content » par le classificateur IA

12. Nœuds de commentaires

Le workflow inclut plusieurs notes adhésives (Sticky Notes) fournissant des instructions et conseils détaillés :

Note principale : présentation générale du workflow et étapes d’utilisation
Note sur le formulaire : explication détaillée des champs à remplir
Note sur l’extraction des données : précautions concernant le traitement des fichiers CSV
Note sur le mappage des champs : détails sur la prise en charge multilingue
Note sur le filtrage : critères de filtrage et suggestions d’extension

Flux d’exécution du workflow

Saisie utilisateur → L’utilisateur soumet les informations du site et le fichier CSV via le formulaire
Extraction des données → Analyse du fichier CSV pour obtenir les données brutes
Mappage des champs → Extraction des champs clés et uniformisation des noms de champs
Filtrage des URL → Sélection des URL selon leur statut, indexabilité et type de contenu
Classification IA (optionnelle) → Filtrage supplémentaire du contenu de haute qualité à l’aide de l’IA
Conversion de format → Transformation de chaque URL au format llms.txt
Agrégation des données → Fusion de toutes les lignes
Assemblage du contenu → Ajout des informations d’en-tête du site
Génération du fichier → Création du fichier llms.txt téléchargeable

Caractéristiques techniques

Prise en charge multilingue

Le workflow reconnaît intelligemment les exports Screaming Frog dans les langues suivantes :

Anglais (English)
Français (Français)
Allemand (Deutsch)
Italien (Italiano)
Espagnol (Español)

Flexibilité

Compatible avec les deux formats d’export : internal_html.csv et internal_all.csv
Possibilité de personnaliser et d’étendre les critères de filtrage
Classificateur IA activable ou désactivable selon les besoins
Facilité d’ajout de nœuds supplémentaires (ex. : envoi vers Google Drive, OneDrive, etc.)

Convivialité

Interface de formulaire claire
Annotations explicatives détaillées
Téléchargement direct du résultat depuis l’interface n8n
Recommandation d’utiliser la fonction « Test Workflow » directement dans l’interface n8n

Cas d’utilisation

Ce workflow convient aux scénarios suivants :

Optimisation SEO : création d’un index de contenu adapté à l’IA pour un site web
Gestion de contenu : organisation en masse des pages indexables d’un site
Intégration IA : amélioration de la compréhension par les LLM de la structure et du contenu du site
Audit de site : filtrage et classification des pages
Sites multilingues : traitement unifié des données provenant de différentes versions linguistiques

Prérequis

Screaming Frog SEO Spider : pour crawler le site et exporter les données
Plateforme n8n : pour exécuter le workflow
API OpenAI (optionnel) : nécessaire uniquement si la classification IA est activée

Résultat produit

Le fichier llms.txt généré contient :

Le nom et la description du site (informations d’en-tête)
La liste des pages filtrées, chaque ligne respectant le format : - [Titre de la page](URL) : Description de la page
Encodage UTF-8 garantissant la compatibilité multilingue

Suggestions d’extension

Déploiement automatisé : ajouter un nœud pour téléverser automatiquement le fichier à la racine du site
Mise à jour régulière : combiner avec un déclencheur planifié pour régénérer le fichier périodiquement
Intégration multi-sources : enrichir le contenu de llms.txt à partir d’autres sources de données
Contrôle qualité : ajouter davantage de critères de filtrage (ex. : nombre minimum de mots, présence obligatoire d’une description, etc.)
Notification : intégrer un nœud d’envoi d’e-mail ou de notification Slack à la fin du processus

Remarques importantes

Le fichier téléchargé doit respecter le format d’export standard de Screaming Frog, sans quoi les étapes suivantes pourraient échouer
Le classificateur IA est désactivé par défaut afin de limiter les coûts ; il peut être activé manuellement si nécessaire
Le fichier doit être téléchargé manuellement depuis le dernier nœud de l’interface n8n
L’utilisation de la fonction de classification IA nécessite des identifiants d’API OpenAI valides
Il est recommandé d’utiliser l’export internal_html.csv, bien que internal_all.csv soit également compatible

Conclusion

Il s’agit d’un workflow n8n soigneusement conçu, combinant un outil SEO (Screaming Frog) et des technologies d’IA pour automatiser la création d’un fichier d’index de contenu conforme aux standards modernes des LLM. Grâce à son excellente expérience utilisateur, sa solide prise en charge multilingue et sa grande extensibilité, ce workflow convient à des sites de toute taille.