Générer depuis Screaming Frog des fichiers llms.txt prêts pour l'IA

Generate AI-Ready llms.txt Files from Screaming Frog Website Crawls

Génère automatiquement à partir des données CSV exportées par Screaming Frog un fichier d’index de contenu llms.txt conforme aux standards des LLM, avec prise en charge multilingue et classification intelligente par IA.

23 NodesAI & MLOptimisation SEO Intégration IA Gestion de contenu

Aperçu du workflow

Ce workflow génère automatiquement un fichier llms.txt conforme aux standards IA à partir des données exportées par le crawler Screaming Frog. Le fichier llms.txt est un format standardisé qui aide les grands modèles de langage (LLM) à mieux comprendre et découvrir le contenu d’un site web. Ce workflow reçoit, via un formulaire, le fichier CSV exporté par Screaming Frog, puis effectue successivement l’extraction des données, le mappage des champs, le filtrage des URL et, éventuellement, une classification IA, avant de produire un fichier llms.txt téléchargeable.

Nom du workflow

Générer des fichiers llms.txt prêts pour l’IA à partir des crawls de sites Screaming Frog

Fonctionnalités principales

Ce workflow implémente les fonctionnalités suivantes :

  1. Collecte de données via formulaire : réception, via un formulaire web, du nom du site, de sa description et du fichier exporté par Screaming Frog
  2. Analyse des données CSV : extraction de données structurées depuis le fichier CSV téléchargé
  3. Prise en charge multilingue : reconnaissance et traitement automatiques des exports Screaming Frog en anglais, français, allemand, italien et espagnol
  4. Filtrage intelligent : sélection des URL selon leur code de statut, leur indexabilité, leur type de contenu, etc.
  5. Classification IA (optionnelle) : utilisation d’un modèle OpenAI pour classer intelligemment le contenu et identifier les pages de haute qualité
  6. Sortie formatée : génération d’un fichier conforme au format standard llms.txt

Détail des nœuds du workflow

1. Nœud déclencheur

Formulaire – Téléversement du fichier internal_html.csv de Screaming Frog

  • Type : déclencheur de formulaire (formTrigger)
  • Fonction : interface utilisateur permettant de saisir les informations suivantes :
    • Nom du site
    • Brève description du site (rédigée dans la langue cible du site)
    • Fichier CSV exporté par Screaming Frog (internal_html.csv ou internal_all.csv)
  • Déclenchement : automatique après soumission du formulaire par l’utilisateur

2. Nœud d’extraction de données

Extraire les données du fichier Screaming Frog

  • Type : nœud d’extraction de fichier (extractFromFile)
  • Fonction : analyse du fichier CSV téléchargé et extraction des données
  • Entrée : données binaires du fichier reçues via le formulaire
  • Sortie : tableau JSON structuré

3. Nœud de mappage des champs

Définir les champs utiles

  • Type : nœud Set
  • Fonction : extraction et mappage des champs clés issus des données exportées par Screaming Frog
  • Champs extraits :
    • url : adresse de la page
    • title : titre de la page
    • description : méta-description
    • status : code de statut HTTP
    • indexability : état d’indexabilité
    • content_type : type de contenu
    • word_count : nombre de mots
  • Mappage multilingue : prise en charge des noms de colonnes en anglais, français, allemand, italien et espagnol

4. Nœud de filtrage des URL

Filtrer les URL

  • Type : nœud Filter
  • Fonction : sélection des URL répondant à des critères prédéfinis
  • Critères de filtrage :
    • Code de statut = 200 (accès normal)
    • Indexabilité = indexable (page indexable par les moteurs de recherche)
    • Type de contenu contenant « text/html » (pages HTML)
  • Extensibilité : possibilité d’ajouter d’autres conditions (ex. : nombre de mots, chemin d’URL, méta-description, etc.)

5. Nœud de classification IA (désactivé par défaut)

Classificateur de texte

  • Type : classificateur de texte (textClassifier)
  • État : désactivé par défaut
  • Fonction : évaluation intelligente de la qualité du contenu à l’aide d’un modèle IA
  • Catégories de classification :
    • useful_content : contenu de haute qualité, à inclure dans llms.txt
    • other_content : contenu peu pertinent (ex. : pages de pagination) à exclure
  • Données en entrée : URL, titre, description, nombre de mots
  • Modèle IA associé : modèle OpenAI Chat

6. Nœud de modèle IA

Modèle OpenAI Chat

  • Type : modèle OpenAI Chat (lmChatOpenAi)
  • Modèle : gpt-4o-mini
  • Fonction : fournir au classificateur de texte la capacité d’inférence IA
  • Prérequis : identifiants d’API OpenAI

7. Nœud de traitement des données

Définir le champ – Ligne llms.txt

  • Type : nœud Set
  • Fonction : formater chaque URL selon le standard llms.txt
  • Format de sortie : - [Titre de la page](URL) : Description

8. Nœud d’agrégation des données

Résumer – Concaténer

  • Type : nœud Aggregate
  • Fonction : fusionner toutes les lignes formatées en un seul texte
  • Opération : concaténation de tous les enregistrements séparés par des retours à la ligne

9. Nœud d’assemblage du contenu

Définir les champs – Contenu llms.txt

  • Type : nœud Set
  • Fonction : assembler le contenu complet du fichier llms.txt
  • Contenu inclus :
    • Nom du site
    • Description du site
    • Liste de toutes les URL filtrées

10. Nœud de génération de fichier

Générer le fichier llms.txt

  • Type : conversion en fichier (convertToFile)
  • Fonction : transformer le contenu textuel en fichier téléchargeable
  • Nom du fichier : llms.txt
  • Encodage : UTF-8
  • Sortie : fichier directement téléchargeable depuis l’interface n8n

11. Nœud auxiliaire

Aucune opération

  • Type : nœud noOp
  • Fonction : gérer la branche des données marquées comme « other_content » par le classificateur IA

12. Nœuds de commentaires

Le workflow inclut plusieurs notes adhésives (Sticky Notes) fournissant des instructions et conseils détaillés :

  • Note principale : présentation générale du workflow et étapes d’utilisation
  • Note sur le formulaire : explication détaillée des champs à remplir
  • Note sur l’extraction des données : précautions concernant le traitement des fichiers CSV
  • Note sur le mappage des champs : détails sur la prise en charge multilingue
  • Note sur le filtrage : critères de filtrage et suggestions d’extension

Flux d’exécution du workflow

  1. Saisie utilisateur → L’utilisateur soumet les informations du site et le fichier CSV via le formulaire
  2. Extraction des données → Analyse du fichier CSV pour obtenir les données brutes
  3. Mappage des champs → Extraction des champs clés et uniformisation des noms de champs
  4. Filtrage des URL → Sélection des URL selon leur statut, indexabilité et type de contenu
  5. Classification IA (optionnelle) → Filtrage supplémentaire du contenu de haute qualité à l’aide de l’IA
  6. Conversion de format → Transformation de chaque URL au format llms.txt
  7. Agrégation des données → Fusion de toutes les lignes
  8. Assemblage du contenu → Ajout des informations d’en-tête du site
  9. Génération du fichier → Création du fichier llms.txt téléchargeable

Caractéristiques techniques

Prise en charge multilingue

Le workflow reconnaît intelligemment les exports Screaming Frog dans les langues suivantes :

  • Anglais (English)
  • Français (Français)
  • Allemand (Deutsch)
  • Italien (Italiano)
  • Espagnol (Español)

Flexibilité

  • Compatible avec les deux formats d’export : internal_html.csv et internal_all.csv
  • Possibilité de personnaliser et d’étendre les critères de filtrage
  • Classificateur IA activable ou désactivable selon les besoins
  • Facilité d’ajout de nœuds supplémentaires (ex. : envoi vers Google Drive, OneDrive, etc.)

Convivialité

  • Interface de formulaire claire
  • Annotations explicatives détaillées
  • Téléchargement direct du résultat depuis l’interface n8n
  • Recommandation d’utiliser la fonction « Test Workflow » directement dans l’interface n8n

Cas d’utilisation

Ce workflow convient aux scénarios suivants :

  1. Optimisation SEO : création d’un index de contenu adapté à l’IA pour un site web
  2. Gestion de contenu : organisation en masse des pages indexables d’un site
  3. Intégration IA : amélioration de la compréhension par les LLM de la structure et du contenu du site
  4. Audit de site : filtrage et classification des pages
  5. Sites multilingues : traitement unifié des données provenant de différentes versions linguistiques

Prérequis

  1. Screaming Frog SEO Spider : pour crawler le site et exporter les données
  2. Plateforme n8n : pour exécuter le workflow
  3. API OpenAI (optionnel) : nécessaire uniquement si la classification IA est activée

Résultat produit

Le fichier llms.txt généré contient :

  • Le nom et la description du site (informations d’en-tête)
  • La liste des pages filtrées, chaque ligne respectant le format : - [Titre de la page](URL) : Description de la page
  • Encodage UTF-8 garantissant la compatibilité multilingue

Suggestions d’extension

  1. Déploiement automatisé : ajouter un nœud pour téléverser automatiquement le fichier à la racine du site
  2. Mise à jour régulière : combiner avec un déclencheur planifié pour régénérer le fichier périodiquement
  3. Intégration multi-sources : enrichir le contenu de llms.txt à partir d’autres sources de données
  4. Contrôle qualité : ajouter davantage de critères de filtrage (ex. : nombre minimum de mots, présence obligatoire d’une description, etc.)
  5. Notification : intégrer un nœud d’envoi d’e-mail ou de notification Slack à la fin du processus

Remarques importantes

  1. Le fichier téléchargé doit respecter le format d’export standard de Screaming Frog, sans quoi les étapes suivantes pourraient échouer
  2. Le classificateur IA est désactivé par défaut afin de limiter les coûts ; il peut être activé manuellement si nécessaire
  3. Le fichier doit être téléchargé manuellement depuis le dernier nœud de l’interface n8n
  4. L’utilisation de la fonction de classification IA nécessite des identifiants d’API OpenAI valides
  5. Il est recommandé d’utiliser l’export internal_html.csv, bien que internal_all.csv soit également compatible

Conclusion

Il s’agit d’un workflow n8n soigneusement conçu, combinant un outil SEO (Screaming Frog) et des technologies d’IA pour automatiser la création d’un fichier d’index de contenu conforme aux standards modernes des LLM. Grâce à son excellente expérience utilisateur, sa solide prise en charge multilingue et sa grande extensibilité, ce workflow convient à des sites de toute taille.