Generar archivos llms.txt listos para IA desde rastreos web de Screaming Frog

Generate AI-Ready llms.txt Files from Screaming Frog Website Crawls

Genera automáticamente un archivo de índice de contenido llms.txt compatible con LLM a partir de datos CSV exportados por Screaming Frog, con soporte para múltiples idiomas y clasificación inteligente mediante IA.

23 NodesAI & MLoptimización SEO integración con IA gestión de contenidos

Descripción general del flujo de trabajo

Este flujo de trabajo genera automáticamente un archivo llms.txt compatible con estándares de IA a partir de los datos exportados por el rastreador web Screaming Frog. El archivo llms.txt es un formato estandarizado que ayuda a los modelos de lenguaje grandes (LLM, por sus siglas en inglés) a comprender y descubrir mejor el contenido de un sitio web. El flujo recibe mediante un formulario el archivo CSV exportado por Screaming Frog, realiza extracción de datos, mapeo de campos, filtrado de URLs y, opcionalmente, clasificación mediante IA, para finalmente generar un archivo llms.txt listo para su descarga.

Nombre del flujo de trabajo

Generar archivos llms.txt preparados para IA a partir de rastreos web de Screaming Frog

Funcionalidades principales

Este flujo de trabajo implementa las siguientes funcionalidades clave:

Recopilación de datos mediante formulario: Recibe a través de un formulario web el nombre del sitio, su descripción y el archivo exportado por Screaming Frog.
Análisis de datos CSV: Extrae datos estructurados del archivo CSV subido.
Compatibilidad multilingüe: Reconoce y procesa automáticamente archivos exportados por Screaming Frog en inglés, francés, alemán, italiano y español.
Filtrado inteligente: Filtra URLs según criterios como código de estado, capacidad de indexación y tipo de contenido.
Clasificación mediante IA (opcional): Utiliza un modelo de OpenAI para clasificar inteligentemente el contenido y distinguir contenido de alta calidad.
Salida formateada: Genera un archivo conforme al formato estándar llms.txt.

Detalle de los nodos del flujo de trabajo

1. Nodo desencadenante

Formulario: Subida de archivo internal_html.csv de Screaming Frog

Tipo: Desencadenador de formulario (formTrigger)
Función: Proporciona una interfaz de usuario para recopilar la siguiente información:
- Nombre del sitio web
- Breve descripción del sitio (debe estar en el idioma objetivo del sitio)
- Archivo CSV exportado por Screaming Frog (internal_html.csv o internal_all.csv)
Activación: Se inicia automáticamente tras el envío del formulario por parte del usuario.

2. Nodo de extracción de datos

Extraer datos del archivo de Screaming Frog

Tipo: Nodo de extracción de archivo (extractFromFile)
Función: Analiza el archivo CSV subido y extrae los datos.
Entrada: Datos binarios del archivo recibidos desde el formulario.
Salida: Matriz de datos estructurados en formato JSON.

3. Nodo de mapeo de campos

Establecer campos útiles

Tipo: Nodo Set
Función: Extrae y mapea campos clave desde los datos exportados por Screaming Frog.
Campos extraídos:
- url: Dirección de la página
- title: Título de la página
- description: Meta descripción
- status: Código de estado HTTP
- indexability: Estado de indexabilidad
- content_type: Tipo de contenido
- word_count: Conteo de palabras
Mapeo multilingüe: Admite nombres de columnas en inglés, francés, alemán, italiano y español.

4. Nodo de filtrado de URLs

Filtrar URLs

Tipo: Nodo Filter
Función: Filtra las URLs según condiciones predefinidas.
Condiciones de filtrado:
- Código de estado = 200 (acceso correcto)
- Indexabilidad = indexable (puede ser indexado por motores de búsqueda)
- Tipo de contenido contiene "text/html" (páginas HTML)
Extensibilidad: El usuario puede añadir condiciones adicionales (por ejemplo, número de palabras, ruta de la URL, meta descripción, etc.).

5. Nodo de clasificación mediante IA (deshabilitado por defecto)

Clasificador de texto

Tipo: Clasificador de texto (textClassifier)
Estado: Deshabilitado por defecto
Función: Utiliza un modelo de IA para evaluar inteligentemente la calidad del contenido de la página.
Categorías de clasificación:
- useful_content: Contenido de alta calidad, adecuado para incluir en llms.txt
- other_content: Contenido de bajo valor o páginas de paginación que no deben incluirse
Datos de entrada: URL, título, descripción y conteo de palabras
Modelo de IA conectado: Modelo de chat de OpenAI

6. Nodo de modelo de IA

Modelo de chat de OpenAI

Tipo: Modelo de chat de OpenAI (lmChatOpenAi)
Modelo: gpt-4o-mini
Función: Proporciona capacidad de inferencia de IA al clasificador de texto.
Requisito: Credenciales de la API de OpenAI

7. Nodo de procesamiento de datos

Establecer campo – Fila de llms.txt

Tipo: Nodo Set
Función: Formatea cada URL según el estándar llms.txt.
Formato de salida: - [Título de la página](URL): Descripción

8. Nodo de agregación de datos

Resumen – Concatenar

Tipo: Nodo Aggregate
Función: Combina todas las filas formateadas en un único texto.
Operación: Une todos los registros mediante saltos de línea.

9. Nodo de ensamblaje de contenido

Establecer campos – Contenido de llms.txt

Tipo: Nodo Set
Función: Ensambla el contenido completo del archivo llms.txt.
Contenido incluido:
- Nombre del sitio web
- Descripción del sitio web
- Lista de todas las URLs filtradas

10. Nodo de generación de archivo

Generar archivo llms.txt

Tipo: Convertir a archivo (convertToFile)
Función: Convierte el contenido de texto en un archivo descargable.
Nombre del archivo: llms.txt
Codificación: UTF-8
Salida: Archivo descargable directamente desde la interfaz de n8n

11. Nodo auxiliar

Sin operación, no hacer nada

Tipo: Nodo sin operación (noOp)
Función: Gestiona la rama de datos marcada como "other_content" por el clasificador de IA.

12. Nodos de anotaciones

El flujo incluye múltiples nodos Sticky Note con instrucciones detalladas y sugerencias:

Nota principal: Introducción general al flujo y pasos de uso
Nota del formulario: Explicación detallada de los campos de entrada
Nota de extracción de datos: Consideraciones sobre el procesamiento del archivo CSV
Nota de mapeo de campos: Información detallada sobre la compatibilidad multilingüe
Nota de filtrado: Condiciones de filtrado y recomendaciones para ampliarlas

Flujo de ejecución

Entrada del usuario → El usuario envía la información del sitio y el archivo CSV mediante el formulario.
Extracción de datos → Se analiza el archivo CSV para obtener los datos originales.
Mapeo de campos → Se extraen los campos clave y se unifican sus nombres.
Filtrado de URLs → Se filtran las URLs según estado, indexabilidad y tipo de contenido.
Clasificación mediante IA (opcional) → Se utiliza IA para seleccionar contenido de alta calidad.
Conversión de formato → Cada URL se convierte al formato llms.txt.
Agregación de datos → Se combinan todas las líneas.
Ensamblaje de contenido → Se añade la información de cabecera del sitio.
Generación de archivo → Se crea el archivo llms.txt descargable.

Características técnicas

Compatibilidad multilingüe

El flujo identifica inteligentemente archivos exportados por Screaming Frog en distintos idiomas, admitiendo:

Inglés (English)
Francés (Français)
Alemán (Deutsch)
Italiano (Italiano)
Español (Español)

Flexibilidad

Admite dos formatos de exportación: internal_html.csv e internal_all.csv
Las condiciones de filtrado pueden personalizarse y ampliarse según necesidades
El clasificador de IA puede habilitarse o deshabilitarse según convenga
Es fácil añadir nodos posteriores (por ejemplo, para subir a Google Drive, OneDrive, etc.)

Facilidad de uso

Interfaz de formulario clara
Anotaciones explicativas detalladas
Descarga directa del archivo resultante desde la interfaz de n8n
Se recomienda utilizar la función "Test Workflow" directamente en la interfaz de n8n

Casos de uso

Este flujo de trabajo es útil en los siguientes escenarios:

Optimización SEO: Crear índices de contenido amigables con la IA para sitios web.
Gestión de contenido: Organizar masivamente las páginas indexables del sitio.
Integración con IA: Ayudar a los LLM a comprender mejor la estructura y el contenido del sitio.
Auditoría web: Filtrar y clasificar las páginas del sitio.
Sitios web multilingües: Procesar de forma unificada datos de versiones en distintos idiomas.

Requisitos previos

Screaming Frog SEO Spider: Para rastrear el sitio web y exportar los datos.
Plataforma n8n: Para ejecutar el flujo de trabajo.
API de OpenAI (opcional): Necesaria únicamente si se activa la función de clasificación mediante IA.

Resultado generado

El archivo llms.txt generado incluye:

Nombre y descripción del sitio web (información de cabecera)
Lista de páginas filtradas, con el formato: - [Título de la página](URL): Descripción de la página
Codificación UTF-8, garantizando compatibilidad multilingüe

Sugerencias de ampliación

Despliegue automatizado: Añadir nodos para subir automáticamente el archivo generado al directorio raíz del sitio.
Actualización periódica: Combinar con un desencadenador programado para regenerar el archivo periódicamente.
Integración multisource: Combinar con otras fuentes de datos para enriquecer el contenido de llms.txt.
Control de calidad: Añadir más condiciones de filtrado (por ejemplo, número mínimo de palabras, obligatoriedad de meta descripción, etc.).
Mecanismos de notificación: Incorporar nodos de notificación por correo electrónico o Slack que informen automáticamente al finalizar.

Consideraciones importantes

El archivo subido debe tener el formato estándar de exportación de Screaming Frog; de lo contrario, los pasos posteriores podrían fallar.
El clasificador de IA está desactivado por defecto para ahorrar costos; debe activarse manualmente cuando sea necesario.
El archivo debe descargarse manualmente desde el último nodo en la interfaz de n8n.
El uso de la función de clasificación mediante IA requiere credenciales válidas de la API de OpenAI.
Se recomienda usar la exportación internal_html.csv, aunque también funciona con internal_all.csv.

Conclusión

Se trata de un flujo de trabajo bien diseñado en n8n que combina herramientas SEO (Screaming Frog) con tecnologías de IA para generar automáticamente un índice de contenido web compatible con los estándares modernos de los LLM. El flujo ofrece una excelente experiencia de usuario, sólida compatibilidad multilingüe y gran flexibilidad para adaptarse a sitios web de cualquier tamaño.