Generar archivos llms.txt listos para IA desde rastreos web de Screaming Frog
Generate AI-Ready llms.txt Files from Screaming Frog Website Crawls
Genera automáticamente un archivo de índice de contenido llms.txt compatible con LLM a partir de datos CSV exportados por Screaming Frog, con soporte para múltiples idiomas y clasificación inteligente mediante IA.
Descripción general del flujo de trabajo
Este flujo de trabajo genera automáticamente un archivo llms.txt compatible con estándares de IA a partir de los datos exportados por el rastreador web Screaming Frog. El archivo llms.txt es un formato estandarizado que ayuda a los modelos de lenguaje grandes (LLM, por sus siglas en inglés) a comprender y descubrir mejor el contenido de un sitio web. El flujo recibe mediante un formulario el archivo CSV exportado por Screaming Frog, realiza extracción de datos, mapeo de campos, filtrado de URLs y, opcionalmente, clasificación mediante IA, para finalmente generar un archivo llms.txt listo para su descarga.
Nombre del flujo de trabajo
Generar archivos llms.txt preparados para IA a partir de rastreos web de Screaming Frog
Funcionalidades principales
Este flujo de trabajo implementa las siguientes funcionalidades clave:
- Recopilación de datos mediante formulario: Recibe a través de un formulario web el nombre del sitio, su descripción y el archivo exportado por Screaming Frog.
- Análisis de datos CSV: Extrae datos estructurados del archivo CSV subido.
- Compatibilidad multilingüe: Reconoce y procesa automáticamente archivos exportados por Screaming Frog en inglés, francés, alemán, italiano y español.
- Filtrado inteligente: Filtra URLs según criterios como código de estado, capacidad de indexación y tipo de contenido.
- Clasificación mediante IA (opcional): Utiliza un modelo de OpenAI para clasificar inteligentemente el contenido y distinguir contenido de alta calidad.
- Salida formateada: Genera un archivo conforme al formato estándar llms.txt.
Detalle de los nodos del flujo de trabajo
1. Nodo desencadenante
Formulario: Subida de archivo internal_html.csv de Screaming Frog
- Tipo: Desencadenador de formulario (formTrigger)
- Función: Proporciona una interfaz de usuario para recopilar la siguiente información:
- Nombre del sitio web
- Breve descripción del sitio (debe estar en el idioma objetivo del sitio)
- Archivo CSV exportado por Screaming Frog (internal_html.csv o internal_all.csv)
- Activación: Se inicia automáticamente tras el envío del formulario por parte del usuario.
2. Nodo de extracción de datos
Extraer datos del archivo de Screaming Frog
- Tipo: Nodo de extracción de archivo (extractFromFile)
- Función: Analiza el archivo CSV subido y extrae los datos.
- Entrada: Datos binarios del archivo recibidos desde el formulario.
- Salida: Matriz de datos estructurados en formato JSON.
3. Nodo de mapeo de campos
Establecer campos útiles
- Tipo: Nodo Set
- Función: Extrae y mapea campos clave desde los datos exportados por Screaming Frog.
- Campos extraídos:
url: Dirección de la páginatitle: Título de la páginadescription: Meta descripciónstatus: Código de estado HTTPindexability: Estado de indexabilidadcontent_type: Tipo de contenidoword_count: Conteo de palabras
- Mapeo multilingüe: Admite nombres de columnas en inglés, francés, alemán, italiano y español.
4. Nodo de filtrado de URLs
Filtrar URLs
- Tipo: Nodo Filter
- Función: Filtra las URLs según condiciones predefinidas.
- Condiciones de filtrado:
- Código de estado = 200 (acceso correcto)
- Indexabilidad = indexable (puede ser indexado por motores de búsqueda)
- Tipo de contenido contiene "text/html" (páginas HTML)
- Extensibilidad: El usuario puede añadir condiciones adicionales (por ejemplo, número de palabras, ruta de la URL, meta descripción, etc.).
5. Nodo de clasificación mediante IA (deshabilitado por defecto)
Clasificador de texto
- Tipo: Clasificador de texto (textClassifier)
- Estado: Deshabilitado por defecto
- Función: Utiliza un modelo de IA para evaluar inteligentemente la calidad del contenido de la página.
- Categorías de clasificación:
useful_content: Contenido de alta calidad, adecuado para incluir en llms.txtother_content: Contenido de bajo valor o páginas de paginación que no deben incluirse
- Datos de entrada: URL, título, descripción y conteo de palabras
- Modelo de IA conectado: Modelo de chat de OpenAI
6. Nodo de modelo de IA
Modelo de chat de OpenAI
- Tipo: Modelo de chat de OpenAI (lmChatOpenAi)
- Modelo: gpt-4o-mini
- Función: Proporciona capacidad de inferencia de IA al clasificador de texto.
- Requisito: Credenciales de la API de OpenAI
7. Nodo de procesamiento de datos
Establecer campo – Fila de llms.txt
- Tipo: Nodo Set
- Función: Formatea cada URL según el estándar llms.txt.
- Formato de salida:
- [Título de la página](URL): Descripción
8. Nodo de agregación de datos
Resumen – Concatenar
- Tipo: Nodo Aggregate
- Función: Combina todas las filas formateadas en un único texto.
- Operación: Une todos los registros mediante saltos de línea.
9. Nodo de ensamblaje de contenido
Establecer campos – Contenido de llms.txt
- Tipo: Nodo Set
- Función: Ensambla el contenido completo del archivo llms.txt.
- Contenido incluido:
- Nombre del sitio web
- Descripción del sitio web
- Lista de todas las URLs filtradas
10. Nodo de generación de archivo
Generar archivo llms.txt
- Tipo: Convertir a archivo (convertToFile)
- Función: Convierte el contenido de texto en un archivo descargable.
- Nombre del archivo: llms.txt
- Codificación: UTF-8
- Salida: Archivo descargable directamente desde la interfaz de n8n
11. Nodo auxiliar
Sin operación, no hacer nada
- Tipo: Nodo sin operación (noOp)
- Función: Gestiona la rama de datos marcada como "other_content" por el clasificador de IA.
12. Nodos de anotaciones
El flujo incluye múltiples nodos Sticky Note con instrucciones detalladas y sugerencias:
- Nota principal: Introducción general al flujo y pasos de uso
- Nota del formulario: Explicación detallada de los campos de entrada
- Nota de extracción de datos: Consideraciones sobre el procesamiento del archivo CSV
- Nota de mapeo de campos: Información detallada sobre la compatibilidad multilingüe
- Nota de filtrado: Condiciones de filtrado y recomendaciones para ampliarlas
Flujo de ejecución
- Entrada del usuario → El usuario envía la información del sitio y el archivo CSV mediante el formulario.
- Extracción de datos → Se analiza el archivo CSV para obtener los datos originales.
- Mapeo de campos → Se extraen los campos clave y se unifican sus nombres.
- Filtrado de URLs → Se filtran las URLs según estado, indexabilidad y tipo de contenido.
- Clasificación mediante IA (opcional) → Se utiliza IA para seleccionar contenido de alta calidad.
- Conversión de formato → Cada URL se convierte al formato llms.txt.
- Agregación de datos → Se combinan todas las líneas.
- Ensamblaje de contenido → Se añade la información de cabecera del sitio.
- Generación de archivo → Se crea el archivo llms.txt descargable.
Características técnicas
Compatibilidad multilingüe
El flujo identifica inteligentemente archivos exportados por Screaming Frog en distintos idiomas, admitiendo:
- Inglés (English)
- Francés (Français)
- Alemán (Deutsch)
- Italiano (Italiano)
- Español (Español)
Flexibilidad
- Admite dos formatos de exportación: internal_html.csv e internal_all.csv
- Las condiciones de filtrado pueden personalizarse y ampliarse según necesidades
- El clasificador de IA puede habilitarse o deshabilitarse según convenga
- Es fácil añadir nodos posteriores (por ejemplo, para subir a Google Drive, OneDrive, etc.)
Facilidad de uso
- Interfaz de formulario clara
- Anotaciones explicativas detalladas
- Descarga directa del archivo resultante desde la interfaz de n8n
- Se recomienda utilizar la función "Test Workflow" directamente en la interfaz de n8n
Casos de uso
Este flujo de trabajo es útil en los siguientes escenarios:
- Optimización SEO: Crear índices de contenido amigables con la IA para sitios web.
- Gestión de contenido: Organizar masivamente las páginas indexables del sitio.
- Integración con IA: Ayudar a los LLM a comprender mejor la estructura y el contenido del sitio.
- Auditoría web: Filtrar y clasificar las páginas del sitio.
- Sitios web multilingües: Procesar de forma unificada datos de versiones en distintos idiomas.
Requisitos previos
- Screaming Frog SEO Spider: Para rastrear el sitio web y exportar los datos.
- Plataforma n8n: Para ejecutar el flujo de trabajo.
- API de OpenAI (opcional): Necesaria únicamente si se activa la función de clasificación mediante IA.
Resultado generado
El archivo llms.txt generado incluye:
- Nombre y descripción del sitio web (información de cabecera)
- Lista de páginas filtradas, con el formato:
- [Título de la página](URL): Descripción de la página - Codificación UTF-8, garantizando compatibilidad multilingüe
Sugerencias de ampliación
- Despliegue automatizado: Añadir nodos para subir automáticamente el archivo generado al directorio raíz del sitio.
- Actualización periódica: Combinar con un desencadenador programado para regenerar el archivo periódicamente.
- Integración multisource: Combinar con otras fuentes de datos para enriquecer el contenido de llms.txt.
- Control de calidad: Añadir más condiciones de filtrado (por ejemplo, número mínimo de palabras, obligatoriedad de meta descripción, etc.).
- Mecanismos de notificación: Incorporar nodos de notificación por correo electrónico o Slack que informen automáticamente al finalizar.
Consideraciones importantes
- El archivo subido debe tener el formato estándar de exportación de Screaming Frog; de lo contrario, los pasos posteriores podrían fallar.
- El clasificador de IA está desactivado por defecto para ahorrar costos; debe activarse manualmente cuando sea necesario.
- El archivo debe descargarse manualmente desde el último nodo en la interfaz de n8n.
- El uso de la función de clasificación mediante IA requiere credenciales válidas de la API de OpenAI.
- Se recomienda usar la exportación internal_html.csv, aunque también funciona con internal_all.csv.
Conclusión
Se trata de un flujo de trabajo bien diseñado en n8n que combina herramientas SEO (Screaming Frog) con tecnologías de IA para generar automáticamente un índice de contenido web compatible con los estándares modernos de los LLM. El flujo ofrece una excelente experiencia de usuario, sólida compatibilidad multilingüe y gran flexibilidad para adaptarse a sitios web de cualquier tamaño.