Gerar arquivos llms.txt prontos para IA a partir de rastreamentos do Screaming Frog

Generate AI-Ready llms.txt Files from Screaming Frog Website Crawls

Gera automaticamente arquivos de índice de conteúdo llms.txt compatíveis com LLMs a partir de dados CSV exportados pelo rastreamento de sites do Screaming Frog, com suporte a múltiplos idiomas e classificação inteligente por IA.

23 NodesAI & MLOtimização SEO Integração com IA Gestão de Conteúdo

Visão Geral do Fluxo de Trabalho

Este fluxo de trabalho gera automaticamente um arquivo llms.txt compatível com padrões de IA a partir dos dados exportados pelo rastreador de sites Screaming Frog. O llms.txt é um formato de arquivo padronizado que ajuda modelos de linguagem grandes (LLMs) a entender e descobrir melhor o conteúdo de um site. O fluxo recebe, por meio de um formulário, o arquivo CSV exportado pelo Screaming Frog, realiza extração de dados, mapeamento de campos, filtragem de URLs e, opcionalmente, classificação por IA, gerando ao final um arquivo llms.txt pronto para download.

Nome do Fluxo de Trabalho

Gerar arquivos llms.txt prontos para IA a partir de rastreamentos de sites do Screaming Frog

Funcionalidades Principais

O fluxo de trabalho implementa as seguintes funcionalidades principais:

Coleta de dados por formulário: Recebe, por meio de um formulário web, o nome do site, sua descrição e o arquivo exportado pelo Screaming Frog.
Análise de dados CSV: Extrai dados estruturados do arquivo CSV carregado.
Suporte multilíngue: Reconhece e processa automaticamente arquivos exportados pelo Screaming Frog em inglês, francês, alemão, italiano e espanhol.
Filtragem inteligente: Filtra URLs com base em critérios como código de status HTTP, indexabilidade e tipo de conteúdo.
Classificação por IA (opcional): Utiliza modelos da OpenAI para classificar inteligentemente o conteúdo, distinguindo páginas de alta qualidade.
Saída formatada: Gera um arquivo no formato padrão llms.txt.

Detalhamento dos Nós do Fluxo de Trabalho

1. Nó Gatilho

Formulário – Upload do arquivo internal_html.csv do Screaming Frog

Tipo: Gatilho de formulário (formTrigger)
Função: Fornece uma interface para coletar as seguintes informações:
- Nome do site
- Breve descrição do site (deve estar no idioma-alvo do site)
- Arquivo CSV exportado pelo Screaming Frog (internal_html.csv ou internal_all.csv)
Disparo: O fluxo é acionado automaticamente após o envio do formulário pelo usuário.

2. Nó de Extração de Dados

Extrair dados do arquivo do Screaming Frog

Tipo: Nó de extração de arquivo (extractFromFile)
Função: Analisa o arquivo CSV carregado e extrai os dados.
Entrada: Dados binários do arquivo recebido via formulário.
Saída: Array de dados estruturados em JSON.

3. Nó de Mapeamento de Campos

Definir campos úteis

Tipo: Nó Set
Função: Extrai e mapeia campos-chave dos dados exportados pelo Screaming Frog.
Campos extraídos:
- url: endereço da página
- title: título da página
- description: meta descrição
- status: código de status HTTP
- indexability: estado de indexabilidade
- content_type: tipo de conteúdo
- word_count: contagem de palavras
Mapeamento multilíngue: suporta nomes de colunas em inglês, francês, alemão, italiano e espanhol.

4. Nó de Filtragem de URLs

Filtrar URLs

Tipo: Nó Filter
Função: Filtra URLs com base em condições predefinidas.
Condições de filtragem:
- Código de status = 200 (acesso bem-sucedido)
- Indexabilidade = indexable (pode ser indexado por mecanismos de busca)
- Tipo de conteúdo contém "text/html" (páginas HTML)
Extensibilidade: o usuário pode adicionar condições adicionais (ex.: contagem de palavras, caminho da URL, meta descrição etc.).

5. Nó de Classificação por IA (desativado por padrão)

Classificador de Texto

Tipo: Classificador de texto (textClassifier)
Estado: desativado por padrão
Função: utiliza um modelo de IA para avaliar a qualidade do conteúdo das páginas.
Categorias de classificação:
- useful_content: conteúdo de alta qualidade, adequado para inclusão no llms.txt
- other_content: conteúdo de baixo valor ou páginas paginadas que não devem ser incluídas
Dados de entrada: URL, título, descrição e contagem de palavras
Modelo de IA conectado: OpenAI Chat Model

6. Nó do Modelo de IA

Modelo de Chat da OpenAI

Tipo: Modelo de chat da OpenAI (lmChatOpenAi)
Modelo: gpt-4o-mini
Função: fornece capacidade de inferência por IA ao classificador de texto
Requisito: credenciais válidas da API da OpenAI

7. Nó de Processamento de Dados

Definir Campo – Linha do llms.txt

Tipo: Nó Set
Função: formata cada URL conforme o padrão llms.txt
Formato de saída: - [Título da Página](URL): Descrição

8. Nó de Agregação de Dados

Resumir – Concatenar

Tipo: Nó Aggregate
Função: combina todas as linhas formatadas em um único texto
Operação: concatena todos os registros usando quebras de linha

9. Nó de Montagem de Conteúdo

Definir Campos – Conteúdo do llms.txt

Tipo: Nó Set
Função: monta o conteúdo completo do arquivo llms.txt
Conteúdo incluído:
- Nome do site
- Descrição do site
- Lista de URLs filtradas

10. Nó de Geração de Arquivo

Gerar arquivo llms.txt

Tipo: Converter para arquivo (convertToFile)
Função: converte o conteúdo textual em um arquivo para download
Nome do arquivo: llms.txt
Codificação: UTF-8
Saída: arquivo disponível para download direto na interface do n8n

11. Nó Auxiliar

Nenhuma operação, não fazer nada

Tipo: Nó NoOp (noOp)
Função: trata o ramo de dados marcado pelo classificador de IA como "other_content"

12. Nós de Anotação

O fluxo contém diversos nós Sticky Note com instruções detalhadas e dicas:

Nota principal: introdução geral e etapas de uso do fluxo
Nota do formulário: explicações detalhadas dos campos de entrada
Nota de extração de dados: observações sobre o tratamento do arquivo CSV
Nota de mapeamento de campos: detalhes sobre o suporte multilíngue
Nota de filtragem: critérios de filtragem e sugestões de personalização

Fluxo de Execução

Entrada do usuário → O usuário envia informações do site e o arquivo CSV pelo formulário
Extração de dados → O arquivo CSV é analisado para obter os dados brutos
Mapeamento de campos → Campos essenciais são extraídos e padronizados
Filtragem de URLs → URLs são filtradas com base em status, indexabilidade e tipo de conteúdo
Classificação por IA (opcional) → A IA filtra ainda mais o conteúdo de alta qualidade
Conversão de formato → Cada URL é convertida para o formato llms.txt
Agregação de dados → Todas as linhas são combinadas
Montagem do conteúdo → Informações de cabeçalho do site são adicionadas
Geração do arquivo → É criado o arquivo llms.txt para download

Características Técnicas

Suporte Multilíngue

O fluxo identifica automaticamente diferentes versões linguísticas dos arquivos exportados pelo Screaming Frog, incluindo:

Inglês (English)
Francês (Français)
Alemão (Deutsch)
Italiano (Italiano)
Espanhol (Español)

Flexibilidade

Suporta os dois formatos de exportação: internal_html.csv e internal_all.csv
Condições de filtragem podem ser personalizadas conforme necessário
O classificador de IA pode ser ativado ou desativado sob demanda
Permite fácil adição de nós subsequentes (ex.: upload para Google Drive, OneDrive etc.)

Facilidade de Uso

Interface de formulário clara
Anotações explicativas detalhadas
Download direto do arquivo resultante pela interface do n8n
Recomenda-se utilizar a função "Test Workflow" diretamente na interface do n8n

Casos de Uso

Este fluxo de trabalho é adequado para os seguintes cenários:

Otimização de SEO: criar índices de conteúdo amigáveis para IA
Gestão de conteúdo: organizar em lote as páginas indexáveis de um site
Integração com IA: ajudar LLMs a compreender melhor a estrutura e o conteúdo do site
Auditoria de sites: filtrar e classificar páginas do site
Sites multilíngues: tratar uniformemente dados de diferentes versões linguísticas

Pré-requisitos

Screaming Frog SEO Spider: para rastrear o site e exportar os dados
Plataforma n8n: para executar o fluxo de trabalho
API da OpenAI (opcional): necessária apenas se a classificação por IA for ativada

Resultado de Saída

O arquivo llms.txt gerado contém:

Nome e descrição do site (informações de cabeçalho)
Lista de páginas filtradas, com cada linha no formato: - [Título da Página](URL): Descrição da Página
Codificação UTF-8, garantindo compatibilidade multilíngue

Sugestões de Expansão

Implantação automatizada: adicionar nós para enviar automaticamente o arquivo gerado para o diretório raiz do site
Atualização periódica: integrar com gatilhos agendados para regeneração regular
Integração multissistema: combinar outras fontes de dados para enriquecer o conteúdo do llms.txt
Controle de qualidade: adicionar mais critérios de filtragem (ex.: número mínimo de palavras, obrigatoriedade de meta descrição etc.)
Notificações automáticas: incluir nós de notificação por e-mail ou Slack ao concluir a execução

Observações Importantes

O arquivo carregado deve seguir o formato padrão de exportação do Screaming Frog; caso contrário, etapas posteriores poderão falhar.
O classificador de IA está desativado por padrão para economizar custos; ative-o manualmente quando necessário.
O arquivo deve ser baixado manualmente pelo último nó na interface do n8n.
O uso da funcionalidade de classificação por IA exige credenciais válidas da API da OpenAI.
Recomenda-se usar a exportação internal_html.csv, embora internal_all.csv também funcione.

Conclusão

Trata-se de um fluxo de trabalho n8n bem projetado, que combina ferramentas de SEO (Screaming Frog) com tecnologia de IA para gerar automaticamente um índice de conteúdo de sites compatível com os padrões modernos de LLMs. O fluxo oferece excelente experiência do usuário, sólido suporte multilíngue e grande flexibilidade de expansão, sendo adequado para sites de todos os portes.