Gerar arquivos llms.txt prontos para IA a partir de rastreamentos do Screaming Frog

Generate AI-Ready llms.txt Files from Screaming Frog Website Crawls

Gera automaticamente arquivos de índice de conteúdo llms.txt compatíveis com LLMs a partir de dados CSV exportados pelo rastreamento de sites do Screaming Frog, com suporte a múltiplos idiomas e classificação inteligente por IA.

23 NodesAI & MLOtimização SEO Integração com IA Gestão de Conteúdo

Visão Geral do Fluxo de Trabalho

Este fluxo de trabalho gera automaticamente um arquivo llms.txt compatível com padrões de IA a partir dos dados exportados pelo rastreador de sites Screaming Frog. O llms.txt é um formato de arquivo padronizado que ajuda modelos de linguagem grandes (LLMs) a entender e descobrir melhor o conteúdo de um site. O fluxo recebe, por meio de um formulário, o arquivo CSV exportado pelo Screaming Frog, realiza extração de dados, mapeamento de campos, filtragem de URLs e, opcionalmente, classificação por IA, gerando ao final um arquivo llms.txt pronto para download.

Nome do Fluxo de Trabalho

Gerar arquivos llms.txt prontos para IA a partir de rastreamentos de sites do Screaming Frog

Funcionalidades Principais

O fluxo de trabalho implementa as seguintes funcionalidades principais:

  1. Coleta de dados por formulário: Recebe, por meio de um formulário web, o nome do site, sua descrição e o arquivo exportado pelo Screaming Frog.
  2. Análise de dados CSV: Extrai dados estruturados do arquivo CSV carregado.
  3. Suporte multilíngue: Reconhece e processa automaticamente arquivos exportados pelo Screaming Frog em inglês, francês, alemão, italiano e espanhol.
  4. Filtragem inteligente: Filtra URLs com base em critérios como código de status HTTP, indexabilidade e tipo de conteúdo.
  5. Classificação por IA (opcional): Utiliza modelos da OpenAI para classificar inteligentemente o conteúdo, distinguindo páginas de alta qualidade.
  6. Saída formatada: Gera um arquivo no formato padrão llms.txt.

Detalhamento dos Nós do Fluxo de Trabalho

1. Nó Gatilho

Formulário – Upload do arquivo internal_html.csv do Screaming Frog

  • Tipo: Gatilho de formulário (formTrigger)
  • Função: Fornece uma interface para coletar as seguintes informações:
    • Nome do site
    • Breve descrição do site (deve estar no idioma-alvo do site)
    • Arquivo CSV exportado pelo Screaming Frog (internal_html.csv ou internal_all.csv)
  • Disparo: O fluxo é acionado automaticamente após o envio do formulário pelo usuário.

2. Nó de Extração de Dados

Extrair dados do arquivo do Screaming Frog

  • Tipo: Nó de extração de arquivo (extractFromFile)
  • Função: Analisa o arquivo CSV carregado e extrai os dados.
  • Entrada: Dados binários do arquivo recebido via formulário.
  • Saída: Array de dados estruturados em JSON.

3. Nó de Mapeamento de Campos

Definir campos úteis

  • Tipo: Nó Set
  • Função: Extrai e mapeia campos-chave dos dados exportados pelo Screaming Frog.
  • Campos extraídos:
    • url: endereço da página
    • title: título da página
    • description: meta descrição
    • status: código de status HTTP
    • indexability: estado de indexabilidade
    • content_type: tipo de conteúdo
    • word_count: contagem de palavras
  • Mapeamento multilíngue: suporta nomes de colunas em inglês, francês, alemão, italiano e espanhol.

4. Nó de Filtragem de URLs

Filtrar URLs

  • Tipo: Nó Filter
  • Função: Filtra URLs com base em condições predefinidas.
  • Condições de filtragem:
    • Código de status = 200 (acesso bem-sucedido)
    • Indexabilidade = indexable (pode ser indexado por mecanismos de busca)
    • Tipo de conteúdo contém "text/html" (páginas HTML)
  • Extensibilidade: o usuário pode adicionar condições adicionais (ex.: contagem de palavras, caminho da URL, meta descrição etc.).

5. Nó de Classificação por IA (desativado por padrão)

Classificador de Texto

  • Tipo: Classificador de texto (textClassifier)
  • Estado: desativado por padrão
  • Função: utiliza um modelo de IA para avaliar a qualidade do conteúdo das páginas.
  • Categorias de classificação:
    • useful_content: conteúdo de alta qualidade, adequado para inclusão no llms.txt
    • other_content: conteúdo de baixo valor ou páginas paginadas que não devem ser incluídas
  • Dados de entrada: URL, título, descrição e contagem de palavras
  • Modelo de IA conectado: OpenAI Chat Model

6. Nó do Modelo de IA

Modelo de Chat da OpenAI

  • Tipo: Modelo de chat da OpenAI (lmChatOpenAi)
  • Modelo: gpt-4o-mini
  • Função: fornece capacidade de inferência por IA ao classificador de texto
  • Requisito: credenciais válidas da API da OpenAI

7. Nó de Processamento de Dados

Definir Campo – Linha do llms.txt

  • Tipo: Nó Set
  • Função: formata cada URL conforme o padrão llms.txt
  • Formato de saída: - [Título da Página](URL): Descrição

8. Nó de Agregação de Dados

Resumir – Concatenar

  • Tipo: Nó Aggregate
  • Função: combina todas as linhas formatadas em um único texto
  • Operação: concatena todos os registros usando quebras de linha

9. Nó de Montagem de Conteúdo

Definir Campos – Conteúdo do llms.txt

  • Tipo: Nó Set
  • Função: monta o conteúdo completo do arquivo llms.txt
  • Conteúdo incluído:
    • Nome do site
    • Descrição do site
    • Lista de URLs filtradas

10. Nó de Geração de Arquivo

Gerar arquivo llms.txt

  • Tipo: Converter para arquivo (convertToFile)
  • Função: converte o conteúdo textual em um arquivo para download
  • Nome do arquivo: llms.txt
  • Codificação: UTF-8
  • Saída: arquivo disponível para download direto na interface do n8n

11. Nó Auxiliar

Nenhuma operação, não fazer nada

  • Tipo: Nó NoOp (noOp)
  • Função: trata o ramo de dados marcado pelo classificador de IA como "other_content"

12. Nós de Anotação

O fluxo contém diversos nós Sticky Note com instruções detalhadas e dicas:

  • Nota principal: introdução geral e etapas de uso do fluxo
  • Nota do formulário: explicações detalhadas dos campos de entrada
  • Nota de extração de dados: observações sobre o tratamento do arquivo CSV
  • Nota de mapeamento de campos: detalhes sobre o suporte multilíngue
  • Nota de filtragem: critérios de filtragem e sugestões de personalização

Fluxo de Execução

  1. Entrada do usuário → O usuário envia informações do site e o arquivo CSV pelo formulário
  2. Extração de dados → O arquivo CSV é analisado para obter os dados brutos
  3. Mapeamento de campos → Campos essenciais são extraídos e padronizados
  4. Filtragem de URLs → URLs são filtradas com base em status, indexabilidade e tipo de conteúdo
  5. Classificação por IA (opcional) → A IA filtra ainda mais o conteúdo de alta qualidade
  6. Conversão de formato → Cada URL é convertida para o formato llms.txt
  7. Agregação de dados → Todas as linhas são combinadas
  8. Montagem do conteúdo → Informações de cabeçalho do site são adicionadas
  9. Geração do arquivo → É criado o arquivo llms.txt para download

Características Técnicas

Suporte Multilíngue

O fluxo identifica automaticamente diferentes versões linguísticas dos arquivos exportados pelo Screaming Frog, incluindo:

  • Inglês (English)
  • Francês (Français)
  • Alemão (Deutsch)
  • Italiano (Italiano)
  • Espanhol (Español)

Flexibilidade

  • Suporta os dois formatos de exportação: internal_html.csv e internal_all.csv
  • Condições de filtragem podem ser personalizadas conforme necessário
  • O classificador de IA pode ser ativado ou desativado sob demanda
  • Permite fácil adição de nós subsequentes (ex.: upload para Google Drive, OneDrive etc.)

Facilidade de Uso

  • Interface de formulário clara
  • Anotações explicativas detalhadas
  • Download direto do arquivo resultante pela interface do n8n
  • Recomenda-se utilizar a função "Test Workflow" diretamente na interface do n8n

Casos de Uso

Este fluxo de trabalho é adequado para os seguintes cenários:

  1. Otimização de SEO: criar índices de conteúdo amigáveis para IA
  2. Gestão de conteúdo: organizar em lote as páginas indexáveis de um site
  3. Integração com IA: ajudar LLMs a compreender melhor a estrutura e o conteúdo do site
  4. Auditoria de sites: filtrar e classificar páginas do site
  5. Sites multilíngues: tratar uniformemente dados de diferentes versões linguísticas

Pré-requisitos

  1. Screaming Frog SEO Spider: para rastrear o site e exportar os dados
  2. Plataforma n8n: para executar o fluxo de trabalho
  3. API da OpenAI (opcional): necessária apenas se a classificação por IA for ativada

Resultado de Saída

O arquivo llms.txt gerado contém:

  • Nome e descrição do site (informações de cabeçalho)
  • Lista de páginas filtradas, com cada linha no formato: - [Título da Página](URL): Descrição da Página
  • Codificação UTF-8, garantindo compatibilidade multilíngue

Sugestões de Expansão

  1. Implantação automatizada: adicionar nós para enviar automaticamente o arquivo gerado para o diretório raiz do site
  2. Atualização periódica: integrar com gatilhos agendados para regeneração regular
  3. Integração multissistema: combinar outras fontes de dados para enriquecer o conteúdo do llms.txt
  4. Controle de qualidade: adicionar mais critérios de filtragem (ex.: número mínimo de palavras, obrigatoriedade de meta descrição etc.)
  5. Notificações automáticas: incluir nós de notificação por e-mail ou Slack ao concluir a execução

Observações Importantes

  1. O arquivo carregado deve seguir o formato padrão de exportação do Screaming Frog; caso contrário, etapas posteriores poderão falhar.
  2. O classificador de IA está desativado por padrão para economizar custos; ative-o manualmente quando necessário.
  3. O arquivo deve ser baixado manualmente pelo último nó na interface do n8n.
  4. O uso da funcionalidade de classificação por IA exige credenciais válidas da API da OpenAI.
  5. Recomenda-se usar a exportação internal_html.csv, embora internal_all.csv também funcione.

Conclusão

Trata-se de um fluxo de trabalho n8n bem projetado, que combina ferramentas de SEO (Screaming Frog) com tecnologia de IA para gerar automaticamente um índice de conteúdo de sites compatível com os padrões modernos de LLMs. O fluxo oferece excelente experiência do usuário, sólido suporte multilíngue e grande flexibilidade de expansão, sendo adequado para sites de todos os portes.