Screaming Frog 크롤러에서 AI 준비 완료된 llms.txt 파일 생성하기

Generate AI-Ready llms.txt Files from Screaming Frog Website Crawls

Screaming Frog 웹사이트 크롤러가 내보낸 CSV 데이터를 자동으로 처리하여 LLM 표준에 부합하는 llms.txt 콘텐츠 인덱스 파일을 생성하며, 다국어 지원 및 AI 기반 스마트 분류 기능을 제공합니다.

23 NodesAI & MLSEO 최적화 AI 연동 콘텐츠 관리

워크플로우 개요

본 워크플로우는 Screaming Frog 웹사이트 크롤러에서 내보낸 데이터를 기반으로 AI 표준에 부합하는 llms.txt 파일을 자동 생성합니다. llms.txt는 대형 언어 모델(LLM)이 웹사이트 콘텐츠를 보다 효과적으로 이해하고 발견할 수 있도록 도와주는 표준화된 파일 형식입니다. 이 워크플로우는 Screaming Frog의 CSV 내보내기 파일을 폼을 통해 수신한 후, 데이터 추출, 필드 매핑, URL 필터링, 선택적인 AI 분류 등의 단계를 거쳐 최종적으로 다운로드 가능한 llms.txt 파일을 생성합니다.

워크플로우 이름

Screaming Frog 웹사이트 크롤 결과에서 AI 준비 완료된 llms.txt 파일 생성하기

핵심 기능

본 워크플로우는 다음과 같은 핵심 기능을 제공합니다:

  1. 폼 기반 데이터 수집: 웹사이트 이름, 설명 및 Screaming Frog 내보내기 파일을 웹 폼을 통해 수신
  2. CSV 데이터 파싱: 업로드된 CSV 파일에서 구조화된 데이터를 추출
  3. 다국어 지원: 영어, 프랑스어, 독일어, 이탈리아어, 스페인어 버전의 Screaming Frog 내보내기 파일을 자동 인식 및 처리
  4. 지능형 필터링: 상태 코드, 색인 가능 여부, 콘텐츠 유형 등을 기준으로 URL을 선별
  5. AI 분류(선택 사항): OpenAI 모델을 활용해 콘텐츠를 지능적으로 분류하여 고품질 콘텐츠를 식별
  6. 표준화된 출력: llms.txt 표준 형식에 맞춘 파일 생성

워크플로우 노드 상세 설명

1. 트리거 노드

Form - Screaming frog internal_html.csv upload

  • 유형: 폼 트리거(formTrigger)
  • 기능: 다음 정보를 수집하는 사용자 인터페이스 제공:
    • 웹사이트 이름
    • 웹사이트 간략 설명(웹사이트의 대상 언어로 작성 필요)
    • Screaming Frog에서 내보낸 CSV 파일(internal_html.csv 또는 internal_all.csv)
  • 실행 방식: 사용자가 폼을 제출하면 자동으로 워크플로우가 시작됨

2. 데이터 추출 노드

Extract data from Screaming Frog file

  • 유형: 파일 추출 노드(extractFromFile)
  • 기능: 업로드된 CSV 파일을 파싱하여 데이터 추출
  • 입력: 폼에서 수신한 바이너리 파일 데이터
  • 출력: 구조화된 JSON 데이터 배열

3. 필드 매핑 노드

Set useful fields

  • 유형: Set 노드
  • 기능: Screaming Frog 내보내기 데이터에서 핵심 필드를 추출 및 매핑
  • 추출 필드:
    • url: 페이지 주소
    • title: 페이지 제목
    • description: 메타 설명
    • status: HTTP 상태 코드
    • indexability: 색인 가능 여부
    • content_type: 콘텐츠 유형
    • word_count: 단어 수 통계
  • 다국어 필드 매핑: 영어, 프랑스어, 독일어, 이탈리아어, 스페인어의 열 이름 지원

4. URL 필터링 노드

Filter URLs

  • 유형: Filter 노드
  • 기능: 사전 설정된 조건에 따라 적합한 URL만 선별
  • 필터링 조건:
    • 상태 코드 = 200(정상 접근 가능)
    • 색인 가능 여부 = indexable(검색 엔진에 색인 가능)
    • 콘텐츠 유형에 "text/html" 포함(HTML 페이지)
  • 확장성: 사용자가 추가 필터 조건(예: 단어 수, URL 경로, 메타 설명 등)을 자유롭게 추가 가능

5. AI 분류 노드(기본 비활성화)

Text Classifier

  • 유형: 텍스트 분류기(textClassifier)
  • 상태: 기본적으로 비활성화됨
  • 기능: AI 모델을 사용해 페이지 콘텐츠 품질을 지능적으로 판단
  • 분류 범주:
    • useful_content: 고품질 콘텐츠로, llms.txt에 포함하기 적합함
    • other_content: 낮은 가치의 콘텐츠 또는 페이지네이션 등 포함하지 말아야 할 페이지
  • 입력 데이터: URL, 제목, 설명, 단어 수
  • 연결된 AI 모델: OpenAI Chat Model

6. AI 모델 노드

OpenAI Chat Model

  • 유형: OpenAI 채팅 모델(lmChatOpenAi)
  • 모델: gpt-4o-mini
  • 기능: 텍스트 분류기에 AI 추론 기능 제공
  • 필요 조건: OpenAI API 자격 증명

7. 데이터 처리 노드

Set Field - llms.txt Row

  • 유형: Set 노드
  • 기능: 각 URL을 llms.txt 표준 형식으로 포맷팅
  • 출력 형식: - [페이지 제목](URL): 설명

8. 데이터 집계 노드

Summarize - Concatenate

  • 유형: Aggregate 노드
  • 기능: 모든 포맷팅된 행을 하나의 텍스트로 병합
  • 작업: 줄바꿈 문자를 사용해 모든 레코드를 연결

9. 콘텐츠 조립 노드

Set Fields - llms.txt Content

  • 유형: Set 노드
  • 기능: 완전한 llms.txt 파일 콘텐츠를 조립
  • 포함 내용:
    • 웹사이트 이름
    • 웹사이트 설명
    • 필터링된 모든 URL 목록

10. 파일 생성 노드

Generate llms.txt file

  • 유형: 파일 변환(convertToFile)
  • 기능: 텍스트 콘텐츠를 다운로드 가능한 파일로 변환
  • 파일명: llms.txt
  • 인코딩: UTF-8
  • 출력: n8n UI에서 직접 다운로드 가능한 파일

11. 보조 노드

No Operation, do nothing

  • 유형: 무작위 동작 없음 노드(noOp)
  • 기능: AI 분류기에서 "other_content"로 표시된 데이터 분기를 처리

12. 주석 노드

워크플로우에는 여러 Sticky Note 노드가 포함되어 있어 상세한 사용 설명과 팁을 제공합니다:

  • 주요 설명: 워크플로우 전체 소개 및 사용 절차
  • 폼 설명: 입력 필드에 대한 상세 안내
  • 데이터 추출 설명: CSV 파일 처리 시 유의사항
  • 필드 매핑 설명: 다국어 지원에 관한 자세한 정보
  • 필터링 설명: 필터 조건 및 확장 가능성에 대한 제안

워크플로우 실행 흐름

  1. 사용자 입력 → 사용자가 폼을 통해 웹사이트 정보와 CSV 파일을 제출
  2. 데이터 추출 → CSV 파일을 파싱하여 원시 데이터 획득
  3. 필드 매핑 → 핵심 필드를 추출하고 필드명을 통일
  4. URL 필터링 → 상태, 색인 가능 여부, 콘텐츠 유형을 기준으로 URL 선별
  5. AI 분류(선택 사항) → AI를 활용해 고품질 콘텐츠를 추가로 선별
  6. 포맷 변환 → 각 URL을 llms.txt 형식으로 변환
  7. 데이터 집계 → 모든 행을 병합
  8. 콘텐츠 조립 → 웹사이트 헤더 정보 추가
  9. 파일 생성 → 다운로드 가능한 llms.txt 파일 생성

기술적 특징

다국어 지원

워크플로우는 다양한 언어 버전의 Screaming Frog 내보내기 파일을 지능적으로 인식하며 다음 언어를 지원합니다:

  • 영어(English)
  • 프랑스어(Français)
  • 독일어(Deutsch)
  • 이탈리아어(Italiano)
  • 스페인어(Español)

유연성

  • internal_html.csv 및 internal_all.csv 두 가지 내보내기 형식 모두 지원
  • 필터 조건을 필요에 따라 자유롭게 확장 가능
  • AI 분류기는 필요 시 활성화/비활성화 가능
  • 후속 노드(예: Google Drive, OneDrive 등으로 업로드)를 쉽게 추가 가능

사용자 친화성

  • 명확한 폼 인터페이스
  • 상세한 주석 설명
  • n8n UI에서 결과 파일을 직접 다운로드 가능
  • n8n UI 내 "Test Workflow" 기능 사용 권장

사용 사례

본 워크플로우는 다음 시나리오에 적합합니다:

  1. SEO 최적화: 웹사이트에 AI 친화적인 콘텐츠 색인 생성
  2. 콘텐츠 관리: 웹사이트의 색인 가능 페이지를 일괄 정리
  3. AI 통합: LLM이 웹사이트 구조와 콘텐츠를 보다 잘 이해하도록 지원
  4. 웹사이트 감사: 웹사이트 페이지를 선별 및 분류
  5. 다국어 웹사이트: 다양한 언어 버전의 웹사이트 데이터를 통합 처리

사전 요구 사항

  1. Screaming Frog SEO Spider: 웹사이트 크롤링 및 데이터 내보내기용
  2. n8n 플랫폼: 워크플로우 실행 환경
  3. OpenAI API(선택 사항): AI 분류 기능을 사용할 경우 필요

출력 결과

생성된 llms.txt 파일은 다음을 포함합니다:

  • 웹사이트 이름 및 설명(헤더 정보)
  • 필터링된 페이지 목록(각 행 형식: - [페이지 제목](URL): 페이지 설명)
  • UTF-8 인코딩으로 다국어 호환성 보장

확장 제안

  1. 자동 배포: 생성된 파일을 자동으로 웹사이트 루트 디렉토리에 업로드하는 노드 추가
  2. 정기 업데이트: 스케줄 트리거와 연동하여 주기적으로 재생성
  3. 다중 소스 통합: 다른 데이터 소스와 결합해 llms.txt 콘텐츠를 더욱 풍부하게 구성
  4. 품질 관리: 추가 필터 조건(최소 단어 수, 반드시 설명 포함 등) 적용
  5. 알림 메커니즘: 이메일 또는 Slack 알림 노드를 추가하여 작업 완료 시 자동 알림

주의사항

  1. 업로드된 파일은 Screaming Frog의 표준 내보내기 형식이어야 하며, 그렇지 않을 경우 후속 단계에서 오류 발생 가능
  2. 비용 절감을 위해 AI 분류기는 기본적으로 비활성화되며, 필요 시 수동으로 활성화해야 함
  3. 파일은 n8n UI의 마지막 노드에서 수동으로 다운로드해야 함
  4. AI 분류 기능 사용 시 유효한 OpenAI API 자격 증명 필요
  5. internal_html.csv 내보내기 사용을 권장하나, internal_all.csv도 작동 가능함

요약

이것은 정교하게 설계된 n8n 워크플로우로, SEO 도구(Screaming Frog)와 AI 기술을 결합하여 현대적 LLM 표준에 부합하는 웹사이트 콘텐츠 색인 파일을 자동 생성합니다. 우수한 사용자 경험, 강력한 다국어 지원, 유연한 확장성을 갖추고 있어 다양한 규모의 웹사이트에 적합합니다.