GPT-Crawler는 Builder.io에서 개발한 오픈 소스 프로젝트로, 지정된 웹사이트를 크롤링하여 지식 파일을 생성함으로써 맞춤형 GPT 어시스턴트를 빠르게 만들 수 있도록 설계되었습니다. 이 도구는 하나 이상의 URL만 제공하면 자동으로 웹사이트 콘텐츠를 가져와 맞춤형 GPT 훈련에 사용할 수 있는 데이터 파일을 생성합니다.
git clone https://github.com/builderio/gpt-crawler
npm i
config.ts
파일에서 url
및 selector
속성을 편집하여 요구 사항을 충족하십시오.
예시 구성:
export const defaultConfig: Config = {
url: "https://www.builder.io/c/docs/developers",
match: "https://www.builder.io/c/docs/**",
selector: `.docs-builder-container`,
maxPagesToCrawl: 50,
outputFileName: "output.json",
};
type Config = {
/** 크롤링을 시작할 URL, sitemap이 제공된 경우 sitemap을 사용하고 그 안의 모든 페이지를 다운로드합니다. */
url: string;
/** 페이지의 링크를 매칭하여 이후 크롤링에 사용될 패턴 */
match: string;
/** 내부 텍스트를 가져오는 데 사용되는 선택기 */
selector: string;
/** 이 페이지 수 이상으로 크롤링하지 마십시오. */
maxPagesToCrawl: number;
/** 완료된 데이터의 파일 이름 */
outputFileName: string;
/** 선택적으로 제외할 리소스 유형 */
resourceExclusions?: string[];
/** 선택적 최대 파일 크기 (메가바이트) */
maxFileSize?: number;
/** 선택적 최대 토큰 수 */
maxTokens?: number;
};
npm start
그러면 output.json
파일이 생성됩니다.
containerapp
디렉토리로 이동하여 config.ts
를 수정하십시오. 출력 파일은 data
폴더에 생성됩니다.
npm run start:server
/crawl
엔드포인트를 사용하여 POST 요청을 보냅니다./api-docs
엔드포인트에서 확인할 수 있습니다 (Swagger 사용)..env.example
을 .env
로 복사하여 환경 변수를 사용자 정의할 수 있습니다.주의: 맞춤형 GPT를 생성하고 사용하려면 유료 ChatGPT 요금제가 필요할 수 있습니다.
프로젝트 작성자는 이 도구를 사용하여 Builder.io 어시스턴트를 만들었습니다. Builder.io 문서를 크롤링하여 Builder.io 사용 및 통합 방법에 대한 질문에 답변합니다.
GPT-Crawler는 전문적인 AI 어시스턴트를 빠르게 만들 수 있는 강력하고 유연한 솔루션을 제공하며, 특히 기존 문서 또는 웹사이트 콘텐츠를 기반으로 지능형 질의응답 시스템을 구축해야 하는 시나리오에 적합합니다.