GPT-Crawlerは、Builder.ioによって開発されたオープンソースプロジェクトで、指定されたウェブサイトをクロールして知識ファイルを生成し、カスタムGPTアシスタントを迅速に作成することを目的としています。このツールは、1つまたは複数のURLを提供するだけで、ウェブサイトのコンテンツを自動的に取得し、カスタムGPTのトレーニングに使用できるデータファイルを生成します。
git clone https://github.com/builderio/gpt-crawler
npm i
config.ts
ファイルで、url
とselector
属性をニーズに合わせて編集します。
設定例:
export const defaultConfig: Config = {
url: "https://www.builder.io/c/docs/developers",
match: "https://www.builder.io/c/docs/**",
selector: `.docs-builder-container`,
maxPagesToCrawl: 50,
outputFileName: "output.json",
};
type Config = {
/** クロールを開始するURL。sitemapが提供されている場合は、sitemapを使用してすべてのページをダウンロードします */
url: string;
/** 後続のクロールのために、ページ上のリンクを照合するために使用されるパターン */
match: string;
/** 内部テキストをスクレイピングするために使用されるセレクター */
selector: string;
/** この数を超えるページをクロールしないでください */
maxPagesToCrawl: number;
/** 完了したデータのファイル名 */
outputFileName: string;
/** オプションで除外するリソースタイプ */
resourceExclusions?: string[];
/** オプションの最大ファイルサイズ(メガバイト) */
maxFileSize?: number;
/** オプションの最大トークン数 */
maxTokens?: number;
};
npm start
これにより、output.json
ファイルが生成されます。
containerapp
ディレクトリに移動し、config.ts
を修正します。出力ファイルはdata
フォルダに生成されます。
npm run start:server
/crawl
エンドポイントを使用してPOSTリクエストを送信します/api-docs
エンドポイントで確認できます(Swaggerを使用).env.example
を.env
としてコピーして、環境変数をカスタマイズできます注意: カスタムGPTを作成および使用するには、有料のChatGPTプランが必要になる場合があります
プロジェクトの作者は、このツールを使用してBuilder.ioアシスタントを作成し、Builder.ioのドキュメントをクロールして、Builder.ioの使用方法と統合に関する質問に回答しています。
GPT-Crawlerは、プロフェッショナルなAIアシスタントを迅速に作成するための強力で柔軟なソリューションを提供します。特に、既存のドキュメントまたはウェブサイトのコンテンツに基づいてインテリジェントな質疑応答システムを作成する必要があるシナリオに適しています。