GPT-Crawler ist ein Open-Source-Projekt von Builder.io, das darauf abzielt, durch das Crawlen bestimmter Websites Wissensdateien zu generieren, um schnell benutzerdefinierte GPT-Assistenten zu erstellen. Dieses Tool benötigt lediglich eine oder mehrere URLs, um automatisch Website-Inhalte zu erfassen und Datendateien zu generieren, die zum Trainieren benutzerdefinierter GPTs verwendet werden können.
git clone https://github.com/builderio/gpt-crawler
npm i
Bearbeiten Sie die Attribute url
und selector
in der Datei config.ts
, um Ihre Anforderungen zu erfüllen.
Beispielkonfiguration:
export const defaultConfig: Config = {
url: "https://www.builder.io/c/docs/developers",
match: "https://www.builder.io/c/docs/**",
selector: `.docs-builder-container`,
maxPagesToCrawl: 50,
outputFileName: "output.json",
};
type Config = {
/** URL, von der aus das Crawlen gestartet werden soll. Wenn eine Sitemap bereitgestellt wird, wird diese verwendet und alle Seiten darin werden heruntergeladen */
url: string;
/** Muster zum Abgleichen von Links auf der Seite für das nachfolgende Crawlen */
match: string;
/** Selektor zum Erfassen von internem Text */
selector: string;
/** Crawlen Sie nicht mehr als diese Anzahl von Seiten */
maxPagesToCrawl: number;
/** Dateiname für die fertigen Daten */
outputFileName: string;
/** Optionale auszuschließende Ressourcentypen */
resourceExclusions?: string[];
/** Optionale maximale Dateigröße (Megabyte) */
maxFileSize?: number;
/** Optionale maximale Anzahl von Token */
maxTokens?: number;
};
npm start
Dadurch wird eine output.json
-Datei generiert.
Wechseln Sie in das Verzeichnis containerapp
und ändern Sie config.ts
. Die Ausgabedatei wird im Ordner data
generiert.
npm run start:server
/crawl
-Endpunkt für POST-Anfragen/api-docs
-Endpunkt verfügbar (mit Swagger).env.example
als .env
kopieren, um Umgebungsvariablen anzupassenHinweis: Möglicherweise ist ein kostenpflichtiger ChatGPT-Plan erforderlich, um benutzerdefinierte GPTs zu erstellen und zu verwenden
Der Projektautor hat dieses Tool verwendet, um einen Builder.io-Assistenten zu erstellen, der durch das Crawlen der Builder.io-Dokumentation Fragen zur Verwendung und Integration von Builder.io beantwortet.
GPT-Crawler bietet eine leistungsstarke und flexible Lösung für die schnelle Erstellung professioneller KI-Assistenten, insbesondere geeignet für Szenarien, in denen intelligente Frage-Antwort-Systeme auf Basis vorhandener Dokumente oder Website-Inhalte erstellt werden müssen.