GPT-Crawler هو مشروع مفتوح المصدر تم تطويره بواسطة Builder.io، ويهدف إلى إنشاء ملفات معرفية عن طريق الزحف إلى مواقع ويب محددة، وبالتالي إنشاء مساعدين GPT مخصصين بسرعة. تتطلب هذه الأداة توفير عنوان URL واحد أو أكثر، وستقوم تلقائيًا بالتقاط محتوى موقع الويب وإنشاء ملفات بيانات يمكن استخدامها لتدريب GPT مخصص.
git clone https://github.com/builderio/gpt-crawler
npm i
في ملف config.ts
، قم بتحرير خصائص url
و selector
لتلبية احتياجاتك.
مثال على التكوين:
export const defaultConfig: Config = {
url: "https://www.builder.io/c/docs/developers",
match: "https://www.builder.io/c/docs/**",
selector: `.docs-builder-container`,
maxPagesToCrawl: 50,
outputFileName: "output.json",
};
type Config = {
/** عنوان URL لبدء الزحف، إذا تم توفير خريطة موقع، فسيتم استخدام خريطة الموقع وتنزيل جميع الصفحات الموجودة فيها */
url: string;
/** نمط لمطابقة الروابط على الصفحة للزحف اللاحق */
match: string;
/** محدد لالتقاط النص الداخلي */
selector: string;
/** لا تزحف إلى أكثر من هذا العدد من الصفحات */
maxPagesToCrawl: number;
/** اسم ملف البيانات المكتملة */
outputFileName: string;
/** أنواع الموارد الاختيارية التي يجب استبعادها */
resourceExclusions?: string[];
/** الحد الأقصى الاختياري لحجم الملف (ميغابايت) */
maxFileSize?: number;
/** الحد الأقصى الاختياري لعدد الرموز المميزة */
maxTokens?: number;
};
npm start
سيؤدي هذا إلى إنشاء ملف output.json
.
انتقل إلى دليل containerapp
وقم بتعديل config.ts
، وسيتم إنشاء ملف الإخراج في مجلد data
.
npm run start:server
/crawl
لطلبات POST/api-docs
(باستخدام Swagger).env.example
إلى .env
لتخصيص متغيرات البيئةملاحظة: قد تحتاج إلى خطة ChatGPT مدفوعة لإنشاء واستخدام GPT مخصص
استخدم مؤلف المشروع هذه الأداة لإنشاء مساعد Builder.io، من خلال الزحف إلى وثائق Builder.io للإجابة على الأسئلة المتعلقة بكيفية استخدام ودمج Builder.io.
يوفر GPT-Crawler حلاً قويًا ومرنًا لإنشاء مساعدين يعملون بالذكاء الاصطناعي بسرعة، وهو مناسب بشكل خاص للسيناريوهات التي تتطلب إنشاء أنظمة أسئلة وأجوبة ذكية بناءً على الوثائق الحالية أو محتوى موقع الويب.