GPT-Crawler é um projeto de código aberto desenvolvido pela Builder.io, com o objetivo de gerar arquivos de conhecimento através da extração de conteúdo de sites específicos, permitindo a criação rápida de assistentes GPT personalizados. Esta ferramenta requer apenas um ou mais URLs para automaticamente coletar o conteúdo do site e gerar arquivos de dados que podem ser usados para treinar um GPT personalizado.
git clone https://github.com/builderio/gpt-crawler
npm i
Edite as propriedades url
e selector
no arquivo config.ts
para atender às suas necessidades.
Exemplo de Configuração:
export const defaultConfig: Config = {
url: "https://www.builder.io/c/docs/developers",
match: "https://www.builder.io/c/docs/**",
selector: `.docs-builder-container`,
maxPagesToCrawl: 50,
outputFileName: "output.json",
};
type Config = {
/** URL para iniciar a extração, se um sitemap for fornecido, ele será usado e todas as páginas nele serão baixadas */
url: string;
/** Padrão usado para corresponder links na página para rastreamento posterior */
match: string;
/** Seletor usado para extrair o texto interno */
selector: string;
/** Não rastrear mais do que este número de páginas */
maxPagesToCrawl: number;
/** Nome do arquivo para os dados concluídos */
outputFileName: string;
/** Tipos de recursos opcionais a serem excluídos */
resourceExclusions?: string[];
/** Tamanho máximo de arquivo opcional (em megabytes) */
maxFileSize?: number;
/** Número máximo opcional de tokens */
maxTokens?: number;
};
npm start
Isso gerará um arquivo output.json
.
Entre no diretório containerapp
e modifique o config.ts
. O arquivo de saída será gerado na pasta data
.
npm run start:server
/crawl
para solicitações POST/api-docs
(usando Swagger).env.example
para .env
para personalizar as variáveis de ambienteNota: Pode ser necessário um plano ChatGPT pago para criar e usar um GPT personalizado.
O autor do projeto usou esta ferramenta para criar um Assistente Builder.io, extraindo a documentação do Builder.io para responder a perguntas sobre como usar e integrar o Builder.io.
GPT-Crawler oferece uma solução poderosa e flexível para criar rapidamente assistentes de IA profissionais, especialmente adequada para cenários que exigem a criação de sistemas inteligentes de perguntas e respostas com base em documentos ou conteúdo de sites existentes.