AnyCrawl é um aplicativo de web scraping e coleta de dados de alto desempenho, construído com Node.js/TypeScript. O projeto é otimizado para grandes modelos de linguagem (LLM), capaz de converter conteúdo de sites em formatos de dados utilizáveis por LLMs e extrair dados estruturados de páginas de resultados de pesquisa (SERP) de mecanismos de busca como Google, Bing e Baidu.
AnyCrawl se destaca em várias áreas:
AnyCrawl suporta vários mecanismos de web scraping:
Use o Docker Compose para iniciar rapidamente:
docker compose up --build
Variável | Descrição | Valor Padrão | Exemplo |
---|---|---|---|
NODE_ENV |
Ambiente de tempo de execução | production | production, development |
ANYCRAWL_API_PORT |
Porta do serviço API | 8080 | 8080 |
ANYCRAWL_HEADLESS |
Se o motor do navegador usa o modo headless | true | true, false |
ANYCRAWL_PROXY_URL |
URL do servidor proxy (suporta HTTP e SOCKS) | (nenhum) | http://proxy:8080 |
ANYCRAWL_IGNORE_SSL_ERROR |
Ignorar erros de certificado SSL | true | true, false |
ANYCRAWL_KEEP_ALIVE |
Manter a conexão entre as requisições | true | true, false |
ANYCRAWL_AVAILABLE_ENGINES |
Mecanismos de web scraping disponíveis (separados por vírgula) | cheerio,playwright,puppeteer | playwright,puppeteer |
ANYCRAWL_API_DB_TYPE |
Tipo de banco de dados | sqlite | sqlite, postgresql |
ANYCRAWL_API_DB_CONNECTION |
String/caminho de conexão do banco de dados | /usr/src/app/db/database.db | /path/to/db.sqlite |
ANYCRAWL_REDIS_URL |
URL de conexão do Redis | redis://redis:6379 | redis://localhost:6379 |
ANYCRAWL_API_AUTH_ENABLED |
Habilitar autenticação da API | false | true, false |
ANYCRAWL_API_CREDITS_ENABLED |
Habilitar sistema de créditos | false | true, false |
curl -X POST http://localhost:8080/v1/scrape \
-H 'Content-Type: application/json' \
-H 'Authorization: Bearer YOUR_ANYCRAWL_API_KEY' \
-d '{
"url": "https://example.com",
"engine": "cheerio"
}'
Parâmetro | Tipo | Descrição | Valor Padrão |
---|---|---|---|
url |
string (obrigatório) | A URL a ser raspada. Deve ser uma URL válida começando com http:// ou https:// | - |
engine |
string | O mecanismo de web scraping a ser usado. Opções: cheerio (análise estática de HTML, mais rápido), playwright (renderização JavaScript, motor moderno), puppeteer (renderização JavaScript, motor Chrome) | cheerio |
proxy |
string | A URL do proxy para a requisição. Suporta proxies HTTP e SOCKS. Formato: http://[username]:[password]@proxy:port | (nenhum) |
curl -X POST http://localhost:8080/v1/search \
-H 'Content-Type: application/json' \
-H 'Authorization: Bearer YOUR_ANYCRAWL_API_KEY' \
-d '{
"query": "AnyCrawl",
"limit": 10,
"engine": "google",
"lang": "all"
}'
Parâmetro | Tipo | Descrição | Valor Padrão |
---|---|---|---|
query |
string (obrigatório) | A consulta de pesquisa a ser executada | - |
engine |
string | O mecanismo de busca a ser usado. Opções: google | |
pages |
integer | O número de páginas de resultados de pesquisa a serem recuperadas | 1 |
lang |
string | O código de idioma para os resultados da pesquisa (por exemplo: 'en', 'zh', 'all') | en-US |
Você pode usar o Playground para testar a API e gerar exemplos de código para sua linguagem de programação favorita.
💡 Nota: Se você estiver auto-hospedando o AnyCrawl, certifique-se de substituir https://api.anycrawl.dev
pela URL do seu próprio servidor.
R: Sim, AnyCrawl suporta proxies HTTP e SOCKS. Configure através da variável de ambiente ANYCRAWL_PROXY_URL
.
R: AnyCrawl suporta Puppeteer e Playwright para lidar com necessidades de renderização JavaScript.
AnyCrawl representa a vanguarda da tecnologia moderna de web scraping, especialmente em cenários de aplicação de IA e aprendizado de máquina. Seu alto desempenho, facilidade de uso e rica funcionalidade o tornam a escolha ideal para desenvolvedores e empresas que lidam com tarefas de coleta de dados em larga escala.