AnyCrawl ist eine leistungsstarke Web-Crawling- und Datenerfassungsanwendung, die auf Node.js/TypeScript basiert. Das Projekt ist speziell für große Sprachmodelle (LLM) optimiert und kann Website-Inhalte in LLM-verwendbare Datenformate umwandeln sowie strukturierte Suchergebnisseiten (SERP) von Suchmaschinen wie Google, Bing und Baidu extrahieren.
AnyCrawl zeichnet sich in mehreren Bereichen aus:
AnyCrawl unterstützt verschiedene Crawling-Engines:
Schnellstart mit Docker Compose:
docker compose up --build
Variablenname | Beschreibung | Standardwert | Beispiel |
---|---|---|---|
NODE_ENV |
Laufzeitumgebung | production | production, development |
ANYCRAWL_API_PORT |
API-Service-Port | 8080 | 8080 |
ANYCRAWL_HEADLESS |
Ob die Browser-Engine im Headless-Modus verwendet wird | true | true, false |
ANYCRAWL_PROXY_URL |
Proxy-Server-URL (unterstützt HTTP und SOCKS) | (keine) | http://proxy:8080 |
ANYCRAWL_IGNORE_SSL_ERROR |
SSL-Zertifikatsfehler ignorieren | true | true, false |
ANYCRAWL_KEEP_ALIVE |
Verbindung zwischen Anfragen aufrechterhalten | true | true, false |
ANYCRAWL_AVAILABLE_ENGINES |
Verfügbare Crawling-Engines (kommagetrennt) | cheerio,playwright,puppeteer | playwright,puppeteer |
ANYCRAWL_API_DB_TYPE |
Datenbanktyp | sqlite | sqlite, postgresql |
ANYCRAWL_API_DB_CONNECTION |
Datenbankverbindungszeichenfolge/Pfad | /usr/src/app/db/database.db | /path/to/db.sqlite |
ANYCRAWL_REDIS_URL |
Redis-Verbindungs-URL | redis://redis:6379 | redis://localhost:6379 |
ANYCRAWL_API_AUTH_ENABLED |
API-Authentifizierung aktivieren | false | true, false |
ANYCRAWL_API_CREDITS_ENABLED |
Kreditsystem aktivieren | false | true, false |
curl -X POST http://localhost:8080/v1/scrape \
-H 'Content-Type: application/json' \
-H 'Authorization: Bearer YOUR_ANYCRAWL_API_KEY' \
-d '{
"url": "https://example.com",
"engine": "cheerio"
}'
Parameter | Typ | Beschreibung | Standardwert |
---|---|---|---|
url |
string (erforderlich) | Die zu crawlande URL. Muss eine gültige URL sein, die mit http:// oder https:// beginnt | - |
engine |
string | Die verwendete Crawling-Engine. Optionen: cheerio (statische HTML-Analyse, am schnellsten), playwright (JavaScript-Rendering, moderne Engine), puppeteer (JavaScript-Rendering, Chrome-Engine) | cheerio |
proxy |
string | Die Proxy-URL für die Anfrage. Unterstützt HTTP- und SOCKS-Proxys. Format: http://[username]:[password]@proxy:port | (keine) |
curl -X POST http://localhost:8080/v1/search \
-H 'Content-Type: application/json' \
-H 'Authorization: Bearer YOUR_ANYCRAWL_API_KEY' \
-d '{
"query": "AnyCrawl",
"limit": 10,
"engine": "google",
"lang": "all"
}'
Parameter | Typ | Beschreibung | Standardwert |
---|---|---|---|
query |
string (erforderlich) | Die auszuführende Suchanfrage | - |
engine |
string | Die verwendete Suchmaschine. Optionen: google | |
pages |
integer | Die Anzahl der abzurufenden Suchergebnisseiten | 1 |
lang |
string | Der Sprachcode der Suchergebnisse (z. B.: 'en', 'zh', 'all') | en-US |
Sie können den Playground verwenden, um die API zu testen und Codebeispiele für Ihre bevorzugte Programmiersprache zu generieren.
💡 Hinweis: Wenn Sie AnyCrawl selbst hosten, stellen Sie sicher, dass Sie https://api.anycrawl.dev
durch Ihre eigene Server-URL ersetzen.
A: Ja, AnyCrawl unterstützt HTTP- und SOCKS-Proxys. Konfigurieren Sie dies über die Umgebungsvariable ANYCRAWL_PROXY_URL
.
A: AnyCrawl unterstützt Puppeteer und Playwright, um JavaScript-Rendering-Anforderungen zu erfüllen.
AnyCrawl repräsentiert die Spitze der modernen Web-Crawling-Technologie, insbesondere in KI- und Machine-Learning-Anwendungsszenarien. Seine hohe Leistung, Benutzerfreundlichkeit und sein reichhaltiger Funktionsumfang machen es zur idealen Wahl für Entwickler und Unternehmen, die umfangreiche Datenerfassungsaufgaben bewältigen müssen.