any4ai/AnyCrawlPlease refer to the latest official releases for information GitHub Homepage

Leistungsstarker Node.js/TypeScript Web-Crawler, optimiert für LLMs, unterstützt das Crawlen mehrerer Suchmaschinen und die Extraktion strukturierter Daten

MITTypeScript 500any4aiAnyCrawl Last Updated: 2025-07-03

AnyCrawl – Projektdetails

🚀 Projektübersicht

AnyCrawl ist eine leistungsstarke Web-Crawling- und Datenerfassungsanwendung, die auf Node.js/TypeScript basiert. Das Projekt ist speziell für große Sprachmodelle (LLM) optimiert und kann Website-Inhalte in LLM-verwendbare Datenformate umwandeln sowie strukturierte Suchergebnisseiten (SERP) von Suchmaschinen wie Google, Bing und Baidu extrahieren.

🎯 Kernfunktionen

AnyCrawl zeichnet sich in mehreren Bereichen aus:

SERP-Crawling: Unterstützt mehrere Suchmaschinen, mit Batch-Verarbeitungsfunktionen
Webseiten-Crawling: Effiziente Einzelseiten-Content-Extraktion
Seiten-Crawling: Intelligente, vollständige Seiten-Crawling-Funktion
Hochleistungsarchitektur: Multi-Thread- und Multi-Prozess-Architekturdesign
Batch-Verarbeitung: Effiziente Verarbeitung von Batch-Crawling-Aufgaben

🏗️ Technische Architektur

Modernes Design

Basiert auf Node.js/TypeScript
Optimiert für große Sprachmodelle (LLM)
Unterstützt natives Multi-Thread-Batch-Processing
Modernes Architekturdesign

Unterstützte Crawling-Engines

AnyCrawl unterstützt verschiedene Crawling-Engines:

Cheerio: Statische HTML-Analyse, schnellste Geschwindigkeit
Playwright: JavaScript-Rendering, verwendet moderne Engine
Puppeteer: JavaScript-Rendering, verwendet Chrome-Engine

🚀 Schnellstart

Docker-Bereitstellung

Schnellstart mit Docker Compose:

docker compose up --build

Umgebungsvariablenkonfiguration

Variablenname	Beschreibung	Standardwert	Beispiel
`NODE_ENV`	Laufzeitumgebung	production	production, development
`ANYCRAWL_API_PORT`	API-Service-Port	8080	8080
`ANYCRAWL_HEADLESS`	Ob die Browser-Engine im Headless-Modus verwendet wird	true	true, false
`ANYCRAWL_PROXY_URL`	Proxy-Server-URL (unterstützt HTTP und SOCKS)	(keine)	http://proxy:8080
`ANYCRAWL_IGNORE_SSL_ERROR`	SSL-Zertifikatsfehler ignorieren	true	true, false
`ANYCRAWL_KEEP_ALIVE`	Verbindung zwischen Anfragen aufrechterhalten	true	true, false
`ANYCRAWL_AVAILABLE_ENGINES`	Verfügbare Crawling-Engines (kommagetrennt)	cheerio,playwright,puppeteer	playwright,puppeteer
`ANYCRAWL_API_DB_TYPE`	Datenbanktyp	sqlite	sqlite, postgresql
`ANYCRAWL_API_DB_CONNECTION`	Datenbankverbindungszeichenfolge/Pfad	/usr/src/app/db/database.db	/path/to/db.sqlite
`ANYCRAWL_REDIS_URL`	Redis-Verbindungs-URL	redis://redis:6379	redis://localhost:6379
`ANYCRAWL_API_AUTH_ENABLED`	API-Authentifizierung aktivieren	false	true, false
`ANYCRAWL_API_CREDITS_ENABLED`	Kreditsystem aktivieren	false	true, false

📝 API-Benutzerhandbuch

Webseiten-Crawling-API

Grundlegende Verwendung

curl -X POST http://localhost:8080/v1/scrape \
-H 'Content-Type: application/json' \
-H 'Authorization: Bearer YOUR_ANYCRAWL_API_KEY' \
-d '{
  "url": "https://example.com",
  "engine": "cheerio"
}'

Parameterbeschreibung

Parameter	Typ	Beschreibung	Standardwert
`url`	string (erforderlich)	Die zu crawlande URL. Muss eine gültige URL sein, die mit http:// oder https:// beginnt	-
`engine`	string	Die verwendete Crawling-Engine. Optionen: cheerio (statische HTML-Analyse, am schnellsten), playwright (JavaScript-Rendering, moderne Engine), puppeteer (JavaScript-Rendering, Chrome-Engine)	cheerio
`proxy`	string	Die Proxy-URL für die Anfrage. Unterstützt HTTP- und SOCKS-Proxys. Format: http://[username]:[password]@proxy:port	(keine)

Suchmaschinen-Crawling-API

Grundlegende Verwendung

curl -X POST http://localhost:8080/v1/search \
-H 'Content-Type: application/json' \
-H 'Authorization: Bearer YOUR_ANYCRAWL_API_KEY' \
-d '{
  "query": "AnyCrawl",
  "limit": 10,
  "engine": "google",
  "lang": "all"
}'

Parameterbeschreibung

Parameter	Typ	Beschreibung	Standardwert
`query`	string (erforderlich)	Die auszuführende Suchanfrage	-
`engine`	string	Die verwendete Suchmaschine. Optionen: google	google
`pages`	integer	Die Anzahl der abzurufenden Suchergebnisseiten	1
`lang`	string	Der Sprachcode der Suchergebnisse (z. B.: 'en', 'zh', 'all')	en-US

🧪 Testen und Entwicklung

Playground

Sie können den Playground verwenden, um die API zu testen und Codebeispiele für Ihre bevorzugte Programmiersprache zu generieren.

💡 Hinweis: Wenn Sie AnyCrawl selbst hosten, stellen Sie sicher, dass Sie https://api.anycrawl.dev durch Ihre eigene Server-URL ersetzen.

❓ Häufig gestellte Fragen

F: Kann ich einen Proxy verwenden?

A: Ja, AnyCrawl unterstützt HTTP- und SOCKS-Proxys. Konfigurieren Sie dies über die Umgebungsvariable ANYCRAWL_PROXY_URL.

F: Wie verarbeite ich JavaScript-gerenderte Inhalte?

A: AnyCrawl unterstützt Puppeteer und Playwright, um JavaScript-Rendering-Anforderungen zu erfüllen.

Zusammenfassung

AnyCrawl repräsentiert die Spitze der modernen Web-Crawling-Technologie, insbesondere in KI- und Machine-Learning-Anwendungsszenarien. Seine hohe Leistung, Benutzerfreundlichkeit und sein reichhaltiger Funktionsumfang machen es zur idealen Wahl für Entwickler und Unternehmen, die umfangreiche Datenerfassungsaufgaben bewältigen müssen.