Home
Login

Leistungsstarker Node.js/TypeScript Web-Crawler, optimiert für LLMs, unterstützt das Crawlen mehrerer Suchmaschinen und die Extraktion strukturierter Daten

MITTypeScript 500any4aiAnyCrawl Last Updated: 2025-07-03

AnyCrawl – Projektdetails

🚀 Projektübersicht

AnyCrawl ist eine leistungsstarke Web-Crawling- und Datenerfassungsanwendung, die auf Node.js/TypeScript basiert. Das Projekt ist speziell für große Sprachmodelle (LLM) optimiert und kann Website-Inhalte in LLM-verwendbare Datenformate umwandeln sowie strukturierte Suchergebnisseiten (SERP) von Suchmaschinen wie Google, Bing und Baidu extrahieren.

🎯 Kernfunktionen

AnyCrawl zeichnet sich in mehreren Bereichen aus:

  • SERP-Crawling: Unterstützt mehrere Suchmaschinen, mit Batch-Verarbeitungsfunktionen
  • Webseiten-Crawling: Effiziente Einzelseiten-Content-Extraktion
  • Seiten-Crawling: Intelligente, vollständige Seiten-Crawling-Funktion
  • Hochleistungsarchitektur: Multi-Thread- und Multi-Prozess-Architekturdesign
  • Batch-Verarbeitung: Effiziente Verarbeitung von Batch-Crawling-Aufgaben

🏗️ Technische Architektur

Modernes Design

  • Basiert auf Node.js/TypeScript
  • Optimiert für große Sprachmodelle (LLM)
  • Unterstützt natives Multi-Thread-Batch-Processing
  • Modernes Architekturdesign

Unterstützte Crawling-Engines

AnyCrawl unterstützt verschiedene Crawling-Engines:

  1. Cheerio: Statische HTML-Analyse, schnellste Geschwindigkeit
  2. Playwright: JavaScript-Rendering, verwendet moderne Engine
  3. Puppeteer: JavaScript-Rendering, verwendet Chrome-Engine

🚀 Schnellstart

Docker-Bereitstellung

Schnellstart mit Docker Compose:

docker compose up --build

Umgebungsvariablenkonfiguration

Variablenname Beschreibung Standardwert Beispiel
NODE_ENV Laufzeitumgebung production production, development
ANYCRAWL_API_PORT API-Service-Port 8080 8080
ANYCRAWL_HEADLESS Ob die Browser-Engine im Headless-Modus verwendet wird true true, false
ANYCRAWL_PROXY_URL Proxy-Server-URL (unterstützt HTTP und SOCKS) (keine) http://proxy:8080
ANYCRAWL_IGNORE_SSL_ERROR SSL-Zertifikatsfehler ignorieren true true, false
ANYCRAWL_KEEP_ALIVE Verbindung zwischen Anfragen aufrechterhalten true true, false
ANYCRAWL_AVAILABLE_ENGINES Verfügbare Crawling-Engines (kommagetrennt) cheerio,playwright,puppeteer playwright,puppeteer
ANYCRAWL_API_DB_TYPE Datenbanktyp sqlite sqlite, postgresql
ANYCRAWL_API_DB_CONNECTION Datenbankverbindungszeichenfolge/Pfad /usr/src/app/db/database.db /path/to/db.sqlite
ANYCRAWL_REDIS_URL Redis-Verbindungs-URL redis://redis:6379 redis://localhost:6379
ANYCRAWL_API_AUTH_ENABLED API-Authentifizierung aktivieren false true, false
ANYCRAWL_API_CREDITS_ENABLED Kreditsystem aktivieren false true, false

📝 API-Benutzerhandbuch

Webseiten-Crawling-API

Grundlegende Verwendung

curl -X POST http://localhost:8080/v1/scrape \
-H 'Content-Type: application/json' \
-H 'Authorization: Bearer YOUR_ANYCRAWL_API_KEY' \
-d '{
  "url": "https://example.com",
  "engine": "cheerio"
}'

Parameterbeschreibung

Parameter Typ Beschreibung Standardwert
url string (erforderlich) Die zu crawlande URL. Muss eine gültige URL sein, die mit http:// oder https:// beginnt -
engine string Die verwendete Crawling-Engine. Optionen: cheerio (statische HTML-Analyse, am schnellsten), playwright (JavaScript-Rendering, moderne Engine), puppeteer (JavaScript-Rendering, Chrome-Engine) cheerio
proxy string Die Proxy-URL für die Anfrage. Unterstützt HTTP- und SOCKS-Proxys. Format: http://[username]:[password]@proxy:port (keine)

Suchmaschinen-Crawling-API

Grundlegende Verwendung

curl -X POST http://localhost:8080/v1/search \
-H 'Content-Type: application/json' \
-H 'Authorization: Bearer YOUR_ANYCRAWL_API_KEY' \
-d '{
  "query": "AnyCrawl",
  "limit": 10,
  "engine": "google",
  "lang": "all"
}'

Parameterbeschreibung

Parameter Typ Beschreibung Standardwert
query string (erforderlich) Die auszuführende Suchanfrage -
engine string Die verwendete Suchmaschine. Optionen: google google
pages integer Die Anzahl der abzurufenden Suchergebnisseiten 1
lang string Der Sprachcode der Suchergebnisse (z. B.: 'en', 'zh', 'all') en-US

🧪 Testen und Entwicklung

Playground

Sie können den Playground verwenden, um die API zu testen und Codebeispiele für Ihre bevorzugte Programmiersprache zu generieren.

💡 Hinweis: Wenn Sie AnyCrawl selbst hosten, stellen Sie sicher, dass Sie https://api.anycrawl.dev durch Ihre eigene Server-URL ersetzen.

❓ Häufig gestellte Fragen

F: Kann ich einen Proxy verwenden?

A: Ja, AnyCrawl unterstützt HTTP- und SOCKS-Proxys. Konfigurieren Sie dies über die Umgebungsvariable ANYCRAWL_PROXY_URL.

F: Wie verarbeite ich JavaScript-gerenderte Inhalte?

A: AnyCrawl unterstützt Puppeteer und Playwright, um JavaScript-Rendering-Anforderungen zu erfüllen.

Zusammenfassung

AnyCrawl repräsentiert die Spitze der modernen Web-Crawling-Technologie, insbesondere in KI- und Machine-Learning-Anwendungsszenarien. Seine hohe Leistung, Benutzerfreundlichkeit und sein reichhaltiger Funktionsumfang machen es zur idealen Wahl für Entwickler und Unternehmen, die umfangreiche Datenerfassungsaufgaben bewältigen müssen.

Star History Chart