Home
Login

Eine Web-Scraping- und Browserautomatisierungsbibliothek, die speziell für Python entwickelt wurde, um zuverlässige Webcrawler zu erstellen, die die Datenextraktion für KI-, LLM-, RAG- oder GPT-Anwendungen unterstützen.

Apache-2.0Python 5.7kapifycrawlee-python Last Updated: 2025-06-23

Crawlee Python - Bibliothek für Web Scraping und Browserautomatisierung

Projektübersicht

Crawlee ist eine Web Scraping- und Browserautomatisierungsbibliothek, die speziell für Python entwickelt wurde, um zuverlässige Webcrawler zu erstellen. Sie kann Daten für KI-, LLM-, RAG- oder GPT-Anwendungen extrahieren und HTML-, PDF-, JPG-, PNG- und andere Dateien von Websites herunterladen. Das Projekt wird von Apify entwickelt und ist deren Open-Source-Web-Scraping-Bibliothek, die auf BeautifulSoup und Playwright basiert und einen ganzheitlichen Web-Scraping-Ansatz verfolgt.

Hauptmerkmale

Kernfunktionen

  • Unterstützung mehrerer Engines: Funktioniert mit BeautifulSoup, Playwright und nativem HTTP
  • Flexible Modi: Unterstützt Headed- und Headless-Modi
  • Proxy-Rotation: Integrierte Proxy-Rotationsfunktion
  • Datei-Download: Unterstützt das Herunterladen von Dateien in verschiedenen Formaten wie HTML, PDF, JPG, PNG usw.
  • KI-Integrationsoptimierung: Speziell für die Datenextraktion für KI-, LLM-, RAG- und GPT-Anwendungen optimiert

Technische Vorteile

  • Typ-Hinweise: Modernes Design mit Python-Typ-Hinweisen, um Fehler frühzeitig zu erkennen
  • Stabil und zuverlässig: Entwickelt von professionellen Entwicklern, die täglich Millionen von Seiten scrapen
  • Einfach zu bedienen: Ermöglicht den einfachen Wechsel zwischen verschiedenen Scraping-Bibliotheken je nach Bedarf
  • Fehlerbehandlung: Integrierte robuste Fehlerbehandlungs- und Wiederholungsmechanismen

Technische Architektur

Zugrunde liegender Technologie-Stack

# Hauptabhängigkeiten
- BeautifulSoup: Statische HTML-Analyse
- Playwright: Dynamische JavaScript-Rendering-Seitenverarbeitung
- HTTP-Client: Native HTTP-Anfrageunterstützung

Integrationsfähigkeit

  • Apify-Plattformintegration: Nahtlose Integration mit der Apify-Plattform
  • Verschiedene Scraping-Techniken: Unterstützt verschiedene Scraping-Techniken von der statischen HTML-Analyse bis zum dynamischen JavaScript-Rendering

Anwendungsfälle

Hauptanwendungsbereiche

  1. KI-Datenerfassung: Sammeln von Trainingsdaten für maschinelles Lernen und KI-Anwendungen
  2. RAG-Systeme: Bereitstellung von Datenquellen für Retrieval-Augmented Generation-Systeme
  3. GPT-Anwendungen: Bereitstellung von Echtzeitdaten für verschiedene GPT-Anwendungen
  4. Inhaltsüberwachung: Überwachung von Änderungen an Website-Inhalten
  5. Datenanalyse: Sammeln von Daten für die Geschäftsanalyse

Vergleich mit Wettbewerbern

Von den beiden wichtigsten Open-Source-Optionen für Python, Scrapy und Crawlee, hat sich Apify für letzteres entschieden, da es Anfängern ermöglicht, mit weniger Code und weniger Lesezeit Webcrawler zu erstellen.

Projektstatus

Veröffentlichungsinformationen

  • Open-Source-Lizenz: Vollständig Open Source und kostenlos
  • Sprachunterstützung: Python-Version (auch eine Node.js-Version verfügbar)
  • Veröffentlichungszeitpunkt: Die Python-Version hat innerhalb weniger Wochen nach der Veröffentlichung große Aufmerksamkeit erregt
  • Wartungsstatus: Aktiv in Wartung

Community-Resonanz

  • Erhält große Aufmerksamkeit auf GitHub
  • Die Python-Version wurde aufgrund des Erfolgs der JavaScript-Version und der Nachfrage der Python-Community eingeführt
  • Erhält positives Feedback in technischen Communities wie Hacker News

Installation und Schnellstart

Installationsmethode

pip install crawlee

Grundlegendes Nutzungsbeispiel

from crawlee import BeautifulSoupCrawler

# Crawler-Instanz erstellen
crawler = BeautifulSoupCrawler()

# Anfrage-Handler definieren
@crawler.router.default_handler
async def handler(context):
    # Daten extrahieren
    data = {
        'title': context.soup.find('title').get_text(),
        'url': context.request.url
    }
    
    # Daten speichern
    await context.push_data(data)

# Crawler ausführen
await crawler.run(['https://example.com'])

Erweiterte Funktionen

Proxy-Unterstützung

# Proxy-Rotation konfigurieren
crawler = BeautifulSoupCrawler(
    proxy_configuration={
        'proxy_urls': ['http://proxy1:8000', 'http://proxy2:8000']
    }
)

Fehlerbehandlung und Wiederholungen

# Automatische Wiederholungskonfiguration
crawler = BeautifulSoupCrawler(
    max_requests_per_crawl=1000,
    request_timeout=30,
    retry_on_blocked=True
)

Zusammenfassung

Crawlee Python ist eine moderne, leistungsstarke Web-Scraping-Bibliothek, die sich besonders für Szenarien eignet, in denen Daten für KI-Anwendungen gesammelt werden müssen. Sie kombiniert die Vorteile mehrerer ausgereifter Scraping-Technologien, bietet eine übersichtliche API und leistungsstarke Funktionen und ist eine ausgezeichnete Wahl für Python-Entwickler, die Web-Scraping betreiben. Ob einfache Datenextraktion oder komplexe Browserautomatisierungsaufgaben, Crawlee bietet zuverlässige Lösungen.

Star History Chart