ScrapeGraphAI/Scrapegraph-aiPlease refer to the latest official releases for information GitHub Homepage

Eine intelligente Web-Crawler-Python-Bibliothek, die auf KI und großen Sprachmodellen basiert und die Graphenlogik verwendet, um Crawling-Pipelines zu erstellen.

MITPython 20.0kScrapeGraphAI Last Updated: 2025-06-16

ScrapeGraphAI - Revolutionäre KI-gesteuerte Web-Crawling-Bibliothek

Projektübersicht

ScrapeGraphAI ist eine innovative Python-Web-Crawling-Bibliothek, die auf revolutionäre Weise Large Language Models (LLM) und direkte Graphlogik kombiniert, um intelligente Web-Scraping-Pipelines zu erstellen. Die Bibliothek kann Websites und lokale Dokumente (XML, HTML, JSON, Markdown usw.) verarbeiten, wobei der Benutzer lediglich die gewünschten Informationen beschreiben muss, und die Bibliothek erledigt das Crawling automatisch.

Kernfunktionen

🤖 KI-gesteuertes intelligentes Crawling

Natürliche Sprachprompts: Beschreiben Sie einfach in natürlicher Sprache, welche Informationen Sie crawlen möchten
Multi-Modell-Unterstützung: Unterstützt API-Modi wie OpenAI, Groq, Azure, Gemini sowie lokale Ollama-Modelle
Intelligentes Verständnis: KI kann die Webseitenstruktur und den Inhalt verstehen und die benötigten Informationen präzise extrahieren

🕸️ Vielfältige Crawling-Pipelines

1. SmartScraperGraph

Verwendung: Single-Page-Scraper
Funktion: Benötigt nur Benutzerprompts und Eingabequellen, um das Crawling abzuschließen
Anwendungsfälle: Extrahieren spezifischer Informationen von einer einzelnen Webseite

2. SearchGraph

Verwendung: Multi-Page-Such-Scraper
Funktion: Extrahieren von Informationen aus den ersten n Suchergebnissen von Suchmaschinen
Anwendungsfälle: Sammeln von Multi-Source-Informationen zu einem bestimmten Thema

3. SpeechGraph

Verwendung: Sprachgenerierungs-Scraper
Funktion: Extrahieren von Informationen von Websites und Generieren von Audiodateien
Anwendungsfälle: Content-Podcasting, barrierefreier Zugang

4. ScriptCreatorGraph

Verwendung: Skriptgenerator
Funktion: Extrahieren von Informationen von Websites und Generieren von Python-Skripten
Anwendungsfälle: Automatisierte Codegenerierung

5. SmartScraperMultiGraph

Verwendung: Multi-Page-Intelligent-Scraper
Funktion: Extrahieren von Informationen aus mehreren Quellen mit einem einzigen Prompt
Anwendungsfälle: Batch-Datenerfassung

6. ScriptCreatorMultiGraph

Verwendung: Multi-Page-Skriptgenerator
Funktion: Generieren von Python-Extraktionsskripten für mehrere Seiten und Quellen
Anwendungsfälle: Große automatisierte Bereitstellung

Installation und Konfiguration

Basisinstallation

pip install scrapegraphai
# Wichtig: Browser-Unterstützung installieren
playwright install

Systemanforderungen

Python 3.8+
Es wird empfohlen, eine virtuelle Umgebung zu verwenden, um Abhängigkeitskonflikte zu vermeiden

Anwendungsbeispiele

Grundlegende Verwendung

from scrapegraphai.graphs import SmartScraperGraph

# Konfiguration definieren
graph_config = {
    "llm": {
        "model": "ollama/llama3.2",
        "model_tokens": 8192
    },
    "verbose": True,
    "headless": False,
}

# Scraper-Instanz erstellen
smart_scraper_graph = SmartScraperGraph(
    prompt="Extrahieren Sie nützliche Informationen von der Webseite, einschließlich Unternehmensbeschreibung, Gründer und Social-Media-Links",
    source="https://scrapegraphai.com/",
    config=graph_config
)

# Crawling ausführen
result = smart_scraper_graph.run()

OpenAI-Modellkonfiguration

graph_config = {
    "llm": {
        "api_key": "YOUR_OPENAI_API_KEY",
        "model": "openai/gpt-4o-mini",
    },
    "verbose": True,
    "headless": False,
}

Technische Architektur

Kerntechnologien

LangChain: Als LLM-Integrationsframework
Graphlogik: Zum Aufbau komplexer Crawling-Pipelines
Playwright: Bietet moderne Webseiten-Rendering-Unterstützung
Multi-LLM-Unterstützung: Flexible Modellauswahlmechanismen

Verarbeitungsmechanismen

Intelligente Chunking: Chunking großer Websites/Dokumente zur Bewältigung von Kontextfensterbeschränkungen
Überlappungsstrategie: Verwendung einer Überlappungsstrategie zwischen Chunks, um die Vollständigkeit der Informationen sicherzustellen
Komprimierungstechniken: Anwendung von Komprimierungstechniken zur Reduzierung der Tokenanzahl
Ergebniszusammenführung: Intelligente Zusammenführung mehrerer Chunk-Ergebnisse zur Generierung der endgültigen Antwort

Kommerzialisierte Produkte

API-Dienste

Offizielle API: Bietet leistungsstarke Cloud-Crawling-Dienste
Mehrsprachige SDKs: Unterstützt Python und Node.js
Enterprise-Support: Bietet stabile und zuverlässige kommerzielle Lösungen

Integrationsfähigkeit

Nahtlose Integration: Unterstützt Mainstream-Frameworks und -Tools
Flexible Bereitstellung: Geeignet für verschiedene Entwicklungsumgebungen
Skalierbarkeit: Unterstützt groß angelegtes paralleles Crawling

Anwendungsfälle

Data Science und Analyse

Marktforschung: Automatisches Sammeln von Wettbewerbsinformationen
Data Mining: Extrahieren strukturierter Daten von Multi-Source-Websites
Trendanalyse: Echtzeitüberwachung von Branchentrends

Content Management

Content Aggregation: Automatisches Sammeln relevanter Inhalte
Informationsorganisation: Intelligentes Extrahieren und Klassifizieren von Informationen
Wissensdatenbankaufbau: Automatisierte Wissensdatenbankaktualisierung

Geschäftsautomatisierung

Preisüberwachung: Echtzeitverfolgung von Preisänderungen
Bestandsverwaltung: Automatisches Abrufen von Lieferanteninformationen
Kundeneinblicke: Sammeln von Benutzerfeedback und -bewertungen

Vorteile und Merkmale

Im Vergleich zu traditionellen Crawlern

Intelligentes Verständnis: Keine Notwendigkeit, komplexe Selektorregeln zu schreiben
Hohe Anpassungsfähigkeit: Kann dynamische Webseiten und komplexe Strukturen verarbeiten
Niedrige Wartungskosten: Keine Notwendigkeit, Code bei Änderungen der Webseitenstruktur neu zu schreiben
Hohe Genauigkeit: KI versteht Semantik und extrahiert genauer

Technische Innovationen

Graphlogikarchitektur: Bietet flexible Datenflusskontrolle
Multi-Modell-Unterstützung: Benutzer können das am besten geeignete LLM auswählen
Parallele Verarbeitung: Unterstützt Multi-Thread-paralleles Crawling
Intelligente Optimierung: Automatische Optimierung der Crawling-Strategie

Hinweise

Nutzungsbeschränkungen

Forschungszwecke: Hauptsächlich für Datenerkundung und Forschungszwecke
Rechtmäßigkeit und Compliance: Benutzer müssen sicherstellen, dass sie die relevanten Gesetze und Vorschriften einhalten
Haftungsausschluss: Das Entwicklungsteam ist nicht verantwortlich für Missbrauch

Best Practices

API-Schlüsselverwaltung: Sichere Aufbewahrung aller Arten von API-Schlüsseln
Frequenzkontrolle: Angemessene Steuerung der Crawling-Frequenz, um die Zielwebsite nicht zu belasten
Datenverarbeitung: Angemessene Bereinigung und Validierung der gecrawlten Daten

Zusammenfassung

ScrapeGraphAI repräsentiert die zukünftige Richtung der Web-Crawling-Technologie und macht die Datenerfassung durch die Leistungsfähigkeit der KI intelligenter und effizienter. Mit der kontinuierlichen Weiterentwicklung der Large Language Model-Technologie wird erwartet, dass dieses Projekt eine größere Rolle im Bereich der automatisierten Datenverarbeitung spielen wird.