Home
Login

Bibliothèque Python de web scraping intelligente basée sur l'IA et les grands modèles de langage, utilisant la logique de graphe pour créer des pipelines de scraping.

MITPython 20.0kScrapeGraphAI Last Updated: 2025-06-16

ScrapeGraphAI - Bibliothèque de Web Scraping Révolutionnaire Pilotée par l'IA

Aperçu du Projet

ScrapeGraphAI est une bibliothèque Python innovante de web scraping qui combine de manière révolutionnaire les grands modèles de langage (LLM) et la logique de graphe directe pour créer des pipelines de récupération de données web intelligents. Cette bibliothèque peut traiter des sites web et des documents locaux (XML, HTML, JSON, Markdown, etc.), et les utilisateurs n'ont qu'à décrire les informations qu'ils souhaitent extraire, la bibliothèque se chargeant automatiquement du travail de scraping.

Caractéristiques Principales

🤖 Scraping Intelligent Piloté par l'IA

  • Invites en Langage Naturel : Décrivez simplement en langage naturel les informations à extraire.
  • Prise en Charge de Plusieurs Modèles : Prend en charge les modes API tels que OpenAI, Groq, Azure, Gemini, ainsi que les modèles locaux Ollama.
  • Compréhension Intelligente : L'IA est capable de comprendre la structure et le contenu des pages web, extrayant avec précision les informations requises.

🕸️ Pipelines de Scraping Diversifiés

1. SmartScraperGraph

  • Utilisation : Scraper de page unique
  • Fonctionnalités : Effectue le scraping uniquement avec l'invite de l'utilisateur et la source d'entrée.
  • Scénarios d'Application : Extraction d'informations spécifiques d'une seule page web.

2. SearchGraph

  • Utilisation : Scraper de recherche multi-pages
  • Fonctionnalités : Extrait des informations des n premiers résultats de recherche des moteurs de recherche.
  • Scénarios d'Application : Collecte d'informations multi-sources sur un sujet spécifique.

3. SpeechGraph

  • Utilisation : Scraper de génération vocale
  • Fonctionnalités : Extrait des informations d'un site web et génère un fichier audio.
  • Scénarios d'Application : Podcast de contenu, accessibilité.

4. ScriptCreatorGraph

  • Utilisation : Générateur de scripts
  • Fonctionnalités : Extrait des informations d'un site web et génère un script Python.
  • Scénarios d'Application : Génération de code automatisée.

5. SmartScraperMultiGraph

  • Utilisation : Scraper intelligent multi-pages
  • Fonctionnalités : Extrait des informations de plusieurs sources avec une seule invite.
  • Scénarios d'Application : Collecte de données en masse.

6. ScriptCreatorMultiGraph

  • Utilisation : Générateur de scripts multi-pages
  • Fonctionnalités : Génère des scripts d'extraction Python pour plusieurs pages et sources.
  • Scénarios d'Application : Déploiement automatisé à grande échelle.

Installation et Configuration

Installation de Base

pip install scrapegraphai
# Important : Installer le support du navigateur
playwright install

Exigences Environnementales

  • Python 3.8+
  • Il est recommandé d'utiliser un environnement virtuel pour éviter les conflits de dépendances.

Exemples d'Utilisation

Utilisation de Base

from scrapegraphai.graphs import SmartScraperGraph

# Définir la configuration
graph_config = {
    "llm": {
        "model": "ollama/llama3.2",
        "model_tokens": 8192
    },
    "verbose": True,
    "headless": False,
}

# Créer une instance de scraper
smart_scraper_graph = SmartScraperGraph(
    prompt="Extraire les informations utiles de la page web, y compris la description de l'entreprise, les fondateurs et les liens vers les médias sociaux",
    source="https://scrapegraphai.com/",
    config=graph_config
)

# Exécuter le scraping
result = smart_scraper_graph.run()

Configuration du Modèle OpenAI

graph_config = {
    "llm": {
        "api_key": "YOUR_OPENAI_API_KEY",
        "model": "openai/gpt-4o-mini",
    },
    "verbose": True,
    "headless": False,
}

Architecture Technique

Pile Technologique Principale

  • LangChain : En tant que framework d'intégration LLM
  • Logique de Graphe : Utilisée pour construire des pipelines de scraping complexes
  • Playwright : Fournit un support de rendu web moderne
  • Prise en Charge de Plusieurs LLM : Mécanisme flexible de sélection de modèles

Mécanisme de Traitement

  • Partitionnement Intelligent : Traitement par blocs des grands sites web/documents pour gérer les limites de la fenêtre contextuelle.
  • Stratégie de Chevauchement : Utilisation d'une stratégie de chevauchement entre les blocs pour assurer l'intégrité des informations.
  • Techniques de Compression : Application de techniques de compression pour réduire le nombre de tokens.
  • Fusion des Résultats : Fusion intelligente des résultats de plusieurs blocs pour générer la réponse finale.

Produits Commercialisés

Service API

  • API Officielle : Fournit un puissant service de scraping dans le cloud.
  • SDK Multi-langues : Prend en charge Python et Node.js.
  • Support Entreprise : Fournit des solutions commercialisées stables et fiables.

Capacités d'Intégration

  • Intégration Transparente : Prend en charge les frameworks et outils courants.
  • Déploiement Flexible : Convient à divers environnements de développement.
  • Extensibilité : Prend en charge le scraping concurrent à grande échelle.

Scénarios d'Application

Science des Données et Analyse

  • Étude de Marché : Collecte automatique d'informations sur les concurrents.
  • Exploration de Données : Extraction de données structurées à partir de sites web multi-sources.
  • Analyse des Tendances : Surveillance en temps réel de la dynamique de l'industrie.

Gestion de Contenu

  • Agrégation de Contenu : Collecte automatique de contenu pertinent.
  • Organisation de l'Information : Extraction et classification intelligentes de l'information.
  • Construction de Base de Connaissances : Mise à jour automatisée de la base de connaissances.

Automatisation des Processus Métier

  • Surveillance des Prix : Suivi en temps réel des variations de prix.
  • Gestion des Stocks : Obtention automatique des informations sur les fournisseurs.
  • Connaissance du Client : Collecte des commentaires et des évaluations des utilisateurs.

Avantages et Caractéristiques

Par Rapport aux Crawlers Traditionnels

  1. Compréhension Intelligente : Pas besoin d'écrire des règles de sélecteur complexes.
  2. Forte Adaptabilité : Capable de traiter les pages web dynamiques et les structures complexes.
  3. Faibles Coûts de Maintenance : Pas besoin de réécrire le code lorsque la structure du site web change.
  4. Haute Précision : L'IA comprend la sémantique, extrayant des informations plus précises.

Innovation Technique

  1. Architecture de Logique de Graphe : Fournit un contrôle flexible du flux de données.
  2. Prise en Charge de Plusieurs Modèles : Les utilisateurs peuvent choisir le LLM le plus approprié.
  3. Traitement Parallèle : Prend en charge le scraping parallèle multi-threading.
  4. Optimisation Intelligente : Optimise automatiquement les stratégies de scraping.

Précautions

Restrictions d'Utilisation

  • Objectifs de Recherche : Principalement utilisé pour l'exploration de données et les objectifs de recherche.
  • Légalité et Conformité : Les utilisateurs doivent s'assurer qu'ils respectent les lois et réglementations en vigueur.
  • Déclaration de Responsabilité : L'équipe de développement n'est pas responsable des comportements abusifs.

Bonnes Pratiques

  • Gestion des Clés API : Conserver soigneusement toutes les clés API.
  • Contrôle de la Fréquence : Contrôler raisonnablement la fréquence de scraping pour éviter de mettre la pression sur le site web cible.
  • Traitement des Données : Nettoyer et valider correctement les données extraites.

Conclusion

ScrapeGraphAI représente l'avenir de la technologie de web scraping. Grâce à la puissance de l'IA, la récupération de données devient plus intelligente et plus efficace. Avec le développement continu de la technologie des grands modèles de langage, ce projet devrait jouer un rôle plus important dans le domaine du traitement automatisé des données.