Alibaba-NLP/WebAgentPlease refer to the latest official releases for information GitHub Homepage

Un système d'agent web intelligent développé par le laboratoire Tongyi d'Alibaba, comprenant trois composants : WebWalker, WebDancer et WebSailor, axé sur la recherche d'informations autonome et les tâches de navigation web.

MITPython 3.1kAlibaba-NLPWebAgent Last Updated: 2025-07-10

WebAgent - Système intelligent d'agent web

Aperçu du projet

WebAgent est un système innovant d'agent web intelligent développé par le laboratoire Tongyi (Tongyi Lab) d'Alibaba, axé sur les tâches de recherche d'informations autonomes et de navigation web. Ce projet intègre plusieurs composants avancés dans le but de construire un agent intelligent capable d'exécuter de manière autonome des tâches complexes de récupération d'informations et de parcours web.

Composants principaux

1. WebWalker (ACL 2025)

Positionnement fonctionnel : Outil de benchmarking pour les grands modèles linguistiques (LLM) dans les tâches de parcours web.
Caractéristiques principales :
- Fournit un cadre d'évaluation standardisé pour le parcours web.
- Prend en charge la recherche d'informations collaborative multi-agents.
- Offre des indicateurs d'évaluation quantifiables pour la capacité de navigation web des LLM.

2. WebDancer (Prépublication 2025)

Positionnement fonctionnel : Cadre d'entraînement de bout en bout pour les agents de recherche d'informations autonomes.
Caractéristiques principales :
- Modèle natif de raisonnement pour la recherche intelligente, utilisant le cadre ReAct.
- Implémente des agents de recherche d'informations autonomes et des modèles de type recherche approfondie.
- Paradigme d'entraînement en quatre étapes :
  1. Construction des données de navigation
  2. Échantillonnage de trajectoires
  3. Fine-tuning supervisé (pour un démarrage à froid efficace)
  4. Apprentissage par renforcement (pour améliorer la capacité de généralisation)

3. WebSailor

Positionnement fonctionnel : Étendre le champ fonctionnel des agents web.
Caractéristiques principales : Offre des capacités d'opération et de navigation web plus étendues.

Caractéristiques techniques

Approche centrée sur les données

Fine-tuning supervisé au niveau de la trajectoire : Entraînement du modèle via des données de trajectoire précises.
Intégration de l'apprentissage par renforcement : Utilisation de la technique DAPO (Data-Augmented Policy Optimization).
Pipeline d'entraînement évolutif : Prend en charge les deux modes d'entraînement : SFT (Supervised Fine-Tuning) et RL (Reinforcement Learning).

Capacité d'apprentissage autonome

Les agents intelligents peuvent acquérir de manière autonome des compétences de recherche et de raisonnement.
Prend en charge les tâches de raisonnement complexes multi-étapes sur de longues périodes.
Réalise le traitement de bout en bout du parcours web, de la recherche d'informations et des questions-réponses.

Performances

Selon la documentation du projet, WebDancer affiche d'excellentes performances sur les benchmarks standards :

Benchmark GAIA : Score Pass@3 atteignant 61,1 %.
Benchmark WebWalkerQA : Score Pass@3 atteignant 54,6 %.

Scénarios d'application

Types de tâches pris en charge

Parcours web : Navigation intelligente et exploration de pages.
Recherche d'informations : Collecte et organisation autonomes d'informations.
Système de questions-réponses : Questions-réponses complexes basées sur le contenu web.
Raisonnement à long terme : Tâches de raisonnement logique complexes en plusieurs étapes.

Environnements de démonstration

Le projet propose plusieurs environnements de démonstration :

Démonstration WebWalkerQA
Démonstration du benchmark GAIA
Démonstration de scénarios d'utilisation quotidienne

Architecture technique

Paradigme d'entraînement

1. Construction des données de navigation → 2. Échantillonnage de trajectoires → 3. Fine-tuning supervisé → 4. Apprentissage par renforcement

Pile technologique principale

Cadre de base : ReAct (Reasoning and Acting)
Méthodes d'entraînement : SFT + RL (Fine-tuning supervisé + Apprentissage par renforcement)
Traitement des données : DAPO (Data-Augmented Policy Optimization)

Conclusion

WebAgent représente la dernière avancée en matière de technologie d'agent web intelligent. En intégrant plusieurs composants avancés et en adoptant une approche d'entraînement centrée sur les données, il a permis d'atteindre des capacités autonomes de recherche d'informations et de navigation dans des environnements web complexes. Ce projet a non seulement eu un impact significatif dans le monde universitaire, mais il fournit également une base technique solide pour des applications pratiques.