Alibaba-NLP/WebAgentPlease refer to the latest official releases for information GitHub Homepage
由阿里巴巴通义实验室开发的智能网页代理系统,包含WebWalker、WebDancer和WebSailor三个组件,专注于自主信息搜索和网页导航任务
MITPython 3.1kAlibaba-NLPWebAgent Last Updated: 2025-07-10
WebAgent - 智能网页代理系统
项目概述
WebAgent是由阿里巴巴通义实验室(Tongyi Lab)开发的创新性智能网页代理系统,专注于自主信息搜索和网页导航任务。该项目集成了多个先进组件,旨在构建能够自主执行复杂信息检索和网页遍历任务的智能代理。
主要组件
1. WebWalker(ACL 2025)
- 功能定位:大语言模型在网页遍历任务中的基准测试工具
- 核心特点:
- 提供标准化的网页遍历评估框架
- 支持多智能体协作的信息搜索
- 为LLM的网页导航能力提供量化评估指标
2. WebDancer(预印本 2025)
- 功能定位:面向自主信息搜索代理的端到端训练框架
- 核心特点:
- 原生智能搜索推理模型,使用ReAct框架
- 实现自主信息搜索代理和深度研究类型模型
- 四阶段训练范式:
- 浏览数据构建
- 轨迹采样
- 监督微调(实现有效冷启动)
- 强化学习(改善泛化能力)
3. WebSailor
- 功能定位:扩展网页代理的功能范围
- 核心特点:提供更广泛的网页操作和导航能力
技术特色
数据中心化方法
- 轨迹级监督微调:通过精确的轨迹数据进行模型训练
- 强化学习集成:采用DAPO(Data-Augmented Policy Optimization)技术
- 可扩展训练管道:支持SFT(监督微调)和RL(强化学习)两种训练模式
自主学习能力
- 智能代理能够自主获取搜索和推理技能
- 支持长时间跨度的多步骤复杂推理任务
- 实现网页遍历、信息搜索和问答的端到端处理
性能表现
根据项目文档,WebDancer在标准基准测试中表现优异:
- GAIA基准测试:Pass@3得分达到61.1%
- WebWalkerQA基准测试:Pass@3得分达到54.6%
应用场景
支持的任务类型
- 网页遍历:智能导航和页面探索
- 信息搜索:自主信息收集和整理
- 问答系统:基于网页内容的复杂问答
- 长时间推理:多步骤的复杂逻辑推理任务
演示环境
项目提供了多个演示环境:
- WebWalkerQA演示
- GAIA基准测试演示
- 日常使用场景演示
技术架构
训练范式
1. 浏览数据构建 → 2. 轨迹采样 → 3. 监督微调 → 4. 强化学习
核心技术栈
- 基础框架:ReAct(Reasoning and Acting)
- 训练方法:SFT + RL(监督微调 + 强化学习)
- 数据处理:DAPO(数据增强策略优化)
总结
WebAgent代表了智能网页代理技术的最新发展,通过集成多个先进组件和采用数据中心化的训练方法,实现了在复杂网页环境中的自主信息搜索和导航能力。该项目不仅在学术界产生了重要影响,也为实际应用提供了强大的技术基础。