Alibaba-NLP/WebAgentPlease refer to the latest official releases for information GitHub Homepage
由阿里巴巴通義實驗室開發的智慧網頁代理系統,包含WebWalker、WebDancer和WebSailor三個組件,專注於自主資訊搜尋和網頁導航任務
MITPython 3.1kAlibaba-NLPWebAgent Last Updated: 2025-07-10
WebAgent - 智能網頁代理系統
專案概述
WebAgent 是由阿里巴巴通義實驗室(Tongyi Lab)開發的創新性智能網頁代理系統,專注於自主資訊搜尋和網頁導航任務。該專案整合了多個先進組件,旨在建構能夠自主執行複雜資訊檢索和網頁遍歷任務的智能代理。
主要組件
1. WebWalker(ACL 2025)
- 功能定位:大語言模型在網頁遍歷任務中的基準測試工具
- 核心特點:
- 提供標準化的網頁遍歷評估框架
- 支援多智能體協作的資訊搜尋
- 為LLM的網頁導航能力提供量化評估指標
2. WebDancer(預印本 2025)
- 功能定位:面向自主資訊搜尋代理的端到端訓練框架
- 核心特點:
- 原生智能搜尋推理模型,使用ReAct框架
- 實現自主資訊搜尋代理和深度研究類型模型
- 四階段訓練範式:
- 瀏覽資料建構
- 軌跡取樣
- 監督微調(實現有效冷啟動)
- 強化學習(改善泛化能力)
3. WebSailor
- 功能定位:擴展網頁代理的功能範圍
- 核心特點:提供更廣泛的網頁操作和導航能力
技術特色
資料中心化方法
- 軌跡級監督微調:透過精確的軌跡資料進行模型訓練
- 強化學習整合:採用DAPO(Data-Augmented Policy Optimization)技術
- 可擴展訓練管道:支援SFT(監督微調)和RL(強化學習)兩種訓練模式
自主學習能力
- 智能代理能夠自主獲取搜尋和推理技能
- 支援長時間跨度的多步驟複雜推理任務
- 實現網頁遍歷、資訊搜尋和問答的端到端處理
性能表現
根據專案文件,WebDancer在標準基準測試中表現優異:
- GAIA基準測試:Pass@3得分達到61.1%
- WebWalkerQA基準測試:Pass@3得分達到54.6%
應用場景
支援的任務類型
- 網頁遍歷:智能導航和頁面探索
- 資訊搜尋:自主資訊收集和整理
- 問答系統:基於網頁內容的複雜問答
- 長時間推理:多步驟的複雜邏輯推理任務
演示環境
專案提供了多個演示環境:
- WebWalkerQA演示
- GAIA基準測試演示
- 日常使用場景演示
技術架構
訓練範式
1. 瀏覽資料建構 → 2. 軌跡取樣 → 3. 監督微調 → 4. 強化學習
核心技術棧
- 基礎框架:ReAct(Reasoning and Acting)
- 訓練方法:SFT + RL(監督微調 + 強化學習)
- 資料處理:DAPO(資料增強策略優化)
總結
WebAgent代表了智能網頁代理技術的最新發展,透過整合多個先進組件和採用資料中心化的訓練方法,實現了在複雜網頁環境中的自主資訊搜尋和導航能力。該專案不僅在學術界產生了重要影響,也為實際應用提供了強大的技術基礎。