Alibaba-NLP/WebAgentPlease refer to the latest official releases for information GitHub Homepage

アリババ通義実験室が開発したインテリジェントなウェブページエージェントシステム。WebWalker、WebDancer、WebSailorの3つのコンポーネントで構成され、自律的な情報検索とウェブページナビゲーションタスクに特化しています。

MITPython 3.1kAlibaba-NLPWebAgent Last Updated: 2025-07-10

WebAgent - スマートウェブエージェントシステム

プロジェクト概要

WebAgentは、アリババ通義ラボ（Tongyi Lab）が開発した革新的なスマートウェブエージェントシステムであり、自律的な情報検索とウェブナビゲーションタスクに特化しています。本プロジェクトは、複雑な情報検索およびウェブ巡回タスクを自律的に実行できるスマートエージェントを構築することを目的として、複数の先進的なコンポーネントを統合しています。

主要コンポーネント

1. WebWalker（ACL 2025）

機能概要：大規模言語モデル（LLM）のウェブ巡回タスクにおけるベンチマークツール
主な特徴：
- 標準化されたウェブ巡回評価フレームワークを提供
- マルチエージェント連携による情報検索をサポート
- LLMのウェブナビゲーション能力に対する定量的評価指標を提供

2. WebDancer（プレプリント 2025）

機能概要：自律情報検索エージェント向けのEnd-to-End学習フレームワーク
主な特徴：
- ReActフレームワークを用いたネイティブなスマート検索推論モデル
- 自律情報検索エージェントおよび深層研究型モデルを実現
- 4段階の学習パラダイム：
  1. ブラウジングデータ構築
  2. 軌跡サンプリング
  3. 教師ありファインチューニング（効果的なコールドスタートを実現）
  4. 強化学習（汎化能力を向上）

3. WebSailor

機能概要：ウェブエージェントの機能範囲を拡張
主な特徴：より広範なウェブ操作およびナビゲーション機能を提供

技術的特徴

データ中心型アプローチ

軌跡レベルの教師ありファインチューニング：正確な軌跡データを用いたモデル学習
強化学習の統合：DAPO（Data-Augmented Policy Optimization）技術を採用
スケーラブルな学習パイプライン：SFT（教師ありファインチューニング）とRL（強化学習）の2つの学習モードをサポート

自律学習能力

スマートエージェントが自律的に検索および推論スキルを獲得
長期間にわたる多段階の複雑な推論タスクをサポート
ウェブ巡回、情報検索、質疑応答のEnd-to-End処理を実現

性能

プロジェクトドキュメントによると、WebDancerは標準ベンチマークテストで優れた性能を発揮しています：

GAIAベンチマーク：Pass@3スコアが61.1%に到達
WebWalkerQAベンチマーク：Pass@3スコアが54.6%に到達

アプリケーションシナリオ

サポートされるタスクタイプ

ウェブ巡回：スマートナビゲーションとページ探索
情報検索：自律的な情報収集と整理
質疑応答システム：ウェブコンテンツに基づく複雑な質疑応答
長時間推論：多段階の複雑な論理推論タスク

デモンストレーション環境

プロジェクトでは複数のデモンストレーション環境を提供しています：

WebWalkerQAデモ
GAIAベンチマークデモ
日常使用シナリオデモ

技術アーキテクチャ

学習パラダイム

1. ブラウジングデータ構築 → 2. 軌跡サンプリング → 3. 教師ありファインチューニング → 4. 強化学習

コア技術スタック

基本フレームワーク：ReAct（Reasoning and Acting）
学習手法：SFT + RL（教師ありファインチューニング + 強化学習）
データ処理：DAPO（Data-Augmented Policy Optimization）

まとめ

WebAgentは、スマートウェブエージェント技術の最新の進展を代表するものであり、複数の先進的なコンポーネントの統合とデータ中心型学習アプローチの採用により、複雑なウェブ環境における自律的な情報検索およびナビゲーション能力を実現しました。本プロジェクトは、学術界に重要な影響を与えただけでなく、実際のアプリケーションにも強力な技術基盤を提供しています。