II-Agentは、複数の分野にわたってワークフローを簡素化および強化することを目的としたオープンソースのインテリジェントアシスタントフレームワークであり、複雑なタスクを独立して実行できます。
II-Agent プロジェクト詳細
プロジェクト概要
II-Agent は、複数の分野にわたってワークフローを簡素化し、強化することを目的としたオープンソースのインテリジェントアシスタントです。これは、技術とのインタラクション方法における大きな進歩であり、受動的なツールから、複雑なタスクを独立して実行できるインテリジェントなシステムへの移行を意味します。
プロジェクトアドレス: https://github.com/Intelligent-Internet/ii-agent
主要な特徴
II Agent は、Anthropic Claude モデルにエージェントインターフェースを提供することを中心に構築されており、以下の機能を提供します。
- CLIインターフェース: 直接的なコマンドラインインタラクション
- WebSocketサーバー: 最新のReactフロントエンドをサポート
- Google Cloud Vertex AI 統合: API を介して Anthropic モデルにアクセス
応用分野と機能
分野 | II-Agent の機能 |
---|---|
調査とファクトチェック | 複数ステップのウェブ検索、情報源の三角測量、構造化されたメモ、迅速な要約 |
コンテンツ生成 | ブログや記事の草稿、授業計画、創造的なエッセイ、技術マニュアル、ウェブサイトの作成 |
データ分析と可視化 | データクレンジング、統計分析、トレンド検出、グラフ作成、自動レポート生成 |
ソフトウェア開発 | コード合成、リファクタリング、デバッグ、テスト作成、多言語ステップバイステップチュートリアル |
ワークフロー自動化 | スクリプト生成、ブラウザ自動化、ファイル管理、プロセス最適化 |
問題解決 | 問題の分解、代替パスの探索、ステップバイステップのガイダンス、トラブルシューティング |
システムアーキテクチャ
II-Agent システムは、多機能 AI エージェントを構築するために複雑なアプローチを採用しており、その中心となる方法は次のとおりです。
1. コアエージェントアーキテクチャとLLMインタラクション
- コンテキストを動的にカスタマイズするシステムプロンプト
- 包括的なインタラクション履歴管理
- トークン制限を処理するためのインテリジェントなコンテキスト管理
- システム化されたLLM呼び出しと機能選択
- 実行サイクルによる反復的な最適化
2. 計画と反省
- 複雑な問題解決のための構造化された推論
- 問題の分解と順序立てた思考
- 透明性の高い意思決定プロセス
- 仮説の形成とテスト
3. 実行能力
- インテリジェントなコード編集によるファイルシステム操作
- 安全な環境でのコマンドライン実行
- 高度なウェブインタラクションとブラウザ自動化
- タスク完了とレポート
- さまざまなモダリティの専用機能(実験的):PDF、オーディオ、画像、ビデオ、スライド
- 詳細な調査統合
4. コンテキスト管理
- トークン使用量の推定と最適化
- 長いインタラクションのための戦略的な切り捨て
- 大規模な出力のためのファイルベースのアーカイブ
5. リアルタイム通信
- WebSocket ベースのインタラクティブなインターフェース
- クライアントごとの隔離されたエージェントインスタンス
- レスポンシブなユーザーエクスペリエンスのためのストリーミング操作イベント
性能評価
II-Agent は、GAIA ベンチマークで評価されています。このベンチマークは、現実のシナリオで実行される LLM ベースのエージェントを、マルチモーダル処理、ツール利用、ウェブ検索など、複数の側面から評価します。
評価プロセス中に、GAIA ベンチマークのいくつかの問題が発見されました。
- 注釈エラー: データセット内のいくつかの不正確な注釈
- 古い情報: 一部の問題は、アクセスできなくなったウェブサイトまたはコンテンツを参照
- 言語の曖昧さ: 不明瞭な表現により、問題に対するさまざまな解釈が生じる
これらの課題にもかかわらず、II-Agent はベンチマークで優れたパフォーマンスを発揮し、特に複雑な推論、ツール使用、および複数ステップの計画を必要とする分野で優れていました。
インストールと設定
システム要件
- Python 3.10+
- Node.js 18+(フロントエンド用)
- Vertex AI API が有効になっている Google Cloud プロジェクトまたは Anthropic API キー
環境設定
ルートディレクトリに .env
ファイルを作成します。
# 画像とビデオ生成ツール
OPENAI_API_KEY=your_openai_key
OPENAI_AZURE_ENDPOINT=your_azure_endpoint
# 検索プロバイダー
TAVILY_API_KEY=your_tavily_key
#JINA_API_KEY=your_jina_key
#FIRECRAWL_API_KEY=your_firecrawl_key
# 画像検索とより良い検索結果のために、SerpAPI を使用
#SERPAPI_API_KEY=your_serpapi_key
STATIC_FILE_BASE_URL=http://localhost:8000/
# Anthropic クライアントを使用する場合
ANTHROPIC_API_KEY=
# Google Vertex を使用する場合(推奨、権限がある場合は追加のスループットが得られます)
#GOOGLE_APPLICATION_CREDENTIALS=
フロントエンド環境設定、frontend ディレクトリに .env
ファイルを作成します。
NEXT_PUBLIC_API_URL=http://localhost:8000
インストール手順
リポジトリをクローン
Python 環境を設定:
python -m venv .venv
source .venv/bin/activate # Windows: .venv\Scripts\activate
pip install -e .
- フロントエンドを設定(オプション):
cd frontend
npm install
使用方法
CLI の使用
Anthropic クライアントを使用:
python cli.py
Vertex を使用:
python cli.py --project-id YOUR_PROJECT_ID --region YOUR_REGION
CLI オプション:
--project-id
: Google Cloud プロジェクト ID--region
: Google Cloud リージョン(例:us-east5)--workspace
: ワークスペースディレクトリパス(デフォルト:./workspace)--needs-permission
: コマンドを実行する前に権限が必要--minimize-stdout-logs
: stdout に出力されるログ量を減らす
Web インターフェースの使用
- WebSocket サーバーを起動:
Anthropic クライアントを使用:
export STATIC_FILE_BASE_URL=http://localhost:8000
python ws_server.py --port 8000
Vertex を使用:
export STATIC_FILE_BASE_URL=http://localhost:8000
python ws_server.py --port 8000 --project-id YOUR_PROJECT_ID --region YOUR_REGION
- フロントエンドを起動(別のターミナルで):
cd frontend
npm run dev
- ブラウザを開き http://localhost:3000 にアクセス
プロジェクト構造
cli.py
: コマンドラインインターフェースws_server.py
: フロントエンド WebSocket サーバーsrc/ii_agent/
: コアエージェントの実装agents/
: エージェントの実装llm/
: LLM クライアントインターフェースtools/
: ツールの実装utils/
: ユーティリティ関数
技術的な特徴
II-Agent フレームワークは、Claude 3.7 Sonnet などの大規模言語モデルの推論能力を中心に構築されており、多機能 AI エージェントを構築するための包括的かつ強力なアプローチを示しています。強力な LLM、豊富な実行能力の集合、明確な計画と反省のメカニズム、およびインテリジェントなコンテキスト管理戦略の相乗効果により、II-Agent は広範囲にわたる複雑な複数ステップのタスクを処理できます。
まとめ
II-Agent は、インテリジェントエージェント技術の重要な進歩を表しており、そのオープンソースの性質と拡張可能な設計は、急速に進化するエージェント AI 分野での継続的な研究開発のための強固な基盤を提供します。その多分野にわたる応用能力と強力な技術アーキテクチャを通じて、II-Agent はユーザーに機能的で使いやすいインテリジェントアシスタントプラットフォームを提供します。