Googleが公式に発表したGemini 2.5コンピュータ使用モデルのプレビュープロジェクト。自然言語の指示を通じて、ブラウザを制御しタスクを実行するAIエージェントをサポートします。
Google Computer Use Preview プロジェクト紹介
プロジェクト概要
Google Computer Use Preview は、Googleが公式にリリースしたオープンソースプロジェクトであり、Gemini 2.5ベースのComputer Useモデルの能力を示しています。このプロジェクトにより、開発者は自然言語指示を通じてブラウザに様々なタスクを実行させ、真のブラウザ自動化エージェントを実現できます。
プロジェクトアドレス: https://github.com/google/computer-use-preview
オープンソースライセンス: Apache 2.0
主要機能
1. 自然言語による制御
ユーザーは簡単な自然言語でタスクを記述でき、AIエージェントが自動的に解析し、対応するブラウザ操作を実行します。例えば:
- ボタンのクリック
- フォームへの入力
- ページのスクロール
- テキストの入力
- 検索の実行
2. 複数環境のサポート
プロジェクトは2つの実行環境をサポートしています:
- Playwright: ローカルブラウザ制御。Chromeブラウザを使用してローカルでタスクを実行します。
- Browserbase: クラウドブラウザサービス。リモートブラウザ制御をサポートします。
3. Gemini 2.5モデルに基づく
このプロジェクトは、Googleの最新モデルgemini-2.5-computer-use-preview-10-2025を使用しています。このモデルはUIインタラクションに特化して最適化されており、以下の特徴を備えています:
- 強力な視覚理解能力
- 正確なUI要素認識
- 低遅延応答
- 優れた推論能力
4. APIの柔軟性
2つのAPIアクセス方法をサポートしています:
- Gemini Developer API: 迅速な開発とテストに適しています。
- Vertex AI: エンタープライズレベルのアプリケーションデプロイに適しています。
技術アーキテクチャ
主要コンポーネント
ブラウザ制御層
- Playwright: ローカルブラウザ自動化フレームワーク
- Browserbase: クラウドブラウザインフラストラクチャ
AIモデル層
- Gemini 2.5 Computer Useモデル
- 視覚理解と推論能力
- UIアクション生成
エージェントループ
- ユーザーからのクエリを受信
- スクリーンショットをキャプチャ
- アクションを生成し実行
- 履歴操作を追跡
動作原理
- ユーザーが自然言語でタスク記述を提供します。
- システムが現在のブラウザのスクリーンショットをキャプチャします。
- Geminiモデルがスクリーンショットとタスク要件を分析します。
- モデルが具体的なUI操作指示(クリック、入力、スクロールなど)を生成します。
- 操作を実行し、新しい画面状態を取得します。
- タスクが完了するまでステップ2-5を繰り返します。
クイックスタート
環境要件
- Python 3.x
- Chromeブラウザ
- Gemini APIキー(またはVertex AIアクセス権限)
インストール手順
- プロジェクトのクローン
git clone https://github.com/google/computer-use-preview.git
cd computer-use-preview
- 仮想環境の作成と依存関係のインストール
python3 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt
- Playwrightとブラウザのインストール
# Chromeに必要なシステム依存関係をインストール
playwright install-deps chrome
# Chromeブラウザをインストール
playwright install chrome
APIキーの設定
Gemini Developer APIの使用
export GEMINI_API_KEY="YOUR_GEMINI_API_KEY"
または、仮想環境に永続的に追加:
echo 'export GEMINI_API_KEY="YOUR_GEMINI_API_KEY"' >> .venv/bin/activate
deactivate
source .venv/bin/activate
Vertex AIの使用
export USE_VERTEXAI=true
export VERTEXAI_PROJECT="YOUR_PROJECT_ID"
export VERTEXAI_LOCATION="YOUR_LOCATION"
使用例
1. 基本的な使用法(Playwrightローカル環境)
python main.py --query="Go to Google and type 'Hello World' into the search bar" --env="playwright"
2. 初期URLの指定
python main.py \
--query="Go to Google and type 'Hello World' into the search bar" \
--env="playwright" \
--initial_url="https://www.google.com/search?q=latest+AI+news"
3. Browserbaseクラウド環境の使用
まずBrowserbase環境変数を設定します:
export BROWSERBASE_API_KEY="YOUR_BROWSERBASE_API_KEY"
export BROWSERBASE_PROJECT_ID="YOUR_BROWSERBASE_PROJECT_ID"
次に実行します:
python main.py \
--query="Go to Google and type 'Hello World' into the search bar" \
--env="browserbase"
コマンドライン引数説明
主要な引数
| 引数 | 説明 | 必須 | デフォルト値 | サポート環境 |
|---|---|---|---|---|
--query |
自然言語によるタスク記述 | はい | N/A | 全て |
--env |
実行環境(playwright/browserbase) | いいえ | N/A | 全て |
--initial_url |
ブラウザ起動時に読み込む初期URL | いいえ | https://www.google.com | playwright |
--highlight_mouse |
スクリーンショットにマウス位置をハイライト表示(デバッグ用) | いいえ | false | playwright |
環境変数
| 変数名 | 説明 | 必須 |
|---|---|---|
GEMINI_API_KEY |
Gemini APIキー | はい(Gemini API使用時) |
BROWSERBASE_API_KEY |
Browserbase APIキー | はい(browserbase環境使用時) |
BROWSERBASE_PROJECT_ID |
BrowserbaseプロジェクトID | はい(browserbase環境使用時) |
USE_VERTEXAI |
Vertex AIを有効にする | いいえ |
VERTEXAI_PROJECT |
Vertex AIプロジェクトID | はい(Vertex AI使用時) |
VERTEXAI_LOCATION |
Vertex AIのロケーション | はい(Vertex AI使用時) |
ユースケース
1. 自動テスト
- UI回帰テスト
- エンドツーエンドテスト
- クロスブラウザテスト
2. データスクレイピング
- フォームの自動入力
- ウェブデータ抽出
- 定期的なタスク実行
3. ワークフローの自動化
- 繰り返しタスクの自動化
- 多段階のビジネスプロセス
- バッチ操作処理
4. パーソナルアシスタント
- 日常的なウェブ操作の自動化
- 情報収集と整理
- スマートなウェブナビゲーション
パフォーマンス
GoogleとBrowserbaseの評価データによると、Gemini 2.5 Computer Useモデルは複数のベンチマークで優れたパフォーマンスを発揮しています:
- OnlineMind2Web: ウェブ制御タスクで精度が優位
- WebVoyager: 複雑なウェブナビゲーションタスクで優れたパフォーマンス
- 低遅延: 競合モデルと比較して応答が速い
- 高精度: ブラウザおよびモバイル制御のベンチマークで他の主要モデルを上回る
留意事項
セキュリティ
- このモデルはプレビュー版であり、エラーやセキュリティ脆弱性が存在する可能性があります。
- モデルが提案する操作は不適切または安全でない可能性があります。
- 敵対的入力により悪意のある操作が引き起こされる可能性があります。
- 本番環境での使用前に十分なテストを行うことを推奨します。
利用制限
- 明確な手動確認メカニズムが必要です。
- Googleの生成AI禁止使用ポリシーを遵守してください。
- この製品はPre-GA規約の対象となります。
ベストプラクティス
- 常に管理された環境でテストしてください。
- エージェントの操作行動を監視してください。
- 重要な操作には手動レビューを追加してください。
- 定期的に最新バージョンに更新してください。
関連リソース
- 公式ドキュメント: Vertex AI Computer Useドキュメント
- Google AI Studio: 迅速なテストとプロトタイプ開発
- Browserbaseデモ: Computer Use機能をオンラインで体験
- 開発者フォーラム: 問題のフィードバックとサポートの取得
技術的優位性
- 視覚理解能力: Gemini 2.5 Proに基づく強力な視覚認識能力
- ネイティブUIインタラクション: 構造化されたAPIを必要とせず、グラフィカルインターフェースを直接操作
- ログイン後の操作: 認証が必要な複雑なタスクをサポート
- フォーム処理: 複雑なフォームのインテリジェントな入力と送信
- インタラクティブ要素の操作: ドロップダウンメニュー、フィルターなどのインタラクティブコンポーネントを処理
プロジェクトの意義
Google Computer Use Previewは、AIエージェント技術における重要な進歩を象徴しています。AIモデルが構造化されたAPIに依存するのではなく、人間のようにグラフィカルインターフェースと直接対話できるようにすることで、この技術は汎用エージェントを構築するための新たな可能性を切り開きます。これにより、開発者は以下のことが可能になります:
- 以前は手動介入が必要だった複雑なタスクを自動化する
- インテリジェントなブラウザ自動化アプリケーションを迅速に構築する
- UIテストとワークフロー自動化の開発コストを削減する
- 新しいヒューマン・コンピューター・インタラクションの方法を探求する
今後の展望
モデル能力の継続的な向上に伴い、Computer Use技術は以下の側面で発展するでしょう:
- より高い精度と信頼性
- より複雑な多段階タスクの実行
- より優れたセキュリティと制御性
- 他のAI能力との深い統合
- より広範なユースケースのカバー