Google官方發布的Gemini 2.5計算機使用模型預覽項目,支持通過自然語言指令控制瀏覽器執行任務的AI代理

Apache-2.0Pythoncomputer-use-previewgoogle 1.6k Last Updated: October 10, 2025

Google 計算機使用預覽項目介紹

項目概述

Google 計算機使用預覽 (Google Computer Use Preview) 是 Google 官方發布的一個開源項目,展示了基於 Gemini 2.5 的計算機使用 (Computer Use) 模型的能力。該項目允許開發者透過自然語言指令來控制瀏覽器執行各種任務,實現真正的瀏覽器自動化代理。

項目地址: https://github.com/google/computer-use-preview

開源協議: Apache 2.0

核心特性

1. 自然語言控制

使用者可以使用簡單的自然語言描述任務,AI 代理會自動解析並執行相應的瀏覽器操作,例如:

  • 點擊按鈕
  • 填寫表單
  • 滾動頁面
  • 輸入文本
  • 執行搜索

2. 多環境支援

項目支援兩種運行環境:

  • Playwright: 本地瀏覽器控制,使用 Chrome 瀏覽器在本地執行任務
  • Browserbase: 雲端瀏覽器服務,支援遠端瀏覽器控制

3. 基於 Gemini 2.5 模型

該項目使用 Google 最新的 gemini-2.5-computer-use-preview-10-2025 模型,該模型專門針對 UI 互動進行了優化,具備:

  • 強大的視覺理解能力
  • 精準的 UI 元素識別
  • 低延遲響應
  • 優秀的推理能力

4. API 靈活性

支援兩種 API 接入方式:

  • Gemini Developer API: 適合快速開發與測試
  • Vertex AI: 適合企業級應用部署

技術架構

核心組件

  1. 瀏覽器控制層

    • Playwright: 本地瀏覽器自動化框架
    • Browserbase: 雲端瀏覽器基礎設施
  2. AI 模型層

    • Gemini 2.5 計算機使用模型
    • 視覺理解與推理能力
    • UI 動作生成
  3. 代理循環

    • 接收使用者查詢
    • 捕獲螢幕截圖
    • 生成並執行動作
    • 追蹤歷史操作

工作原理

  1. 使用者透過自然語言提供任務描述
  2. 系統捕獲當前瀏覽器螢幕截圖
  3. Gemini 模型分析截圖與任務需求
  4. 模型生成具體的 UI 操作指令 (點擊、輸入、滾動等)
  5. 執行操作並獲取新的螢幕狀態
  6. 重複步驟 2-5 直到任務完成

快速開始

環境要求

  • Python 3.x
  • Chrome 瀏覽器
  • Gemini API 金鑰 (或 Vertex AI 存取權限)

安裝步驟

  1. 複製專案

    git clone https://github.com/google/computer-use-preview.git
    cd computer-use-preview
    
  2. 建立虛擬環境並安裝依賴項

    python3 -m venv .venv
    source .venv/bin/activate
    pip install -r requirements.txt
    
  3. 安裝 Playwright 與瀏覽器

    # 安裝 Chrome 所需的系統依賴項
    playwright install-deps chrome
    
    # 安裝 Chrome 瀏覽器
    playwright install chrome
    

配置 API 金鑰

使用 Gemini Developer API

export GEMINI_API_KEY="YOUR_GEMINI_API_KEY"

或永久添加到虛擬環境:

echo 'export GEMINI_API_KEY="YOUR_GEMINI_API_KEY"' >> .venv/bin/activate
deactivate
source .venv/bin/activate

使用 Vertex AI

export USE_VERTEXAI=true
export VERTEXAI_PROJECT="YOUR_PROJECT_ID"
export VERTEXAI_LOCATION="YOUR_LOCATION"

使用範例

1. 基本使用 (Playwright 本地環境)

python main.py --query="Go to Google and type 'Hello World' into the search bar" --env="playwright"

2. 指定初始 URL

python main.py \
  --query="Go to Google and type 'Hello World' into the search bar" \
  --env="playwright" \
  --initial_url="https://www.google.com/search?q=latest+AI+news"

3. 使用 Browserbase 雲端環境

首先設定 Browserbase 環境變數:

export BROWSERBASE_API_KEY="YOUR_BROWSERBASE_API_KEY"
export BROWSERBASE_PROJECT_ID="YOUR_BROWSERBASE_PROJECT_ID"

然後運行:

python main.py \
  --query="Go to Google and type 'Hello World' into the search bar" \
  --env="browserbase"

命令列參數說明

主要參數

參數 說明 是否必要 預設值 支援環境
--query 自然語言任務描述 N/A 所有
--env 運行環境(playwright/browserbase) N/A 所有
--initial_url 瀏覽器啟動時載入的初始 URL https://www.google.com playwright
--highlight_mouse 在截圖中高亮顯示滑鼠位置(用於偵錯) false playwright

環境變數

變數名稱 說明 是否必要
GEMINI_API_KEY Gemini API 金鑰 是(使用 Gemini API 時)
BROWSERBASE_API_KEY Browserbase API 金鑰 是(使用 browserbase 環境時)
BROWSERBASE_PROJECT_ID Browserbase 專案 ID 是(使用 browserbase 環境時)
USE_VERTEXAI 啟用 Vertex AI
VERTEXAI_PROJECT Vertex AI 專案 ID 是(使用 Vertex AI 時)
VERTEXAI_LOCATION Vertex AI 位置 是(使用 Vertex AI 時)

應用場景

1. 自動化測試

  • UI 迴歸測試
  • 端對端測試
  • 跨瀏覽器測試

2. 資料擷取

  • 自動化表單填寫
  • 網頁資料提取
  • 定時任務執行

3. 工作流程自動化

  • 重複性任務自動化
  • 多步驟業務流程
  • 批次操作處理

4. 個人助理

  • 自動化日常網頁操作
  • 資訊收集與整理
  • 智慧網頁導航

效能表現

根據 Google 和 Browserbase 的評測數據,Gemini 2.5 計算機使用模型在多個基準測試中表現優異:

  • OnlineMind2Web: 在網頁控制任務中準確率領先
  • WebVoyager: 複雜網頁導航任務表現優秀
  • 低延遲: 相比競品模型響應更快
  • 高準確率: 在瀏覽器和行動端控制基準測試中超越其他主流模型

注意事項

安全性

  • 該模型為預覽版本,可能存在錯誤和安全漏洞
  • 模型建議的操作可能不適當或不安全
  • 對抗性輸入可能導致惡意操作
  • 建議在生產環境使用前進行充分測試

使用限制

  • 需要明確的人工確認機制
  • 遵守 Google 的生成式 AI 禁止使用政策
  • 該產品受 Pre-GA 條款約束

最佳實踐

  • 始終在受控環境中測試
  • 監控代理的操作行為
  • 為關鍵操作添加人工審核
  • 定期更新到最新版本

相關資源

  • 官方文件: Vertex AI Computer Use 文件
  • Google AI Studio: 快速測試與原型開發
  • Browserbase 演示: 線上體驗 Computer Use 功能
  • 開發者論壇: 回饋問題並取得支援

技術優勢

  1. 視覺理解能力: 基於 Gemini 2.5 Pro 的強大視覺識別能力
  2. 原生 UI 互動: 無需結構化 API,直接操作圖形介面
  3. 登入後操作: 支援需要身份驗證的複雜任務
  4. 表單處理: 智慧填寫與提交複雜表單
  5. 互動元素操作: 處理下拉式選單、篩選器等互動組件

專案意義

Google 計算機使用預覽代表了 AI 代理技術的重要進展。透過讓 AI 模型像人類一樣直接與圖形介面互動,而不是依賴結構化 API,這項技術為建構通用目的代理開闢了新的可能性。它使開發者能夠:

  • 自動化以往需要人工干預的複雜任務
  • 快速建構智慧瀏覽器自動化應用程式
  • 降低 UI 測試與工作流程自動化的開發成本
  • 探索新的人機互動方式

未來展望

隨著模型能力的持續提升,計算機使用技術將在以下方面發展:

  • 更高的準確性與可靠性
  • 更複雜的多步驟任務執行
  • 更好的安全性與可控性
  • 與其他 AI 能力的深度整合
  • 更廣泛的應用場景覆蓋

Star History Chart