google/computer-use-preview View GitHub Homepage for Latest Official Releases

Google官方發布的Gemini 2.5計算機使用模型預覽項目,支持通過自然語言指令控制瀏覽器執行任務的AI代理

Apache-2.0Pythoncomputer-use-previewgoogle 1.6k Last Updated: October 10, 2025

Google 計算機使用預覽項目介紹

項目概述

Google 計算機使用預覽 (Google Computer Use Preview) 是 Google 官方發布的一個開源項目，展示了基於 Gemini 2.5 的計算機使用 (Computer Use) 模型的能力。該項目允許開發者透過自然語言指令來控制瀏覽器執行各種任務，實現真正的瀏覽器自動化代理。

項目地址: https://github.com/google/computer-use-preview

開源協議: Apache 2.0

核心特性

1. 自然語言控制

使用者可以使用簡單的自然語言描述任務，AI 代理會自動解析並執行相應的瀏覽器操作，例如：

點擊按鈕
填寫表單
滾動頁面
輸入文本
執行搜索

2. 多環境支援

項目支援兩種運行環境：

Playwright: 本地瀏覽器控制，使用 Chrome 瀏覽器在本地執行任務
Browserbase: 雲端瀏覽器服務，支援遠端瀏覽器控制

3. 基於 Gemini 2.5 模型

該項目使用 Google 最新的 gemini-2.5-computer-use-preview-10-2025 模型，該模型專門針對 UI 互動進行了優化，具備：

強大的視覺理解能力
精準的 UI 元素識別
低延遲響應
優秀的推理能力

4. API 靈活性

支援兩種 API 接入方式：

Gemini Developer API: 適合快速開發與測試
Vertex AI: 適合企業級應用部署

技術架構

核心組件

瀏覽器控制層
- Playwright: 本地瀏覽器自動化框架
- Browserbase: 雲端瀏覽器基礎設施
AI 模型層
- Gemini 2.5 計算機使用模型
- 視覺理解與推理能力
- UI 動作生成
代理循環
- 接收使用者查詢
- 捕獲螢幕截圖
- 生成並執行動作
- 追蹤歷史操作

工作原理

使用者透過自然語言提供任務描述
系統捕獲當前瀏覽器螢幕截圖
Gemini 模型分析截圖與任務需求
模型生成具體的 UI 操作指令 (點擊、輸入、滾動等)
執行操作並獲取新的螢幕狀態
重複步驟 2-5 直到任務完成

快速開始

環境要求

Python 3.x
Chrome 瀏覽器
Gemini API 金鑰 (或 Vertex AI 存取權限)

安裝步驟

複製專案

git clone https://github.com/google/computer-use-preview.git
cd computer-use-preview

建立虛擬環境並安裝依賴項

python3 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt

安裝 Playwright 與瀏覽器

# 安裝 Chrome 所需的系統依賴項
playwright install-deps chrome

# 安裝 Chrome 瀏覽器
playwright install chrome

配置 API 金鑰

使用 Gemini Developer API

export GEMINI_API_KEY="YOUR_GEMINI_API_KEY"

或永久添加到虛擬環境：

echo 'export GEMINI_API_KEY="YOUR_GEMINI_API_KEY"' >> .venv/bin/activate
deactivate
source .venv/bin/activate

使用 Vertex AI

export USE_VERTEXAI=true
export VERTEXAI_PROJECT="YOUR_PROJECT_ID"
export VERTEXAI_LOCATION="YOUR_LOCATION"

使用範例

1. 基本使用 (Playwright 本地環境)

python main.py --query="Go to Google and type 'Hello World' into the search bar" --env="playwright"

2. 指定初始 URL

python main.py \
  --query="Go to Google and type 'Hello World' into the search bar" \
  --env="playwright" \
  --initial_url="https://www.google.com/search?q=latest+AI+news"

3. 使用 Browserbase 雲端環境

首先設定 Browserbase 環境變數：

export BROWSERBASE_API_KEY="YOUR_BROWSERBASE_API_KEY"
export BROWSERBASE_PROJECT_ID="YOUR_BROWSERBASE_PROJECT_ID"

然後運行：

python main.py \
  --query="Go to Google and type 'Hello World' into the search bar" \
  --env="browserbase"

命令列參數說明

主要參數

參數	說明	是否必要	預設值	支援環境
`--query`	自然語言任務描述	是	N/A	所有
`--env`	運行環境(playwright/browserbase)	否	N/A	所有
`--initial_url`	瀏覽器啟動時載入的初始 URL	否	https://www.google.com	playwright
`--highlight_mouse`	在截圖中高亮顯示滑鼠位置(用於偵錯)	否	false	playwright

環境變數

變數名稱	說明	是否必要
`GEMINI_API_KEY`	Gemini API 金鑰	是(使用 Gemini API 時)
`BROWSERBASE_API_KEY`	Browserbase API 金鑰	是(使用 browserbase 環境時)
`BROWSERBASE_PROJECT_ID`	Browserbase 專案 ID	是(使用 browserbase 環境時)
`USE_VERTEXAI`	啟用 Vertex AI	否
`VERTEXAI_PROJECT`	Vertex AI 專案 ID	是(使用 Vertex AI 時)
`VERTEXAI_LOCATION`	Vertex AI 位置	是(使用 Vertex AI 時)

應用場景

1. 自動化測試

UI 迴歸測試
端對端測試
跨瀏覽器測試

2. 資料擷取

自動化表單填寫
網頁資料提取
定時任務執行

3. 工作流程自動化

重複性任務自動化
多步驟業務流程
批次操作處理

4. 個人助理

自動化日常網頁操作
資訊收集與整理
智慧網頁導航

效能表現

根據 Google 和 Browserbase 的評測數據，Gemini 2.5 計算機使用模型在多個基準測試中表現優異：

OnlineMind2Web: 在網頁控制任務中準確率領先
WebVoyager: 複雜網頁導航任務表現優秀
低延遲: 相比競品模型響應更快
高準確率: 在瀏覽器和行動端控制基準測試中超越其他主流模型

注意事項

安全性

該模型為預覽版本，可能存在錯誤和安全漏洞
模型建議的操作可能不適當或不安全
對抗性輸入可能導致惡意操作
建議在生產環境使用前進行充分測試

使用限制

需要明確的人工確認機制
遵守 Google 的生成式 AI 禁止使用政策
該產品受 Pre-GA 條款約束

最佳實踐

始終在受控環境中測試
監控代理的操作行為
為關鍵操作添加人工審核
定期更新到最新版本

技術優勢

視覺理解能力: 基於 Gemini 2.5 Pro 的強大視覺識別能力
原生 UI 互動: 無需結構化 API，直接操作圖形介面
登入後操作: 支援需要身份驗證的複雜任務
表單處理: 智慧填寫與提交複雜表單
互動元素操作: 處理下拉式選單、篩選器等互動組件

專案意義

Google 計算機使用預覽代表了 AI 代理技術的重要進展。透過讓 AI 模型像人類一樣直接與圖形介面互動，而不是依賴結構化 API，這項技術為建構通用目的代理開闢了新的可能性。它使開發者能夠：

自動化以往需要人工干預的複雜任務
快速建構智慧瀏覽器自動化應用程式
降低 UI 測試與工作流程自動化的開發成本
探索新的人機互動方式

未來展望

隨著模型能力的持續提升，計算機使用技術將在以下方面發展：

更高的準確性與可靠性
更複雜的多步驟任務執行
更好的安全性與可控性
與其他 AI 能力的深度整合
更廣泛的應用場景覆蓋