google/computer-use-preview View GitHub Homepage for Latest Official Releases
Google官方發布的Gemini 2.5計算機使用模型預覽項目,支持通過自然語言指令控制瀏覽器執行任務的AI代理
Apache-2.0Pythoncomputer-use-previewgoogle 1.6k Last Updated: October 10, 2025
Google 計算機使用預覽項目介紹
項目概述
Google 計算機使用預覽 (Google Computer Use Preview) 是 Google 官方發布的一個開源項目,展示了基於 Gemini 2.5 的計算機使用 (Computer Use) 模型的能力。該項目允許開發者透過自然語言指令來控制瀏覽器執行各種任務,實現真正的瀏覽器自動化代理。
項目地址: https://github.com/google/computer-use-preview
開源協議: Apache 2.0
核心特性
1. 自然語言控制
使用者可以使用簡單的自然語言描述任務,AI 代理會自動解析並執行相應的瀏覽器操作,例如:
- 點擊按鈕
- 填寫表單
- 滾動頁面
- 輸入文本
- 執行搜索
2. 多環境支援
項目支援兩種運行環境:
- Playwright: 本地瀏覽器控制,使用 Chrome 瀏覽器在本地執行任務
- Browserbase: 雲端瀏覽器服務,支援遠端瀏覽器控制
3. 基於 Gemini 2.5 模型
該項目使用 Google 最新的 gemini-2.5-computer-use-preview-10-2025 模型,該模型專門針對 UI 互動進行了優化,具備:
- 強大的視覺理解能力
- 精準的 UI 元素識別
- 低延遲響應
- 優秀的推理能力
4. API 靈活性
支援兩種 API 接入方式:
- Gemini Developer API: 適合快速開發與測試
- Vertex AI: 適合企業級應用部署
技術架構
核心組件
瀏覽器控制層
- Playwright: 本地瀏覽器自動化框架
- Browserbase: 雲端瀏覽器基礎設施
AI 模型層
- Gemini 2.5 計算機使用模型
- 視覺理解與推理能力
- UI 動作生成
代理循環
- 接收使用者查詢
- 捕獲螢幕截圖
- 生成並執行動作
- 追蹤歷史操作
工作原理
- 使用者透過自然語言提供任務描述
- 系統捕獲當前瀏覽器螢幕截圖
- Gemini 模型分析截圖與任務需求
- 模型生成具體的 UI 操作指令 (點擊、輸入、滾動等)
- 執行操作並獲取新的螢幕狀態
- 重複步驟 2-5 直到任務完成
快速開始
環境要求
- Python 3.x
- Chrome 瀏覽器
- Gemini API 金鑰 (或 Vertex AI 存取權限)
安裝步驟
複製專案
git clone https://github.com/google/computer-use-preview.git cd computer-use-preview建立虛擬環境並安裝依賴項
python3 -m venv .venv source .venv/bin/activate pip install -r requirements.txt安裝 Playwright 與瀏覽器
# 安裝 Chrome 所需的系統依賴項 playwright install-deps chrome # 安裝 Chrome 瀏覽器 playwright install chrome
配置 API 金鑰
使用 Gemini Developer API
export GEMINI_API_KEY="YOUR_GEMINI_API_KEY"
或永久添加到虛擬環境:
echo 'export GEMINI_API_KEY="YOUR_GEMINI_API_KEY"' >> .venv/bin/activate
deactivate
source .venv/bin/activate
使用 Vertex AI
export USE_VERTEXAI=true
export VERTEXAI_PROJECT="YOUR_PROJECT_ID"
export VERTEXAI_LOCATION="YOUR_LOCATION"
使用範例
1. 基本使用 (Playwright 本地環境)
python main.py --query="Go to Google and type 'Hello World' into the search bar" --env="playwright"
2. 指定初始 URL
python main.py \
--query="Go to Google and type 'Hello World' into the search bar" \
--env="playwright" \
--initial_url="https://www.google.com/search?q=latest+AI+news"
3. 使用 Browserbase 雲端環境
首先設定 Browserbase 環境變數:
export BROWSERBASE_API_KEY="YOUR_BROWSERBASE_API_KEY"
export BROWSERBASE_PROJECT_ID="YOUR_BROWSERBASE_PROJECT_ID"
然後運行:
python main.py \
--query="Go to Google and type 'Hello World' into the search bar" \
--env="browserbase"
命令列參數說明
主要參數
| 參數 | 說明 | 是否必要 | 預設值 | 支援環境 |
|---|---|---|---|---|
--query |
自然語言任務描述 | 是 | N/A | 所有 |
--env |
運行環境(playwright/browserbase) | 否 | N/A | 所有 |
--initial_url |
瀏覽器啟動時載入的初始 URL | 否 | https://www.google.com | playwright |
--highlight_mouse |
在截圖中高亮顯示滑鼠位置(用於偵錯) | 否 | false | playwright |
環境變數
| 變數名稱 | 說明 | 是否必要 |
|---|---|---|
GEMINI_API_KEY |
Gemini API 金鑰 | 是(使用 Gemini API 時) |
BROWSERBASE_API_KEY |
Browserbase API 金鑰 | 是(使用 browserbase 環境時) |
BROWSERBASE_PROJECT_ID |
Browserbase 專案 ID | 是(使用 browserbase 環境時) |
USE_VERTEXAI |
啟用 Vertex AI | 否 |
VERTEXAI_PROJECT |
Vertex AI 專案 ID | 是(使用 Vertex AI 時) |
VERTEXAI_LOCATION |
Vertex AI 位置 | 是(使用 Vertex AI 時) |
應用場景
1. 自動化測試
- UI 迴歸測試
- 端對端測試
- 跨瀏覽器測試
2. 資料擷取
- 自動化表單填寫
- 網頁資料提取
- 定時任務執行
3. 工作流程自動化
- 重複性任務自動化
- 多步驟業務流程
- 批次操作處理
4. 個人助理
- 自動化日常網頁操作
- 資訊收集與整理
- 智慧網頁導航
效能表現
根據 Google 和 Browserbase 的評測數據,Gemini 2.5 計算機使用模型在多個基準測試中表現優異:
- OnlineMind2Web: 在網頁控制任務中準確率領先
- WebVoyager: 複雜網頁導航任務表現優秀
- 低延遲: 相比競品模型響應更快
- 高準確率: 在瀏覽器和行動端控制基準測試中超越其他主流模型
注意事項
安全性
- 該模型為預覽版本,可能存在錯誤和安全漏洞
- 模型建議的操作可能不適當或不安全
- 對抗性輸入可能導致惡意操作
- 建議在生產環境使用前進行充分測試
使用限制
- 需要明確的人工確認機制
- 遵守 Google 的生成式 AI 禁止使用政策
- 該產品受 Pre-GA 條款約束
最佳實踐
- 始終在受控環境中測試
- 監控代理的操作行為
- 為關鍵操作添加人工審核
- 定期更新到最新版本
相關資源
- 官方文件: Vertex AI Computer Use 文件
- Google AI Studio: 快速測試與原型開發
- Browserbase 演示: 線上體驗 Computer Use 功能
- 開發者論壇: 回饋問題並取得支援
技術優勢
- 視覺理解能力: 基於 Gemini 2.5 Pro 的強大視覺識別能力
- 原生 UI 互動: 無需結構化 API,直接操作圖形介面
- 登入後操作: 支援需要身份驗證的複雜任務
- 表單處理: 智慧填寫與提交複雜表單
- 互動元素操作: 處理下拉式選單、篩選器等互動組件
專案意義
Google 計算機使用預覽代表了 AI 代理技術的重要進展。透過讓 AI 模型像人類一樣直接與圖形介面互動,而不是依賴結構化 API,這項技術為建構通用目的代理開闢了新的可能性。它使開發者能夠:
- 自動化以往需要人工干預的複雜任務
- 快速建構智慧瀏覽器自動化應用程式
- 降低 UI 測試與工作流程自動化的開發成本
- 探索新的人機互動方式
未來展望
隨著模型能力的持續提升,計算機使用技術將在以下方面發展:
- 更高的準確性與可靠性
- 更複雜的多步驟任務執行
- 更好的安全性與可控性
- 與其他 AI 能力的深度整合
- 更廣泛的應用場景覆蓋