google/computer-use-preview View GitHub Homepage for Latest Official Releases

Google官方发布的Gemini 2.5计算机使用模型预览项目,支持通过自然语言指令控制浏览器执行任务的AI代理

Apache-2.0Pythoncomputer-use-previewgoogle 1.6k Last Updated: October 10, 2025

Google Computer Use Preview 项目介绍

项目概述

Google Computer Use Preview 是Google官方发布的一个开源项目,展示了基于Gemini 2.5的计算机使用(Computer Use)模型的能力。该项目允许开发者通过自然语言指令来控制浏览器执行各种任务,实现真正的浏览器自动化代理。

项目地址: https://github.com/google/computer-use-preview

开源协议: Apache 2.0

核心特性

1. 自然语言控制

用户可以使用简单的自然语言描述任务,AI代理会自动解析并执行相应的浏览器操作,例如:

点击按钮
填写表单
滚动页面
输入文本
执行搜索

2. 多环境支持

项目支持两种运行环境:

Playwright: 本地浏览器控制,使用Chrome浏览器在本地执行任务
Browserbase: 云端浏览器服务,支持远程浏览器控制

3. 基于Gemini 2.5模型

该项目使用Google最新的gemini-2.5-computer-use-preview-10-2025模型,该模型专门针对UI交互进行了优化,具备:

强大的视觉理解能力
精准的UI元素识别
低延迟响应
优秀的推理能力

4. API灵活性

支持两种API接入方式:

Gemini Developer API: 适合快速开发和测试
Vertex AI: 适合企业级应用部署

技术架构

核心组件

浏览器控制层
- Playwright: 本地浏览器自动化框架
- Browserbase: 云端浏览器基础设施
AI模型层
- Gemini 2.5 Computer Use模型
- 视觉理解和推理能力
- UI动作生成
代理循环
- 接收用户查询
- 捕获屏幕截图
- 生成并执行动作
- 追踪历史操作

工作原理

用户通过自然语言提供任务描述
系统捕获当前浏览器屏幕截图
Gemini模型分析截图和任务需求
模型生成具体的UI操作指令(点击、输入、滚动等)
执行操作并获取新的屏幕状态
重复步骤2-5直到任务完成

快速开始

环境要求

Python 3.x
Chrome浏览器
Gemini API密钥(或Vertex AI访问权限)

安装步骤

克隆项目

git clone https://github.com/google/computer-use-preview.git
cd computer-use-preview

创建虚拟环境并安装依赖

python3 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt

安装Playwright和浏览器

# 安装Chrome所需的系统依赖
playwright install-deps chrome

# 安装Chrome浏览器
playwright install chrome

配置API密钥

使用Gemini Developer API

export GEMINI_API_KEY="YOUR_GEMINI_API_KEY"

或永久添加到虚拟环境:

echo 'export GEMINI_API_KEY="YOUR_GEMINI_API_KEY"' >> .venv/bin/activate
deactivate
source .venv/bin/activate

使用Vertex AI

export USE_VERTEXAI=true
export VERTEXAI_PROJECT="YOUR_PROJECT_ID"
export VERTEXAI_LOCATION="YOUR_LOCATION"

使用示例

1. 基本使用(Playwright本地环境)

python main.py --query="Go to Google and type 'Hello World' into the search bar" --env="playwright"

2. 指定初始URL

python main.py \
  --query="Go to Google and type 'Hello World' into the search bar" \
  --env="playwright" \
  --initial_url="https://www.google.com/search?q=latest+AI+news"

3. 使用Browserbase云端环境

首先设置Browserbase环境变量:

export BROWSERBASE_API_KEY="YOUR_BROWSERBASE_API_KEY"
export BROWSERBASE_PROJECT_ID="YOUR_BROWSERBASE_PROJECT_ID"

然后运行:

python main.py \
  --query="Go to Google and type 'Hello World' into the search bar" \
  --env="browserbase"

命令行参数说明

主要参数

参数	说明	是否必需	默认值	支持环境
`--query`	自然语言任务描述	是	N/A	所有
`--env`	运行环境(playwright/browserbase)	否	N/A	所有
`--initial_url`	浏览器启动时加载的初始URL	否	https://www.google.com	playwright
`--highlight_mouse`	在截图中高亮显示鼠标位置(用于调试)	否	false	playwright

环境变量

变量名	说明	是否必需
`GEMINI_API_KEY`	Gemini API密钥	是(使用Gemini API时)
`BROWSERBASE_API_KEY`	Browserbase API密钥	是(使用browserbase环境时)
`BROWSERBASE_PROJECT_ID`	Browserbase项目ID	是(使用browserbase环境时)
`USE_VERTEXAI`	启用Vertex AI	否
`VERTEXAI_PROJECT`	Vertex AI项目ID	是(使用Vertex AI时)
`VERTEXAI_LOCATION`	Vertex AI位置	是(使用Vertex AI时)

应用场景

1. 自动化测试

UI回归测试
端到端测试
跨浏览器测试

2. 数据抓取

自动化表单填写
网页数据提取
定时任务执行

3. 工作流自动化

重复性任务自动化
多步骤业务流程
批量操作处理

4. 个人助手

自动化日常网页操作
信息收集和整理
智能网页导航

性能表现

根据Google和Browserbase的评测数据,Gemini 2.5 Computer Use模型在多个基准测试中表现优异:

OnlineMind2Web: 在网页控制任务中准确率领先
WebVoyager: 复杂网页导航任务表现优秀
低延迟: 相比竞品模型响应更快
高准确率: 在浏览器和移动端控制基准测试中超越其他主流模型

注意事项

安全性

该模型为预览版本,可能存在错误和安全漏洞
模型建议的操作可能不适当或不安全
对抗性输入可能导致恶意操作
建议在生产环境使用前进行充分测试

使用限制

需要明确的人工确认机制
遵守Google的生成式AI禁止使用政策
该产品受Pre-GA条款约束

最佳实践

始终在受控环境中测试
监控代理的操作行为
为关键操作添加人工审核
定期更新到最新版本

技术优势

视觉理解能力: 基于Gemini 2.5 Pro的强大视觉识别能力
原生UI交互: 无需结构化API,直接操作图形界面
登录后操作: 支持需要身份验证的复杂任务
表单处理: 智能填写和提交复杂表单
交互元素操作: 处理下拉菜单、筛选器等交互组件

项目意义

Google Computer Use Preview代表了AI代理技术的重要进展。通过让AI模型像人类一样直接与图形界面交互,而不是依赖结构化API,这项技术为构建通用目的代理开辟了新的可能性。它使开发者能够:

自动化以前需要人工干预的复杂任务
快速构建智能浏览器自动化应用
降低UI测试和工作流自动化的开发成本
探索新的人机交互方式

未来展望

随着模型能力的持续提升,计算机使用技术将在以下方面发展:

更高的准确性和可靠性
更复杂的多步骤任务执行
更好的安全性和可控性
与其他AI能力的深度整合
更广泛的应用场景覆盖