google/computer-use-preview View GitHub Homepage for Latest Official Releases
Google官方发布的Gemini 2.5计算机使用模型预览项目,支持通过自然语言指令控制浏览器执行任务的AI代理
Apache-2.0Pythoncomputer-use-previewgoogle 1.6k Last Updated: October 10, 2025
Google Computer Use Preview 项目介绍
项目概述
Google Computer Use Preview 是Google官方发布的一个开源项目,展示了基于Gemini 2.5的计算机使用(Computer Use)模型的能力。该项目允许开发者通过自然语言指令来控制浏览器执行各种任务,实现真正的浏览器自动化代理。
项目地址: https://github.com/google/computer-use-preview
开源协议: Apache 2.0
核心特性
1. 自然语言控制
用户可以使用简单的自然语言描述任务,AI代理会自动解析并执行相应的浏览器操作,例如:
- 点击按钮
- 填写表单
- 滚动页面
- 输入文本
- 执行搜索
2. 多环境支持
项目支持两种运行环境:
- Playwright: 本地浏览器控制,使用Chrome浏览器在本地执行任务
- Browserbase: 云端浏览器服务,支持远程浏览器控制
3. 基于Gemini 2.5模型
该项目使用Google最新的gemini-2.5-computer-use-preview-10-2025模型,该模型专门针对UI交互进行了优化,具备:
- 强大的视觉理解能力
- 精准的UI元素识别
- 低延迟响应
- 优秀的推理能力
4. API灵活性
支持两种API接入方式:
- Gemini Developer API: 适合快速开发和测试
- Vertex AI: 适合企业级应用部署
技术架构
核心组件
浏览器控制层
- Playwright: 本地浏览器自动化框架
- Browserbase: 云端浏览器基础设施
AI模型层
- Gemini 2.5 Computer Use模型
- 视觉理解和推理能力
- UI动作生成
代理循环
- 接收用户查询
- 捕获屏幕截图
- 生成并执行动作
- 追踪历史操作
工作原理
- 用户通过自然语言提供任务描述
- 系统捕获当前浏览器屏幕截图
- Gemini模型分析截图和任务需求
- 模型生成具体的UI操作指令(点击、输入、滚动等)
- 执行操作并获取新的屏幕状态
- 重复步骤2-5直到任务完成
快速开始
环境要求
- Python 3.x
- Chrome浏览器
- Gemini API密钥(或Vertex AI访问权限)
安装步骤
- 克隆项目
git clone https://github.com/google/computer-use-preview.git
cd computer-use-preview
- 创建虚拟环境并安装依赖
python3 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt
- 安装Playwright和浏览器
# 安装Chrome所需的系统依赖
playwright install-deps chrome
# 安装Chrome浏览器
playwright install chrome
配置API密钥
使用Gemini Developer API
export GEMINI_API_KEY="YOUR_GEMINI_API_KEY"
或永久添加到虚拟环境:
echo 'export GEMINI_API_KEY="YOUR_GEMINI_API_KEY"' >> .venv/bin/activate
deactivate
source .venv/bin/activate
使用Vertex AI
export USE_VERTEXAI=true
export VERTEXAI_PROJECT="YOUR_PROJECT_ID"
export VERTEXAI_LOCATION="YOUR_LOCATION"
使用示例
1. 基本使用(Playwright本地环境)
python main.py --query="Go to Google and type 'Hello World' into the search bar" --env="playwright"
2. 指定初始URL
python main.py \
--query="Go to Google and type 'Hello World' into the search bar" \
--env="playwright" \
--initial_url="https://www.google.com/search?q=latest+AI+news"
3. 使用Browserbase云端环境
首先设置Browserbase环境变量:
export BROWSERBASE_API_KEY="YOUR_BROWSERBASE_API_KEY"
export BROWSERBASE_PROJECT_ID="YOUR_BROWSERBASE_PROJECT_ID"
然后运行:
python main.py \
--query="Go to Google and type 'Hello World' into the search bar" \
--env="browserbase"
命令行参数说明
主要参数
| 参数 | 说明 | 是否必需 | 默认值 | 支持环境 |
|---|---|---|---|---|
--query |
自然语言任务描述 | 是 | N/A | 所有 |
--env |
运行环境(playwright/browserbase) | 否 | N/A | 所有 |
--initial_url |
浏览器启动时加载的初始URL | 否 | https://www.google.com | playwright |
--highlight_mouse |
在截图中高亮显示鼠标位置(用于调试) | 否 | false | playwright |
环境变量
| 变量名 | 说明 | 是否必需 |
|---|---|---|
GEMINI_API_KEY |
Gemini API密钥 | 是(使用Gemini API时) |
BROWSERBASE_API_KEY |
Browserbase API密钥 | 是(使用browserbase环境时) |
BROWSERBASE_PROJECT_ID |
Browserbase项目ID | 是(使用browserbase环境时) |
USE_VERTEXAI |
启用Vertex AI | 否 |
VERTEXAI_PROJECT |
Vertex AI项目ID | 是(使用Vertex AI时) |
VERTEXAI_LOCATION |
Vertex AI位置 | 是(使用Vertex AI时) |
应用场景
1. 自动化测试
- UI回归测试
- 端到端测试
- 跨浏览器测试
2. 数据抓取
- 自动化表单填写
- 网页数据提取
- 定时任务执行
3. 工作流自动化
- 重复性任务自动化
- 多步骤业务流程
- 批量操作处理
4. 个人助手
- 自动化日常网页操作
- 信息收集和整理
- 智能网页导航
性能表现
根据Google和Browserbase的评测数据,Gemini 2.5 Computer Use模型在多个基准测试中表现优异:
- OnlineMind2Web: 在网页控制任务中准确率领先
- WebVoyager: 复杂网页导航任务表现优秀
- 低延迟: 相比竞品模型响应更快
- 高准确率: 在浏览器和移动端控制基准测试中超越其他主流模型
注意事项
安全性
- 该模型为预览版本,可能存在错误和安全漏洞
- 模型建议的操作可能不适当或不安全
- 对抗性输入可能导致恶意操作
- 建议在生产环境使用前进行充分测试
使用限制
- 需要明确的人工确认机制
- 遵守Google的生成式AI禁止使用政策
- 该产品受Pre-GA条款约束
最佳实践
- 始终在受控环境中测试
- 监控代理的操作行为
- 为关键操作添加人工审核
- 定期更新到最新版本
相关资源
- 官方文档: Vertex AI Computer Use文档
- Google AI Studio: 快速测试和原型开发
- Browserbase演示: 在线体验Computer Use功能
- 开发者论坛: 反馈问题和获取支持
技术优势
- 视觉理解能力: 基于Gemini 2.5 Pro的强大视觉识别能力
- 原生UI交互: 无需结构化API,直接操作图形界面
- 登录后操作: 支持需要身份验证的复杂任务
- 表单处理: 智能填写和提交复杂表单
- 交互元素操作: 处理下拉菜单、筛选器等交互组件
项目意义
Google Computer Use Preview代表了AI代理技术的重要进展。通过让AI模型像人类一样直接与图形界面交互,而不是依赖结构化API,这项技术为构建通用目的代理开辟了新的可能性。它使开发者能够:
- 自动化以前需要人工干预的复杂任务
- 快速构建智能浏览器自动化应用
- 降低UI测试和工作流自动化的开发成本
- 探索新的人机交互方式
未来展望
随着模型能力的持续提升,计算机使用技术将在以下方面发展:
- 更高的准确性和可靠性
- 更复杂的多步骤任务执行
- 更好的安全性和可控性
- 与其他AI能力的深度整合
- 更广泛的应用场景覆盖