Google官方发布的Gemini 2.5计算机使用模型预览项目,支持通过自然语言指令控制浏览器执行任务的AI代理

Apache-2.0Pythoncomputer-use-previewgoogle 1.6k Last Updated: October 10, 2025

Google Computer Use Preview 项目介绍

项目概述

Google Computer Use Preview 是Google官方发布的一个开源项目,展示了基于Gemini 2.5的计算机使用(Computer Use)模型的能力。该项目允许开发者通过自然语言指令来控制浏览器执行各种任务,实现真正的浏览器自动化代理。

项目地址: https://github.com/google/computer-use-preview

开源协议: Apache 2.0

核心特性

1. 自然语言控制

用户可以使用简单的自然语言描述任务,AI代理会自动解析并执行相应的浏览器操作,例如:

  • 点击按钮
  • 填写表单
  • 滚动页面
  • 输入文本
  • 执行搜索

2. 多环境支持

项目支持两种运行环境:

  • Playwright: 本地浏览器控制,使用Chrome浏览器在本地执行任务
  • Browserbase: 云端浏览器服务,支持远程浏览器控制

3. 基于Gemini 2.5模型

该项目使用Google最新的gemini-2.5-computer-use-preview-10-2025模型,该模型专门针对UI交互进行了优化,具备:

  • 强大的视觉理解能力
  • 精准的UI元素识别
  • 低延迟响应
  • 优秀的推理能力

4. API灵活性

支持两种API接入方式:

  • Gemini Developer API: 适合快速开发和测试
  • Vertex AI: 适合企业级应用部署

技术架构

核心组件

  1. 浏览器控制层

    • Playwright: 本地浏览器自动化框架
    • Browserbase: 云端浏览器基础设施
  2. AI模型层

    • Gemini 2.5 Computer Use模型
    • 视觉理解和推理能力
    • UI动作生成
  3. 代理循环

    • 接收用户查询
    • 捕获屏幕截图
    • 生成并执行动作
    • 追踪历史操作

工作原理

  1. 用户通过自然语言提供任务描述
  2. 系统捕获当前浏览器屏幕截图
  3. Gemini模型分析截图和任务需求
  4. 模型生成具体的UI操作指令(点击、输入、滚动等)
  5. 执行操作并获取新的屏幕状态
  6. 重复步骤2-5直到任务完成

快速开始

环境要求

  • Python 3.x
  • Chrome浏览器
  • Gemini API密钥(或Vertex AI访问权限)

安装步骤

  1. 克隆项目
git clone https://github.com/google/computer-use-preview.git
cd computer-use-preview
  1. 创建虚拟环境并安装依赖
python3 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt
  1. 安装Playwright和浏览器
# 安装Chrome所需的系统依赖
playwright install-deps chrome

# 安装Chrome浏览器
playwright install chrome

配置API密钥

使用Gemini Developer API

export GEMINI_API_KEY="YOUR_GEMINI_API_KEY"

或永久添加到虚拟环境:

echo 'export GEMINI_API_KEY="YOUR_GEMINI_API_KEY"' >> .venv/bin/activate
deactivate
source .venv/bin/activate

使用Vertex AI

export USE_VERTEXAI=true
export VERTEXAI_PROJECT="YOUR_PROJECT_ID"
export VERTEXAI_LOCATION="YOUR_LOCATION"

使用示例

1. 基本使用(Playwright本地环境)

python main.py --query="Go to Google and type 'Hello World' into the search bar" --env="playwright"

2. 指定初始URL

python main.py \
  --query="Go to Google and type 'Hello World' into the search bar" \
  --env="playwright" \
  --initial_url="https://www.google.com/search?q=latest+AI+news"

3. 使用Browserbase云端环境

首先设置Browserbase环境变量:

export BROWSERBASE_API_KEY="YOUR_BROWSERBASE_API_KEY"
export BROWSERBASE_PROJECT_ID="YOUR_BROWSERBASE_PROJECT_ID"

然后运行:

python main.py \
  --query="Go to Google and type 'Hello World' into the search bar" \
  --env="browserbase"

命令行参数说明

主要参数

参数 说明 是否必需 默认值 支持环境
--query 自然语言任务描述 N/A 所有
--env 运行环境(playwright/browserbase) N/A 所有
--initial_url 浏览器启动时加载的初始URL https://www.google.com playwright
--highlight_mouse 在截图中高亮显示鼠标位置(用于调试) false playwright

环境变量

变量名 说明 是否必需
GEMINI_API_KEY Gemini API密钥 是(使用Gemini API时)
BROWSERBASE_API_KEY Browserbase API密钥 是(使用browserbase环境时)
BROWSERBASE_PROJECT_ID Browserbase项目ID 是(使用browserbase环境时)
USE_VERTEXAI 启用Vertex AI
VERTEXAI_PROJECT Vertex AI项目ID 是(使用Vertex AI时)
VERTEXAI_LOCATION Vertex AI位置 是(使用Vertex AI时)

应用场景

1. 自动化测试

  • UI回归测试
  • 端到端测试
  • 跨浏览器测试

2. 数据抓取

  • 自动化表单填写
  • 网页数据提取
  • 定时任务执行

3. 工作流自动化

  • 重复性任务自动化
  • 多步骤业务流程
  • 批量操作处理

4. 个人助手

  • 自动化日常网页操作
  • 信息收集和整理
  • 智能网页导航

性能表现

根据Google和Browserbase的评测数据,Gemini 2.5 Computer Use模型在多个基准测试中表现优异:

  • OnlineMind2Web: 在网页控制任务中准确率领先
  • WebVoyager: 复杂网页导航任务表现优秀
  • 低延迟: 相比竞品模型响应更快
  • 高准确率: 在浏览器和移动端控制基准测试中超越其他主流模型

注意事项

安全性

  • 该模型为预览版本,可能存在错误和安全漏洞
  • 模型建议的操作可能不适当或不安全
  • 对抗性输入可能导致恶意操作
  • 建议在生产环境使用前进行充分测试

使用限制

  • 需要明确的人工确认机制
  • 遵守Google的生成式AI禁止使用政策
  • 该产品受Pre-GA条款约束

最佳实践

  • 始终在受控环境中测试
  • 监控代理的操作行为
  • 为关键操作添加人工审核
  • 定期更新到最新版本

相关资源

  • 官方文档: Vertex AI Computer Use文档
  • Google AI Studio: 快速测试和原型开发
  • Browserbase演示: 在线体验Computer Use功能
  • 开发者论坛: 反馈问题和获取支持

技术优势

  1. 视觉理解能力: 基于Gemini 2.5 Pro的强大视觉识别能力
  2. 原生UI交互: 无需结构化API,直接操作图形界面
  3. 登录后操作: 支持需要身份验证的复杂任务
  4. 表单处理: 智能填写和提交复杂表单
  5. 交互元素操作: 处理下拉菜单、筛选器等交互组件

项目意义

Google Computer Use Preview代表了AI代理技术的重要进展。通过让AI模型像人类一样直接与图形界面交互,而不是依赖结构化API,这项技术为构建通用目的代理开辟了新的可能性。它使开发者能够:

  • 自动化以前需要人工干预的复杂任务
  • 快速构建智能浏览器自动化应用
  • 降低UI测试和工作流自动化的开发成本
  • 探索新的人机交互方式

未来展望

随着模型能力的持续提升,计算机使用技术将在以下方面发展:

  • 更高的准确性和可靠性
  • 更复杂的多步骤任务执行
  • 更好的安全性和可控性
  • 与其他AI能力的深度整合
  • 更广泛的应用场景覆盖

Star History Chart