google/computer-use-preview View GitHub Homepage for Latest Official Releases

Projeto de visualização do modelo de uso de computador Gemini 2.5 lançado oficialmente pelo Google, que suporta um agente de IA que controla o navegador para executar tarefas por meio de instruções em linguagem natural.

Apache-2.0Pythoncomputer-use-previewgoogle 1.6k Last Updated: October 10, 2025

Introdução ao Projeto Google Computer Use Preview

Visão Geral do Projeto

O Google Computer Use Preview é um projeto de código aberto lançado oficialmente pelo Google, que demonstra as capacidades do modelo de Uso de Computador (Computer Use) baseado no Gemini 2.5. Este projeto permite que os desenvolvedores controlem o navegador para executar várias tarefas através de instruções em linguagem natural, alcançando uma verdadeira automação de navegador por meio de um agente.

Endereço do Projeto: https://github.com/google/computer-use-preview

Licença de Código Aberto: Apache 2.0

Principais Recursos

1. Controle por Linguagem Natural

Os usuários podem descrever tarefas usando linguagem natural simples, e o agente de IA irá automaticamente analisar e executar as operações correspondentes no navegador, como:

Clicar em botões
Preencher formulários
Rolar a página
Inserir texto
Realizar pesquisas

2. Suporte a Múltiplos Ambientes

O projeto suporta dois ambientes de execução:

Playwright: Controle de navegador local, usando o navegador Chrome para executar tarefas localmente
Browserbase: Serviço de navegador em nuvem, suporta controle remoto do navegador

3. Baseado no Modelo Gemini 2.5

Este projeto utiliza o modelo mais recente do Google, gemini-2.5-computer-use-preview-10-2025, que foi otimizado especificamente para interações de UI, possuindo:

Poderosa capacidade de compreensão visual
Reconhecimento preciso de elementos de UI
Resposta de baixa latência
Excelente capacidade de raciocínio

4. Flexibilidade da API

Suporta duas formas de acesso à API:

Gemini Developer API: Adequado para desenvolvimento e testes rápidos
Vertex AI: Adequado para implantação de aplicações de nível empresarial

Arquitetura Técnica

Componentes Principais

Camada de Controle do Navegador
- Playwright: Framework de automação de navegador local
- Browserbase: Infraestrutura de navegador em nuvem
Camada do Modelo de IA
- Modelo Gemini 2.5 Computer Use
- Capacidades de compreensão visual e raciocínio
- Geração de ações de UI
Loop do Agente
- Recebe consultas do usuário
- Captura capturas de tela
- Gera e executa ações
- Rastreia operações históricas

Como Funciona

O usuário fornece a descrição da tarefa em linguagem natural
O sistema captura uma captura de tela do navegador atual
O modelo Gemini analisa a captura de tela e os requisitos da tarefa
O modelo gera instruções específicas de operação de UI (clicar, digitar, rolar, etc.)
Executa a operação e obtém o novo estado da tela
Repete os passos 2-5 até que a tarefa seja concluída

Início Rápido

Requisitos de Ambiente

Python 3.x
Navegador Chrome
Chave da API Gemini (ou acesso ao Vertex AI)

Passos de Instalação

Clonar o projeto

git clone https://github.com/google/computer-use-preview.git
cd computer-use-preview

Criar ambiente virtual e instalar dependências

python3 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt

Instalar Playwright e navegador

# Instalar dependências do sistema necessárias para o Chrome
playwright install-deps chrome

# Instalar o navegador Chrome
playwright install chrome

Configurar Chave da API

Usando a API de Desenvolvedor Gemini

export GEMINI_API_KEY="YOUR_GEMINI_API_KEY"

Ou adicionar permanentemente ao ambiente virtual:

echo 'export GEMINI_API_KEY="YOUR_GEMINI_API_KEY"' >> .venv/bin/activate
deactivate
source .venv/bin/activate

Usando Vertex AI

export USE_VERTEXAI=true
export VERTEXAI_PROJECT="YOUR_PROJECT_ID"
export VERTEXAI_LOCATION="YOUR_LOCATION"

Exemplos de Uso

1. Uso Básico (ambiente local Playwright)

python main.py --query="Go to Google and type 'Hello World' into the search bar" --env="playwright"

2. Especificar URL Inicial

python main.py \
  --query="Go to Google and type 'Hello World' into the search bar" \
  --env="playwright" \
  --initial_url="https://www.google.com/search?q=latest+AI+news"

3. Usando o ambiente de nuvem Browserbase

Primeiro, configure as variáveis de ambiente do Browserbase:

export BROWSERBASE_API_KEY="YOUR_BROWSERBASE_API_KEY"
export BROWSERBASE_PROJECT_ID="YOUR_BROWSERBASE_PROJECT_ID"

Em seguida, execute:

python main.py \
  --query="Go to Google and type 'Hello World' into the search bar" \
  --env="browserbase"

Descrição dos Parâmetros de Linha de Comando

Parâmetros Principais

Parâmetro	Descrição	Obrigatório	Valor Padrão	Ambientes Suportados
`--query`	Descrição da tarefa em linguagem natural	Sim	N/A	Todos
`--env`	Ambiente de execução (playwright/browserbase)	Não	N/A	Todos
`--initial_url`	URL inicial a ser carregada ao iniciar o navegador	Não	https://www.google.com	playwright
`--highlight_mouse`	Destacar a posição do mouse na captura de tela (para depuração)	Não	false	playwright

Variáveis de Ambiente

Nome da Variável	Descrição	Obrigatório
`GEMINI_API_KEY`	Chave da API Gemini	Sim (ao usar a API Gemini)
`BROWSERBASE_API_KEY`	Chave da API Browserbase	Sim (ao usar o ambiente browserbase)
`BROWSERBASE_PROJECT_ID`	ID do Projeto Browserbase	Sim (ao usar o ambiente browserbase)
`USE_VERTEXAI`	Habilitar Vertex AI	Não
`VERTEXAI_PROJECT`	ID do Projeto Vertex AI	Sim (ao usar Vertex AI)
`VERTEXAI_LOCATION`	Localização do Vertex AI	Sim (ao usar Vertex AI)

Cenários de Aplicação

1. Testes Automatizados

Testes de regressão de UI
Testes de ponta a ponta
Testes entre navegadores

2. Extração de Dados

Preenchimento automatizado de formulários
Extração de dados de páginas web
Execução de tarefas agendadas

3. Automação de Fluxos de Trabalho

Automação de tarefas repetitivas
Processos de negócios com múltiplos passos
Processamento de operações em lote

4. Assistente Pessoal

Automação de operações web diárias
Coleta e organização de informações
Navegação web inteligente

Desempenho

De acordo com os dados de avaliação do Google e Browserbase, o modelo Gemini 2.5 Computer Use demonstrou excelente desempenho em vários benchmarks:

OnlineMind2Web: Lidera em precisão em tarefas de controle web
WebVoyager: Excelente desempenho em tarefas complexas de navegação web
Baixa latência: Resposta mais rápida em comparação com modelos concorrentes
Alta precisão: Supera outros modelos mainstream em benchmarks de controle de navegador e dispositivos móveis

Considerações Importantes

Segurança

Este modelo é uma versão de pré-visualização e pode conter erros e vulnerabilidades de segurança
As ações sugeridas pelo modelo podem ser inadequadas ou inseguras
Entradas adversárias podem levar a operações maliciosas
Recomenda-se testes completos antes do uso em ambiente de produção

Restrições de Uso

Requer um mecanismo claro de confirmação manual
Cumprir a política de uso proibido de IA generativa do Google
Este produto está sujeito aos termos Pre-GA

Melhores Práticas

Sempre testar em ambientes controlados
Monitorar o comportamento operacional do agente
Adicionar revisão manual para operações críticas
Atualizar regularmente para a versão mais recente

Recursos Relacionados

Documentação Oficial: Documentação do Vertex AI Computer Use
Google AI Studio: Teste rápido e desenvolvimento de protótipos
Demonstração Browserbase: Experimente a funcionalidade Computer Use online
Fórum de Desenvolvedores: Feedback de problemas e obtenção de suporte

Vantagens Técnicas

Capacidade de Compreensão Visual: Poderosa capacidade de reconhecimento visual baseada no Gemini 2.5 Pro
Interação Nativa de UI: Não requer API estruturada, opera diretamente na interface gráfica
Operações Pós-Login: Suporta tarefas complexas que exigem autenticação
Processamento de Formulários: Preenchimento e envio inteligente de formulários complexos
Operação de Elementos Interativos: Lida com componentes interativos como menus suspensos e filtros

Significado do Projeto

O Google Computer Use Preview representa um avanço significativo na tecnologia de agentes de IA. Ao permitir que os modelos de IA interajam diretamente com interfaces gráficas como humanos, em vez de depender de APIs estruturadas, esta tecnologia abre novas possibilidades para a construção de agentes de propósito geral. Ela permite que os desenvolvedores:

Automatizar tarefas complexas que antes exigiam intervenção humana
Construir rapidamente aplicações inteligentes de automação de navegador
Reduzir os custos de desenvolvimento para testes de UI e automação de fluxo de trabalho
Explorar novas formas de interação humano-computador

Perspectivas Futuras

Com a melhoria contínua das capacidades do modelo, a tecnologia de uso de computador se desenvolverá nas seguintes áreas:

Maior precisão e confiabilidade
Execução de tarefas multi-passos mais complexas
Melhor segurança e controlabilidade
Integração profunda com outras capacidades de IA
Cobertura mais ampla de cenários de aplicação