Projeto de visualização do modelo de uso de computador Gemini 2.5 lançado oficialmente pelo Google, que suporta um agente de IA que controla o navegador para executar tarefas por meio de instruções em linguagem natural.

Apache-2.0Pythoncomputer-use-previewgoogle 1.6k Last Updated: October 10, 2025

Introdução ao Projeto Google Computer Use Preview

Visão Geral do Projeto

O Google Computer Use Preview é um projeto de código aberto lançado oficialmente pelo Google, que demonstra as capacidades do modelo de Uso de Computador (Computer Use) baseado no Gemini 2.5. Este projeto permite que os desenvolvedores controlem o navegador para executar várias tarefas através de instruções em linguagem natural, alcançando uma verdadeira automação de navegador por meio de um agente.

Endereço do Projeto: https://github.com/google/computer-use-preview

Licença de Código Aberto: Apache 2.0

Principais Recursos

1. Controle por Linguagem Natural

Os usuários podem descrever tarefas usando linguagem natural simples, e o agente de IA irá automaticamente analisar e executar as operações correspondentes no navegador, como:

  • Clicar em botões
  • Preencher formulários
  • Rolar a página
  • Inserir texto
  • Realizar pesquisas

2. Suporte a Múltiplos Ambientes

O projeto suporta dois ambientes de execução:

  • Playwright: Controle de navegador local, usando o navegador Chrome para executar tarefas localmente
  • Browserbase: Serviço de navegador em nuvem, suporta controle remoto do navegador

3. Baseado no Modelo Gemini 2.5

Este projeto utiliza o modelo mais recente do Google, gemini-2.5-computer-use-preview-10-2025, que foi otimizado especificamente para interações de UI, possuindo:

  • Poderosa capacidade de compreensão visual
  • Reconhecimento preciso de elementos de UI
  • Resposta de baixa latência
  • Excelente capacidade de raciocínio

4. Flexibilidade da API

Suporta duas formas de acesso à API:

  • Gemini Developer API: Adequado para desenvolvimento e testes rápidos
  • Vertex AI: Adequado para implantação de aplicações de nível empresarial

Arquitetura Técnica

Componentes Principais

  1. Camada de Controle do Navegador

    • Playwright: Framework de automação de navegador local
    • Browserbase: Infraestrutura de navegador em nuvem
  2. Camada do Modelo de IA

    • Modelo Gemini 2.5 Computer Use
    • Capacidades de compreensão visual e raciocínio
    • Geração de ações de UI
  3. Loop do Agente

    • Recebe consultas do usuário
    • Captura capturas de tela
    • Gera e executa ações
    • Rastreia operações históricas

Como Funciona

  1. O usuário fornece a descrição da tarefa em linguagem natural
  2. O sistema captura uma captura de tela do navegador atual
  3. O modelo Gemini analisa a captura de tela e os requisitos da tarefa
  4. O modelo gera instruções específicas de operação de UI (clicar, digitar, rolar, etc.)
  5. Executa a operação e obtém o novo estado da tela
  6. Repete os passos 2-5 até que a tarefa seja concluída

Início Rápido

Requisitos de Ambiente

  • Python 3.x
  • Navegador Chrome
  • Chave da API Gemini (ou acesso ao Vertex AI)

Passos de Instalação

  1. Clonar o projeto

    git clone https://github.com/google/computer-use-preview.git
    cd computer-use-preview
    
  2. Criar ambiente virtual e instalar dependências

    python3 -m venv .venv
    source .venv/bin/activate
    pip install -r requirements.txt
    
  3. Instalar Playwright e navegador

    # Instalar dependências do sistema necessárias para o Chrome
    playwright install-deps chrome
    
    # Instalar o navegador Chrome
    playwright install chrome
    

Configurar Chave da API

Usando a API de Desenvolvedor Gemini

export GEMINI_API_KEY="YOUR_GEMINI_API_KEY"

Ou adicionar permanentemente ao ambiente virtual:

echo 'export GEMINI_API_KEY="YOUR_GEMINI_API_KEY"' >> .venv/bin/activate
deactivate
source .venv/bin/activate

Usando Vertex AI

export USE_VERTEXAI=true
export VERTEXAI_PROJECT="YOUR_PROJECT_ID"
export VERTEXAI_LOCATION="YOUR_LOCATION"

Exemplos de Uso

1. Uso Básico (ambiente local Playwright)

python main.py --query="Go to Google and type 'Hello World' into the search bar" --env="playwright"

2. Especificar URL Inicial

python main.py \
  --query="Go to Google and type 'Hello World' into the search bar" \
  --env="playwright" \
  --initial_url="https://www.google.com/search?q=latest+AI+news"

3. Usando o ambiente de nuvem Browserbase

Primeiro, configure as variáveis de ambiente do Browserbase:

export BROWSERBASE_API_KEY="YOUR_BROWSERBASE_API_KEY"
export BROWSERBASE_PROJECT_ID="YOUR_BROWSERBASE_PROJECT_ID"

Em seguida, execute:

python main.py \
  --query="Go to Google and type 'Hello World' into the search bar" \
  --env="browserbase"

Descrição dos Parâmetros de Linha de Comando

Parâmetros Principais

Parâmetro Descrição Obrigatório Valor Padrão Ambientes Suportados
--query Descrição da tarefa em linguagem natural Sim N/A Todos
--env Ambiente de execução (playwright/browserbase) Não N/A Todos
--initial_url URL inicial a ser carregada ao iniciar o navegador Não https://www.google.com playwright
--highlight_mouse Destacar a posição do mouse na captura de tela (para depuração) Não false playwright

Variáveis de Ambiente

Nome da Variável Descrição Obrigatório
GEMINI_API_KEY Chave da API Gemini Sim (ao usar a API Gemini)
BROWSERBASE_API_KEY Chave da API Browserbase Sim (ao usar o ambiente browserbase)
BROWSERBASE_PROJECT_ID ID do Projeto Browserbase Sim (ao usar o ambiente browserbase)
USE_VERTEXAI Habilitar Vertex AI Não
VERTEXAI_PROJECT ID do Projeto Vertex AI Sim (ao usar Vertex AI)
VERTEXAI_LOCATION Localização do Vertex AI Sim (ao usar Vertex AI)

Cenários de Aplicação

1. Testes Automatizados

  • Testes de regressão de UI
  • Testes de ponta a ponta
  • Testes entre navegadores

2. Extração de Dados

  • Preenchimento automatizado de formulários
  • Extração de dados de páginas web
  • Execução de tarefas agendadas

3. Automação de Fluxos de Trabalho

  • Automação de tarefas repetitivas
  • Processos de negócios com múltiplos passos
  • Processamento de operações em lote

4. Assistente Pessoal

  • Automação de operações web diárias
  • Coleta e organização de informações
  • Navegação web inteligente

Desempenho

De acordo com os dados de avaliação do Google e Browserbase, o modelo Gemini 2.5 Computer Use demonstrou excelente desempenho em vários benchmarks:

  • OnlineMind2Web: Lidera em precisão em tarefas de controle web
  • WebVoyager: Excelente desempenho em tarefas complexas de navegação web
  • Baixa latência: Resposta mais rápida em comparação com modelos concorrentes
  • Alta precisão: Supera outros modelos mainstream em benchmarks de controle de navegador e dispositivos móveis

Considerações Importantes

Segurança

  • Este modelo é uma versão de pré-visualização e pode conter erros e vulnerabilidades de segurança
  • As ações sugeridas pelo modelo podem ser inadequadas ou inseguras
  • Entradas adversárias podem levar a operações maliciosas
  • Recomenda-se testes completos antes do uso em ambiente de produção

Restrições de Uso

  • Requer um mecanismo claro de confirmação manual
  • Cumprir a política de uso proibido de IA generativa do Google
  • Este produto está sujeito aos termos Pre-GA

Melhores Práticas

  • Sempre testar em ambientes controlados
  • Monitorar o comportamento operacional do agente
  • Adicionar revisão manual para operações críticas
  • Atualizar regularmente para a versão mais recente

Recursos Relacionados

  • Documentação Oficial: Documentação do Vertex AI Computer Use
  • Google AI Studio: Teste rápido e desenvolvimento de protótipos
  • Demonstração Browserbase: Experimente a funcionalidade Computer Use online
  • Fórum de Desenvolvedores: Feedback de problemas e obtenção de suporte

Vantagens Técnicas

  1. Capacidade de Compreensão Visual: Poderosa capacidade de reconhecimento visual baseada no Gemini 2.5 Pro
  2. Interação Nativa de UI: Não requer API estruturada, opera diretamente na interface gráfica
  3. Operações Pós-Login: Suporta tarefas complexas que exigem autenticação
  4. Processamento de Formulários: Preenchimento e envio inteligente de formulários complexos
  5. Operação de Elementos Interativos: Lida com componentes interativos como menus suspensos e filtros

Significado do Projeto

O Google Computer Use Preview representa um avanço significativo na tecnologia de agentes de IA. Ao permitir que os modelos de IA interajam diretamente com interfaces gráficas como humanos, em vez de depender de APIs estruturadas, esta tecnologia abre novas possibilidades para a construção de agentes de propósito geral. Ela permite que os desenvolvedores:

  • Automatizar tarefas complexas que antes exigiam intervenção humana
  • Construir rapidamente aplicações inteligentes de automação de navegador
  • Reduzir os custos de desenvolvimento para testes de UI e automação de fluxo de trabalho
  • Explorar novas formas de interação humano-computador

Perspectivas Futuras

Com a melhoria contínua das capacidades do modelo, a tecnologia de uso de computador se desenvolverá nas seguintes áreas:

  • Maior precisão e confiabilidade
  • Execução de tarefas multi-passos mais complexas
  • Melhor segurança e controlabilidade
  • Integração profunda com outras capacidades de IA
  • Cobertura mais ampla de cenários de aplicação

Star History Chart