Projeto de visualização do modelo de uso de computador Gemini 2.5 lançado oficialmente pelo Google, que suporta um agente de IA que controla o navegador para executar tarefas por meio de instruções em linguagem natural.
Introdução ao Projeto Google Computer Use Preview
Visão Geral do Projeto
O Google Computer Use Preview é um projeto de código aberto lançado oficialmente pelo Google, que demonstra as capacidades do modelo de Uso de Computador (Computer Use) baseado no Gemini 2.5. Este projeto permite que os desenvolvedores controlem o navegador para executar várias tarefas através de instruções em linguagem natural, alcançando uma verdadeira automação de navegador por meio de um agente.
Endereço do Projeto: https://github.com/google/computer-use-preview
Licença de Código Aberto: Apache 2.0
Principais Recursos
1. Controle por Linguagem Natural
Os usuários podem descrever tarefas usando linguagem natural simples, e o agente de IA irá automaticamente analisar e executar as operações correspondentes no navegador, como:
- Clicar em botões
- Preencher formulários
- Rolar a página
- Inserir texto
- Realizar pesquisas
2. Suporte a Múltiplos Ambientes
O projeto suporta dois ambientes de execução:
- Playwright: Controle de navegador local, usando o navegador Chrome para executar tarefas localmente
- Browserbase: Serviço de navegador em nuvem, suporta controle remoto do navegador
3. Baseado no Modelo Gemini 2.5
Este projeto utiliza o modelo mais recente do Google, gemini-2.5-computer-use-preview-10-2025, que foi otimizado especificamente para interações de UI, possuindo:
- Poderosa capacidade de compreensão visual
- Reconhecimento preciso de elementos de UI
- Resposta de baixa latência
- Excelente capacidade de raciocínio
4. Flexibilidade da API
Suporta duas formas de acesso à API:
- Gemini Developer API: Adequado para desenvolvimento e testes rápidos
- Vertex AI: Adequado para implantação de aplicações de nível empresarial
Arquitetura Técnica
Componentes Principais
Camada de Controle do Navegador
- Playwright: Framework de automação de navegador local
- Browserbase: Infraestrutura de navegador em nuvem
Camada do Modelo de IA
- Modelo Gemini 2.5 Computer Use
- Capacidades de compreensão visual e raciocínio
- Geração de ações de UI
Loop do Agente
- Recebe consultas do usuário
- Captura capturas de tela
- Gera e executa ações
- Rastreia operações históricas
Como Funciona
- O usuário fornece a descrição da tarefa em linguagem natural
- O sistema captura uma captura de tela do navegador atual
- O modelo Gemini analisa a captura de tela e os requisitos da tarefa
- O modelo gera instruções específicas de operação de UI (clicar, digitar, rolar, etc.)
- Executa a operação e obtém o novo estado da tela
- Repete os passos 2-5 até que a tarefa seja concluída
Início Rápido
Requisitos de Ambiente
- Python 3.x
- Navegador Chrome
- Chave da API Gemini (ou acesso ao Vertex AI)
Passos de Instalação
Clonar o projeto
git clone https://github.com/google/computer-use-preview.git cd computer-use-previewCriar ambiente virtual e instalar dependências
python3 -m venv .venv source .venv/bin/activate pip install -r requirements.txtInstalar Playwright e navegador
# Instalar dependências do sistema necessárias para o Chrome playwright install-deps chrome # Instalar o navegador Chrome playwright install chrome
Configurar Chave da API
Usando a API de Desenvolvedor Gemini
export GEMINI_API_KEY="YOUR_GEMINI_API_KEY"
Ou adicionar permanentemente ao ambiente virtual:
echo 'export GEMINI_API_KEY="YOUR_GEMINI_API_KEY"' >> .venv/bin/activate
deactivate
source .venv/bin/activate
Usando Vertex AI
export USE_VERTEXAI=true
export VERTEXAI_PROJECT="YOUR_PROJECT_ID"
export VERTEXAI_LOCATION="YOUR_LOCATION"
Exemplos de Uso
1. Uso Básico (ambiente local Playwright)
python main.py --query="Go to Google and type 'Hello World' into the search bar" --env="playwright"
2. Especificar URL Inicial
python main.py \
--query="Go to Google and type 'Hello World' into the search bar" \
--env="playwright" \
--initial_url="https://www.google.com/search?q=latest+AI+news"
3. Usando o ambiente de nuvem Browserbase
Primeiro, configure as variáveis de ambiente do Browserbase:
export BROWSERBASE_API_KEY="YOUR_BROWSERBASE_API_KEY"
export BROWSERBASE_PROJECT_ID="YOUR_BROWSERBASE_PROJECT_ID"
Em seguida, execute:
python main.py \
--query="Go to Google and type 'Hello World' into the search bar" \
--env="browserbase"
Descrição dos Parâmetros de Linha de Comando
Parâmetros Principais
| Parâmetro | Descrição | Obrigatório | Valor Padrão | Ambientes Suportados |
|---|---|---|---|---|
--query |
Descrição da tarefa em linguagem natural | Sim | N/A | Todos |
--env |
Ambiente de execução (playwright/browserbase) | Não | N/A | Todos |
--initial_url |
URL inicial a ser carregada ao iniciar o navegador | Não | https://www.google.com | playwright |
--highlight_mouse |
Destacar a posição do mouse na captura de tela (para depuração) | Não | false | playwright |
Variáveis de Ambiente
| Nome da Variável | Descrição | Obrigatório |
|---|---|---|
GEMINI_API_KEY |
Chave da API Gemini | Sim (ao usar a API Gemini) |
BROWSERBASE_API_KEY |
Chave da API Browserbase | Sim (ao usar o ambiente browserbase) |
BROWSERBASE_PROJECT_ID |
ID do Projeto Browserbase | Sim (ao usar o ambiente browserbase) |
USE_VERTEXAI |
Habilitar Vertex AI | Não |
VERTEXAI_PROJECT |
ID do Projeto Vertex AI | Sim (ao usar Vertex AI) |
VERTEXAI_LOCATION |
Localização do Vertex AI | Sim (ao usar Vertex AI) |
Cenários de Aplicação
1. Testes Automatizados
- Testes de regressão de UI
- Testes de ponta a ponta
- Testes entre navegadores
2. Extração de Dados
- Preenchimento automatizado de formulários
- Extração de dados de páginas web
- Execução de tarefas agendadas
3. Automação de Fluxos de Trabalho
- Automação de tarefas repetitivas
- Processos de negócios com múltiplos passos
- Processamento de operações em lote
4. Assistente Pessoal
- Automação de operações web diárias
- Coleta e organização de informações
- Navegação web inteligente
Desempenho
De acordo com os dados de avaliação do Google e Browserbase, o modelo Gemini 2.5 Computer Use demonstrou excelente desempenho em vários benchmarks:
- OnlineMind2Web: Lidera em precisão em tarefas de controle web
- WebVoyager: Excelente desempenho em tarefas complexas de navegação web
- Baixa latência: Resposta mais rápida em comparação com modelos concorrentes
- Alta precisão: Supera outros modelos mainstream em benchmarks de controle de navegador e dispositivos móveis
Considerações Importantes
Segurança
- Este modelo é uma versão de pré-visualização e pode conter erros e vulnerabilidades de segurança
- As ações sugeridas pelo modelo podem ser inadequadas ou inseguras
- Entradas adversárias podem levar a operações maliciosas
- Recomenda-se testes completos antes do uso em ambiente de produção
Restrições de Uso
- Requer um mecanismo claro de confirmação manual
- Cumprir a política de uso proibido de IA generativa do Google
- Este produto está sujeito aos termos Pre-GA
Melhores Práticas
- Sempre testar em ambientes controlados
- Monitorar o comportamento operacional do agente
- Adicionar revisão manual para operações críticas
- Atualizar regularmente para a versão mais recente
Recursos Relacionados
- Documentação Oficial: Documentação do Vertex AI Computer Use
- Google AI Studio: Teste rápido e desenvolvimento de protótipos
- Demonstração Browserbase: Experimente a funcionalidade Computer Use online
- Fórum de Desenvolvedores: Feedback de problemas e obtenção de suporte
Vantagens Técnicas
- Capacidade de Compreensão Visual: Poderosa capacidade de reconhecimento visual baseada no Gemini 2.5 Pro
- Interação Nativa de UI: Não requer API estruturada, opera diretamente na interface gráfica
- Operações Pós-Login: Suporta tarefas complexas que exigem autenticação
- Processamento de Formulários: Preenchimento e envio inteligente de formulários complexos
- Operação de Elementos Interativos: Lida com componentes interativos como menus suspensos e filtros
Significado do Projeto
O Google Computer Use Preview representa um avanço significativo na tecnologia de agentes de IA. Ao permitir que os modelos de IA interajam diretamente com interfaces gráficas como humanos, em vez de depender de APIs estruturadas, esta tecnologia abre novas possibilidades para a construção de agentes de propósito geral. Ela permite que os desenvolvedores:
- Automatizar tarefas complexas que antes exigiam intervenção humana
- Construir rapidamente aplicações inteligentes de automação de navegador
- Reduzir os custos de desenvolvimento para testes de UI e automação de fluxo de trabalho
- Explorar novas formas de interação humano-computador
Perspectivas Futuras
Com a melhoria contínua das capacidades do modelo, a tecnologia de uso de computador se desenvolverá nas seguintes áreas:
- Maior precisão e confiabilidade
- Execução de tarefas multi-passos mais complexas
- Melhor segurança e controlabilidade
- Integração profunda com outras capacidades de IA
- Cobertura mais ampla de cenários de aplicação