google/computer-use-preview View GitHub Homepage for Latest Official Releases

Proyecto de vista previa del modelo de uso informático Gemini 2.5 publicado por Google, que admite un agente de IA que controla el navegador para realizar tareas a través de instrucciones en lenguaje natural.

Apache-2.0Pythoncomputer-use-previewgoogle 1.6k Last Updated: October 10, 2025

Introducción al Proyecto Google Computer Use Preview

Resumen del Proyecto

Google Computer Use Preview es un proyecto de código abierto lanzado oficialmente por Google, que demuestra las capacidades del modelo de uso de computadora (Computer Use) basado en Gemini 2.5. Este proyecto permite a los desarrolladores controlar el navegador para ejecutar diversas tareas mediante instrucciones en lenguaje natural, logrando una verdadera automatización del navegador como un agente.

Dirección del Proyecto: https://github.com/google/computer-use-preview

Licencia de Código Abierto: Apache 2.0

Características Principales

1. Control por Lenguaje Natural

Los usuarios pueden describir tareas utilizando un lenguaje natural sencillo, y el agente de IA analizará y ejecutará automáticamente las operaciones del navegador correspondientes, por ejemplo:

Hacer clic en botones
Rellenar formularios
Desplazarse por la página
Introducir texto
Realizar búsquedas

2. Soporte Multientorno

El proyecto soporta dos entornos de ejecución:

Playwright: Control local del navegador, utilizando el navegador Chrome para ejecutar tareas localmente.
Browserbase: Servicio de navegador en la nube, que soporta el control remoto del navegador.

3. Basado en el Modelo Gemini 2.5

Este proyecto utiliza el modelo más reciente de Google, gemini-2.5-computer-use-preview-10-2025, que ha sido optimizado específicamente para la interacción con la interfaz de usuario (UI), y cuenta con:

Potente capacidad de comprensión visual
Reconocimiento preciso de elementos de la UI
Respuesta de baja latencia
Excelentes capacidades de razonamiento

4. Flexibilidad de la API

Soporta dos formas de acceso a la API:

Gemini Developer API: Adecuada para el desarrollo y pruebas rápidos.
Vertex AI: Adecuada para la implementación de aplicaciones a nivel empresarial.

Arquitectura Técnica

Componentes Principales

Capa de Control del Navegador
- Playwright: Marco de automatización de navegador local
- Browserbase: Infraestructura de navegador en la nube
Capa del Modelo de IA
- Modelo Gemini 2.5 Computer Use
- Capacidades de comprensión visual y razonamiento
- Generación de acciones de UI
Bucle del Agente
- Recibe consultas del usuario
- Captura capturas de pantalla
- Genera y ejecuta acciones
- Rastrea operaciones históricas

Principio de Funcionamiento

El usuario proporciona una descripción de la tarea en lenguaje natural.
El sistema captura una captura de pantalla del navegador actual.
El modelo Gemini analiza la captura de pantalla y los requisitos de la tarea.
El modelo genera instrucciones específicas de operación de UI (clic, entrada, desplazamiento, etc.).
Ejecuta la operación y obtiene el nuevo estado de la pantalla.
Repite los pasos 2-5 hasta que la tarea se complete.

Inicio Rápido

Requisitos del Entorno

Python 3.x
Navegador Chrome
Clave API de Gemini (o acceso a Vertex AI)

Pasos de Instalación

Clonar el proyecto

git clone https://github.com/google/computer-use-preview.git
cd computer-use-preview

Crear un entorno virtual e instalar dependencias

python3 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt

Instalar Playwright y el navegador

# Instalar las dependencias del sistema necesarias para Chrome
playwright install-deps chrome

# Instalar el navegador Chrome
playwright install chrome

Configuración de la Clave API

Usar la API de Desarrollador de Gemini

export GEMINI_API_KEY="TU_CLAVE_API_GEMINI"

O añadir permanentemente al entorno virtual:

echo 'export GEMINI_API_KEY="TU_CLAVE_API_GEMINI"' >> .venv/bin/activate
deactivate
source .venv/bin/activate

Usar Vertex AI

export USE_VERTEXAI=true
export VERTEXAI_PROJECT="TU_ID_DE_PROYECTO"
export VERTEXAI_LOCATION="TU_UBICACION"

Ejemplos de Uso

1. Uso Básico (Entorno local de Playwright)

python main.py --query="Go to Google and type 'Hello World' into the search bar" --env="playwright"

2. Especificar una URL Inicial

python main.py \
  --query="Go to Google and type 'Hello World' into the search bar" \
  --env="playwright" \
  --initial_url="https://www.google.com/search?q=latest+AI+news"

3. Usar el Entorno en la Nube de Browserbase

Primero, configura las variables de entorno de Browserbase:

export BROWSERBASE_API_KEY="TU_CLAVE_API_BROWSERBASE"
export BROWSERBASE_PROJECT_ID="TU_ID_DE_PROYECTO_BROWSERBASE"

Luego ejecuta:

python main.py \
  --query="Go to Google and type 'Hello World' into the search bar" \
  --env="browserbase"

Descripción de los Parámetros de Línea de Comandos

Parámetros Principales

Parámetro	Descripción	¿Obligatorio?	Valor por Defecto	Entornos Soportados
`--query`	Descripción de la tarea en lenguaje natural	Sí	N/A	Todos
`--env`	Entorno de ejecución (playwright/browserbase)	No	N/A	Todos
`--initial_url`	URL inicial a cargar al iniciar el navegador	No	https://www.google.com	playwright
`--highlight_mouse`	Resaltar la posición del ratón en la captura de pantalla (para depuración)	No	false	playwright

Variables de Entorno

Nombre de la Variable	Descripción	¿Obligatorio?
`GEMINI_API_KEY`	Clave API de Gemini	Sí (al usar la API de Gemini)
`BROWSERBASE_API_KEY`	Clave API de Browserbase	Sí (al usar el entorno browserbase)
`BROWSERBASE_PROJECT_ID`	ID del proyecto de Browserbase	Sí (al usar el entorno browserbase)
`USE_VERTEXAI`	Habilitar Vertex AI	No
`VERTEXAI_PROJECT`	ID del proyecto de Vertex AI	Sí (al usar Vertex AI)
`VERTEXAI_LOCATION`	Ubicación de Vertex AI	Sí (al usar Vertex AI)

Escenarios de Aplicación

1. Pruebas Automatizadas

Pruebas de regresión de UI
Pruebas de extremo a extremo
Pruebas entre navegadores

2. Extracción de Datos

Relleno automático de formularios
Extracción de datos web
Ejecución de tareas programadas

3. Automatización de Flujos de Trabajo

Automatización de tareas repetitivas
Procesos de negocio de múltiples pasos
Procesamiento de operaciones por lotes

4. Asistente Personal

Automatización de operaciones web diarias
Recopilación y organización de información
Navegación web inteligente

Rendimiento

Según los datos de evaluación de Google y Browserbase, el modelo Gemini 2.5 Computer Use ha demostrado un rendimiento excepcional en varias pruebas de referencia:

OnlineMind2Web: Precisión líder en tareas de control web
WebVoyager: Excelente rendimiento en tareas complejas de navegación web
Baja latencia: Respuesta más rápida en comparación con modelos de la competencia
Alta precisión: Supera a otros modelos principales en pruebas de referencia de control de navegador y móvil

Consideraciones

Seguridad

Este modelo es una versión preliminar y puede contener errores y vulnerabilidades de seguridad.
Las acciones sugeridas por el modelo pueden ser inapropiadas o inseguras.
Las entradas adversarias pueden conducir a operaciones maliciosas.
Se recomienda realizar pruebas exhaustivas antes de usarlo en entornos de producción.

Restricciones de Uso

Requiere un mecanismo explícito de confirmación manual.
Cumplir con la política de uso prohibido de IA generativa de Google.
Este producto está sujeto a los términos de Pre-GA.

Mejores Prácticas

Probar siempre en un entorno controlado.
Monitorear el comportamiento operativo del agente.
Añadir revisión manual para operaciones críticas.
Actualizar regularmente a la última versión.

Recursos Relacionados

Documentación oficial: Documentación de Vertex AI Computer Use
Google AI Studio: Para pruebas rápidas y desarrollo de prototipos.
Demostración de Browserbase: Experimenta la función Computer Use en línea.
Foro de desarrolladores: Para comentarios y soporte.

Ventajas Técnicas

Capacidad de comprensión visual: Potente capacidad de reconocimiento visual basada en Gemini 2.5 Pro.
Interacción nativa con la UI: No requiere API estructuradas, opera directamente con la interfaz gráfica.
Operaciones post-inicio de sesión: Soporta tareas complejas que requieren autenticación.
Procesamiento de formularios: Relleno y envío inteligente de formularios complejos.
Operación de elementos interactivos: Maneja componentes interactivos como menús desplegables y filtros.

Significado del Proyecto

Google Computer Use Preview representa un avance significativo en la tecnología de agentes de IA. Al permitir que los modelos de IA interactúen directamente con las interfaces gráficas como lo haría un humano, en lugar de depender de API estructuradas, esta tecnología abre nuevas posibilidades para la construcción de agentes de propósito general. Permite a los desarrolladores:

Automatizar tareas complejas que antes requerían intervención humana.
Construir rápidamente aplicaciones inteligentes de automatización de navegadores.
Reducir los costos de desarrollo para pruebas de UI y automatización de flujos de trabajo.
Explorar nuevas formas de interacción humano-máquina.

Perspectivas Futuras

Con la mejora continua de las capacidades del modelo, la tecnología de uso de computadoras se desarrollará en los siguientes aspectos:

Mayor precisión y fiabilidad
Ejecución de tareas de múltiples pasos más complejas
Mejor seguridad y controlabilidad
Integración profunda con otras capacidades de IA
Cobertura de escenarios de aplicación más amplia