Proyecto de vista previa del modelo de uso informático Gemini 2.5 publicado por Google, que admite un agente de IA que controla el navegador para realizar tareas a través de instrucciones en lenguaje natural.

Apache-2.0Pythoncomputer-use-previewgoogle 1.6k Last Updated: October 10, 2025

Introducción al Proyecto Google Computer Use Preview

Resumen del Proyecto

Google Computer Use Preview es un proyecto de código abierto lanzado oficialmente por Google, que demuestra las capacidades del modelo de uso de computadora (Computer Use) basado en Gemini 2.5. Este proyecto permite a los desarrolladores controlar el navegador para ejecutar diversas tareas mediante instrucciones en lenguaje natural, logrando una verdadera automatización del navegador como un agente.

Dirección del Proyecto: https://github.com/google/computer-use-preview

Licencia de Código Abierto: Apache 2.0

Características Principales

1. Control por Lenguaje Natural

Los usuarios pueden describir tareas utilizando un lenguaje natural sencillo, y el agente de IA analizará y ejecutará automáticamente las operaciones del navegador correspondientes, por ejemplo:

  • Hacer clic en botones
  • Rellenar formularios
  • Desplazarse por la página
  • Introducir texto
  • Realizar búsquedas

2. Soporte Multientorno

El proyecto soporta dos entornos de ejecución:

  • Playwright: Control local del navegador, utilizando el navegador Chrome para ejecutar tareas localmente.
  • Browserbase: Servicio de navegador en la nube, que soporta el control remoto del navegador.

3. Basado en el Modelo Gemini 2.5

Este proyecto utiliza el modelo más reciente de Google, gemini-2.5-computer-use-preview-10-2025, que ha sido optimizado específicamente para la interacción con la interfaz de usuario (UI), y cuenta con:

  • Potente capacidad de comprensión visual
  • Reconocimiento preciso de elementos de la UI
  • Respuesta de baja latencia
  • Excelentes capacidades de razonamiento

4. Flexibilidad de la API

Soporta dos formas de acceso a la API:

  • Gemini Developer API: Adecuada para el desarrollo y pruebas rápidos.
  • Vertex AI: Adecuada para la implementación de aplicaciones a nivel empresarial.

Arquitectura Técnica

Componentes Principales

  1. Capa de Control del Navegador

    • Playwright: Marco de automatización de navegador local
    • Browserbase: Infraestructura de navegador en la nube
  2. Capa del Modelo de IA

    • Modelo Gemini 2.5 Computer Use
    • Capacidades de comprensión visual y razonamiento
    • Generación de acciones de UI
  3. Bucle del Agente

    • Recibe consultas del usuario
    • Captura capturas de pantalla
    • Genera y ejecuta acciones
    • Rastrea operaciones históricas

Principio de Funcionamiento

  1. El usuario proporciona una descripción de la tarea en lenguaje natural.
  2. El sistema captura una captura de pantalla del navegador actual.
  3. El modelo Gemini analiza la captura de pantalla y los requisitos de la tarea.
  4. El modelo genera instrucciones específicas de operación de UI (clic, entrada, desplazamiento, etc.).
  5. Ejecuta la operación y obtiene el nuevo estado de la pantalla.
  6. Repite los pasos 2-5 hasta que la tarea se complete.

Inicio Rápido

Requisitos del Entorno

  • Python 3.x
  • Navegador Chrome
  • Clave API de Gemini (o acceso a Vertex AI)

Pasos de Instalación

  1. Clonar el proyecto

    git clone https://github.com/google/computer-use-preview.git
    cd computer-use-preview
    
  2. Crear un entorno virtual e instalar dependencias

    python3 -m venv .venv
    source .venv/bin/activate
    pip install -r requirements.txt
    
  3. Instalar Playwright y el navegador

    # Instalar las dependencias del sistema necesarias para Chrome
    playwright install-deps chrome
    
    # Instalar el navegador Chrome
    playwright install chrome
    

Configuración de la Clave API

Usar la API de Desarrollador de Gemini

export GEMINI_API_KEY="TU_CLAVE_API_GEMINI"

O añadir permanentemente al entorno virtual:

echo 'export GEMINI_API_KEY="TU_CLAVE_API_GEMINI"' >> .venv/bin/activate
deactivate
source .venv/bin/activate

Usar Vertex AI

export USE_VERTEXAI=true
export VERTEXAI_PROJECT="TU_ID_DE_PROYECTO"
export VERTEXAI_LOCATION="TU_UBICACION"

Ejemplos de Uso

1. Uso Básico (Entorno local de Playwright)

python main.py --query="Go to Google and type 'Hello World' into the search bar" --env="playwright"

2. Especificar una URL Inicial

python main.py \
  --query="Go to Google and type 'Hello World' into the search bar" \
  --env="playwright" \
  --initial_url="https://www.google.com/search?q=latest+AI+news"

3. Usar el Entorno en la Nube de Browserbase

Primero, configura las variables de entorno de Browserbase:

export BROWSERBASE_API_KEY="TU_CLAVE_API_BROWSERBASE"
export BROWSERBASE_PROJECT_ID="TU_ID_DE_PROYECTO_BROWSERBASE"

Luego ejecuta:

python main.py \
  --query="Go to Google and type 'Hello World' into the search bar" \
  --env="browserbase"

Descripción de los Parámetros de Línea de Comandos

Parámetros Principales

Parámetro Descripción ¿Obligatorio? Valor por Defecto Entornos Soportados
--query Descripción de la tarea en lenguaje natural N/A Todos
--env Entorno de ejecución (playwright/browserbase) No N/A Todos
--initial_url URL inicial a cargar al iniciar el navegador No https://www.google.com playwright
--highlight_mouse Resaltar la posición del ratón en la captura de pantalla (para depuración) No false playwright

Variables de Entorno

Nombre de la Variable Descripción ¿Obligatorio?
GEMINI_API_KEY Clave API de Gemini Sí (al usar la API de Gemini)
BROWSERBASE_API_KEY Clave API de Browserbase Sí (al usar el entorno browserbase)
BROWSERBASE_PROJECT_ID ID del proyecto de Browserbase Sí (al usar el entorno browserbase)
USE_VERTEXAI Habilitar Vertex AI No
VERTEXAI_PROJECT ID del proyecto de Vertex AI Sí (al usar Vertex AI)
VERTEXAI_LOCATION Ubicación de Vertex AI Sí (al usar Vertex AI)

Escenarios de Aplicación

1. Pruebas Automatizadas

  • Pruebas de regresión de UI
  • Pruebas de extremo a extremo
  • Pruebas entre navegadores

2. Extracción de Datos

  • Relleno automático de formularios
  • Extracción de datos web
  • Ejecución de tareas programadas

3. Automatización de Flujos de Trabajo

  • Automatización de tareas repetitivas
  • Procesos de negocio de múltiples pasos
  • Procesamiento de operaciones por lotes

4. Asistente Personal

  • Automatización de operaciones web diarias
  • Recopilación y organización de información
  • Navegación web inteligente

Rendimiento

Según los datos de evaluación de Google y Browserbase, el modelo Gemini 2.5 Computer Use ha demostrado un rendimiento excepcional en varias pruebas de referencia:

  • OnlineMind2Web: Precisión líder en tareas de control web
  • WebVoyager: Excelente rendimiento en tareas complejas de navegación web
  • Baja latencia: Respuesta más rápida en comparación con modelos de la competencia
  • Alta precisión: Supera a otros modelos principales en pruebas de referencia de control de navegador y móvil

Consideraciones

Seguridad

  • Este modelo es una versión preliminar y puede contener errores y vulnerabilidades de seguridad.
  • Las acciones sugeridas por el modelo pueden ser inapropiadas o inseguras.
  • Las entradas adversarias pueden conducir a operaciones maliciosas.
  • Se recomienda realizar pruebas exhaustivas antes de usarlo en entornos de producción.

Restricciones de Uso

  • Requiere un mecanismo explícito de confirmación manual.
  • Cumplir con la política de uso prohibido de IA generativa de Google.
  • Este producto está sujeto a los términos de Pre-GA.

Mejores Prácticas

  • Probar siempre en un entorno controlado.
  • Monitorear el comportamiento operativo del agente.
  • Añadir revisión manual para operaciones críticas.
  • Actualizar regularmente a la última versión.

Recursos Relacionados

  • Documentación oficial: Documentación de Vertex AI Computer Use
  • Google AI Studio: Para pruebas rápidas y desarrollo de prototipos.
  • Demostración de Browserbase: Experimenta la función Computer Use en línea.
  • Foro de desarrolladores: Para comentarios y soporte.

Ventajas Técnicas

  1. Capacidad de comprensión visual: Potente capacidad de reconocimiento visual basada en Gemini 2.5 Pro.
  2. Interacción nativa con la UI: No requiere API estructuradas, opera directamente con la interfaz gráfica.
  3. Operaciones post-inicio de sesión: Soporta tareas complejas que requieren autenticación.
  4. Procesamiento de formularios: Relleno y envío inteligente de formularios complejos.
  5. Operación de elementos interactivos: Maneja componentes interactivos como menús desplegables y filtros.

Significado del Proyecto

Google Computer Use Preview representa un avance significativo en la tecnología de agentes de IA. Al permitir que los modelos de IA interactúen directamente con las interfaces gráficas como lo haría un humano, en lugar de depender de API estructuradas, esta tecnología abre nuevas posibilidades para la construcción de agentes de propósito general. Permite a los desarrolladores:

  • Automatizar tareas complejas que antes requerían intervención humana.
  • Construir rápidamente aplicaciones inteligentes de automatización de navegadores.
  • Reducir los costos de desarrollo para pruebas de UI y automatización de flujos de trabajo.
  • Explorar nuevas formas de interacción humano-máquina.

Perspectivas Futuras

Con la mejora continua de las capacidades del modelo, la tecnología de uso de computadoras se desarrollará en los siguientes aspectos:

  • Mayor precisión y fiabilidad
  • Ejecución de tareas de múltiples pasos más complejas
  • Mejor seguridad y controlabilidad
  • Integración profunda con otras capacidades de IA
  • Cobertura de escenarios de aplicación más amplia

Star History Chart