Proyecto de vista previa del modelo de uso informático Gemini 2.5 publicado por Google, que admite un agente de IA que controla el navegador para realizar tareas a través de instrucciones en lenguaje natural.
Introducción al Proyecto Google Computer Use Preview
Resumen del Proyecto
Google Computer Use Preview es un proyecto de código abierto lanzado oficialmente por Google, que demuestra las capacidades del modelo de uso de computadora (Computer Use) basado en Gemini 2.5. Este proyecto permite a los desarrolladores controlar el navegador para ejecutar diversas tareas mediante instrucciones en lenguaje natural, logrando una verdadera automatización del navegador como un agente.
Dirección del Proyecto: https://github.com/google/computer-use-preview
Licencia de Código Abierto: Apache 2.0
Características Principales
1. Control por Lenguaje Natural
Los usuarios pueden describir tareas utilizando un lenguaje natural sencillo, y el agente de IA analizará y ejecutará automáticamente las operaciones del navegador correspondientes, por ejemplo:
- Hacer clic en botones
- Rellenar formularios
- Desplazarse por la página
- Introducir texto
- Realizar búsquedas
2. Soporte Multientorno
El proyecto soporta dos entornos de ejecución:
- Playwright: Control local del navegador, utilizando el navegador Chrome para ejecutar tareas localmente.
- Browserbase: Servicio de navegador en la nube, que soporta el control remoto del navegador.
3. Basado en el Modelo Gemini 2.5
Este proyecto utiliza el modelo más reciente de Google, gemini-2.5-computer-use-preview-10-2025, que ha sido optimizado específicamente para la interacción con la interfaz de usuario (UI), y cuenta con:
- Potente capacidad de comprensión visual
- Reconocimiento preciso de elementos de la UI
- Respuesta de baja latencia
- Excelentes capacidades de razonamiento
4. Flexibilidad de la API
Soporta dos formas de acceso a la API:
- Gemini Developer API: Adecuada para el desarrollo y pruebas rápidos.
- Vertex AI: Adecuada para la implementación de aplicaciones a nivel empresarial.
Arquitectura Técnica
Componentes Principales
Capa de Control del Navegador
- Playwright: Marco de automatización de navegador local
- Browserbase: Infraestructura de navegador en la nube
Capa del Modelo de IA
- Modelo Gemini 2.5 Computer Use
- Capacidades de comprensión visual y razonamiento
- Generación de acciones de UI
Bucle del Agente
- Recibe consultas del usuario
- Captura capturas de pantalla
- Genera y ejecuta acciones
- Rastrea operaciones históricas
Principio de Funcionamiento
- El usuario proporciona una descripción de la tarea en lenguaje natural.
- El sistema captura una captura de pantalla del navegador actual.
- El modelo Gemini analiza la captura de pantalla y los requisitos de la tarea.
- El modelo genera instrucciones específicas de operación de UI (clic, entrada, desplazamiento, etc.).
- Ejecuta la operación y obtiene el nuevo estado de la pantalla.
- Repite los pasos 2-5 hasta que la tarea se complete.
Inicio Rápido
Requisitos del Entorno
- Python 3.x
- Navegador Chrome
- Clave API de Gemini (o acceso a Vertex AI)
Pasos de Instalación
Clonar el proyecto
git clone https://github.com/google/computer-use-preview.git cd computer-use-previewCrear un entorno virtual e instalar dependencias
python3 -m venv .venv source .venv/bin/activate pip install -r requirements.txtInstalar Playwright y el navegador
# Instalar las dependencias del sistema necesarias para Chrome playwright install-deps chrome # Instalar el navegador Chrome playwright install chrome
Configuración de la Clave API
Usar la API de Desarrollador de Gemini
export GEMINI_API_KEY="TU_CLAVE_API_GEMINI"
O añadir permanentemente al entorno virtual:
echo 'export GEMINI_API_KEY="TU_CLAVE_API_GEMINI"' >> .venv/bin/activate
deactivate
source .venv/bin/activate
Usar Vertex AI
export USE_VERTEXAI=true
export VERTEXAI_PROJECT="TU_ID_DE_PROYECTO"
export VERTEXAI_LOCATION="TU_UBICACION"
Ejemplos de Uso
1. Uso Básico (Entorno local de Playwright)
python main.py --query="Go to Google and type 'Hello World' into the search bar" --env="playwright"
2. Especificar una URL Inicial
python main.py \
--query="Go to Google and type 'Hello World' into the search bar" \
--env="playwright" \
--initial_url="https://www.google.com/search?q=latest+AI+news"
3. Usar el Entorno en la Nube de Browserbase
Primero, configura las variables de entorno de Browserbase:
export BROWSERBASE_API_KEY="TU_CLAVE_API_BROWSERBASE"
export BROWSERBASE_PROJECT_ID="TU_ID_DE_PROYECTO_BROWSERBASE"
Luego ejecuta:
python main.py \
--query="Go to Google and type 'Hello World' into the search bar" \
--env="browserbase"
Descripción de los Parámetros de Línea de Comandos
Parámetros Principales
| Parámetro | Descripción | ¿Obligatorio? | Valor por Defecto | Entornos Soportados |
|---|---|---|---|---|
--query |
Descripción de la tarea en lenguaje natural | Sí | N/A | Todos |
--env |
Entorno de ejecución (playwright/browserbase) | No | N/A | Todos |
--initial_url |
URL inicial a cargar al iniciar el navegador | No | https://www.google.com | playwright |
--highlight_mouse |
Resaltar la posición del ratón en la captura de pantalla (para depuración) | No | false | playwright |
Variables de Entorno
| Nombre de la Variable | Descripción | ¿Obligatorio? |
|---|---|---|
GEMINI_API_KEY |
Clave API de Gemini | Sí (al usar la API de Gemini) |
BROWSERBASE_API_KEY |
Clave API de Browserbase | Sí (al usar el entorno browserbase) |
BROWSERBASE_PROJECT_ID |
ID del proyecto de Browserbase | Sí (al usar el entorno browserbase) |
USE_VERTEXAI |
Habilitar Vertex AI | No |
VERTEXAI_PROJECT |
ID del proyecto de Vertex AI | Sí (al usar Vertex AI) |
VERTEXAI_LOCATION |
Ubicación de Vertex AI | Sí (al usar Vertex AI) |
Escenarios de Aplicación
1. Pruebas Automatizadas
- Pruebas de regresión de UI
- Pruebas de extremo a extremo
- Pruebas entre navegadores
2. Extracción de Datos
- Relleno automático de formularios
- Extracción de datos web
- Ejecución de tareas programadas
3. Automatización de Flujos de Trabajo
- Automatización de tareas repetitivas
- Procesos de negocio de múltiples pasos
- Procesamiento de operaciones por lotes
4. Asistente Personal
- Automatización de operaciones web diarias
- Recopilación y organización de información
- Navegación web inteligente
Rendimiento
Según los datos de evaluación de Google y Browserbase, el modelo Gemini 2.5 Computer Use ha demostrado un rendimiento excepcional en varias pruebas de referencia:
- OnlineMind2Web: Precisión líder en tareas de control web
- WebVoyager: Excelente rendimiento en tareas complejas de navegación web
- Baja latencia: Respuesta más rápida en comparación con modelos de la competencia
- Alta precisión: Supera a otros modelos principales en pruebas de referencia de control de navegador y móvil
Consideraciones
Seguridad
- Este modelo es una versión preliminar y puede contener errores y vulnerabilidades de seguridad.
- Las acciones sugeridas por el modelo pueden ser inapropiadas o inseguras.
- Las entradas adversarias pueden conducir a operaciones maliciosas.
- Se recomienda realizar pruebas exhaustivas antes de usarlo en entornos de producción.
Restricciones de Uso
- Requiere un mecanismo explícito de confirmación manual.
- Cumplir con la política de uso prohibido de IA generativa de Google.
- Este producto está sujeto a los términos de Pre-GA.
Mejores Prácticas
- Probar siempre en un entorno controlado.
- Monitorear el comportamiento operativo del agente.
- Añadir revisión manual para operaciones críticas.
- Actualizar regularmente a la última versión.
Recursos Relacionados
- Documentación oficial: Documentación de Vertex AI Computer Use
- Google AI Studio: Para pruebas rápidas y desarrollo de prototipos.
- Demostración de Browserbase: Experimenta la función Computer Use en línea.
- Foro de desarrolladores: Para comentarios y soporte.
Ventajas Técnicas
- Capacidad de comprensión visual: Potente capacidad de reconocimiento visual basada en Gemini 2.5 Pro.
- Interacción nativa con la UI: No requiere API estructuradas, opera directamente con la interfaz gráfica.
- Operaciones post-inicio de sesión: Soporta tareas complejas que requieren autenticación.
- Procesamiento de formularios: Relleno y envío inteligente de formularios complejos.
- Operación de elementos interactivos: Maneja componentes interactivos como menús desplegables y filtros.
Significado del Proyecto
Google Computer Use Preview representa un avance significativo en la tecnología de agentes de IA. Al permitir que los modelos de IA interactúen directamente con las interfaces gráficas como lo haría un humano, en lugar de depender de API estructuradas, esta tecnología abre nuevas posibilidades para la construcción de agentes de propósito general. Permite a los desarrolladores:
- Automatizar tareas complejas que antes requerían intervención humana.
- Construir rápidamente aplicaciones inteligentes de automatización de navegadores.
- Reducir los costos de desarrollo para pruebas de UI y automatización de flujos de trabajo.
- Explorar nuevas formas de interacción humano-máquina.
Perspectivas Futuras
Con la mejora continua de las capacidades del modelo, la tecnología de uso de computadoras se desarrollará en los siguientes aspectos:
- Mayor precisión y fiabilidad
- Ejecución de tareas de múltiples pasos más complejas
- Mejor seguridad y controlabilidad
- Integración profunda con otras capacidades de IA
- Cobertura de escenarios de aplicación más amplia