google/computer-use-preview View GitHub Homepage for Latest Official Releases

Projet de prévisualisation du modèle d'utilisation de l'ordinateur Gemini 2.5 publié par Google, prenant en charge un agent d'IA qui contrôle le navigateur pour exécuter des tâches via des instructions en langage naturel.

Apache-2.0Pythoncomputer-use-previewgoogle 1.6k Last Updated: October 10, 2025

Présentation du projet Google Computer Use Preview

Aperçu du projet

Google Computer Use Preview est un projet open source officiellement publié par Google, qui met en lumière les capacités du modèle d'utilisation informatique (Computer Use) basé sur Gemini 2.5. Ce projet permet aux développeurs de contrôler le navigateur pour exécuter diverses tâches via des instructions en langage naturel, réalisant ainsi un véritable agent d'automatisation de navigateur.

Adresse du projet: https://github.com/google/computer-use-preview

Licence open source: Apache 2.0

Fonctionnalités clés

1. Contrôle par langage naturel

Les utilisateurs peuvent décrire des tâches en langage naturel simple, et l'agent IA analysera et exécutera automatiquement les opérations de navigateur correspondantes, telles que :

Cliquer sur des boutons
Remplir des formulaires
Faire défiler des pages
Saisir du texte
Effectuer des recherches

2. Prise en charge multi-environnement

Le projet prend en charge deux environnements d'exécution :

Playwright: Contrôle de navigateur local, utilise le navigateur Chrome pour exécuter des tâches localement.
Browserbase: Service de navigateur cloud, prend en charge le contrôle de navigateur à distance.

3. Basé sur le modèle Gemini 2.5

Ce projet utilise le dernier modèle de Google, gemini-2.5-computer-use-preview-10-2025, qui est optimisé spécifiquement pour les interactions UI et possède :

De puissantes capacités de compréhension visuelle
Une reconnaissance précise des éléments d'interface utilisateur
Une réponse à faible latence
D'excellentes capacités de raisonnement

4. Flexibilité de l'API

Deux méthodes d'accès à l'API sont prises en charge :

API Gemini Developer: Idéale pour le développement rapide et les tests.
Vertex AI: Idéale pour le déploiement d'applications d'entreprise.

Architecture technique

Composants clés

Couche de contrôle du navigateur
- Playwright: Cadre d'automatisation de navigateur local
- Browserbase: Infrastructure de navigateur cloud
Couche de modèle IA
- Modèle Gemini 2.5 Computer Use
- Capacités de compréhension visuelle et de raisonnement
- Génération d'actions UI
Boucle de l'agent
- Reçoit les requêtes de l'utilisateur
- Capture des captures d'écran
- Génère et exécute des actions
- Suit l'historique des opérations

Principe de fonctionnement

L'utilisateur fournit une description de la tâche en langage naturel.
Le système capture une capture d'écran du navigateur actuel.
Le modèle Gemini analyse la capture d'écran et les exigences de la tâche.
Le modèle génère des instructions d'opération UI spécifiques (clic, saisie, défilement, etc.).
Exécute l'opération et obtient le nouvel état de l'écran.
Répète les étapes 2 à 5 jusqu'à ce que la tâche soit terminée.

Démarrage rapide

Exigences environnementales

Python 3.x
Navigateur Chrome
Clé API Gemini (ou accès Vertex AI)

Étapes d'installation

Cloner le projet

git clone https://github.com/google/computer-use-preview.git
cd computer-use-preview

Créer un environnement virtuel et installer les dépendances

python3 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt

Installer Playwright et le navigateur

# Installer les dépendances système requises pour Chrome
playwright install-deps chrome

# Installer le navigateur Chrome
playwright install chrome

Configurer la clé API

Utilisation de l'API Gemini Developer

export GEMINI_API_KEY="VOTRE_CLE_API_GEMINI"

Ou l'ajouter de manière permanente à l'environnement virtuel :

echo 'export GEMINI_API_KEY="VOTRE_CLE_API_GEMINI"' >> .venv/bin/activate
deactivate
source .venv/bin/activate

Utilisation de Vertex AI

export USE_VERTEXAI=true
export VERTEXAI_PROJECT="VOTRE_ID_PROJET"
export VERTEXAI_LOCATION="VOTRE_EMPLACEMENT"

Exemples d'utilisation

1. Utilisation de base (environnement local Playwright)

python main.py --query="Go to Google and type 'Hello World' into the search bar" --env="playwright"

2. Spécifier une URL initiale

python main.py \
  --query="Go to Google and type 'Hello World' into the search bar" \
  --env="playwright" \
  --initial_url="https://www.google.com/search?q=latest+AI+news"

3. Utilisation de l'environnement cloud Browserbase

D'abord, configurez les variables d'environnement Browserbase :

export BROWSERBASE_API_KEY="VOTRE_CLE_API_BROWSERBASE"
export BROWSERBASE_PROJECT_ID="VOTRE_ID_PROJET_BROWSERBASE"

Puis exécutez :

python main.py \
  --query="Go to Google and type 'Hello World' into the search bar" \
  --env="browserbase"

Description des arguments de ligne de commande

Paramètres principaux

Paramètre	Description	Obligatoire	Valeur par défaut	Environnements pris en charge
`--query`	Description de la tâche en langage naturel	Oui	N/A	Tous
`--env`	Environnement d'exécution (playwright/browserbase)	Non	N/A	Tous
`--initial_url`	URL initiale à charger au démarrage du navigateur	Non	https://www.google.com	playwright
`--highlight_mouse`	Met en évidence la position de la souris dans la capture d'écran (pour le débogage)	Non	false	playwright

Variables d'environnement

Nom de la variable	Description	Obligatoire
`GEMINI_API_KEY`	Clé API Gemini	Oui (lors de l'utilisation de l'API Gemini)
`BROWSERBASE_API_KEY`	Clé API Browserbase	Oui (lors de l'utilisation de l'environnement browserbase)
`BROWSERBASE_PROJECT_ID`	ID du projet Browserbase	Oui (lors de l'utilisation de l'environnement browserbase)
`USE_VERTEXAI`	Activer Vertex AI	Non
`VERTEXAI_PROJECT`	ID du projet Vertex AI	Oui (lors de l'utilisation de Vertex AI)
`VERTEXAI_LOCATION`	Emplacement Vertex AI	Oui (lors de l'utilisation de Vertex AI)

Scénarios d'application

1. Tests automatisés

Tests de régression UI
Tests de bout en bout
Tests multi-navigateurs

2. Extraction de données

Remplissage automatique de formulaires
Extraction de données web
Exécution de tâches planifiées

3. Automatisation des flux de travail

Automatisation des tâches répétitives
Processus métier multi-étapes
Traitement d'opérations par lots

4. Assistant personnel

Automatisation des opérations web quotidiennes
Collecte et organisation d'informations
Navigation web intelligente

Performances

Selon les données d'évaluation de Google et Browserbase, le modèle Gemini 2.5 Computer Use a démontré d'excellentes performances dans plusieurs benchmarks :

OnlineMind2Web: Précision de pointe dans les tâches de contrôle web
WebVoyager: Excellentes performances dans les tâches de navigation web complexes
Faible latence: Réponse plus rapide que les modèles concurrents
Haute précision: Surpasse les autres modèles majeurs dans les benchmarks de contrôle de navigateur et mobile

Remarques

Sécurité

Ce modèle est une version préliminaire et peut contenir des erreurs et des vulnérabilités de sécurité.
Les actions suggérées par le modèle peuvent être inappropriées ou dangereuses.
Les entrées adverses peuvent entraîner des opérations malveillantes.
Il est recommandé d'effectuer des tests approfondis avant toute utilisation en environnement de production.

Restrictions d'utilisation

Nécessite un mécanisme de confirmation humaine explicite.
Respecte la politique d'utilisation interdite de l'IA générative de Google.
Ce produit est soumis aux conditions Pre-GA.

Bonnes pratiques

Toujours tester dans un environnement contrôlé.
Surveiller le comportement opérationnel de l'agent.
Ajouter une révision humaine pour les opérations critiques.
Mettre à jour régulièrement vers la dernière version.

Ressources associées

Documentation officielle: Documentation Vertex AI Computer Use
Google AI Studio: Pour des tests rapides et le prototypage.
Démo Browserbase: Expérimentez la fonctionnalité Computer Use en ligne.
Forum des développeurs: Pour signaler des problèmes et obtenir de l'aide.

Avantages techniques

Capacités de compréhension visuelle: Puissantes capacités de reconnaissance visuelle basées sur Gemini 2.5 Pro.
Interaction UI native: Opère directement sur l'interface graphique sans nécessiter d'API structurées.
Opérations post-connexion: Prend en charge les tâches complexes nécessitant une authentification.
Traitement de formulaires: Remplissage et soumission intelligents de formulaires complexes.
Manipulation d'éléments interactifs: Gère les composants interactifs tels que les menus déroulants et les filtres.

Importance du projet

Google Computer Use Preview représente une avancée significative dans la technologie des agents IA. En permettant aux modèles d'IA d'interagir directement avec les interfaces graphiques comme le ferait un humain, plutôt que de dépendre d'API structurées, cette technologie ouvre de nouvelles possibilités pour la construction d'agents à usage général. Elle permet aux développeurs de :

Automatiser des tâches complexes qui nécessitaient auparavant une intervention humaine.
Construire rapidement des applications d'automatisation de navigateur intelligentes.
Réduire les coûts de développement pour les tests UI et l'automatisation des flux de travail.
Explorer de nouvelles méthodes d'interaction homme-machine.

Perspectives d'avenir

Avec l'amélioration continue des capacités du modèle, la technologie d'utilisation informatique évoluera dans les domaines suivants :

Une précision et une fiabilité accrues.
L'exécution de tâches multi-étapes plus complexes.
Une meilleure sécurité et contrôlabilité.
Une intégration approfondie avec d'autres capacités d'IA.
Une couverture plus large des scénarios d'application.