Projet de prévisualisation du modèle d'utilisation de l'ordinateur Gemini 2.5 publié par Google, prenant en charge un agent d'IA qui contrôle le navigateur pour exécuter des tâches via des instructions en langage naturel.

Apache-2.0Pythoncomputer-use-previewgoogle 1.6k Last Updated: October 10, 2025

Présentation du projet Google Computer Use Preview

Aperçu du projet

Google Computer Use Preview est un projet open source officiellement publié par Google, qui met en lumière les capacités du modèle d'utilisation informatique (Computer Use) basé sur Gemini 2.5. Ce projet permet aux développeurs de contrôler le navigateur pour exécuter diverses tâches via des instructions en langage naturel, réalisant ainsi un véritable agent d'automatisation de navigateur.

Adresse du projet: https://github.com/google/computer-use-preview

Licence open source: Apache 2.0

Fonctionnalités clés

1. Contrôle par langage naturel

Les utilisateurs peuvent décrire des tâches en langage naturel simple, et l'agent IA analysera et exécutera automatiquement les opérations de navigateur correspondantes, telles que :

  • Cliquer sur des boutons
  • Remplir des formulaires
  • Faire défiler des pages
  • Saisir du texte
  • Effectuer des recherches

2. Prise en charge multi-environnement

Le projet prend en charge deux environnements d'exécution :

  • Playwright: Contrôle de navigateur local, utilise le navigateur Chrome pour exécuter des tâches localement.
  • Browserbase: Service de navigateur cloud, prend en charge le contrôle de navigateur à distance.

3. Basé sur le modèle Gemini 2.5

Ce projet utilise le dernier modèle de Google, gemini-2.5-computer-use-preview-10-2025, qui est optimisé spécifiquement pour les interactions UI et possède :

  • De puissantes capacités de compréhension visuelle
  • Une reconnaissance précise des éléments d'interface utilisateur
  • Une réponse à faible latence
  • D'excellentes capacités de raisonnement

4. Flexibilité de l'API

Deux méthodes d'accès à l'API sont prises en charge :

  • API Gemini Developer: Idéale pour le développement rapide et les tests.
  • Vertex AI: Idéale pour le déploiement d'applications d'entreprise.

Architecture technique

Composants clés

  1. Couche de contrôle du navigateur

    • Playwright: Cadre d'automatisation de navigateur local
    • Browserbase: Infrastructure de navigateur cloud
  2. Couche de modèle IA

    • Modèle Gemini 2.5 Computer Use
    • Capacités de compréhension visuelle et de raisonnement
    • Génération d'actions UI
  3. Boucle de l'agent

    • Reçoit les requêtes de l'utilisateur
    • Capture des captures d'écran
    • Génère et exécute des actions
    • Suit l'historique des opérations

Principe de fonctionnement

  1. L'utilisateur fournit une description de la tâche en langage naturel.
  2. Le système capture une capture d'écran du navigateur actuel.
  3. Le modèle Gemini analyse la capture d'écran et les exigences de la tâche.
  4. Le modèle génère des instructions d'opération UI spécifiques (clic, saisie, défilement, etc.).
  5. Exécute l'opération et obtient le nouvel état de l'écran.
  6. Répète les étapes 2 à 5 jusqu'à ce que la tâche soit terminée.

Démarrage rapide

Exigences environnementales

  • Python 3.x
  • Navigateur Chrome
  • Clé API Gemini (ou accès Vertex AI)

Étapes d'installation

  1. Cloner le projet

    git clone https://github.com/google/computer-use-preview.git
    cd computer-use-preview
    
  2. Créer un environnement virtuel et installer les dépendances

    python3 -m venv .venv
    source .venv/bin/activate
    pip install -r requirements.txt
    
  3. Installer Playwright et le navigateur

    # Installer les dépendances système requises pour Chrome
    playwright install-deps chrome
    
    # Installer le navigateur Chrome
    playwright install chrome
    

Configurer la clé API

Utilisation de l'API Gemini Developer

export GEMINI_API_KEY="VOTRE_CLE_API_GEMINI"

Ou l'ajouter de manière permanente à l'environnement virtuel :

echo 'export GEMINI_API_KEY="VOTRE_CLE_API_GEMINI"' >> .venv/bin/activate
deactivate
source .venv/bin/activate

Utilisation de Vertex AI

export USE_VERTEXAI=true
export VERTEXAI_PROJECT="VOTRE_ID_PROJET"
export VERTEXAI_LOCATION="VOTRE_EMPLACEMENT"

Exemples d'utilisation

1. Utilisation de base (environnement local Playwright)

python main.py --query="Go to Google and type 'Hello World' into the search bar" --env="playwright"

2. Spécifier une URL initiale

python main.py \
  --query="Go to Google and type 'Hello World' into the search bar" \
  --env="playwright" \
  --initial_url="https://www.google.com/search?q=latest+AI+news"

3. Utilisation de l'environnement cloud Browserbase

D'abord, configurez les variables d'environnement Browserbase :

export BROWSERBASE_API_KEY="VOTRE_CLE_API_BROWSERBASE"
export BROWSERBASE_PROJECT_ID="VOTRE_ID_PROJET_BROWSERBASE"

Puis exécutez :

python main.py \
  --query="Go to Google and type 'Hello World' into the search bar" \
  --env="browserbase"

Description des arguments de ligne de commande

Paramètres principaux

Paramètre Description Obligatoire Valeur par défaut Environnements pris en charge
--query Description de la tâche en langage naturel Oui N/A Tous
--env Environnement d'exécution (playwright/browserbase) Non N/A Tous
--initial_url URL initiale à charger au démarrage du navigateur Non https://www.google.com playwright
--highlight_mouse Met en évidence la position de la souris dans la capture d'écran (pour le débogage) Non false playwright

Variables d'environnement

Nom de la variable Description Obligatoire
GEMINI_API_KEY Clé API Gemini Oui (lors de l'utilisation de l'API Gemini)
BROWSERBASE_API_KEY Clé API Browserbase Oui (lors de l'utilisation de l'environnement browserbase)
BROWSERBASE_PROJECT_ID ID du projet Browserbase Oui (lors de l'utilisation de l'environnement browserbase)
USE_VERTEXAI Activer Vertex AI Non
VERTEXAI_PROJECT ID du projet Vertex AI Oui (lors de l'utilisation de Vertex AI)
VERTEXAI_LOCATION Emplacement Vertex AI Oui (lors de l'utilisation de Vertex AI)

Scénarios d'application

1. Tests automatisés

  • Tests de régression UI
  • Tests de bout en bout
  • Tests multi-navigateurs

2. Extraction de données

  • Remplissage automatique de formulaires
  • Extraction de données web
  • Exécution de tâches planifiées

3. Automatisation des flux de travail

  • Automatisation des tâches répétitives
  • Processus métier multi-étapes
  • Traitement d'opérations par lots

4. Assistant personnel

  • Automatisation des opérations web quotidiennes
  • Collecte et organisation d'informations
  • Navigation web intelligente

Performances

Selon les données d'évaluation de Google et Browserbase, le modèle Gemini 2.5 Computer Use a démontré d'excellentes performances dans plusieurs benchmarks :

  • OnlineMind2Web: Précision de pointe dans les tâches de contrôle web
  • WebVoyager: Excellentes performances dans les tâches de navigation web complexes
  • Faible latence: Réponse plus rapide que les modèles concurrents
  • Haute précision: Surpasse les autres modèles majeurs dans les benchmarks de contrôle de navigateur et mobile

Remarques

Sécurité

  • Ce modèle est une version préliminaire et peut contenir des erreurs et des vulnérabilités de sécurité.
  • Les actions suggérées par le modèle peuvent être inappropriées ou dangereuses.
  • Les entrées adverses peuvent entraîner des opérations malveillantes.
  • Il est recommandé d'effectuer des tests approfondis avant toute utilisation en environnement de production.

Restrictions d'utilisation

  • Nécessite un mécanisme de confirmation humaine explicite.
  • Respecte la politique d'utilisation interdite de l'IA générative de Google.
  • Ce produit est soumis aux conditions Pre-GA.

Bonnes pratiques

  • Toujours tester dans un environnement contrôlé.
  • Surveiller le comportement opérationnel de l'agent.
  • Ajouter une révision humaine pour les opérations critiques.
  • Mettre à jour régulièrement vers la dernière version.

Ressources associées

  • Documentation officielle: Documentation Vertex AI Computer Use
  • Google AI Studio: Pour des tests rapides et le prototypage.
  • Démo Browserbase: Expérimentez la fonctionnalité Computer Use en ligne.
  • Forum des développeurs: Pour signaler des problèmes et obtenir de l'aide.

Avantages techniques

  1. Capacités de compréhension visuelle: Puissantes capacités de reconnaissance visuelle basées sur Gemini 2.5 Pro.
  2. Interaction UI native: Opère directement sur l'interface graphique sans nécessiter d'API structurées.
  3. Opérations post-connexion: Prend en charge les tâches complexes nécessitant une authentification.
  4. Traitement de formulaires: Remplissage et soumission intelligents de formulaires complexes.
  5. Manipulation d'éléments interactifs: Gère les composants interactifs tels que les menus déroulants et les filtres.

Importance du projet

Google Computer Use Preview représente une avancée significative dans la technologie des agents IA. En permettant aux modèles d'IA d'interagir directement avec les interfaces graphiques comme le ferait un humain, plutôt que de dépendre d'API structurées, cette technologie ouvre de nouvelles possibilités pour la construction d'agents à usage général. Elle permet aux développeurs de :

  • Automatiser des tâches complexes qui nécessitaient auparavant une intervention humaine.
  • Construire rapidement des applications d'automatisation de navigateur intelligentes.
  • Réduire les coûts de développement pour les tests UI et l'automatisation des flux de travail.
  • Explorer de nouvelles méthodes d'interaction homme-machine.

Perspectives d'avenir

Avec l'amélioration continue des capacités du modèle, la technologie d'utilisation informatique évoluera dans les domaines suivants :

  • Une précision et une fiabilité accrues.
  • L'exécution de tâches multi-étapes plus complexes.
  • Une meilleure sécurité et contrôlabilité.
  • Une intégration approfondie avec d'autres capacités d'IA.
  • Une couverture plus large des scénarios d'application.

Star History Chart