Projet de prévisualisation du modèle d'utilisation de l'ordinateur Gemini 2.5 publié par Google, prenant en charge un agent d'IA qui contrôle le navigateur pour exécuter des tâches via des instructions en langage naturel.
Présentation du projet Google Computer Use Preview
Aperçu du projet
Google Computer Use Preview est un projet open source officiellement publié par Google, qui met en lumière les capacités du modèle d'utilisation informatique (Computer Use) basé sur Gemini 2.5. Ce projet permet aux développeurs de contrôler le navigateur pour exécuter diverses tâches via des instructions en langage naturel, réalisant ainsi un véritable agent d'automatisation de navigateur.
Adresse du projet: https://github.com/google/computer-use-preview
Licence open source: Apache 2.0
Fonctionnalités clés
1. Contrôle par langage naturel
Les utilisateurs peuvent décrire des tâches en langage naturel simple, et l'agent IA analysera et exécutera automatiquement les opérations de navigateur correspondantes, telles que :
- Cliquer sur des boutons
- Remplir des formulaires
- Faire défiler des pages
- Saisir du texte
- Effectuer des recherches
2. Prise en charge multi-environnement
Le projet prend en charge deux environnements d'exécution :
- Playwright: Contrôle de navigateur local, utilise le navigateur Chrome pour exécuter des tâches localement.
- Browserbase: Service de navigateur cloud, prend en charge le contrôle de navigateur à distance.
3. Basé sur le modèle Gemini 2.5
Ce projet utilise le dernier modèle de Google, gemini-2.5-computer-use-preview-10-2025, qui est optimisé spécifiquement pour les interactions UI et possède :
- De puissantes capacités de compréhension visuelle
- Une reconnaissance précise des éléments d'interface utilisateur
- Une réponse à faible latence
- D'excellentes capacités de raisonnement
4. Flexibilité de l'API
Deux méthodes d'accès à l'API sont prises en charge :
- API Gemini Developer: Idéale pour le développement rapide et les tests.
- Vertex AI: Idéale pour le déploiement d'applications d'entreprise.
Architecture technique
Composants clés
Couche de contrôle du navigateur
- Playwright: Cadre d'automatisation de navigateur local
- Browserbase: Infrastructure de navigateur cloud
Couche de modèle IA
- Modèle Gemini 2.5 Computer Use
- Capacités de compréhension visuelle et de raisonnement
- Génération d'actions UI
Boucle de l'agent
- Reçoit les requêtes de l'utilisateur
- Capture des captures d'écran
- Génère et exécute des actions
- Suit l'historique des opérations
Principe de fonctionnement
- L'utilisateur fournit une description de la tâche en langage naturel.
- Le système capture une capture d'écran du navigateur actuel.
- Le modèle Gemini analyse la capture d'écran et les exigences de la tâche.
- Le modèle génère des instructions d'opération UI spécifiques (clic, saisie, défilement, etc.).
- Exécute l'opération et obtient le nouvel état de l'écran.
- Répète les étapes 2 à 5 jusqu'à ce que la tâche soit terminée.
Démarrage rapide
Exigences environnementales
- Python 3.x
- Navigateur Chrome
- Clé API Gemini (ou accès Vertex AI)
Étapes d'installation
Cloner le projet
git clone https://github.com/google/computer-use-preview.git cd computer-use-previewCréer un environnement virtuel et installer les dépendances
python3 -m venv .venv source .venv/bin/activate pip install -r requirements.txtInstaller Playwright et le navigateur
# Installer les dépendances système requises pour Chrome playwright install-deps chrome # Installer le navigateur Chrome playwright install chrome
Configurer la clé API
Utilisation de l'API Gemini Developer
export GEMINI_API_KEY="VOTRE_CLE_API_GEMINI"
Ou l'ajouter de manière permanente à l'environnement virtuel :
echo 'export GEMINI_API_KEY="VOTRE_CLE_API_GEMINI"' >> .venv/bin/activate
deactivate
source .venv/bin/activate
Utilisation de Vertex AI
export USE_VERTEXAI=true
export VERTEXAI_PROJECT="VOTRE_ID_PROJET"
export VERTEXAI_LOCATION="VOTRE_EMPLACEMENT"
Exemples d'utilisation
1. Utilisation de base (environnement local Playwright)
python main.py --query="Go to Google and type 'Hello World' into the search bar" --env="playwright"
2. Spécifier une URL initiale
python main.py \
--query="Go to Google and type 'Hello World' into the search bar" \
--env="playwright" \
--initial_url="https://www.google.com/search?q=latest+AI+news"
3. Utilisation de l'environnement cloud Browserbase
D'abord, configurez les variables d'environnement Browserbase :
export BROWSERBASE_API_KEY="VOTRE_CLE_API_BROWSERBASE"
export BROWSERBASE_PROJECT_ID="VOTRE_ID_PROJET_BROWSERBASE"
Puis exécutez :
python main.py \
--query="Go to Google and type 'Hello World' into the search bar" \
--env="browserbase"
Description des arguments de ligne de commande
Paramètres principaux
| Paramètre | Description | Obligatoire | Valeur par défaut | Environnements pris en charge |
|---|---|---|---|---|
--query |
Description de la tâche en langage naturel | Oui | N/A | Tous |
--env |
Environnement d'exécution (playwright/browserbase) | Non | N/A | Tous |
--initial_url |
URL initiale à charger au démarrage du navigateur | Non | https://www.google.com | playwright |
--highlight_mouse |
Met en évidence la position de la souris dans la capture d'écran (pour le débogage) | Non | false | playwright |
Variables d'environnement
| Nom de la variable | Description | Obligatoire |
|---|---|---|
GEMINI_API_KEY |
Clé API Gemini | Oui (lors de l'utilisation de l'API Gemini) |
BROWSERBASE_API_KEY |
Clé API Browserbase | Oui (lors de l'utilisation de l'environnement browserbase) |
BROWSERBASE_PROJECT_ID |
ID du projet Browserbase | Oui (lors de l'utilisation de l'environnement browserbase) |
USE_VERTEXAI |
Activer Vertex AI | Non |
VERTEXAI_PROJECT |
ID du projet Vertex AI | Oui (lors de l'utilisation de Vertex AI) |
VERTEXAI_LOCATION |
Emplacement Vertex AI | Oui (lors de l'utilisation de Vertex AI) |
Scénarios d'application
1. Tests automatisés
- Tests de régression UI
- Tests de bout en bout
- Tests multi-navigateurs
2. Extraction de données
- Remplissage automatique de formulaires
- Extraction de données web
- Exécution de tâches planifiées
3. Automatisation des flux de travail
- Automatisation des tâches répétitives
- Processus métier multi-étapes
- Traitement d'opérations par lots
4. Assistant personnel
- Automatisation des opérations web quotidiennes
- Collecte et organisation d'informations
- Navigation web intelligente
Performances
Selon les données d'évaluation de Google et Browserbase, le modèle Gemini 2.5 Computer Use a démontré d'excellentes performances dans plusieurs benchmarks :
- OnlineMind2Web: Précision de pointe dans les tâches de contrôle web
- WebVoyager: Excellentes performances dans les tâches de navigation web complexes
- Faible latence: Réponse plus rapide que les modèles concurrents
- Haute précision: Surpasse les autres modèles majeurs dans les benchmarks de contrôle de navigateur et mobile
Remarques
Sécurité
- Ce modèle est une version préliminaire et peut contenir des erreurs et des vulnérabilités de sécurité.
- Les actions suggérées par le modèle peuvent être inappropriées ou dangereuses.
- Les entrées adverses peuvent entraîner des opérations malveillantes.
- Il est recommandé d'effectuer des tests approfondis avant toute utilisation en environnement de production.
Restrictions d'utilisation
- Nécessite un mécanisme de confirmation humaine explicite.
- Respecte la politique d'utilisation interdite de l'IA générative de Google.
- Ce produit est soumis aux conditions Pre-GA.
Bonnes pratiques
- Toujours tester dans un environnement contrôlé.
- Surveiller le comportement opérationnel de l'agent.
- Ajouter une révision humaine pour les opérations critiques.
- Mettre à jour régulièrement vers la dernière version.
Ressources associées
- Documentation officielle: Documentation Vertex AI Computer Use
- Google AI Studio: Pour des tests rapides et le prototypage.
- Démo Browserbase: Expérimentez la fonctionnalité Computer Use en ligne.
- Forum des développeurs: Pour signaler des problèmes et obtenir de l'aide.
Avantages techniques
- Capacités de compréhension visuelle: Puissantes capacités de reconnaissance visuelle basées sur Gemini 2.5 Pro.
- Interaction UI native: Opère directement sur l'interface graphique sans nécessiter d'API structurées.
- Opérations post-connexion: Prend en charge les tâches complexes nécessitant une authentification.
- Traitement de formulaires: Remplissage et soumission intelligents de formulaires complexes.
- Manipulation d'éléments interactifs: Gère les composants interactifs tels que les menus déroulants et les filtres.
Importance du projet
Google Computer Use Preview représente une avancée significative dans la technologie des agents IA. En permettant aux modèles d'IA d'interagir directement avec les interfaces graphiques comme le ferait un humain, plutôt que de dépendre d'API structurées, cette technologie ouvre de nouvelles possibilités pour la construction d'agents à usage général. Elle permet aux développeurs de :
- Automatiser des tâches complexes qui nécessitaient auparavant une intervention humaine.
- Construire rapidement des applications d'automatisation de navigateur intelligentes.
- Réduire les coûts de développement pour les tests UI et l'automatisation des flux de travail.
- Explorer de nouvelles méthodes d'interaction homme-machine.
Perspectives d'avenir
Avec l'amélioration continue des capacités du modèle, la technologie d'utilisation informatique évoluera dans les domaines suivants :
- Une précision et une fiabilité accrues.
- L'exécution de tâches multi-étapes plus complexes.
- Une meilleure sécurité et contrôlabilité.
- Une intégration approfondie avec d'autres capacités d'IA.
- Une couverture plus large des scénarios d'application.