Google's offizielles Vorschauprojekt des Gemini 2.5 Computernutzungsmodells, das einen KI-Agenten unterstützt, der Browseraufgaben über natürliche Sprachbefehle steuert.
Einführung in das Google Computer Use Preview Projekt
Projektübersicht
Google Computer Use Preview ist ein offiziell von Google veröffentlichtes Open-Source-Projekt, das die Fähigkeiten des auf Gemini 2.5 basierenden Computer Use-Modells demonstriert. Dieses Projekt ermöglicht es Entwicklern, Browser über natürliche Sprachbefehle zu steuern, um verschiedene Aufgaben auszuführen und so einen echten Browser-Automatisierungs-Agenten zu realisieren.
Projektadresse: https://github.com/google/computer-use-preview
Open-Source-Lizenz: Apache 2.0
Kernfunktionen
1. Steuerung durch natürliche Sprache
Benutzer können Aufgaben mit einfachen natürlichen Sprachbeschreibungen formulieren, und der KI-Agent wird die entsprechenden Browseraktionen automatisch analysieren und ausführen, zum Beispiel:
- Schaltflächen anklicken
- Formulare ausfüllen
- Seiten scrollen
- Text eingeben
- Suchen ausführen
2. Unterstützung mehrerer Umgebungen
Das Projekt unterstützt zwei Laufzeitumgebungen:
- Playwright: Lokale Browsersteuerung, Ausführung von Aufgaben lokal mit dem Chrome-Browser
- Browserbase: Cloud-Browserdienst, unterstützt Fernsteuerung von Browsern
3. Basierend auf dem Gemini 2.5 Modell
Dieses Projekt verwendet Googles neuestes Modell gemini-2.5-computer-use-preview-10-2025, das speziell für die UI-Interaktion optimiert wurde und über folgende Merkmale verfügt:
- Starke visuelle Verständnisfähigkeit
- Präzise UI-Elementerkennung
- Geringe Latenz bei der Reaktion
- Exzellente Inferenzfähigkeiten
4. API-Flexibilität
Es werden zwei API-Zugangswege unterstützt:
- Gemini Developer API: Geeignet für schnelle Entwicklung und Tests
- Vertex AI: Geeignet für die Bereitstellung in Unternehmensanwendungen
Technische Architektur
Kernkomponenten
Browser-Steuerungsebene
- Playwright: Framework für die lokale Browserautomatisierung
- Browserbase: Cloud-Browser-Infrastruktur
KI-Modellebene
- Gemini 2.5 Computer Use-Modell
- Visuelles Verständnis und Inferenzfähigkeiten
- Generierung von UI-Aktionen
Agenten-Schleife
- Empfängt Benutzeranfragen
- Erfasst Screenshots
- Generiert und führt Aktionen aus
- Verfolgt historische Operationen
Funktionsweise
- Der Benutzer stellt eine Aufgabenbeschreibung in natürlicher Sprache bereit.
- Das System erfasst einen Screenshot des aktuellen Browsers.
- Das Gemini-Modell analysiert den Screenshot und die Aufgabenanforderungen.
- Das Modell generiert spezifische UI-Bedienungsanweisungen (Klicken, Eingeben, Scrollen usw.).
- Die Operation wird ausgeführt und der neue Bildschirmzustand erfasst.
- Die Schritte 2-5 werden wiederholt, bis die Aufgabe abgeschlossen ist.
Schnellstart
Umgebungsanforderungen
- Python 3.x
- Chrome-Browser
- Gemini API-Schlüssel (oder Vertex AI-Zugriffsberechtigungen)
Installationsschritte
- Projekt klonen
git clone https://github.com/google/computer-use-preview.git
cd computer-use-preview
- Virtuelle Umgebung erstellen und Abhängigkeiten installieren
python3 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt
- Playwright und Browser installieren
# Systemabhängigkeiten für Chrome installieren
playwright install-deps chrome
# Chrome-Browser installieren
playwright install chrome
API-Schlüssel konfigurieren
Gemini Developer API verwenden
export GEMINI_API_KEY="YOUR_GEMINI_API_KEY"
Oder dauerhaft zur virtuellen Umgebung hinzufügen:
echo 'export GEMINI_API_KEY="YOUR_GEMINI_API_KEY"' >> .venv/bin/activate
deactivate
source .venv/bin/activate
Vertex AI verwenden
export USE_VERTEXAI=true
export VERTEXAI_PROJECT="YOUR_PROJECT_ID"
export VERTEXAI_LOCATION="YOUR_LOCATION"
Anwendungsbeispiele
1. Grundlegende Nutzung (Playwright lokale Umgebung)
python main.py --query="Go to Google and type 'Hello World' into the search bar" --env="playwright"
2. Start-URL angeben
python main.py \
--query="Go to Google and type 'Hello World' into the search bar" \
--env="playwright" \
--initial_url="https://www.google.com/search?q=latest+AI+news"
3. Browserbase Cloud-Umgebung verwenden
Zuerst die Browserbase-Umgebungsvariablen einstellen:
export BROWSERBASE_API_KEY="YOUR_BROWSERBASE_API_KEY"
export BROWSERBASE_PROJECT_ID="YOUR_BROWSERBASE_PROJECT_ID"
Dann ausführen:
python main.py \
--query="Go to Google and type 'Hello World' into the search bar" \
--env="browserbase"
Beschreibung der Kommandozeilenparameter
Hauptparameter
| Parameter | Beschreibung | Erforderlich | Standardwert | Unterstützte Umgebungen |
|---|---|---|---|---|
--query |
Natürliche Sprachbeschreibung der Aufgabe | Ja | N/A | Alle |
--env |
Laufzeitumgebung (playwright/browserbase) | Nein | N/A | Alle |
--initial_url |
Die beim Start des Browsers geladene Start-URL | Nein | https://www.google.com | playwright |
--highlight_mouse |
Mausposition im Screenshot hervorheben (zum Debuggen) | Nein | false | playwright |
Umgebungsvariablen
| Variablenname | Beschreibung | Erforderlich |
|---|---|---|
GEMINI_API_KEY |
Gemini API-Schlüssel | Ja (bei Verwendung der Gemini API) |
BROWSERBASE_API_KEY |
Browserbase API-Schlüssel | Ja (bei Verwendung der Browserbase-Umgebung) |
BROWSERBASE_PROJECT_ID |
Browserbase Projekt-ID | Ja (bei Verwendung der Browserbase-Umgebung) |
USE_VERTEXAI |
Vertex AI aktivieren | Nein |
VERTEXAI_PROJECT |
Vertex AI Projekt-ID | Ja (bei Verwendung von Vertex AI) |
VERTEXAI_LOCATION |
Vertex AI Standort | Ja (bei Verwendung von Vertex AI) |
Anwendungsszenarien
1. Automatisierte Tests
- UI-Regressionstests
- End-to-End-Tests
- Cross-Browser-Tests
2. Datenextraktion
- Automatisiertes Ausfüllen von Formularen
- Webdatenextraktion
- Ausführung von geplanten Aufgaben
3. Workflow-Automatisierung
- Automatisierung wiederkehrender Aufgaben
- Mehrstufige Geschäftsprozesse
- Stapelverarbeitung von Operationen
4. Persönlicher Assistent
- Automatisierung alltäglicher Web-Operationen
- Informationssammlung und -organisation
- Intelligente Web-Navigation
Leistungsmerkmale
Basierend auf den Bewertungsdaten von Google und Browserbase zeigt das Gemini 2.5 Computer Use-Modell in mehreren Benchmark-Tests hervorragende Leistungen:
- OnlineMind2Web: Führende Genauigkeit bei Web-Steuerungsaufgaben
- WebVoyager: Exzellente Leistung bei komplexen Web-Navigationsaufgaben
- Geringe Latenz: Schnellere Reaktion im Vergleich zu Konkurrenzmodellen
- Hohe Genauigkeit: Übertrifft andere gängige Modelle in Browser- und Mobilgeräte-Steuerungs-Benchmarks
Wichtige Hinweise
Sicherheit
- Dieses Modell ist eine Vorschauversion und kann Fehler und Sicherheitslücken enthalten.
- Vom Modell vorgeschlagene Aktionen können unangemessen oder unsicher sein.
- Adversarial Inputs können zu bösartigen Operationen führen.
- Es wird empfohlen, vor dem Einsatz in einer Produktionsumgebung umfassende Tests durchzuführen.
Nutzungsbeschränkungen
- Erfordert einen klaren manuellen Bestätigungsmechanismus.
- Einhaltung der Google-Richtlinien zur verbotenen Nutzung generativer KI.
- Dieses Produkt unterliegt den Pre-GA-Bedingungen.
Best Practices
- Immer in einer kontrollierten Umgebung testen.
- Das Betriebsverhalten des Agenten überwachen.
- Manuelle Überprüfung für kritische Operationen hinzufügen.
- Regelmäßig auf die neueste Version aktualisieren.
Verwandte Ressourcen
- Offizielle Dokumentation: Vertex AI Computer Use Dokumentation
- Google AI Studio: Schnelles Testen und Prototyping
- Browserbase Demo: Computer Use-Funktionen online erleben
- Entwicklerforum: Probleme melden und Unterstützung erhalten
Technische Vorteile
- Visuelles Verständnis: Leistungsstarke visuelle Erkennungsfähigkeiten basierend auf Gemini 2.5 Pro
- Native UI-Interaktion: Direkte Bedienung der grafischen Oberfläche ohne strukturierte APIs
- Operationen nach dem Login: Unterstützt komplexe Aufgaben, die eine Authentifizierung erfordern
- Formularverarbeitung: Intelligentes Ausfüllen und Absenden komplexer Formulare
- Interaktive Elementbedienung: Handhabung interaktiver Komponenten wie Dropdown-Menüs und Filter
Bedeutung des Projekts
Google Computer Use Preview stellt einen bedeutenden Fortschritt in der KI-Agenten-Technologie dar. Indem KI-Modelle in die Lage versetzt werden, direkt mit grafischen Benutzeroberflächen zu interagieren, anstatt sich auf strukturierte APIs zu verlassen, eröffnet diese Technologie neue Möglichkeiten für den Aufbau von Allzweck-Agenten. Sie ermöglicht es Entwicklern, Folgendes zu tun:
- Komplexe Aufgaben zu automatisieren, die zuvor menschliches Eingreifen erforderten
- Schnell intelligente Browser-Automatisierungsanwendungen zu erstellen
- Die Entwicklungskosten für UI-Tests und Workflow-Automatisierung zu senken
- Neue Wege der Mensch-Computer-Interaktion zu erkunden
Zukunftsausblick
Mit der kontinuierlichen Verbesserung der Modellfähigkeiten wird sich die Computer Use-Technologie in folgenden Bereichen weiterentwickeln:
- Höhere Genauigkeit und Zuverlässigkeit
- Ausführung komplexerer mehrstufiger Aufgaben
- Bessere Sicherheit und Kontrollierbarkeit
- Tiefe Integration mit anderen KI-Fähigkeiten
- Breitere Abdeckung von Anwendungsszenarien