google/computer-use-preview View GitHub Homepage for Latest Official Releases

Google's offizielles Vorschauprojekt des Gemini 2.5 Computernutzungsmodells, das einen KI-Agenten unterstützt, der Browseraufgaben über natürliche Sprachbefehle steuert.

Apache-2.0Pythoncomputer-use-previewgoogle 1.6k Last Updated: October 10, 2025

Einführung in das Google Computer Use Preview Projekt

Projektübersicht

Google Computer Use Preview ist ein offiziell von Google veröffentlichtes Open-Source-Projekt, das die Fähigkeiten des auf Gemini 2.5 basierenden Computer Use-Modells demonstriert. Dieses Projekt ermöglicht es Entwicklern, Browser über natürliche Sprachbefehle zu steuern, um verschiedene Aufgaben auszuführen und so einen echten Browser-Automatisierungs-Agenten zu realisieren.

Projektadresse: https://github.com/google/computer-use-preview

Open-Source-Lizenz: Apache 2.0

Kernfunktionen

1. Steuerung durch natürliche Sprache

Benutzer können Aufgaben mit einfachen natürlichen Sprachbeschreibungen formulieren, und der KI-Agent wird die entsprechenden Browseraktionen automatisch analysieren und ausführen, zum Beispiel:

Schaltflächen anklicken
Formulare ausfüllen
Seiten scrollen
Text eingeben
Suchen ausführen

2. Unterstützung mehrerer Umgebungen

Das Projekt unterstützt zwei Laufzeitumgebungen:

Playwright: Lokale Browsersteuerung, Ausführung von Aufgaben lokal mit dem Chrome-Browser
Browserbase: Cloud-Browserdienst, unterstützt Fernsteuerung von Browsern

3. Basierend auf dem Gemini 2.5 Modell

Dieses Projekt verwendet Googles neuestes Modell gemini-2.5-computer-use-preview-10-2025, das speziell für die UI-Interaktion optimiert wurde und über folgende Merkmale verfügt:

Starke visuelle Verständnisfähigkeit
Präzise UI-Elementerkennung
Geringe Latenz bei der Reaktion
Exzellente Inferenzfähigkeiten

4. API-Flexibilität

Es werden zwei API-Zugangswege unterstützt:

Gemini Developer API: Geeignet für schnelle Entwicklung und Tests
Vertex AI: Geeignet für die Bereitstellung in Unternehmensanwendungen

Technische Architektur

Kernkomponenten

Browser-Steuerungsebene
- Playwright: Framework für die lokale Browserautomatisierung
- Browserbase: Cloud-Browser-Infrastruktur
KI-Modellebene
- Gemini 2.5 Computer Use-Modell
- Visuelles Verständnis und Inferenzfähigkeiten
- Generierung von UI-Aktionen
Agenten-Schleife
- Empfängt Benutzeranfragen
- Erfasst Screenshots
- Generiert und führt Aktionen aus
- Verfolgt historische Operationen

Funktionsweise

Der Benutzer stellt eine Aufgabenbeschreibung in natürlicher Sprache bereit.
Das System erfasst einen Screenshot des aktuellen Browsers.
Das Gemini-Modell analysiert den Screenshot und die Aufgabenanforderungen.
Das Modell generiert spezifische UI-Bedienungsanweisungen (Klicken, Eingeben, Scrollen usw.).
Die Operation wird ausgeführt und der neue Bildschirmzustand erfasst.
Die Schritte 2-5 werden wiederholt, bis die Aufgabe abgeschlossen ist.

Schnellstart

Umgebungsanforderungen

Python 3.x
Chrome-Browser
Gemini API-Schlüssel (oder Vertex AI-Zugriffsberechtigungen)

Installationsschritte

Projekt klonen

git clone https://github.com/google/computer-use-preview.git
cd computer-use-preview

Virtuelle Umgebung erstellen und Abhängigkeiten installieren

python3 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt

Playwright und Browser installieren

# Systemabhängigkeiten für Chrome installieren
playwright install-deps chrome

# Chrome-Browser installieren
playwright install chrome

API-Schlüssel konfigurieren

Gemini Developer API verwenden

export GEMINI_API_KEY="YOUR_GEMINI_API_KEY"

Oder dauerhaft zur virtuellen Umgebung hinzufügen:

echo 'export GEMINI_API_KEY="YOUR_GEMINI_API_KEY"' >> .venv/bin/activate
deactivate
source .venv/bin/activate

Vertex AI verwenden

export USE_VERTEXAI=true
export VERTEXAI_PROJECT="YOUR_PROJECT_ID"
export VERTEXAI_LOCATION="YOUR_LOCATION"

Anwendungsbeispiele

1. Grundlegende Nutzung (Playwright lokale Umgebung)

python main.py --query="Go to Google and type 'Hello World' into the search bar" --env="playwright"

2. Start-URL angeben

python main.py \
  --query="Go to Google and type 'Hello World' into the search bar" \
  --env="playwright" \
  --initial_url="https://www.google.com/search?q=latest+AI+news"

3. Browserbase Cloud-Umgebung verwenden

Zuerst die Browserbase-Umgebungsvariablen einstellen:

export BROWSERBASE_API_KEY="YOUR_BROWSERBASE_API_KEY"
export BROWSERBASE_PROJECT_ID="YOUR_BROWSERBASE_PROJECT_ID"

Dann ausführen:

python main.py \
  --query="Go to Google and type 'Hello World' into the search bar" \
  --env="browserbase"

Beschreibung der Kommandozeilenparameter

Hauptparameter

Parameter	Beschreibung	Erforderlich	Standardwert	Unterstützte Umgebungen
`--query`	Natürliche Sprachbeschreibung der Aufgabe	Ja	N/A	Alle
`--env`	Laufzeitumgebung (playwright/browserbase)	Nein	N/A	Alle
`--initial_url`	Die beim Start des Browsers geladene Start-URL	Nein	https://www.google.com	playwright
`--highlight_mouse`	Mausposition im Screenshot hervorheben (zum Debuggen)	Nein	false	playwright

Umgebungsvariablen

Variablenname	Beschreibung	Erforderlich
`GEMINI_API_KEY`	Gemini API-Schlüssel	Ja (bei Verwendung der Gemini API)
`BROWSERBASE_API_KEY`	Browserbase API-Schlüssel	Ja (bei Verwendung der Browserbase-Umgebung)
`BROWSERBASE_PROJECT_ID`	Browserbase Projekt-ID	Ja (bei Verwendung der Browserbase-Umgebung)
`USE_VERTEXAI`	Vertex AI aktivieren	Nein
`VERTEXAI_PROJECT`	Vertex AI Projekt-ID	Ja (bei Verwendung von Vertex AI)
`VERTEXAI_LOCATION`	Vertex AI Standort	Ja (bei Verwendung von Vertex AI)

Anwendungsszenarien

1. Automatisierte Tests

UI-Regressionstests
End-to-End-Tests
Cross-Browser-Tests

2. Datenextraktion

Automatisiertes Ausfüllen von Formularen
Webdatenextraktion
Ausführung von geplanten Aufgaben

3. Workflow-Automatisierung

Automatisierung wiederkehrender Aufgaben
Mehrstufige Geschäftsprozesse
Stapelverarbeitung von Operationen

4. Persönlicher Assistent

Automatisierung alltäglicher Web-Operationen
Informationssammlung und -organisation
Intelligente Web-Navigation

Leistungsmerkmale

Basierend auf den Bewertungsdaten von Google und Browserbase zeigt das Gemini 2.5 Computer Use-Modell in mehreren Benchmark-Tests hervorragende Leistungen:

OnlineMind2Web: Führende Genauigkeit bei Web-Steuerungsaufgaben
WebVoyager: Exzellente Leistung bei komplexen Web-Navigationsaufgaben
Geringe Latenz: Schnellere Reaktion im Vergleich zu Konkurrenzmodellen
Hohe Genauigkeit: Übertrifft andere gängige Modelle in Browser- und Mobilgeräte-Steuerungs-Benchmarks

Wichtige Hinweise

Sicherheit

Dieses Modell ist eine Vorschauversion und kann Fehler und Sicherheitslücken enthalten.
Vom Modell vorgeschlagene Aktionen können unangemessen oder unsicher sein.
Adversarial Inputs können zu bösartigen Operationen führen.
Es wird empfohlen, vor dem Einsatz in einer Produktionsumgebung umfassende Tests durchzuführen.

Nutzungsbeschränkungen

Erfordert einen klaren manuellen Bestätigungsmechanismus.
Einhaltung der Google-Richtlinien zur verbotenen Nutzung generativer KI.
Dieses Produkt unterliegt den Pre-GA-Bedingungen.

Best Practices

Immer in einer kontrollierten Umgebung testen.
Das Betriebsverhalten des Agenten überwachen.
Manuelle Überprüfung für kritische Operationen hinzufügen.
Regelmäßig auf die neueste Version aktualisieren.

Technische Vorteile

Visuelles Verständnis: Leistungsstarke visuelle Erkennungsfähigkeiten basierend auf Gemini 2.5 Pro
Native UI-Interaktion: Direkte Bedienung der grafischen Oberfläche ohne strukturierte APIs
Operationen nach dem Login: Unterstützt komplexe Aufgaben, die eine Authentifizierung erfordern
Formularverarbeitung: Intelligentes Ausfüllen und Absenden komplexer Formulare
Interaktive Elementbedienung: Handhabung interaktiver Komponenten wie Dropdown-Menüs und Filter

Bedeutung des Projekts

Google Computer Use Preview stellt einen bedeutenden Fortschritt in der KI-Agenten-Technologie dar. Indem KI-Modelle in die Lage versetzt werden, direkt mit grafischen Benutzeroberflächen zu interagieren, anstatt sich auf strukturierte APIs zu verlassen, eröffnet diese Technologie neue Möglichkeiten für den Aufbau von Allzweck-Agenten. Sie ermöglicht es Entwicklern, Folgendes zu tun:

Komplexe Aufgaben zu automatisieren, die zuvor menschliches Eingreifen erforderten
Schnell intelligente Browser-Automatisierungsanwendungen zu erstellen
Die Entwicklungskosten für UI-Tests und Workflow-Automatisierung zu senken
Neue Wege der Mensch-Computer-Interaktion zu erkunden

Zukunftsausblick

Mit der kontinuierlichen Verbesserung der Modellfähigkeiten wird sich die Computer Use-Technologie in folgenden Bereichen weiterentwickeln:

Höhere Genauigkeit und Zuverlässigkeit
Ausführung komplexerer mehrstufiger Aufgaben
Bessere Sicherheit und Kontrollierbarkeit
Tiefe Integration mit anderen KI-Fähigkeiten
Breitere Abdeckung von Anwendungsszenarien