Google's offizielles Vorschauprojekt des Gemini 2.5 Computernutzungsmodells, das einen KI-Agenten unterstützt, der Browseraufgaben über natürliche Sprachbefehle steuert.

Apache-2.0Pythoncomputer-use-previewgoogle 1.6k Last Updated: October 10, 2025

Einführung in das Google Computer Use Preview Projekt

Projektübersicht

Google Computer Use Preview ist ein offiziell von Google veröffentlichtes Open-Source-Projekt, das die Fähigkeiten des auf Gemini 2.5 basierenden Computer Use-Modells demonstriert. Dieses Projekt ermöglicht es Entwicklern, Browser über natürliche Sprachbefehle zu steuern, um verschiedene Aufgaben auszuführen und so einen echten Browser-Automatisierungs-Agenten zu realisieren.

Projektadresse: https://github.com/google/computer-use-preview

Open-Source-Lizenz: Apache 2.0

Kernfunktionen

1. Steuerung durch natürliche Sprache

Benutzer können Aufgaben mit einfachen natürlichen Sprachbeschreibungen formulieren, und der KI-Agent wird die entsprechenden Browseraktionen automatisch analysieren und ausführen, zum Beispiel:

  • Schaltflächen anklicken
  • Formulare ausfüllen
  • Seiten scrollen
  • Text eingeben
  • Suchen ausführen

2. Unterstützung mehrerer Umgebungen

Das Projekt unterstützt zwei Laufzeitumgebungen:

  • Playwright: Lokale Browsersteuerung, Ausführung von Aufgaben lokal mit dem Chrome-Browser
  • Browserbase: Cloud-Browserdienst, unterstützt Fernsteuerung von Browsern

3. Basierend auf dem Gemini 2.5 Modell

Dieses Projekt verwendet Googles neuestes Modell gemini-2.5-computer-use-preview-10-2025, das speziell für die UI-Interaktion optimiert wurde und über folgende Merkmale verfügt:

  • Starke visuelle Verständnisfähigkeit
  • Präzise UI-Elementerkennung
  • Geringe Latenz bei der Reaktion
  • Exzellente Inferenzfähigkeiten

4. API-Flexibilität

Es werden zwei API-Zugangswege unterstützt:

  • Gemini Developer API: Geeignet für schnelle Entwicklung und Tests
  • Vertex AI: Geeignet für die Bereitstellung in Unternehmensanwendungen

Technische Architektur

Kernkomponenten

  1. Browser-Steuerungsebene

    • Playwright: Framework für die lokale Browserautomatisierung
    • Browserbase: Cloud-Browser-Infrastruktur
  2. KI-Modellebene

    • Gemini 2.5 Computer Use-Modell
    • Visuelles Verständnis und Inferenzfähigkeiten
    • Generierung von UI-Aktionen
  3. Agenten-Schleife

    • Empfängt Benutzeranfragen
    • Erfasst Screenshots
    • Generiert und führt Aktionen aus
    • Verfolgt historische Operationen

Funktionsweise

  1. Der Benutzer stellt eine Aufgabenbeschreibung in natürlicher Sprache bereit.
  2. Das System erfasst einen Screenshot des aktuellen Browsers.
  3. Das Gemini-Modell analysiert den Screenshot und die Aufgabenanforderungen.
  4. Das Modell generiert spezifische UI-Bedienungsanweisungen (Klicken, Eingeben, Scrollen usw.).
  5. Die Operation wird ausgeführt und der neue Bildschirmzustand erfasst.
  6. Die Schritte 2-5 werden wiederholt, bis die Aufgabe abgeschlossen ist.

Schnellstart

Umgebungsanforderungen

  • Python 3.x
  • Chrome-Browser
  • Gemini API-Schlüssel (oder Vertex AI-Zugriffsberechtigungen)

Installationsschritte

  1. Projekt klonen
git clone https://github.com/google/computer-use-preview.git
cd computer-use-preview
  1. Virtuelle Umgebung erstellen und Abhängigkeiten installieren
python3 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt
  1. Playwright und Browser installieren
# Systemabhängigkeiten für Chrome installieren
playwright install-deps chrome

# Chrome-Browser installieren
playwright install chrome

API-Schlüssel konfigurieren

Gemini Developer API verwenden

export GEMINI_API_KEY="YOUR_GEMINI_API_KEY"

Oder dauerhaft zur virtuellen Umgebung hinzufügen:

echo 'export GEMINI_API_KEY="YOUR_GEMINI_API_KEY"' >> .venv/bin/activate
deactivate
source .venv/bin/activate

Vertex AI verwenden

export USE_VERTEXAI=true
export VERTEXAI_PROJECT="YOUR_PROJECT_ID"
export VERTEXAI_LOCATION="YOUR_LOCATION"

Anwendungsbeispiele

1. Grundlegende Nutzung (Playwright lokale Umgebung)

python main.py --query="Go to Google and type 'Hello World' into the search bar" --env="playwright"

2. Start-URL angeben

python main.py \
  --query="Go to Google and type 'Hello World' into the search bar" \
  --env="playwright" \
  --initial_url="https://www.google.com/search?q=latest+AI+news"

3. Browserbase Cloud-Umgebung verwenden

Zuerst die Browserbase-Umgebungsvariablen einstellen:

export BROWSERBASE_API_KEY="YOUR_BROWSERBASE_API_KEY"
export BROWSERBASE_PROJECT_ID="YOUR_BROWSERBASE_PROJECT_ID"

Dann ausführen:

python main.py \
  --query="Go to Google and type 'Hello World' into the search bar" \
  --env="browserbase"

Beschreibung der Kommandozeilenparameter

Hauptparameter

Parameter Beschreibung Erforderlich Standardwert Unterstützte Umgebungen
--query Natürliche Sprachbeschreibung der Aufgabe Ja N/A Alle
--env Laufzeitumgebung (playwright/browserbase) Nein N/A Alle
--initial_url Die beim Start des Browsers geladene Start-URL Nein https://www.google.com playwright
--highlight_mouse Mausposition im Screenshot hervorheben (zum Debuggen) Nein false playwright

Umgebungsvariablen

Variablenname Beschreibung Erforderlich
GEMINI_API_KEY Gemini API-Schlüssel Ja (bei Verwendung der Gemini API)
BROWSERBASE_API_KEY Browserbase API-Schlüssel Ja (bei Verwendung der Browserbase-Umgebung)
BROWSERBASE_PROJECT_ID Browserbase Projekt-ID Ja (bei Verwendung der Browserbase-Umgebung)
USE_VERTEXAI Vertex AI aktivieren Nein
VERTEXAI_PROJECT Vertex AI Projekt-ID Ja (bei Verwendung von Vertex AI)
VERTEXAI_LOCATION Vertex AI Standort Ja (bei Verwendung von Vertex AI)

Anwendungsszenarien

1. Automatisierte Tests

  • UI-Regressionstests
  • End-to-End-Tests
  • Cross-Browser-Tests

2. Datenextraktion

  • Automatisiertes Ausfüllen von Formularen
  • Webdatenextraktion
  • Ausführung von geplanten Aufgaben

3. Workflow-Automatisierung

  • Automatisierung wiederkehrender Aufgaben
  • Mehrstufige Geschäftsprozesse
  • Stapelverarbeitung von Operationen

4. Persönlicher Assistent

  • Automatisierung alltäglicher Web-Operationen
  • Informationssammlung und -organisation
  • Intelligente Web-Navigation

Leistungsmerkmale

Basierend auf den Bewertungsdaten von Google und Browserbase zeigt das Gemini 2.5 Computer Use-Modell in mehreren Benchmark-Tests hervorragende Leistungen:

  • OnlineMind2Web: Führende Genauigkeit bei Web-Steuerungsaufgaben
  • WebVoyager: Exzellente Leistung bei komplexen Web-Navigationsaufgaben
  • Geringe Latenz: Schnellere Reaktion im Vergleich zu Konkurrenzmodellen
  • Hohe Genauigkeit: Übertrifft andere gängige Modelle in Browser- und Mobilgeräte-Steuerungs-Benchmarks

Wichtige Hinweise

Sicherheit

  • Dieses Modell ist eine Vorschauversion und kann Fehler und Sicherheitslücken enthalten.
  • Vom Modell vorgeschlagene Aktionen können unangemessen oder unsicher sein.
  • Adversarial Inputs können zu bösartigen Operationen führen.
  • Es wird empfohlen, vor dem Einsatz in einer Produktionsumgebung umfassende Tests durchzuführen.

Nutzungsbeschränkungen

  • Erfordert einen klaren manuellen Bestätigungsmechanismus.
  • Einhaltung der Google-Richtlinien zur verbotenen Nutzung generativer KI.
  • Dieses Produkt unterliegt den Pre-GA-Bedingungen.

Best Practices

  • Immer in einer kontrollierten Umgebung testen.
  • Das Betriebsverhalten des Agenten überwachen.
  • Manuelle Überprüfung für kritische Operationen hinzufügen.
  • Regelmäßig auf die neueste Version aktualisieren.

Verwandte Ressourcen

  • Offizielle Dokumentation: Vertex AI Computer Use Dokumentation
  • Google AI Studio: Schnelles Testen und Prototyping
  • Browserbase Demo: Computer Use-Funktionen online erleben
  • Entwicklerforum: Probleme melden und Unterstützung erhalten

Technische Vorteile

  1. Visuelles Verständnis: Leistungsstarke visuelle Erkennungsfähigkeiten basierend auf Gemini 2.5 Pro
  2. Native UI-Interaktion: Direkte Bedienung der grafischen Oberfläche ohne strukturierte APIs
  3. Operationen nach dem Login: Unterstützt komplexe Aufgaben, die eine Authentifizierung erfordern
  4. Formularverarbeitung: Intelligentes Ausfüllen und Absenden komplexer Formulare
  5. Interaktive Elementbedienung: Handhabung interaktiver Komponenten wie Dropdown-Menüs und Filter

Bedeutung des Projekts

Google Computer Use Preview stellt einen bedeutenden Fortschritt in der KI-Agenten-Technologie dar. Indem KI-Modelle in die Lage versetzt werden, direkt mit grafischen Benutzeroberflächen zu interagieren, anstatt sich auf strukturierte APIs zu verlassen, eröffnet diese Technologie neue Möglichkeiten für den Aufbau von Allzweck-Agenten. Sie ermöglicht es Entwicklern, Folgendes zu tun:

  • Komplexe Aufgaben zu automatisieren, die zuvor menschliches Eingreifen erforderten
  • Schnell intelligente Browser-Automatisierungsanwendungen zu erstellen
  • Die Entwicklungskosten für UI-Tests und Workflow-Automatisierung zu senken
  • Neue Wege der Mensch-Computer-Interaktion zu erkunden

Zukunftsausblick

Mit der kontinuierlichen Verbesserung der Modellfähigkeiten wird sich die Computer Use-Technologie in folgenden Bereichen weiterentwickeln:

  • Höhere Genauigkeit und Zuverlässigkeit
  • Ausführung komplexerer mehrstufiger Aufgaben
  • Bessere Sicherheit und Kontrollierbarkeit
  • Tiefe Integration mit anderen KI-Fähigkeiten
  • Breitere Abdeckung von Anwendungsszenarien

Star History Chart