KI-gestütztes Browser-Automatisierungs-Framework, das natürliche Sprache und Code zur Steuerung des Browsers kombiniert
Stagehand – KI-gesteuertes Browser-Automatisierungs-Framework
Projektübersicht
Stagehand ist ein produktionsreifes KI-Browser-Automatisierungs-Framework, das von Browserbase entwickelt wurde. Es behebt die Schwachstellen bestehender Browser-Automatisierungstools: Entweder erfordern sie das Schreiben von Low-Level-Code (wie Selenium, Playwright, Puppeteer) oder sie verwenden High-Level-Agenten, die jedoch in Produktionsumgebungen unvorhersehbar sind.
Kernfunktionen
1. Flexible Steuerungsmöglichkeiten
- Kombination aus Code und natürlicher Sprache: Entwickler können wählen, wann sie Code und wann sie natürliche Sprache verwenden möchten.
- KI-Navigation: Navigation auf unbekannten Seiten mithilfe von KI.
- Präzise Steuerung: Verwendung von Code (Playwright), wenn genau bekannt ist, was zu tun ist.
2. Vorschau- und Caching-Funktionen
- Aktionsvorschau: KI-Aktionen vor der Ausführung in der Vorschau anzeigen.
- Caching-Mechanismus: Wiederholbare Aktionen einfach cachen, um Zeit und Token-Verbrauch zu sparen.
3. Ein-Klick-Integration von Computer-Vision-Modellen
- SOTA-Modell-Unterstützung: Integration der neuesten Computer-Vision-Modelle von OpenAI und Anthropic mit einer einzigen Codezeile.
- Nahtlose Integration: Einführung von
stagehand.agent
: Eine leistungsstarke neue Methode, um SOTA-Computer-Vision-Modelle oder Browserbases Open Operator mit nur einer Codezeile in Stagehand zu integrieren.
Schnellstart
Installation
npx create-browser-app
Lokale Entwicklung
git clone https://github.com/browserbase/stagehand.git
cd stagehand
npm install
npx playwright install
npm run build
npm run example # Führt das Beispielskript unter ./examples/example.ts aus
Umgebungskonfiguration
cp .env.example .env
nano .env # Bearbeiten Sie die .env-Datei, um API-Schlüssel hinzuzufügen.
Anwendungsbeispiele
Grundlegende Nutzung
// Verwenden Sie Playwright-Funktionen, um Seitenobjekte zu manipulieren
const page = stagehand.page;
await page.goto("https://github.com/browserbase");
// Führen Sie eine einzelne Aktion mit act() aus
await page.act("click on the stagehand repo");
// Führen Sie größere Operationen mit einem Computer-Vision-Agenten aus
const agent = stagehand.agent({
provider: "openai",
model: "computer-use-preview",
});
await agent.execute("Get to the latest PR");
// Lesen Sie Daten von der Seite mit extract()
const { author, title } = await page.extract({
instruction: "extract the author and title of the PR",
schema: z.object({
author: z.string().describe("Der Benutzername des PR-Autors"),
title: z.string().describe("Der Titel des PR"),
}),
});
Kernmethoden
1. Die act()-Methode
- Führt eine einzelne Browser-Aktion aus.
- Unterstützt Anweisungen in natürlicher Sprache.
- Geeignet für Klicks, Eingaben, Navigation und ähnliche Aktionen.
2. Die extract()-Methode
- Extrahiert strukturierte Daten von der Seite.
- Integriert die Zod-Schema-Validierung.
- Unterstützt komplexe Datenextraktionsaufgaben.
3. Die observe()-Methode
- Beobachtet den Seitenstatus und Änderungen.
- Wird für Bedingungsprüfungen und Statusüberwachung verwendet.
4. Die agent()-Methode (Neue Funktion in V2)
- Integriert fortschrittliche Computer-Vision-Modelle.
- Unterstützt mehrstufige Workflows.
- Geeignet für komplexe Interaktionsszenarien.
Neue Funktionen in Version 2.0
Stagehand V2 führt mehrere wesentliche Verbesserungen ein:
Leistungsverbesserungen
- Blitzschnelles act und extract: Erhebliche Leistungsverbesserungen, die die Automatisierung schneller machen.
- Optimierungen basierend auf dem a11y-Baum: Schnellere act/extract-Methoden, die auf dem Accessibility Tree basieren.
Verbesserte Protokollierung
- Bessere Sichtbarkeit des Automatisierungsprozesses.
- Verbesserte Protokollierungs- und Debugging-Funktionen.
Umfassende Dokumentation
- Vollständig neu gestaltete Dokumentationsseite.
- Bessere Beispiele, Anleitungen und Best Practices.
Verbesserte Fehlerbehandlung
- Stabilere Fehlerbehandlungsmechanismen.
- Bessere Fehlermeldungen und Debugging-Unterstützung.
Technische Architektur
Abhängigkeiten
- Playwright: Als Kernrückgrat für die Web-Automatisierung.
- Zod: Für die Validierung von Datenstrukturen.
- TypeScript: Hauptentwicklungssprache.
Mehrsprachige Unterstützung
Neben der TypeScript/JavaScript-Version bietet das Projekt auch:
Integration mit Browserbase
Browserbase ist Ihr Cloud-Browser-Anbieter. Nutzen Sie Stagehand, um noch leistungsfähigere Funktionen zu erstellen, einschließlich erweiterter Funktionen wie Sitzungswiedergabe, Prompt-Beobachtbarkeit und Captcha-Lösung.
Zusammenfassung
Stagehand ist ein revolutionäres Browser-Automatisierungs-Framework, das die Präzision der traditionellen Code-Steuerung perfekt mit der Flexibilität der KI-basierten Verarbeitung natürlicher Sprache verbindet. Ob einfache Webseiten-Operationen oder komplexe Datenextraktionsaufgaben, Stagehand bietet eine produktionsreife Lösung. Die Leistungsverbesserungen und neuen Funktionen der Version 2.0 machen es zum bevorzugten Werkzeug für die moderne Browser-Automatisierung.