Login

KI-gestütztes Browser-Automatisierungs-Framework, das natürliche Sprache und Code zur Steuerung des Browsers kombiniert

MITTypeScript 13.9kbrowserbasestagehand Last Updated: 2025-07-14

Stagehand – KI-gesteuertes Browser-Automatisierungs-Framework

Projektübersicht

Stagehand ist ein produktionsreifes KI-Browser-Automatisierungs-Framework, das von Browserbase entwickelt wurde. Es behebt die Schwachstellen bestehender Browser-Automatisierungstools: Entweder erfordern sie das Schreiben von Low-Level-Code (wie Selenium, Playwright, Puppeteer) oder sie verwenden High-Level-Agenten, die jedoch in Produktionsumgebungen unvorhersehbar sind.

Kernfunktionen

1. Flexible Steuerungsmöglichkeiten

  • Kombination aus Code und natürlicher Sprache: Entwickler können wählen, wann sie Code und wann sie natürliche Sprache verwenden möchten.
  • KI-Navigation: Navigation auf unbekannten Seiten mithilfe von KI.
  • Präzise Steuerung: Verwendung von Code (Playwright), wenn genau bekannt ist, was zu tun ist.

2. Vorschau- und Caching-Funktionen

  • Aktionsvorschau: KI-Aktionen vor der Ausführung in der Vorschau anzeigen.
  • Caching-Mechanismus: Wiederholbare Aktionen einfach cachen, um Zeit und Token-Verbrauch zu sparen.

3. Ein-Klick-Integration von Computer-Vision-Modellen

  • SOTA-Modell-Unterstützung: Integration der neuesten Computer-Vision-Modelle von OpenAI und Anthropic mit einer einzigen Codezeile.
  • Nahtlose Integration: Einführung von stagehand.agent: Eine leistungsstarke neue Methode, um SOTA-Computer-Vision-Modelle oder Browserbases Open Operator mit nur einer Codezeile in Stagehand zu integrieren.

Schnellstart

Installation

npx create-browser-app

Lokale Entwicklung

git clone https://github.com/browserbase/stagehand.git
cd stagehand
npm install
npx playwright install
npm run build
npm run example # Führt das Beispielskript unter ./examples/example.ts aus

Umgebungskonfiguration

cp .env.example .env
nano .env # Bearbeiten Sie die .env-Datei, um API-Schlüssel hinzuzufügen.

Anwendungsbeispiele

Grundlegende Nutzung

// Verwenden Sie Playwright-Funktionen, um Seitenobjekte zu manipulieren
const page = stagehand.page;
await page.goto("https://github.com/browserbase");

// Führen Sie eine einzelne Aktion mit act() aus
await page.act("click on the stagehand repo");

// Führen Sie größere Operationen mit einem Computer-Vision-Agenten aus
const agent = stagehand.agent({
  provider: "openai",
  model: "computer-use-preview",
});
await agent.execute("Get to the latest PR");

// Lesen Sie Daten von der Seite mit extract()
const { author, title } = await page.extract({
  instruction: "extract the author and title of the PR",
  schema: z.object({
    author: z.string().describe("Der Benutzername des PR-Autors"),
    title: z.string().describe("Der Titel des PR"),
  }),
});

Kernmethoden

1. Die act()-Methode

  • Führt eine einzelne Browser-Aktion aus.
  • Unterstützt Anweisungen in natürlicher Sprache.
  • Geeignet für Klicks, Eingaben, Navigation und ähnliche Aktionen.

2. Die extract()-Methode

  • Extrahiert strukturierte Daten von der Seite.
  • Integriert die Zod-Schema-Validierung.
  • Unterstützt komplexe Datenextraktionsaufgaben.

3. Die observe()-Methode

  • Beobachtet den Seitenstatus und Änderungen.
  • Wird für Bedingungsprüfungen und Statusüberwachung verwendet.

4. Die agent()-Methode (Neue Funktion in V2)

  • Integriert fortschrittliche Computer-Vision-Modelle.
  • Unterstützt mehrstufige Workflows.
  • Geeignet für komplexe Interaktionsszenarien.

Neue Funktionen in Version 2.0

Stagehand V2 führt mehrere wesentliche Verbesserungen ein:

Leistungsverbesserungen

  • Blitzschnelles act und extract: Erhebliche Leistungsverbesserungen, die die Automatisierung schneller machen.
  • Optimierungen basierend auf dem a11y-Baum: Schnellere act/extract-Methoden, die auf dem Accessibility Tree basieren.

Verbesserte Protokollierung

  • Bessere Sichtbarkeit des Automatisierungsprozesses.
  • Verbesserte Protokollierungs- und Debugging-Funktionen.

Umfassende Dokumentation

  • Vollständig neu gestaltete Dokumentationsseite.
  • Bessere Beispiele, Anleitungen und Best Practices.

Verbesserte Fehlerbehandlung

  • Stabilere Fehlerbehandlungsmechanismen.
  • Bessere Fehlermeldungen und Debugging-Unterstützung.

Technische Architektur

Abhängigkeiten

  • Playwright: Als Kernrückgrat für die Web-Automatisierung.
  • Zod: Für die Validierung von Datenstrukturen.
  • TypeScript: Hauptentwicklungssprache.

Mehrsprachige Unterstützung

Neben der TypeScript/JavaScript-Version bietet das Projekt auch:

Integration mit Browserbase

Browserbase ist Ihr Cloud-Browser-Anbieter. Nutzen Sie Stagehand, um noch leistungsfähigere Funktionen zu erstellen, einschließlich erweiterter Funktionen wie Sitzungswiedergabe, Prompt-Beobachtbarkeit und Captcha-Lösung.

Zusammenfassung

Stagehand ist ein revolutionäres Browser-Automatisierungs-Framework, das die Präzision der traditionellen Code-Steuerung perfekt mit der Flexibilität der KI-basierten Verarbeitung natürlicher Sprache verbindet. Ob einfache Webseiten-Operationen oder komplexe Datenextraktionsaufgaben, Stagehand bietet eine produktionsreife Lösung. Die Leistungsverbesserungen und neuen Funktionen der Version 2.0 machen es zum bevorzugten Werkzeug für die moderne Browser-Automatisierung.

Star History Chart