Login

Framework d'automatisation de navigateur piloté par l'IA, combinant le langage naturel et le code pour contrôler le navigateur

MITTypeScript 13.9kbrowserbasestagehand Last Updated: 2025-07-14

Stagehand - Cadre d'automatisation de navigateur alimenté par l'IA

Aperçu du projet

Stagehand est un cadre d'automatisation de navigateur basé sur l'IA, prêt pour la production, développé par Browserbase. Il résout les problèmes des outils d'automatisation de navigateur existants : soit ils nécessitent l'écriture de code de bas niveau (comme Selenium, Playwright, Puppeteer), soit ils utilisent des agents de haut niveau mais sont imprévisibles en production.

Fonctionnalités clés

1. Modes de contrôle flexibles

  • Combinaison de code et de langage naturel : Les développeurs peuvent choisir quand utiliser le code et quand utiliser le langage naturel.
  • Navigation par IA : Utilise l'IA pour naviguer sur des pages inconnues.
  • Contrôle précis : Utilise le code (Playwright) lorsque l'on sait exactement quoi faire.

2. Fonctionnalités de prévisualisation et de mise en cache

  • Prévisualisation des opérations : Prévisualise les opérations de l'IA avant leur exécution.
  • Mécanisme de mise en cache : Met facilement en cache les opérations répétables, économisant du temps et la consommation de jetons.

3. Intégration en un clic de modèles de vision par ordinateur

  • Prise en charge des modèles SOTA : Intègre les derniers modèles de vision par ordinateur d'OpenAI et d'Anthropic en une seule ligne de code.
  • Intégration transparente : Introduction de stagehand.agent : une nouvelle méthode puissante pour intégrer les modèles de vision par ordinateur SOTA ou l'Open Operator de Browserbase dans Stagehand en une seule ligne de code.

Démarrage rapide

Installation

npx create-browser-app

Développement local

git clone https://github.com/browserbase/stagehand.git
cd stagehand
npm install
npx playwright install
npm run build
npm run example # Exécute le script d'exemple dans ./examples/example.ts

Configuration de l'environnement

cp .env.example .env
nano .env # Modifiez le fichier .env pour ajouter les clés API

Exemple d'utilisation

Utilisation de base

// Utilise les fonctions Playwright pour manipuler l'objet page
const page = stagehand.page;
await page.goto("https://github.com/browserbase");

// Utilise act() pour exécuter une seule opération
await page.act("click on the stagehand repo");

// Utilise l'agent de vision par ordinateur pour des opérations plus complexes
const agent = stagehand.agent({
  provider: "openai",
  model: "computer-use-preview",
});
await agent.execute("Get to the latest PR");

// Utilise extract() pour lire des données de la page
const { author, title } = await page.extract({
  instruction: "extract the author and title of the PR",
  schema: z.object({
    author: z.string().describe("Le nom d'utilisateur de l'auteur de la PR"),
    title: z.string().describe("Le titre de la PR"),
  }),
});

Méthodes principales

1. Méthode act()

  • Exécute une seule opération de navigateur.
  • Prend en charge les instructions en langage naturel.
  • Convient pour les clics, la saisie, la navigation, etc.

2. Méthode extract()

  • Extrait des données structurées de la page.
  • Intègre la validation de schéma Zod.
  • Prend en charge les tâches d'extraction de données complexes.

3. Méthode observe()

  • Observe l'état et les changements de la page.
  • Utilisée pour les jugements conditionnels et la surveillance de l'état.

4. Méthode agent() (Nouvelle fonctionnalité de la V2)

  • Intègre des modèles avancés de vision par ordinateur.
  • Prend en charge les flux de travail multi-étapes.
  • Convient aux scénarios d'interaction complexes.

Nouvelles fonctionnalités de la version 2.0

Stagehand V2 introduit plusieurs améliorations majeures :

Améliorations des performances

  • act et extract ultra-rapides : Améliorations significatives des performances, rendant l'automatisation plus rapide.
  • Optimisations basées sur l'arbre d'accessibilité (a11y-tree) : Méthodes act/extract plus rapides basées sur l'arbre d'accessibilité.

Journalisation améliorée

  • Meilleure visibilité du processus d'automatisation.
  • Fonctionnalités de journalisation et de débogage améliorées.

Documentation complète

  • Site de documentation entièrement repensé.
  • Meilleurs exemples, guides et bonnes pratiques.

Améliorations de la gestion des erreurs

  • Mécanisme de gestion des erreurs plus stable.
  • Meilleures informations d'erreur et support de débogage.

Architecture technique

Dépendances

  • Playwright : En tant qu'épine dorsale de l'automatisation web.
  • Zod : Pour la validation de la structure des données.
  • TypeScript : Langage de développement principal.

Support multilingue

Outre la version TypeScript/JavaScript, le projet propose également :

Intégration avec Browserbase

Browserbase est votre fournisseur de navigateurs cloud. Utilisez Stagehand pour construire des fonctionnalités encore plus puissantes, y compris des fonctionnalités avancées telles que la relecture de sessions, l'observabilité des invites et la résolution de CAPTCHA.

Résumé

Stagehand est un cadre d'automatisation de navigateur révolutionnaire qui fusionne parfaitement la précision du contrôle par code traditionnel et la flexibilité du traitement du langage naturel par l'IA. Qu'il s'agisse d'opérations web simples ou de tâches complexes d'extraction de données, Stagehand offre une solution prête pour la production. Ses améliorations de performance et ses nouvelles fonctionnalités dans la version 2.0 en font l'outil de choix pour l'automatisation moderne des navigateurs.

Star History Chart