Login

Framework de automatización de navegadores impulsado por IA que combina lenguaje natural y código para controlar el navegador

MITTypeScript 13.9kbrowserbasestagehand Last Updated: 2025-07-14

Stagehand - Marco de Automatización de Navegadores Impulsado por IA

Resumen del Proyecto

Stagehand es un marco de automatización de navegadores con IA listo para producción, desarrollado por Browserbase. Resuelve los puntos débiles de las herramientas de automatización de navegadores existentes: o requieren escribir código de bajo nivel (como Selenium, Playwright, Puppeteer), o utilizan agentes de alto nivel pero son impredecibles en entornos de producción.

Características Principales

1. Modos de Control Flexibles

  • Combinación de Código y Lenguaje Natural: Los desarrolladores pueden elegir cuándo usar código y cuándo usar lenguaje natural.
  • Navegación con IA: Utiliza IA para navegar en páginas desconocidas.
  • Control Preciso: Usa código (Playwright) cuando se sabe exactamente qué hacer.

2. Funcionalidades de Vista Previa y Caché

  • Vista Previa de Operaciones: Previsualiza las operaciones de IA antes de ejecutarlas.
  • Mecanismo de Caché: Almacena fácilmente en caché operaciones repetibles, ahorrando tiempo y consumo de tokens.

3. Integración de Modelos de Visión por Computadora con un Clic

  • Soporte para Modelos SOTA: Integra los últimos modelos de visión por computadora de OpenAI y Anthropic con una sola línea de código.
  • Integración Perfecta: Presenta stagehand.agent: un nuevo y potente método que integra modelos SOTA de visión por computadora o el Open Operator de Browserbase en Stagehand con una sola línea de código.

Inicio Rápido

Instalación

npx create-browser-app

Desarrollo Local

git clone https://github.com/browserbase/stagehand.git
cd stagehand
npm install
npx playwright install
npm run build
npm run example # Ejecuta el script de ejemplo en ./examples/example.ts

Configuración del Entorno

cp .env.example .env
nano .env # Edita el archivo .env para añadir la clave API

Ejemplo de Uso

Uso Básico

// Usa las funciones de Playwright para operar con el objeto de página
const page = stagehand.page;
await page.goto("https://github.com/browserbase");

// Usa act() para ejecutar una sola operación
await page.act("click on the stagehand repo");

// Usa el agente de visión por computadora para ejecutar operaciones más grandes
const agent = stagehand.agent({
  provider: "openai",
  model: "computer-use-preview",
});
await agent.execute("Get to the latest PR");

// Usa extract() para leer datos de la página
const { author, title } = await page.extract({
  instruction: "extract the author and title of the PR",
  schema: z.object({
    author: z.string().describe("The username of the PR author"),
    title: z.string().describe("The title of the PR"),
  }),
});

Métodos Principales

1. Método act()

  • Ejecuta una sola operación del navegador
  • Soporta instrucciones en lenguaje natural
  • Adecuado para operaciones como clics, entradas de texto, navegación, etc.

2. Método extract()

  • Extrae datos estructurados de la página
  • Integra la validación de esquemas Zod
  • Soporta tareas complejas de extracción de datos

3. Método observe()

  • Observa el estado y los cambios de la página
  • Utilizado para evaluaciones condicionales y monitoreo de estado

4. Método agent() (Nueva Característica de la V2)

  • Integra modelos avanzados de visión por computadora
  • Soporta flujos de trabajo de múltiples pasos
  • Adecuado para escenarios de interacción complejos

Nuevas Características de la Versión 2.0

Stagehand V2 introduce varias mejoras significativas:

Mejora del Rendimiento

  • act y extract ultrarrápidos: Mejoras significativas en el rendimiento que hacen que la automatización se ejecute más rápido.
  • Optimización basada en a11y-tree: Métodos act/extract más rápidos basados en el árbol de accesibilidad.

Registro Mejorado

  • Mejor visibilidad del proceso de automatización
  • Funcionalidades mejoradas de registro y depuración

Documentación Completa

  • Sitio de documentación completamente rediseñado
  • Mejores ejemplos, guías y mejores prácticas

Mejoras en el Manejo de Errores

  • Mecanismo de manejo de errores más estable
  • Mejor información de errores y soporte de depuración

Arquitectura Técnica

Dependencias

  • Playwright: Como columna vertebral central para la automatización web.
  • Zod: Para la validación de estructuras de datos.
  • TypeScript: Lenguaje de desarrollo principal.

Soporte Multilingüe

Además de la versión TypeScript/JavaScript, el proyecto también ofrece:

Integración con Browserbase

Browserbase es su proveedor de navegadores en la nube, utilice Stagehand para construir funcionalidades aún más potentes, incluyendo características avanzadas como la reproducción de sesiones, la observabilidad de prompts y la resolución de CAPTCHAs.

Resumen

Stagehand es un marco de automatización de navegadores revolucionario que fusiona perfectamente la precisión del control de código tradicional con la flexibilidad del procesamiento de lenguaje natural de la IA. Ya sean operaciones web simples o tareas complejas de extracción de datos, Stagehand ofrece una solución lista para producción. Sus mejoras de rendimiento y nuevas características en la versión 2.0 lo convierten en la herramienta preferida para la automatización moderna de navegadores.

Star History Chart