Login

Framework de automação de navegador impulsionado por IA, combinando linguagem natural e código para controlar o navegador

MITTypeScript 13.9kbrowserbasestagehand Last Updated: 2025-07-14

Stagehand - Estrutura de Automação de Navegador Impulsionada por IA

Visão Geral do Projeto

Stagehand é uma estrutura de automação de navegador impulsionada por IA, pronta para produção, desenvolvida pela Browserbase. Ela resolve os pontos problemáticos das ferramentas de automação de navegador existentes: ou exigem a escrita de código de baixo nível (como Selenium, Playwright, Puppeteer), ou usam agentes de alto nível que são imprevisíveis em ambientes de produção.

Principais Recursos

1. Métodos de Controle Flexíveis

  • Combinação de Código e Linguagem Natural: Desenvolvedores podem escolher quando usar código e quando usar linguagem natural.
  • Navegação por IA: Use IA para navegar em páginas desconhecidas.
  • Controle Preciso: Use código (Playwright) quando souber exatamente o que fazer.

2. Recursos de Visualização e Cache

  • Visualização de Operações: Visualize as operações de IA antes de executá-las.
  • Mecanismo de Cache: Armazene em cache facilmente operações repetíveis, economizando tempo e consumo de tokens.

3. Integração com Modelos de Visão Computacional com Um Clique

  • Suporte a Modelos SOTA: Integre os modelos de visão computacional mais recentes da OpenAI e Anthropic com uma única linha de código.
  • Integração Perfeita: Apresentando stagehand.agent: um novo método poderoso que integra modelos SOTA de visão computacional ou o Open Operator da Browserbase no Stagehand com apenas uma linha de código.

Início Rápido

Instalação

npx create-browser-app

Desenvolvimento Local

git clone https://github.com/browserbase/stagehand.git
cd stagehand
npm install
npx playwright install
npm run build
npm run example # Executa o script de exemplo em ./examples/example.ts

Configuração do Ambiente

cp .env.example .env
nano .env # Edite o arquivo .env para adicionar sua chave de API

Exemplo de Uso

Uso Básico

// Use funções do Playwright para manipular objetos da página
const page = stagehand.page;
await page.goto("https://github.com/browserbase");

// Use act() para executar uma única operação
await page.act("click on the stagehand repo");

// Use um agente de visão computacional para executar operações maiores
const agent = stagehand.agent({
  provider: "openai",
  model: "computer-use-preview",
});
await agent.execute("Get to the latest PR");

// Use extract() para ler dados da página
const { author, title } = await page.extract({
  instruction: "extract the author and title of the PR",
  schema: z.object({
    author: z.string().describe("O nome de usuário do autor do PR"),
    title: z.string().describe("O título do PR"),
  }),
});

Métodos Principais

1. Método act()

  • Executa uma única operação de navegador.
  • Suporta instruções em linguagem natural.
  • Adequado para operações como cliques, entrada de texto, navegação, etc.

2. Método extract()

  • Extrai dados estruturados de uma página.
  • Integra validação de esquema Zod.
  • Suporta tarefas complexas de extração de dados.

3. Método observe()

  • Observa o estado e as mudanças da página.
  • Usado para avaliação condicional e monitoramento de estado.

4. Método agent() (Novo Recurso V2)

  • Integra modelos avançados de visão computacional.
  • Suporta fluxos de trabalho de várias etapas.
  • Adequado para cenários de interação complexos.

Novidades da Versão 2.0

Stagehand V2 introduz várias melhorias significativas:

Melhorias de Desempenho

  • act e extract Incrivelmente Rápidos: Grandes melhorias de desempenho que tornam a automação mais rápida.
  • Otimizações Baseadas em a11y-tree: Métodos act/extract mais rápidos baseados na árvore de acessibilidade.

Registro Aprimorado

  • Melhor visibilidade do processo de automação.
  • Funcionalidades aprimoradas de registro e depuração.

Documentação Abrangente

  • Site de documentação completamente redesenhado.
  • Melhores exemplos, guias e melhores práticas.

Melhorias no Tratamento de Erros

  • Mecanismo de tratamento de erros mais estável.
  • Melhores mensagens de erro e suporte à depuração.

Arquitetura Técnica

Dependências

  • Playwright: Como a espinha dorsal central para a automação web.
  • Zod: Usado para validação de estrutura de dados.
  • TypeScript: Linguagem de desenvolvimento principal.

Suporte Multilíngue

Além das versões TypeScript/JavaScript, o projeto também oferece:

Integração com Browserbase

Browserbase é seu provedor de navegador em nuvem, use Stagehand para construir funcionalidades mais poderosas, incluindo recursos avançados como reprodução de sessão, observabilidade de prompts e resolução de CAPTCHA.

Resumo

Stagehand é uma estrutura de automação de navegador revolucionária que combina perfeitamente a precisão do controle de código tradicional com a flexibilidade do processamento de linguagem natural por IA. Seja para operações web simples ou tarefas complexas de extração de dados, Stagehand oferece uma solução pronta para produção. Suas melhorias de desempenho e novos recursos na versão 2.0 o tornam a ferramenta preferida para automação de navegador moderna.

Star History Chart