Login

AIを活用したブラウザ自動化フレームワーク。自然言語とコードを組み合わせてブラウザを制御します。

MITTypeScript 13.9kbrowserbasestagehand Last Updated: 2025-07-14

Stagehand - AI駆動のブラウザ自動化フレームワーク

プロジェクト概要

Stagehandは、Browserbase社によって開発された、本番環境対応のAIブラウザ自動化フレームワークです。既存のブラウザ自動化ツールが抱える課題、すなわち低レベルのコード記述(Selenium、Playwright、Puppeteerなど)が必要である点や、高レベルのエージェントを使用しても本番環境で予測不能である点を解決します。

コア機能

1. 柔軟な制御方法

  • コードと自然言語の組み合わせ:開発者はコードと自然言語をいつ使用するかを選択できます。
  • AIナビゲーション:不慣れなページでAIを使用してナビゲーションします。
  • 正確な制御:何をするべきか明確な場合はコード(Playwright)を使用します。

2. プレビューとキャッシュ機能

  • 操作プレビュー:AI操作を実行する前にプレビューできます。
  • キャッシュメカニズム:繰り返し可能な操作を簡単にキャッシュし、時間とトークンの消費を節約します。

3. ワンクリックでのコンピュータビジョンモデル統合

  • SOTAモデルサポート:OpenAIおよびAnthropicの最新のコンピュータビジョンモデルを1行のコードで統合できます。
  • シームレスな統合:stagehand.agentを導入しました。これは、SOTAコンピュータビジョンモデルまたはBrowserbaseのOpen OperatorをStagehandに1行のコードで統合できる強力な新しい方法です。

クイックスタート

インストール

npx create-browser-app

ローカル開発

git clone https://github.com/browserbase/stagehand.git
cd stagehand
npm install
npx playwright install
npm run build
npm run example # ./examples/example.ts のサンプルスクリプトを実行

環境設定

cp .env.example .env
nano .env # .envファイルを編集してAPIキーを追加

使用例

基本使用法

// Playwright関数を使用してページオブジェクトを操作します
const page = stagehand.page;
await page.goto("https://github.com/browserbase");

// act()を使用して単一の操作を実行します
await page.act("click on the stagehand repo");

// コンピュータビジョンエージェントを使用してより大きな操作を実行します
const agent = stagehand.agent({
  provider: "openai",
  model: "computer-use-preview",
});
await agent.execute("Get to the latest PR");

// extract()を使用してページからデータを読み取ります
const { author, title } = await page.extract({
  instruction: "extract the author and title of the PR",
  schema: z.object({
    author: z.string().describe("The username of the PR author"),
    title: z.string().describe("The title of the PR"),
  }),
});

コアメソッド

1. act() メソッド

  • 単一のブラウザ操作を実行します。
  • 自然言語による指示をサポートします。
  • クリック、入力、ナビゲーションなどの操作に適しています。

2. extract() メソッド

  • ページから構造化データを抽出します。
  • Zodスキーマ検証を統合します。
  • 複雑なデータ抽出タスクをサポートします。

3. observe() メソッド

  • ページの状態と変化を観察します。
  • 条件判断や状態監視に使用されます。

4. agent() メソッド(V2新機能)

  • 高度なコンピュータビジョンモデルを統合します。
  • 多段階のワークフローをサポートします。
  • 複雑なインタラクションシナリオに適しています。

バージョン 2.0 新機能

Stagehand V2では、いくつかの重要な改善が導入されました。

パフォーマンス向上

  • 劇的に高速化されたactとextract:自動化の実行をさらに高速化するための大幅なパフォーマンス改善。
  • a11y-treeベースの最適化:より高速なアクセシビリティツリーベースのact/extractメソッド。

強化されたログ記録

  • 自動化プロセスの可視性の向上。
  • ログ記録とデバッグ機能の改善。

包括的なドキュメント

  • 完全に再設計されたドキュメントサイト。
  • より良い例、ガイド、ベストプラクティス。

エラー処理の改善

  • より安定したエラー処理メカニズム。
  • より良いエラーメッセージとデバッグサポート。

技術アーキテクチャ

依存関係

  • Playwright:ウェブ自動化の核心的な基盤として。
  • Zod:データ構造検証用。
  • TypeScript:主要な開発言語。

多言語サポート

TypeScript/JavaScriptバージョンに加えて、プロジェクトは以下も提供します:

Browserbaseとの統合

Browserbaseは、あなたのクラウドブラウザプロバイダーです。Stagehandと連携することで、セッションリプレイ、プロンプトの可観測性、CAPTCHA解決などの高度な機能を構築できます。

まとめ

Stagehandは、従来のコード制御の正確性とAI自然言語処理の柔軟性を完璧に融合させた、革新的なブラウザ自動化フレームワークです。シンプルなウェブ操作から複雑なデータ抽出タスクまで、Stagehandは本番環境対応のソリューションを提供します。その2.0バージョンのパフォーマンス向上と新機能により、現代のブラウザ自動化における第一選択肢となっています。

Star History Chart