browserbase/stagehandPlease refer to the latest official releases for information GitHub Homepage
AIを活用したブラウザ自動化フレームワーク。自然言語とコードを組み合わせてブラウザを制御します。
MITTypeScript 13.9kbrowserbasestagehand Last Updated: 2025-07-14
Stagehand - AI駆動のブラウザ自動化フレームワーク
プロジェクト概要
Stagehandは、Browserbase社によって開発された、本番環境対応のAIブラウザ自動化フレームワークです。既存のブラウザ自動化ツールが抱える課題、すなわち低レベルのコード記述(Selenium、Playwright、Puppeteerなど)が必要である点や、高レベルのエージェントを使用しても本番環境で予測不能である点を解決します。
コア機能
1. 柔軟な制御方法
- コードと自然言語の組み合わせ:開発者はコードと自然言語をいつ使用するかを選択できます。
- AIナビゲーション:不慣れなページでAIを使用してナビゲーションします。
- 正確な制御:何をするべきか明確な場合はコード(Playwright)を使用します。
2. プレビューとキャッシュ機能
- 操作プレビュー:AI操作を実行する前にプレビューできます。
- キャッシュメカニズム:繰り返し可能な操作を簡単にキャッシュし、時間とトークンの消費を節約します。
3. ワンクリックでのコンピュータビジョンモデル統合
- SOTAモデルサポート:OpenAIおよびAnthropicの最新のコンピュータビジョンモデルを1行のコードで統合できます。
- シームレスな統合:stagehand.agentを導入しました。これは、SOTAコンピュータビジョンモデルまたはBrowserbaseのOpen OperatorをStagehandに1行のコードで統合できる強力な新しい方法です。
クイックスタート
インストール
npx create-browser-app
ローカル開発
git clone https://github.com/browserbase/stagehand.git
cd stagehand
npm install
npx playwright install
npm run build
npm run example # ./examples/example.ts のサンプルスクリプトを実行
環境設定
cp .env.example .env
nano .env # .envファイルを編集してAPIキーを追加
使用例
基本使用法
// Playwright関数を使用してページオブジェクトを操作します
const page = stagehand.page;
await page.goto("https://github.com/browserbase");
// act()を使用して単一の操作を実行します
await page.act("click on the stagehand repo");
// コンピュータビジョンエージェントを使用してより大きな操作を実行します
const agent = stagehand.agent({
provider: "openai",
model: "computer-use-preview",
});
await agent.execute("Get to the latest PR");
// extract()を使用してページからデータを読み取ります
const { author, title } = await page.extract({
instruction: "extract the author and title of the PR",
schema: z.object({
author: z.string().describe("The username of the PR author"),
title: z.string().describe("The title of the PR"),
}),
});
コアメソッド
1. act() メソッド
- 単一のブラウザ操作を実行します。
- 自然言語による指示をサポートします。
- クリック、入力、ナビゲーションなどの操作に適しています。
2. extract() メソッド
- ページから構造化データを抽出します。
- Zodスキーマ検証を統合します。
- 複雑なデータ抽出タスクをサポートします。
3. observe() メソッド
- ページの状態と変化を観察します。
- 条件判断や状態監視に使用されます。
4. agent() メソッド(V2新機能)
- 高度なコンピュータビジョンモデルを統合します。
- 多段階のワークフローをサポートします。
- 複雑なインタラクションシナリオに適しています。
バージョン 2.0 新機能
Stagehand V2では、いくつかの重要な改善が導入されました。
パフォーマンス向上
- 劇的に高速化されたactとextract:自動化の実行をさらに高速化するための大幅なパフォーマンス改善。
- a11y-treeベースの最適化:より高速なアクセシビリティツリーベースのact/extractメソッド。
強化されたログ記録
- 自動化プロセスの可視性の向上。
- ログ記録とデバッグ機能の改善。
包括的なドキュメント
- 完全に再設計されたドキュメントサイト。
- より良い例、ガイド、ベストプラクティス。
エラー処理の改善
- より安定したエラー処理メカニズム。
- より良いエラーメッセージとデバッグサポート。
技術アーキテクチャ
依存関係
- Playwright:ウェブ自動化の核心的な基盤として。
- Zod:データ構造検証用。
- TypeScript:主要な開発言語。
多言語サポート
TypeScript/JavaScriptバージョンに加えて、プロジェクトは以下も提供します:
Browserbaseとの統合
Browserbaseは、あなたのクラウドブラウザプロバイダーです。Stagehandと連携することで、セッションリプレイ、プロンプトの可観測性、CAPTCHA解決などの高度な機能を構築できます。
まとめ
Stagehandは、従来のコード制御の正確性とAI自然言語処理の柔軟性を完璧に融合させた、革新的なブラウザ自動化フレームワークです。シンプルなウェブ操作から複雑なデータ抽出タスクまで、Stagehandは本番環境対応のソリューションを提供します。その2.0バージョンのパフォーマンス向上と新機能により、現代のブラウザ自動化における第一選択肢となっています。