Home
Login

Playwrightをベースとしたモデルコンテキストプロトコル(MCP)サーバーで、LLMにブラウザ自動化機能を提供します。

Apache-2.0TypeScript 11.8kmicrosoft Last Updated: 2025-06-13

Microsoft Playwright MCP プロジェクト詳細

概要

Microsoft Playwright MCP は、モデルコンテキストプロトコル(Model Context Protocol, MCP)に基づいたサーバーであり、Playwright を活用して大規模言語モデル(LLM)に強力なブラウザ自動化機能を提供します。このプロジェクトの中核となる革新は、構造化されたアクセシビリティスナップショットを通じてウェブページと対話することで、従来のスクリーンショットや視覚調整モデルの必要性を完全に回避することです。

このプロジェクトは、AIエージェントとウェブのインタラクションにおける全く新しいパラダイムを代表し、LLMがより効率的かつ正確な方法でブラウザを操作し、複雑なウェブ自動化タスクを実行できるようにします。

主要な機能と特性

🚀 主要な技術的利点

  • 高速かつ軽量:ピクセルベースの入力ではなく、Playwrightのアクセシビリティツリー構造を使用
  • LLMフレンドリー:視覚モデルを必要とせず、純粋に構造化されたデータに基づいて動作
  • 決定的なツール適用:スクリーンショットベースの方法でよく見られる曖昧さを回避
  • 高信頼性:安定した予測可能な自動化結果を提供

📋 主な応用シナリオ

  1. ウェブナビゲーションとフォーム入力

    • ウェブページの自動閲覧
    • インテリジェントなフォームデータ入力
    • 複数ステップの操作フロー
  2. 構造化されたコンテンツデータ抽出

    • ウェブデータスクレイピング
    • コンテンツの解析と抽出
    • データ構造化処理
  3. LLM駆動の自動化テスト

    • インテリジェントなテストケース生成
    • 自動回帰テスト
    • ユーザー行動シミュレーション
  4. エージェントの汎用的なブラウザインタラクション

    • AIエージェントによるウェブページ操作
    • 自動化されたワークフロー
    • インテリジェントなウェブページアシスタント

インストールと設定

VS Code 統合インストール

方法1:設定ファイル方式

{
  "mcpServers": {
    "playwright": {
      "command": "npx",
      "args": [
        "@playwright/mcp@latest"
      ]
    }
  }
}

方法2:コマンドラインインストール

# VS Code
code --add-mcp '{"name":"playwright","command":"npx","args":["@playwright/mcp@latest"]}'

# VS Code Insiders
code-insiders --add-mcp '{"name":"playwright","command":"npx","args":["@playwright/mcp@latest"]}'

実行モード

ヘッドレスモード(デフォルト)

標準的なGUIブラウザモードで、開発とデバッグに適しています。

{
  "mcpServers": {
    "playwright": {
      "command": "npx",
      "args": ["@playwright/mcp@latest"]
    }
  }
}

ヘッドレスモード

バックグラウンドまたはバッチ処理に適しています。

{
  "mcpServers": {
    "playwright": {
      "command": "npx",
      "args": [
        "@playwright/mcp@latest",
        "--headless"
      ]
    }
  }
}

SSE転送モード

ディスプレイのないシステムまたはIDEのワーキングプロセスで使用します。

npx @playwright/mcp@latest --port 8931

設定ファイル:

{
  "mcpServers": {
    "playwright": {
      "url": "http://localhost:8931/sse"
    }
  }
}

インタラクションモード詳細

スナップショットモード(デフォルト推奨)

  • アクセシビリティスナップショットを使用
  • より優れたパフォーマンスと信頼性
  • 構造化されたデータインタラクション

視覚モード

  • スクリーンショットを使用して視覚的なインタラクションを実行
  • 視覚的な操作が必要な場合に適しています
  • コンピュータが使用できるモデルのサポートが必要

視覚モードの有効化:

{
  "mcpServers": {
    "playwright": {
      "command": "npx",
      "args": [
        "@playwright/mcp@latest",
        "--vision"
      ]
    }
  }
}

利用可能なツールAPI

基本的なインタラクションツール

ページ操作

  • browser_click - クリック操作を実行
  • browser_hover - 要素にホバー
  • browser_drag - ドラッグ操作
  • browser_type - テキスト入力
  • browser_select_option - ドロップダウン選択

ナビゲーション制御

  • browser_navigate - URLにナビゲート
  • browser_navigate_back - 戻る
  • browser_navigate_forward - 進む

タブ管理

  • browser_tab_list - すべてのタブをリスト表示
  • browser_tab_new - 新しいタブを作成
  • browser_tab_select - タブを選択
  • browser_tab_close - タブを閉じる

高度な機能ツール

コンテンツキャプチャ

  • browser_snapshot - アクセシビリティスナップショット(推奨)
  • browser_take_screenshot - ページスクリーンショット
  • browser_screen_capture - 画面キャプチャ

ファイル操作

  • browser_file_upload - ファイルアップロード
  • browser_pdf_save - PDFとして保存

システムインタラクション

  • browser_press_key - キー操作
  • browser_handle_dialog - ブラウザダイアログを処理
  • browser_resize - ウィンドウサイズを調整
  • browser_wait - 指定された時間待機

画面座標操作(視覚モード)

  • browser_screen_move_mouse - マウス移動
  • browser_screen_click - 座標クリック
  • browser_screen_drag - 画面ドラッグ
  • browser_screen_type - 画面入力

デバッグツール

  • browser_console_messages - コンソールメッセージを取得
  • browser_install - ブラウザをインストール

ユーザーデータ管理

Playwright MCP は、以下の場所にブラウザプロファイルを作成します。

  • Windows: %USERPROFILE%\AppData\Local\ms-playwright\mcp-chrome-profile
  • macOS: ~/Library/Caches/ms-playwright/mcp-chrome-profile
  • Linux: ~/.cache/ms-playwright/mcp-chrome-profile

すべてのログイン情報は、このプロファイルに保存されます。オフライン状態をクリアするには、セッション間で削除できます。

プログラミング統合

プログラミング統合が必要な場合は、次の方法を使用できます。

import { createServer } from '@playwright/mcp';

const server = createServer({
  launchOptions: { headless: true }
});

transport = new SSEServerTransport("/messages", res);
server.connect(transport);

まとめ

Microsoft Playwright MCP プロジェクトは、AIエージェントのブラウザ自動化分野における重要なイノベーションであり、以下の主要な利点を通じて、LLMとウェブのインタラクション方法を再定義します。

🎯 技術的なイノベーションポイント

  1. 構造化されたインタラクションパラダイム:従来のスクリーンショット+視覚認識方式を排除し、アクセシビリティツリー構造を採用することで、より正確で効率的なインタラクション体験を提供します。

  2. LLMネイティブ設計:大規模言語モデル向けに最適化されており、追加の視覚処理能力を必要とせず、システムの複雑さとリソース消費を削減します。

  3. Microsoft公式サポート:Microsoft公式プロジェクトとして、エンタープライズレベルの信頼性と継続的なメンテナンス保証を提供します。

🌟 応用価値

  • 開発効率の向上:開発者に強力な自動化テストおよびウェブページ操作ツールを提供します。
  • AIエージェントの強化:AIエージェントに真に実用的なウェブページ操作能力を与えます。
  • コスト効率の最適化:構造化された方法を通じて、計算リソースの需要を削減します。

🚀 将来の見通し

このプロジェクトは、AIとウェブのインタラクションの将来の発展方向を代表しており、MCPエコシステムの継続的な改善に伴い、以下の分野で重要な役割を果たすことが期待されます。

  • インテリジェントなカスタマーサービスとユーザーサポートの自動化
  • 複雑なビジネスプロセスのインテリジェントな処理
  • 大規模なウェブデータ収集と分析
  • クロスプラットフォームアプリケーションの自動化テスト

Microsoft Playwright MCP は、単なる技術ツールではなく、AIエージェントの能力の境界を拡大する重要なマイルストーンであり、よりインテリジェントで実用的なAIアプリケーションを構築するための強固な技術基盤を提供します。