Home
Login

Servidor MCP baseado no Playwright que fornece automação de navegador para LLMs

Apache-2.0TypeScript 11.8kmicrosoft Last Updated: 2025-06-13

Detalhes do Projeto Microsoft Playwright MCP

Visão Geral

O Microsoft Playwright MCP é um servidor baseado no Protocolo de Contexto de Modelo (Model Context Protocol, MCP) que utiliza o Playwright para fornecer poderosas capacidades de automação de navegador para grandes modelos de linguagem (LLMs). A principal inovação deste projeto reside na interação com páginas da web através de snapshots de acessibilidade estruturados, contornando completamente a necessidade de capturas de tela tradicionais ou modelos de ajuste visual.

Este projeto representa um novo paradigma para a interação de agentes de IA com a Web, permitindo que os LLMs operem navegadores de forma mais eficiente e precisa, executando tarefas complexas de automação de páginas da web.

Principais Funções e Características

🚀 Principais Vantagens Técnicas

  • Rápido e Leve: Utiliza a estrutura de árvore de acessibilidade do Playwright, em vez de entradas baseadas em pixels.
  • Amigável para LLMs: Opera puramente com base em dados estruturados, sem a necessidade de modelos visuais.
  • Aplicação de Ferramentas Determinística: Evita os problemas de ambiguidade comuns em métodos baseados em capturas de tela.
  • Alta Confiabilidade: Fornece resultados de automação estáveis e previsíveis.

📋 Principais Casos de Uso

  1. Navegação na Web e Preenchimento de Formulários

    • Automação da navegação na web
    • Preenchimento inteligente de dados em formulários
    • Fluxos de trabalho de várias etapas
  2. Extração de Dados de Conteúdo Estruturado

    • Web scraping
    • Análise e extração de conteúdo
    • Processamento de dados estruturados
  3. Testes Automatizados Impulsionados por LLM

    • Geração inteligente de casos de teste
    • Testes de regressão automatizados
    • Simulação de comportamento do usuário
  4. Interação Genérica do Navegador para Agentes

    • Operação de páginas da web por agentes de IA
    • Automação de fluxos de trabalho
    • Assistente inteligente de páginas da web

Instalação e Configuração

Instalação Integrada no VS Code

Método 1: Via Arquivo de Configuração

{
  "mcpServers": {
    "playwright": {
      "command": "npx",
      "args": [
        "@playwright/mcp@latest"
      ]
    }
  }
}

Método 2: Via Linha de Comando

# VS Code
code --add-mcp '{"name":"playwright","command":"npx","args":["@playwright/mcp@latest"]}'

# VS Code Insiders
code-insiders --add-mcp '{"name":"playwright","command":"npx","args":["@playwright/mcp@latest"]}'

Modos de Execução

Modo Com Cabeça (Padrão)

Modo de navegador padrão com interface, adequado para desenvolvimento e depuração:

{
  "mcpServers": {
    "playwright": {
      "command": "npx",
      "args": ["@playwright/mcp@latest"]
    }
  }
}

Modo Sem Cabeça

Adequado para operações em segundo plano ou em lote:

{
  "mcpServers": {
    "playwright": {
      "command": "npx",
      "args": [
        "@playwright/mcp@latest",
        "--headless"
      ]
    }
  }
}

Modo de Transmissão SSE

Para sistemas sem tela ou processos de trabalho IDE:

npx @playwright/mcp@latest --port 8931

Arquivo de configuração:

{
  "mcpServers": {
    "playwright": {
      "url": "http://localhost:8931/sse"
    }
  }
}

Detalhes do Modo de Interação

Modo Snapshot (Recomendado por Padrão)

  • Utiliza snapshots de acessibilidade
  • Melhor desempenho e confiabilidade
  • Interação com dados estruturados

Modo Visual

  • Utiliza capturas de tela para interação visual
  • Adequado para operações que exigem base visual
  • Requer modelos suportados para uso por computador

Ativar o modo visual:

{
  "mcpServers": {
    "playwright": {
      "command": "npx",
      "args": [
        "@playwright/mcp@latest",
        "--vision"
      ]
    }
  }
}

APIs de Ferramentas Disponíveis

Ferramentas de Interação Básicas

Operações de Página

  • browser_click - Executa uma operação de clique
  • browser_hover - Passa o mouse sobre um elemento
  • browser_drag - Operação de arrastar
  • browser_type - Entrada de texto
  • browser_select_option - Seleção de menu suspenso

Controle de Navegação

  • browser_navigate - Navega para um URL
  • browser_navigate_back - Voltar
  • browser_navigate_forward - Avançar

Gerenciamento de Abas

  • browser_tab_list - Lista todas as abas
  • browser_tab_new - Nova aba
  • browser_tab_select - Seleciona uma aba
  • browser_tab_close - Fecha uma aba

Ferramentas de Funcionalidade Avançada

Captura de Conteúdo

  • browser_snapshot - Snapshot de acessibilidade (recomendado)
  • browser_take_screenshot - Captura de tela da página
  • browser_screen_capture - Captura de tela

Operações de Arquivo

  • browser_file_upload - Envio de arquivo
  • browser_pdf_save - Salvar como PDF

Interação do Sistema

  • browser_press_key - Operação de pressionar tecla
  • browser_handle_dialog - Lidar com caixas de diálogo do navegador
  • browser_resize - Redimensionar janela
  • browser_wait - Aguardar um tempo especificado

Operações de Coordenadas da Tela (Modo Visual)

  • browser_screen_move_mouse - Mover o mouse na tela
  • browser_screen_click - Clique de coordenada
  • browser_screen_drag - Arrastar na tela
  • browser_screen_type - Entrada na tela

Ferramentas de Depuração

  • browser_console_messages - Obter mensagens do console
  • browser_install - Instalar navegador

Gerenciamento de Dados do Usuário

O Playwright MCP criará perfis de navegador nos seguintes locais:

  • Windows: %USERPROFILE%\AppData\Local\ms-playwright\mcp-chrome-profile
  • macOS: ~/Library/Caches/ms-playwright/mcp-chrome-profile
  • Linux: ~/.cache/ms-playwright/mcp-chrome-profile

Todas as informações de login serão armazenadas neste perfil, e você pode excluí-lo entre as sessões para limpar o estado offline.

Integração de Programação

Para cenários que exigem integração de programação, você pode usar o seguinte:

import { createServer } from '@playwright/mcp';

const server = createServer({
  launchOptions: { headless: true }
});

transport = new SSEServerTransport("/messages", res);
server.connect(transport);

Conclusão

O projeto Microsoft Playwright MCP é uma importante inovação no campo da automação de navegadores para agentes de IA, que redefine a forma como os LLMs interagem com a Web através das seguintes vantagens principais:

🎯 Pontos de Inovação Técnica

  1. Paradigma de Interação Estruturada: Abandona a abordagem tradicional de captura de tela + reconhecimento visual, adotando a estrutura de árvore de acessibilidade, fornecendo uma experiência de interação mais precisa e eficiente.

  2. Design Nativo para LLM: Otimizado especificamente para grandes modelos de linguagem, sem a necessidade de capacidades adicionais de processamento visual, reduzindo a complexidade do sistema e o consumo de recursos.

  3. Suporte Oficial da Microsoft: Como um projeto oficial da Microsoft, fornece confiabilidade de nível empresarial e garantia de manutenção contínua.

🌟 Valor de Aplicação

  • Melhoria da Eficiência do Desenvolvimento: Fornece aos desenvolvedores poderosas ferramentas de teste automatizado e operação de páginas da web.
  • Aprimoramento de Agentes de IA: Permite que os agentes de IA tenham capacidades de operação de páginas da web verdadeiramente práticas.
  • Otimização da Relação Custo-Benefício: Reduz a necessidade de recursos computacionais através de métodos estruturados.

🚀 Perspectivas Futuras

Este projeto representa a direção futura do desenvolvimento da interação entre IA e Web. Com o aprimoramento contínuo do ecossistema MCP, espera-se que desempenhe um papel importante nas seguintes áreas:

  • Atendimento ao cliente inteligente e automação de suporte ao usuário
  • Processamento inteligente de fluxos de trabalho de negócios complexos
  • Coleta e análise de dados da Web em larga escala
  • Testes automatizados de aplicativos multiplataforma

O Microsoft Playwright MCP não é apenas uma ferramenta técnica, mas também um importante marco na expansão das capacidades dos agentes de IA, fornecendo uma base técnica sólida para a construção de aplicativos de IA mais inteligentes e práticos.