Microsoft Playwright MCP es un servidor basado en el Protocolo de Contexto del Modelo (Model Context Protocol, MCP) que utiliza Playwright para proporcionar capacidades robustas de automatización del navegador a los modelos de lenguaje grandes (LLM). La innovación central de este proyecto radica en interactuar con las páginas web a través de instantáneas de accesibilidad estructuradas, evitando por completo la necesidad de capturas de pantalla tradicionales o modelos de ajuste visual.
Este proyecto representa un nuevo paradigma para la interacción de agentes de IA con la web, permitiendo a los LLM operar navegadores de manera más eficiente y precisa, ejecutando tareas complejas de automatización web.
Navegación Web y Relleno de Formularios
Extracción de Datos de Contenido Estructurado
Pruebas Automatizadas Impulsadas por LLM
Interacción Genérica del Navegador para Agentes
{
"mcpServers": {
"playwright": {
"command": "npx",
"args": [
"@playwright/mcp@latest"
]
}
}
}
# VS Code
code --add-mcp '{"name":"playwright","command":"npx","args":["@playwright/mcp@latest"]}'
# VS Code Insiders
code-insiders --add-mcp '{"name":"playwright","command":"npx","args":["@playwright/mcp@latest"]}'
Modo de navegador estándar con interfaz, adecuado para desarrollo y depuración:
{
"mcpServers": {
"playwright": {
"command": "npx",
"args": ["@playwright/mcp@latest"]
}
}
}
Adecuado para operaciones en segundo plano o procesamiento por lotes:
{
"mcpServers": {
"playwright": {
"command": "npx",
"args": [
"@playwright/mcp@latest",
"--headless"
]
}
}
}
Para sistemas sin pantalla o procesos de trabajo IDE:
npx @playwright/mcp@latest --port 8931
Archivo de configuración:
{
"mcpServers": {
"playwright": {
"url": "http://localhost:8931/sse"
}
}
}
Habilitar el modo visual:
{
"mcpServers": {
"playwright": {
"command": "npx",
"args": [
"@playwright/mcp@latest",
"--vision"
]
}
}
}
browser_click
- Ejecuta una operación de clicbrowser_hover
- Pasa el ratón sobre un elementobrowser_drag
- Operación de arrastrar y soltarbrowser_type
- Entrada de textobrowser_select_option
- Selección de menú desplegablebrowser_navigate
- Navega a una URLbrowser_navigate_back
- Retrocederbrowser_navigate_forward
- Avanzarbrowser_tab_list
- Lista todas las pestañasbrowser_tab_new
- Nueva pestañabrowser_tab_select
- Selecciona una pestañabrowser_tab_close
- Cierra una pestañabrowser_snapshot
- Instantánea de accesibilidad (recomendado)browser_take_screenshot
- Captura de pantalla de la páginabrowser_screen_capture
- Captura de pantallabrowser_file_upload
- Carga de archivosbrowser_pdf_save
- Guardar como PDFbrowser_press_key
- Operación de pulsación de teclabrowser_handle_dialog
- Manejar cuadros de diálogo del navegadorbrowser_resize
- Ajustar el tamaño de la ventanabrowser_wait
- Esperar un tiempo especificadobrowser_screen_move_mouse
- Mover el ratónbrowser_screen_click
- Clic de coordenadasbrowser_screen_drag
- Arrastrar en la pantallabrowser_screen_type
- Entrada en la pantallabrowser_console_messages
- Obtener mensajes de la consolabrowser_install
- Instalar el navegadorPlaywright MCP creará perfiles de navegador en las siguientes ubicaciones:
%USERPROFILE%\AppData\Local\ms-playwright\mcp-chrome-profile
~/Library/Caches/ms-playwright/mcp-chrome-profile
~/.cache/ms-playwright/mcp-chrome-profile
Toda la información de inicio de sesión se almacenará en este perfil, y puede eliminarlo entre sesiones para borrar el estado sin conexión.
Para escenarios que requieren integración de programación, se puede utilizar el siguiente método:
import { createServer } from '@playwright/mcp';
const server = createServer({
launchOptions: { headless: true }
});
transport = new SSEServerTransport("/messages", res);
server.connect(transport);
El proyecto Microsoft Playwright MCP es una innovación importante en el campo de la automatización del navegador para agentes de IA, que redefine la forma en que los LLM interactúan con la web a través de las siguientes ventajas clave:
Paradigma de Interacción Estructurada: Abandona el enfoque tradicional de captura de pantalla + reconocimiento visual, adoptando una estructura de árbol de accesibilidad, proporcionando una experiencia de interacción más precisa y eficiente.
Diseño Nativo para LLM: Optimizado específicamente para modelos de lenguaje grandes, sin necesidad de capacidades adicionales de procesamiento visual, reduciendo la complejidad del sistema y el consumo de recursos.
Soporte Oficial de Microsoft: Como proyecto oficial de Microsoft, proporciona fiabilidad de nivel empresarial y garantía de mantenimiento continuo.
Este proyecto representa la dirección futura del desarrollo de la interacción entre la IA y la web. Con la mejora continua del ecosistema MCP, se espera que desempeñe un papel importante en las siguientes áreas:
Microsoft Playwright MCP no es solo una herramienta técnica, sino también un hito importante en la expansión de las capacidades de los agentes de IA, proporcionando una base técnica sólida para construir aplicaciones de IA más inteligentes y prácticas.