Chrome MCP Server Projekt – Detaillierte Beschreibung
Projektübersicht
Chrome MCP Server ist ein auf Chrome-Erweiterungen basierender Modellkontextprotokoll (MCP)-Server, der die Funktionen Ihres Chrome-Browsers für KI-Assistenten (wie Claude) freigibt und so komplexe Browserautomatisierung, Inhaltsanalyse und semantische Suchfunktionen ermöglicht.
Projektadresse: https://github.com/hangwin/mcp-chrome
Kernfunktionen
🌟 Hauptmerkmale
- Verwandeln Sie Ihren Chrome-Browser in einen intelligenten Assistenten - Lassen Sie KI Ihren Browser steuern und verwandeln Sie ihn in ein leistungsstarkes KI-gesteuertes Automatisierungstool.
- Nutzen Sie direkt Ihren täglichen Browser - Im Gegensatz zu herkömmlichen Browserautomatisierungstools (wie Playwright) verwendet Chrome MCP Server direkt Ihren täglichen Chrome-Browser.
- Behalten Sie bestehende Benutzergewohnheiten und -konfigurationen bei - Nutzen Sie bestehende Benutzerkonfigurationen, Anmeldestatus usw., damit verschiedene große Modelle oder Chatbots wirklich zu Ihren täglichen Assistenten werden.
🚀 Kernfunktionsmerkmale
- 😁 Chatbot-/Modellunabhängigkeit: Automatisieren Sie Ihren Browser mit jedem LLM oder Chatbot-Client oder -Agenten Ihrer Wahl.
- ⭐️ Verwenden Sie Ihren ursprünglichen Browser: Nahtlose Integration in Ihre bestehende Browserumgebung (Ihre Konfigurationen, Anmeldestatus usw.).
- 💻 Vollständig lokalisiert: Reiner lokaler MCP-Server, der die Privatsphäre der Benutzer gewährleistet.
- 🚄 Streaming-fähiges HTTP: Streaming-fähige HTTP-Verbindungsmethode.
- 🏎 Tab-übergreifend: Unterstützung für Tab-übergreifende Kontexte.
- 🧠 Semantische Suche: Integrierte Vektordatenbank für intelligente Browser-Tab-Inhaltsermittlung.
- 🔍 Intelligente Inhaltsanalyse: KI-gesteuerte Textextraktion und Ähnlichkeitsabgleich.
- 🌐 20+ Tools: Unterstützung für Screenshots, Netzwerküberwachung, interaktive Operationen, Lesezeichenverwaltung, Browserverlauf und mehr als 20 weitere Tools.
- 🚀 SIMD-beschleunigte KI: Benutzerdefinierte WebAssembly-SIMD-Optimierung, 4-8-fache Geschwindigkeitssteigerung bei Vektoroperationen.
Technischer Vergleich
Vergleichsdimension |
MCP-Server basierend auf Playwright |
MCP-Server basierend auf Chrome-Erweiterung |
Ressourcennutzung |
❌ Erfordert das Starten eines separaten Browserprozesses, die Installation von Playwright-Abhängigkeiten, das Herunterladen von Browser-Binärdateien usw. |
✅ Kein Starten eines separaten Browserprozesses erforderlich, nutzt direkt den bereits geöffneten Chrome-Browser des Benutzers. |
Wiederverwendung der Benutzersitzung |
❌ Erfordert eine erneute Anmeldung |
✅ Automatische Verwendung des bestehenden Anmeldestatus |
Browserumgebung |
❌ Saubere Umgebung ohne Benutzereinstellungen |
✅ Vollständige Beibehaltung der Benutzerumgebung |
API-Zugriff |
✅ Vollständiger Zugriff auf die nativen Chrome-APIs |
✅ Vollständiger Zugriff auf die nativen Chrome-APIs |
Startgeschwindigkeit |
❌ Erfordert das Starten eines Browserprozesses |
✅ Nur Aktivierung der Erweiterung erforderlich |
Reaktionsgeschwindigkeit |
50-200ms Interprozesskommunikation |
✅ Schneller |
Systemanforderungen
- Node.js 18+ und pnpm
- Chrome/Chromium Browser
Installation und Konfiguration
1. Chrome-Erweiterung herunterladen
Laden Sie die neueste Chrome-Erweiterung von GitHub herunter:
Download-Link: https://github.com/hangwin/mcp-chrome/releases
2. Globale Installation von mcp-chrome-bridge
Mit npm:
npm install -g mcp-chrome-bridge
Mit pnpm:
pnpm install -g mcp-chrome-bridge
3. Chrome-Erweiterung laden
Laden Sie die heruntergeladene Erweiterungsdatei in den Chrome-Browser.
4. Claude Desktop konfigurieren
Fügen Sie die folgende Konfiguration zur MCP-Konfiguration von Claude Desktop hinzu:
{
"mcpServers": {
"streamable-mcp-server": {
"type": "streamable-http",
"url": "http://127.0.0.1:12306/mcp"
}
}
}
Tool-Klassifizierungsdetails
📊 Browserverwaltung (4 Tools)
- get_windows_and_tabs: Listet alle Browserfenster und Tabs auf.
- chrome_navigate: Navigiert zu einer URL und steuert den Viewport.
- chrome_close_tabs: Schließt bestimmte Tabs oder Fenster.
- chrome_go_back_or_forward: Browser-Navigationssteuerung.
📸 Screenshot und Visualisierung (1 Tool)
- chrome_screenshot: Erweiterte Screenshot-Erfassung, unterstützt Elementlokalisierung, Ganzseitenunterstützung und benutzerdefinierte Größen.
🌐 Netzwerküberwachung (4 Tools)
- chrome_network_capture_start/stop: webRequest API Netzwerk-Capture.
- chrome_network_debugger_start/stop: Debugger API mit Antwortkörper.
- chrome_network_request: Senden benutzerdefinierter HTTP-Anfragen.
🔍 Inhaltsanalyse (3 Tools)
- search_tabs_content: KI-gesteuerte semantische Suche über Browser-Tabs hinweg.
- chrome_get_web_content: Extrahieren von HTML/Textinhalten von einer Seite.
- chrome_get_interactive_elements: Finden von anklickbaren Elementen.
🎯 Interaktion (3 Tools)
- chrome_click_element: Klicken auf Elemente mit CSS-Selektoren.
- chrome_fill_or_select: Ausfüllen von Formularen und Auswählen von Optionen.
- chrome_keyboard: Simulieren von Tastatureingaben und Tastenkombinationen.
📚 Datenverwaltung (5 Tools)
- chrome_history: Suchen im Browserverlauf mit Zeitfiltern.
- chrome_bookmark_search: Suchen nach Lesezeichen anhand von Schlüsselwörtern.
- chrome_bookmark_add: Hinzufügen neuer Lesezeichen mit Ordnerunterstützung.
- chrome_bookmark_delete: Löschen von Lesezeichen.
Anwendungsbeispiele
Abfragebeispiele
Im Folgenden finden Sie einige Demonstrationen realer Anwendungsszenarien:
- API-Analyseabfrage: "Ich möchte wissen, wie die Such-API von Xiaohongshu aussieht und wie die Antwortstruktur ist."
- Verlaufsanalyse: "Analysiere meinen Browserverlauf des letzten Monats."
- Inhaltsverarbeitung: "Übersetze und fasse die aktuelle Webseite zusammen."
- Screenshot-Funktion: "Erstelle einen Screenshot der Hugging Face-Homepage."
- Elementerfassung: "Erfasse das Symbol von der Hugging Face-Homepage."
- Lesezeichenverwaltung: "Füge die aktuelle Seite zu den Lesezeichen hinzu und lege sie in den entsprechenden Ordner."
- Tab-Verwaltung: "Schließe alle Webseiten, die mit shadcn in Verbindung stehen."
Zugehörige Dokumente
- Architekturdesign-Dokument: Detaillierte technische Architekturdokumentation.
- Tool-API-Dokumentation: Vollständige Tool-API-Dokumentation.
- Fehlerbehebungsleitfaden: Lösungen für häufige Probleme.
Zusammenfassung
Chrome MCP Server ist ein innovatives Projekt, das die Einschränkungen herkömmlicher Browserautomatisierungstools aufhebt, die tägliche Browserumgebung des Benutzers direkt nutzt und KI-Assistenten leistungsstarke Browsersteuerungsfunktionen bietet. Durch sein umfangreiches Toolset und das lokalisierte Sicherheitsdesign können Benutzer KI wirklich zu ihrem täglichen Browserassistenten machen und so die Arbeitseffizienz und das Benutzererlebnis erheblich verbessern.
