Home
Login

II-Agent ist ein Open-Source-Framework für intelligente Assistenten, das darauf abzielt, Arbeitsabläufe in verschiedenen Bereichen zu vereinfachen und zu verbessern und komplexe Aufgaben selbstständig auszuführen.

Apache-2.0Python 2.5kIntelligent-Internetii-agent Last Updated: 2025-06-25

II-Agent Projekt – Detaillierte Beschreibung

Projektübersicht

II-Agent ist ein Open-Source-Intelligenzassistent, der darauf abzielt, Arbeitsabläufe in verschiedenen Bereichen zu vereinfachen und zu verbessern. Er stellt einen bedeutenden Fortschritt in der Art und Weise dar, wie wir mit Technologie interagieren – von passiven Werkzeugen hin zu intelligenten Systemen, die komplexe Aufgaben selbstständig ausführen können.

Projektadresse: https://github.com/Intelligent-Internet/ii-agent

Kernfunktionen

II-Agent ist um eine Agenten-Schnittstelle für das Anthropic Claude-Modell herum aufgebaut und bietet folgende Funktionen:

  • CLI-Schnittstelle: Direkte Befehlszeileninteraktion
  • WebSocket-Server: Unterstützung für moderne React-Frontends
  • Google Cloud Vertex AI Integration: Zugriff auf Anthropic-Modelle über API

Anwendungsbereiche und Funktionen

Bereich II-Agent Funktionen
Forschung und Faktenprüfung Mehrstufige Websuche, Triangulation von Informationsquellen, strukturierte Notizen, schnelle Zusammenfassungen
Inhaltsgenerierung Entwürfe für Blogs und Artikel, Lehrpläne, kreative Essays, technische Handbücher, Website-Erstellung
Datenanalyse und Visualisierung Datenbereinigung, statistische Analyse, Trenderkennung, Diagrammerstellung, automatische Berichtserstellung
Softwareentwicklung Code-Synthese, Refactoring, Debugging, Testschreiben, mehrsprachige Schritt-für-Schritt-Anleitungen
Workflow-Automatisierung Skriptgenerierung, Browserautomatisierung, Dateiverwaltung, Prozessoptimierung
Problemlösung Problemzerlegung, Erkundung alternativer Pfade, schrittweise Anleitungen, Fehlerbehebung

Systemarchitektur

Das II-Agent-System verwendet einen komplexen Ansatz, um einen vielseitigen KI-Agenten zu erstellen. Die Kernmethoden umfassen:

1. Kern-Agentenarchitektur und LLM-Interaktion

  • Dynamische Anpassung von Systemprompts an den Kontext
  • Umfassende Verwaltung des Interaktionsverlaufs
  • Intelligentes Kontextmanagement zur Behandlung von Token-Beschränkungen
  • Systematisierte LLM-Aufrufe und Funktionsauswahl
  • Iterative Optimierung durch Ausführungszyklen

2. Planung und Reflexion

  • Strukturierte Argumentation für komplexe Problemlösung
  • Problemzerlegung und sequentielles Denken
  • Transparenter Entscheidungsprozess
  • Hypothesenbildung und -prüfung

3. Ausführungsfähigkeiten

  • Dateisystemoperationen mit intelligenter Codebearbeitung
  • Befehlszeilenausführung in sicherer Umgebung
  • Erweiterte Webinteraktion und Browserautomatisierung
  • Aufgabenerledigung und Berichterstattung
  • Spezialisierte Funktionen für verschiedene Modalitäten (experimentell): PDF, Audio, Bilder, Video, Folien
  • Tiefe Forschungsintegration

4. Kontextmanagement

  • Schätzung und Optimierung der Token-Nutzung
  • Strategische Kürzung für lange Interaktionen
  • Dateibasierte Archivierung für große Ausgaben

5. Echtzeitkommunikation

  • Interaktive Oberfläche auf WebSocket-Basis
  • Isolierte Agenteninstanzen pro Client
  • Streaming von Operationsereignissen für reaktionsschnelle Benutzererfahrung

Leistungsbewertung

II-Agent wurde auf dem GAIA-Benchmark bewertet, der LLM-basierte Agenten bewertet, die in realen Szenarien ausgeführt werden, und zwar über mehrere Dimensionen hinweg, darunter multimodale Verarbeitung, Werkzeugnutzung und Websuche.

Während der Bewertung wurden mehrere Probleme mit dem GAIA-Benchmark festgestellt:

  • Anmerkungsfehler: Mehrere inkorrekte Anmerkungen im Datensatz
  • Veraltete Informationen: Einige Fragen beziehen sich auf Websites oder Inhalte, die nicht mehr zugänglich sind
  • Sprachliche Unklarheit: Unklare Formulierungen führen zu unterschiedlichen Interpretationen der Fragen

Trotz dieser Herausforderungen hat II-Agent im Benchmark gut abgeschnitten, insbesondere in Bereichen, die komplexes Denken, Werkzeugnutzung und mehrstufige Planung erfordern.

Installation und Konfiguration

Systemanforderungen

  • Python 3.10+
  • Node.js 18+ (für das Frontend)
  • Google Cloud-Projekt mit aktivierter Vertex AI API oder Anthropic API-Schlüssel

Umgebungskonfiguration

Erstellen Sie eine .env-Datei im Stammverzeichnis:

# Werkzeuge zur Bild- und Videogenerierung
OPENAI_API_KEY=your_openai_key
OPENAI_AZURE_ENDPOINT=your_azure_endpoint

# Suchanbieter
TAVILY_API_KEY=your_tavily_key
#JINA_API_KEY=your_jina_key
#FIRECRAWL_API_KEY=your_firecrawl_key

# Für Bildersuche und bessere Suchergebnisse, verwenden Sie SerpAPI
#SERPAPI_API_KEY=your_serpapi_key

STATIC_FILE_BASE_URL=http://localhost:8000/

# Wenn Sie den Anthropic-Client verwenden
ANTHROPIC_API_KEY=

# Wenn Sie Google Vertex verwenden (empfohlen, um bei Berechtigung zusätzlichen Durchsatz zu erhalten)
#GOOGLE_APPLICATION_CREDENTIALS=

Frontend-Umgebungskonfiguration, erstellen Sie eine .env-Datei im Frontend-Verzeichnis:

NEXT_PUBLIC_API_URL=http://localhost:8000

Installationsschritte

  1. Repository klonen

  2. Python-Umgebung einrichten:

python -m venv .venv
source .venv/bin/activate  # Windows: .venv\Scripts\activate
pip install -e .
  1. Frontend einrichten (optional):
cd frontend
npm install

Verwendung

CLI-Verwendung

Verwendung des Anthropic-Clients:

python cli.py

Verwendung von Vertex:

python cli.py --project-id YOUR_PROJECT_ID --region YOUR_REGION

CLI-Optionen:

  • --project-id: Google Cloud Projekt-ID
  • --region: Google Cloud Region (z.B. us-east5)
  • --workspace: Pfad zum Arbeitsbereichsverzeichnis (Standard: ./workspace)
  • --needs-permission: Benötigt Berechtigung vor der Ausführung von Befehlen
  • --minimize-stdout-logs: Reduziert die Menge der in stdout ausgegebenen Protokolle

Web-Interface-Verwendung

  1. WebSocket-Server starten:

Verwendung des Anthropic-Clients:

export STATIC_FILE_BASE_URL=http://localhost:8000
python ws_server.py --port 8000

Verwendung von Vertex:

export STATIC_FILE_BASE_URL=http://localhost:8000
python ws_server.py --port 8000 --project-id YOUR_PROJECT_ID --region YOUR_REGION
  1. Frontend starten (in einem separaten Terminal):
cd frontend
npm run dev
  1. Browser öffnen und http://localhost:3000 besuchen

Projektstruktur

  • cli.py: Befehlszeilenschnittstelle
  • ws_server.py: Frontend-WebSocket-Server
  • src/ii_agent/: Kern-Agentenimplementierung
    • agents/: Agentenimplementierungen
    • llm/: LLM-Client-Schnittstellen
    • tools/: Werkzeugimplementierungen
    • utils/: Hilfsfunktionen

Technische Merkmale

Das II-Agent-Framework ist um die Inferenzfähigkeiten großer Sprachmodelle wie Claude 3.7 Sonnet herum aufgebaut und stellt einen umfassenden und leistungsstarken Ansatz zum Aufbau vielseitiger KI-Agenten dar. Durch die synergetische Kombination aus leistungsstarken LLMs, einer umfangreichen Sammlung von Ausführungsfähigkeiten, expliziten Planungs- und Reflexionsmechanismen sowie intelligenten Kontextmanagementstrategien ist II-Agent in der Lage, ein breites Spektrum komplexer, mehrstufiger Aufgaben zu bewältigen.

Zusammenfassung

II-Agent stellt einen bedeutenden Fortschritt in der intelligenten Agententechnologie dar. Seine Open-Source-Natur und sein erweiterbares Design bieten eine solide Grundlage für kontinuierliche Forschung und Entwicklung im sich schnell entwickelnden Bereich der Agenten-KI. Durch seine domänenübergreifenden Anwendungsfähigkeiten und seine robuste technische Architektur bietet II-Agent Benutzern eine umfassende und einfach zu bedienende Plattform für intelligente Assistenten.

Star History Chart