Intelligent-Internet/ii-agentView GitHub Homepage for Latest Official Releases

II-Agent ist ein Open-Source-Framework für intelligente Assistenten, das darauf abzielt, Arbeitsabläufe in verschiedenen Bereichen zu vereinfachen und zu verbessern und komplexe Aufgaben selbstständig auszuführen.

Apache-2.0Pythonii-agentIntelligent-Internet 2.8k Last Updated: August 13, 2025

II-Agent Projekt – Detaillierte Beschreibung

Projektübersicht

II-Agent ist ein Open-Source-Intelligenzassistent, der darauf abzielt, Arbeitsabläufe in verschiedenen Bereichen zu vereinfachen und zu verbessern. Er stellt einen bedeutenden Fortschritt in der Art und Weise dar, wie wir mit Technologie interagieren – von passiven Werkzeugen hin zu intelligenten Systemen, die komplexe Aufgaben selbstständig ausführen können.

Projektadresse: https://github.com/Intelligent-Internet/ii-agent

Kernfunktionen

II-Agent ist um eine Agenten-Schnittstelle für das Anthropic Claude-Modell herum aufgebaut und bietet folgende Funktionen:

CLI-Schnittstelle: Direkte Befehlszeileninteraktion
WebSocket-Server: Unterstützung für moderne React-Frontends
Google Cloud Vertex AI Integration: Zugriff auf Anthropic-Modelle über API

Anwendungsbereiche und Funktionen

Bereich	II-Agent Funktionen
Forschung und Faktenprüfung	Mehrstufige Websuche, Triangulation von Informationsquellen, strukturierte Notizen, schnelle Zusammenfassungen
Inhaltsgenerierung	Entwürfe für Blogs und Artikel, Lehrpläne, kreative Essays, technische Handbücher, Website-Erstellung
Datenanalyse und Visualisierung	Datenbereinigung, statistische Analyse, Trenderkennung, Diagrammerstellung, automatische Berichtserstellung
Softwareentwicklung	Code-Synthese, Refactoring, Debugging, Testschreiben, mehrsprachige Schritt-für-Schritt-Anleitungen
Workflow-Automatisierung	Skriptgenerierung, Browserautomatisierung, Dateiverwaltung, Prozessoptimierung
Problemlösung	Problemzerlegung, Erkundung alternativer Pfade, schrittweise Anleitungen, Fehlerbehebung

Systemarchitektur

Das II-Agent-System verwendet einen komplexen Ansatz, um einen vielseitigen KI-Agenten zu erstellen. Die Kernmethoden umfassen:

1. Kern-Agentenarchitektur und LLM-Interaktion

Dynamische Anpassung von Systemprompts an den Kontext
Umfassende Verwaltung des Interaktionsverlaufs
Intelligentes Kontextmanagement zur Behandlung von Token-Beschränkungen
Systematisierte LLM-Aufrufe und Funktionsauswahl
Iterative Optimierung durch Ausführungszyklen

2. Planung und Reflexion

Strukturierte Argumentation für komplexe Problemlösung
Problemzerlegung und sequentielles Denken
Transparenter Entscheidungsprozess
Hypothesenbildung und -prüfung

3. Ausführungsfähigkeiten

Dateisystemoperationen mit intelligenter Codebearbeitung
Befehlszeilenausführung in sicherer Umgebung
Erweiterte Webinteraktion und Browserautomatisierung
Aufgabenerledigung und Berichterstattung
Spezialisierte Funktionen für verschiedene Modalitäten (experimentell): PDF, Audio, Bilder, Video, Folien
Tiefe Forschungsintegration

4. Kontextmanagement

Schätzung und Optimierung der Token-Nutzung
Strategische Kürzung für lange Interaktionen
Dateibasierte Archivierung für große Ausgaben

5. Echtzeitkommunikation

Interaktive Oberfläche auf WebSocket-Basis
Isolierte Agenteninstanzen pro Client
Streaming von Operationsereignissen für reaktionsschnelle Benutzererfahrung

Leistungsbewertung

II-Agent wurde auf dem GAIA-Benchmark bewertet, der LLM-basierte Agenten bewertet, die in realen Szenarien ausgeführt werden, und zwar über mehrere Dimensionen hinweg, darunter multimodale Verarbeitung, Werkzeugnutzung und Websuche.

Während der Bewertung wurden mehrere Probleme mit dem GAIA-Benchmark festgestellt:

Anmerkungsfehler: Mehrere inkorrekte Anmerkungen im Datensatz
Veraltete Informationen: Einige Fragen beziehen sich auf Websites oder Inhalte, die nicht mehr zugänglich sind
Sprachliche Unklarheit: Unklare Formulierungen führen zu unterschiedlichen Interpretationen der Fragen

Trotz dieser Herausforderungen hat II-Agent im Benchmark gut abgeschnitten, insbesondere in Bereichen, die komplexes Denken, Werkzeugnutzung und mehrstufige Planung erfordern.

Installation und Konfiguration

Systemanforderungen

Python 3.10+
Node.js 18+ (für das Frontend)
Google Cloud-Projekt mit aktivierter Vertex AI API oder Anthropic API-Schlüssel

Umgebungskonfiguration

Erstellen Sie eine .env-Datei im Stammverzeichnis:

# Werkzeuge zur Bild- und Videogenerierung
OPENAI_API_KEY=your_openai_key
OPENAI_AZURE_ENDPOINT=your_azure_endpoint

# Suchanbieter
TAVILY_API_KEY=your_tavily_key
#JINA_API_KEY=your_jina_key
#FIRECRAWL_API_KEY=your_firecrawl_key

# Für Bildersuche und bessere Suchergebnisse, verwenden Sie SerpAPI
#SERPAPI_API_KEY=your_serpapi_key

STATIC_FILE_BASE_URL=http://localhost:8000/

# Wenn Sie den Anthropic-Client verwenden
ANTHROPIC_API_KEY=

# Wenn Sie Google Vertex verwenden (empfohlen, um bei Berechtigung zusätzlichen Durchsatz zu erhalten)
#GOOGLE_APPLICATION_CREDENTIALS=

Frontend-Umgebungskonfiguration, erstellen Sie eine .env-Datei im Frontend-Verzeichnis:

NEXT_PUBLIC_API_URL=http://localhost:8000

Installationsschritte

Repository klonen
Python-Umgebung einrichten:

python -m venv .venv
source .venv/bin/activate  # Windows: .venv\Scripts\activate
pip install -e .

Frontend einrichten (optional):

cd frontend
npm install

Verwendung

CLI-Verwendung

Verwendung des Anthropic-Clients:

python cli.py

Verwendung von Vertex:

python cli.py --project-id YOUR_PROJECT_ID --region YOUR_REGION

CLI-Optionen:

--project-id: Google Cloud Projekt-ID
--region: Google Cloud Region (z.B. us-east5)
--workspace: Pfad zum Arbeitsbereichsverzeichnis (Standard: ./workspace)
--needs-permission: Benötigt Berechtigung vor der Ausführung von Befehlen
--minimize-stdout-logs: Reduziert die Menge der in stdout ausgegebenen Protokolle

Web-Interface-Verwendung

WebSocket-Server starten:

Verwendung des Anthropic-Clients:

export STATIC_FILE_BASE_URL=http://localhost:8000
python ws_server.py --port 8000

Verwendung von Vertex:

export STATIC_FILE_BASE_URL=http://localhost:8000
python ws_server.py --port 8000 --project-id YOUR_PROJECT_ID --region YOUR_REGION

Frontend starten (in einem separaten Terminal):

cd frontend
npm run dev

Browser öffnen und http://localhost:3000 besuchen

Projektstruktur

cli.py: Befehlszeilenschnittstelle
ws_server.py: Frontend-WebSocket-Server
src/ii_agent/: Kern-Agentenimplementierung
- agents/: Agentenimplementierungen
- llm/: LLM-Client-Schnittstellen
- tools/: Werkzeugimplementierungen
- utils/: Hilfsfunktionen

Technische Merkmale

Das II-Agent-Framework ist um die Inferenzfähigkeiten großer Sprachmodelle wie Claude 3.7 Sonnet herum aufgebaut und stellt einen umfassenden und leistungsstarken Ansatz zum Aufbau vielseitiger KI-Agenten dar. Durch die synergetische Kombination aus leistungsstarken LLMs, einer umfangreichen Sammlung von Ausführungsfähigkeiten, expliziten Planungs- und Reflexionsmechanismen sowie intelligenten Kontextmanagementstrategien ist II-Agent in der Lage, ein breites Spektrum komplexer, mehrstufiger Aufgaben zu bewältigen.

Zusammenfassung

II-Agent stellt einen bedeutenden Fortschritt in der intelligenten Agententechnologie dar. Seine Open-Source-Natur und sein erweiterbares Design bieten eine solide Grundlage für kontinuierliche Forschung und Entwicklung im sich schnell entwickelnden Bereich der Agenten-KI. Durch seine domänenübergreifenden Anwendungsfähigkeiten und seine robuste technische Architektur bietet II-Agent Benutzern eine umfassende und einfach zu bedienende Plattform für intelligente Assistenten.