II-Agent es un asistente inteligente de código abierto diseñado para simplificar y mejorar los flujos de trabajo en múltiples dominios. Representa un avance significativo en la forma en que interactuamos con la tecnología, pasando de herramientas pasivas a sistemas inteligentes capaces de ejecutar tareas complejas de forma independiente.
Dirección del Proyecto: https://github.com/Intelligent-Internet/ii-agent
II-Agent está construido en torno a proporcionar una interfaz de agente para los modelos Anthropic Claude, ofreciendo las siguientes funcionalidades:
Área | Funcionalidades de II-Agent |
---|---|
Investigación y Verificación de Hechos | Búsqueda web en múltiples pasos, triangulación de fuentes de información, notas estructuradas, resúmenes rápidos |
Generación de Contenido | Borradores de blogs y artículos, planes de lecciones, ensayos creativos, manuales técnicos, creación de sitios web |
Análisis y Visualización de Datos | Limpieza de datos, análisis estadístico, detección de tendencias, creación de gráficos, generación automática de informes |
Desarrollo de Software | Síntesis de código, refactorización, depuración, escritura de pruebas, tutoriales paso a paso en múltiples lenguajes |
Automatización de Flujos de Trabajo | Generación de scripts, automatización de navegadores, gestión de archivos, optimización de procesos |
Resolución de Problemas | Descomposición de problemas, exploración de rutas alternativas, guía paso a paso, resolución de problemas |
El sistema II-Agent emplea un enfoque complejo para construir un agente de IA multifuncional, con métodos centrales que incluyen:
II-Agent ha sido evaluado en el benchmark GAIA, que evalúa agentes basados en LLM que operan en escenarios del mundo real, cubriendo múltiples dimensiones, incluyendo el procesamiento multimodal, la utilización de herramientas y la búsqueda web.
Durante la evaluación, se identificaron varios problemas con el benchmark GAIA:
A pesar de estos desafíos, II-Agent se desempeñó bien en el benchmark, particularmente en áreas que requieren razonamiento complejo, uso de herramientas y planificación en múltiples pasos.
Cree un archivo .env
en el directorio raíz:
# Herramientas de generación de imágenes y videos
OPENAI_API_KEY=your_openai_key
OPENAI_AZURE_ENDPOINT=your_azure_endpoint
# Proveedores de búsqueda
TAVILY_API_KEY=your_tavily_key
#JINA_API_KEY=your_jina_key
#FIRECRAWL_API_KEY=your_firecrawl_key
# Para búsqueda de imágenes y mejores resultados de búsqueda, use SerpAPI
#SERPAPI_API_KEY=your_serpapi_key
STATIC_FILE_BASE_URL=http://localhost:8000/
# Si usa el cliente Anthropic
ANTHROPIC_API_KEY=
# Si usa Google Vertex (recomendado, obtiene rendimiento adicional si tiene permisos)
#GOOGLE_APPLICATION_CREDENTIALS=
Configuración del entorno del frontend, cree un archivo .env
en el directorio frontend
:
NEXT_PUBLIC_API_URL=http://localhost:8000
Clonar el repositorio
Configurar el entorno de Python:
python -m venv .venv
source .venv/bin/activate # Windows: .venv\Scripts\activate
pip install -e .
cd frontend
npm install
Usando el cliente Anthropic:
python cli.py
Usando Vertex:
python cli.py --project-id YOUR_PROJECT_ID --region YOUR_REGION
Opciones de la CLI:
--project-id
: ID del proyecto de Google Cloud--region
: Región de Google Cloud (ej. us-east5)--workspace
: Ruta del directorio del espacio de trabajo (por defecto: ./workspace)--needs-permission
: Requiere permiso antes de ejecutar comandos--minimize-stdout-logs
: Reduce la cantidad de registros impresos en stdoutUsando el cliente Anthropic:
export STATIC_FILE_BASE_URL=http://localhost:8000
python ws_server.py --port 8000
Usando Vertex:
export STATIC_FILE_BASE_URL=http://localhost:8000
python ws_server.py --port 8000 --project-id YOUR_PROJECT_ID --region YOUR_REGION
cd frontend
npm run dev
cli.py
: Interfaz de línea de comandosws_server.py
: Servidor WebSocket para el frontendsrc/ii_agent/
: Implementación central del agenteagents/
: Implementaciones de agentesllm/
: Interfaces de cliente LLMtools/
: Implementaciones de herramientasutils/
: Funciones de utilidadEl framework II-Agent está arquitecturado en torno a las capacidades de inferencia de modelos de lenguaje grandes como Claude 3.7 Sonnet, presentando un enfoque integral y robusto para construir agentes de IA multifuncionales. A través de la combinación sinérgica de un LLM potente, un rico conjunto de capacidades de ejecución, mecanismos explícitos de planificación y reflexión, y estrategias inteligentes de gestión del contexto, II-Agent es capaz de manejar una amplia gama de tareas complejas de múltiples pasos.
II-Agent representa un avance significativo en la tecnología de agentes inteligentes, y su naturaleza de código abierto y diseño escalable proporcionan una base sólida para la investigación y el desarrollo continuos en el campo de la IA de agentes en rápida evolución. A través de sus capacidades de aplicación en múltiples dominios y su robusta arquitectura técnica, II-Agent ofrece a los usuarios una plataforma de asistente inteligente completa y fácil de usar.