Home
Login

II-Agent es un framework de asistente inteligente de código abierto diseñado para simplificar y mejorar los flujos de trabajo en múltiples dominios, capaz de ejecutar tareas complejas de forma independiente.

Apache-2.0Python 2.5kIntelligent-Internetii-agent Last Updated: 2025-06-25

Introducción Detallada al Proyecto II-Agent

Resumen del Proyecto

II-Agent es un asistente inteligente de código abierto diseñado para simplificar y mejorar los flujos de trabajo en múltiples dominios. Representa un avance significativo en la forma en que interactuamos con la tecnología, pasando de herramientas pasivas a sistemas inteligentes capaces de ejecutar tareas complejas de forma independiente.

Dirección del Proyecto: https://github.com/Intelligent-Internet/ii-agent

Características Principales

II-Agent está construido en torno a proporcionar una interfaz de agente para los modelos Anthropic Claude, ofreciendo las siguientes funcionalidades:

  • Interfaz CLI: Interacción directa mediante línea de comandos.
  • Servidor WebSocket: Soporte para frontends modernos de React.
  • Integración con Google Cloud Vertex AI: Acceso a los modelos Anthropic a través de API.

Áreas de Aplicación y Funcionalidades

Área Funcionalidades de II-Agent
Investigación y Verificación de Hechos Búsqueda web en múltiples pasos, triangulación de fuentes de información, notas estructuradas, resúmenes rápidos
Generación de Contenido Borradores de blogs y artículos, planes de lecciones, ensayos creativos, manuales técnicos, creación de sitios web
Análisis y Visualización de Datos Limpieza de datos, análisis estadístico, detección de tendencias, creación de gráficos, generación automática de informes
Desarrollo de Software Síntesis de código, refactorización, depuración, escritura de pruebas, tutoriales paso a paso en múltiples lenguajes
Automatización de Flujos de Trabajo Generación de scripts, automatización de navegadores, gestión de archivos, optimización de procesos
Resolución de Problemas Descomposición de problemas, exploración de rutas alternativas, guía paso a paso, resolución de problemas

Arquitectura del Sistema

El sistema II-Agent emplea un enfoque complejo para construir un agente de IA multifuncional, con métodos centrales que incluyen:

1. Arquitectura Central del Agente e Interacción con LLM

  • Indicaciones del sistema personalizadas dinámicamente según el contexto
  • Gestión integral del historial de interacciones
  • Gestión inteligente del contexto para manejar las limitaciones de tokens
  • Llamadas sistematizadas a LLM y selección de funciones
  • Optimización iterativa a través de ciclos de ejecución

2. Planificación y Reflexión

  • Razonamiento estructurado para la resolución de problemas complejos
  • Descomposición de problemas y pensamiento secuencial
  • Proceso de toma de decisiones transparente
  • Formación y prueba de hipótesis

3. Capacidades de Ejecución

  • Operaciones del sistema de archivos con edición inteligente de código
  • Ejecución de línea de comandos en un entorno seguro
  • Interacción web avanzada y automatización del navegador
  • Finalización de tareas e informes
  • Funcionalidades dedicadas para varias modalidades (experimentales): PDF, audio, imagen, video, diapositivas
  • Integración de investigación profunda

4. Gestión del Contexto

  • Estimación y optimización del uso de tokens
  • Truncamiento estratégico para interacciones largas
  • Archivado basado en archivos para grandes salidas

5. Comunicación en Tiempo Real

  • Interfaz interactiva basada en WebSocket
  • Instancias de agente aisladas por cliente
  • Eventos de operación en streaming para una experiencia de usuario receptiva

Evaluación del Rendimiento

II-Agent ha sido evaluado en el benchmark GAIA, que evalúa agentes basados en LLM que operan en escenarios del mundo real, cubriendo múltiples dimensiones, incluyendo el procesamiento multimodal, la utilización de herramientas y la búsqueda web.

Durante la evaluación, se identificaron varios problemas con el benchmark GAIA:

  • Errores de Anotación: Varias anotaciones incorrectas en el conjunto de datos.
  • Información Obsoleta: Algunas preguntas hacen referencia a sitios web o contenido que ya no están accesibles.
  • Ambigüedad Lingüística: Redacción poco clara que conduce a diferentes interpretaciones de las preguntas.

A pesar de estos desafíos, II-Agent se desempeñó bien en el benchmark, particularmente en áreas que requieren razonamiento complejo, uso de herramientas y planificación en múltiples pasos.

Instalación y Configuración

Requisitos del Sistema

  • Python 3.10+
  • Node.js 18+ (para el frontend)
  • Proyecto de Google Cloud con la API de Vertex AI habilitada o clave de API de Anthropic

Configuración del Entorno

Cree un archivo .env en el directorio raíz:

# Herramientas de generación de imágenes y videos
OPENAI_API_KEY=your_openai_key
OPENAI_AZURE_ENDPOINT=your_azure_endpoint

# Proveedores de búsqueda
TAVILY_API_KEY=your_tavily_key
#JINA_API_KEY=your_jina_key
#FIRECRAWL_API_KEY=your_firecrawl_key

# Para búsqueda de imágenes y mejores resultados de búsqueda, use SerpAPI
#SERPAPI_API_KEY=your_serpapi_key

STATIC_FILE_BASE_URL=http://localhost:8000/

# Si usa el cliente Anthropic
ANTHROPIC_API_KEY=

# Si usa Google Vertex (recomendado, obtiene rendimiento adicional si tiene permisos)
#GOOGLE_APPLICATION_CREDENTIALS=

Configuración del entorno del frontend, cree un archivo .env en el directorio frontend:

NEXT_PUBLIC_API_URL=http://localhost:8000

Pasos de Instalación

  1. Clonar el repositorio

  2. Configurar el entorno de Python:

python -m venv .venv
source .venv/bin/activate  # Windows: .venv\Scripts\activate
pip install -e .
  1. Configurar el frontend (opcional):
cd frontend
npm install

Modo de Uso

Uso de la CLI

Usando el cliente Anthropic:

python cli.py

Usando Vertex:

python cli.py --project-id YOUR_PROJECT_ID --region YOUR_REGION

Opciones de la CLI:

  • --project-id: ID del proyecto de Google Cloud
  • --region: Región de Google Cloud (ej. us-east5)
  • --workspace: Ruta del directorio del espacio de trabajo (por defecto: ./workspace)
  • --needs-permission: Requiere permiso antes de ejecutar comandos
  • --minimize-stdout-logs: Reduce la cantidad de registros impresos en stdout

Uso de la Interfaz Web

  1. Iniciar el servidor WebSocket:

Usando el cliente Anthropic:

export STATIC_FILE_BASE_URL=http://localhost:8000
python ws_server.py --port 8000

Usando Vertex:

export STATIC_FILE_BASE_URL=http://localhost:8000
python ws_server.py --port 8000 --project-id YOUR_PROJECT_ID --region YOUR_REGION
  1. Iniciar el frontend (en una terminal separada):
cd frontend
npm run dev
  1. Abrir el navegador y acceder a http://localhost:3000

Estructura del Proyecto

  • cli.py: Interfaz de línea de comandos
  • ws_server.py: Servidor WebSocket para el frontend
  • src/ii_agent/: Implementación central del agente
    • agents/: Implementaciones de agentes
    • llm/: Interfaces de cliente LLM
    • tools/: Implementaciones de herramientas
    • utils/: Funciones de utilidad

Características Técnicas

El framework II-Agent está arquitecturado en torno a las capacidades de inferencia de modelos de lenguaje grandes como Claude 3.7 Sonnet, presentando un enfoque integral y robusto para construir agentes de IA multifuncionales. A través de la combinación sinérgica de un LLM potente, un rico conjunto de capacidades de ejecución, mecanismos explícitos de planificación y reflexión, y estrategias inteligentes de gestión del contexto, II-Agent es capaz de manejar una amplia gama de tareas complejas de múltiples pasos.

Resumen

II-Agent representa un avance significativo en la tecnología de agentes inteligentes, y su naturaleza de código abierto y diseño escalable proporcionan una base sólida para la investigación y el desarrollo continuos en el campo de la IA de agentes en rápida evolución. A través de sus capacidades de aplicación en múltiples dominios y su robusta arquitectura técnica, II-Agent ofrece a los usuarios una plataforma de asistente inteligente completa y fácil de usar.

Star History Chart