Herramienta de colaboración Multi-LLM que consulta múltiples modelos de IA, permite la revisión por pares y sintetiza las respuestas a través de un modelo de presidente

Pythonllm-councilkarpathy 11.2k Last Updated: November 22, 2025

LLM Council - Plataforma de Colaboración de IA Multi-Modelo

Resumen del Proyecto

LLM Council es un innovador proyecto de código abierto creado por Andrej Karpathy que transforma las interacciones de IA de un solo modelo en sistemas colaborativos de consenso multi-modelo. En lugar de depender de un único proveedor de LLM, esta herramienta orquesta múltiples modelos de IA de vanguardia para que trabajen juntos, revisen las salidas de los demás y produzcan respuestas sintetizadas a través de un proceso democrático.

Concepto Central

La idea fundamental detrás de LLM Council es aprovechar las fortalezas de diferentes modelos de IA mientras se minimizan los sesgos individuales del modelo. Al crear un "consejo asesor de IA", los usuarios reciben respuestas más completas y revisadas por pares a preguntas complejas en lugar de depender de la perspectiva de un solo modelo.

Arquitectura y Flujo de Trabajo

Proceso de Tres Etapas

Etapa 1: Primeras Opiniones

  • La consulta del usuario se envía simultáneamente a todos los modelos miembros del consejo a través de la API de OpenRouter.
  • Cada LLM genera su respuesta independiente sin ver las salidas de los demás.
  • Las respuestas individuales se muestran en una vista de pestañas para la comparación lado a lado.
  • El consejo predeterminado incluye: GPT-5.1, Gemini 3.0 Pro, Claude Sonnet 4.5 y Grok 4.

Etapa 2: Revisión Anónima por Pares

  • Cada modelo recibe respuestas anónimas de todos los demás miembros del consejo.
  • Los modelos evalúan y clasifican cada respuesta según la precisión y la perspicacia.
  • La anonimización de la identidad previene el sesgo y el favoritismo en las evaluaciones.
  • La evaluación entre modelos revela patrones sorprendentes (los modelos a menudo clasifican a los competidores más alto).

Etapa 3: Síntesis del Presidente

  • Un LLM designado como Presidente (configurable) revisa todas las respuestas originales.
  • Considera las clasificaciones y evaluaciones de la revisión por pares.
  • Produce una respuesta final sintetizada que incorpora los mejores elementos.
  • Entrega una respuesta completa al usuario.

Pila Técnica

Backend

  • Framework: FastAPI (Python 3.10+)
  • Cliente HTTP: async httpx para llamadas API no bloqueantes
  • Integración API: OpenRouter API para acceso multi-modelo
  • Almacenamiento: Persistencia de conversación basada en JSON en data/conversations/
  • Gestión de Paquetes: uv para la gestión moderna de dependencias de Python

Frontend

  • Framework: React con Vite para desarrollo y compilaciones rápidas
  • Renderizado: react-markdown para salida formateada
  • UI: Interfaz similar a ChatGPT con vistas de pestañas para la comparación de modelos
  • Servidor de Desarrollo: Servidor de desarrollo Vite en el puerto 5173

Características Clave

Envío Multi-Modelo

  • Ejecución simultánea de consultas en múltiples modelos de vanguardia
  • Membresía configurable del consejo a través de backend/config.py
  • Soporte para modelos de OpenAI, Google, Anthropic, xAI y más

Revisión Objetiva por Pares

  • La evaluación anónima de respuestas previene el sesgo del modelo
  • Sistema de clasificación cuantitativa para la precisión y la perspicacia
  • Revela patrones interesantes en las preferencias y fortalezas del modelo

Consenso Sintetizado

  • El modelo Presidente agrega diversas perspectivas
  • Produce respuestas finales coherentes que incorporan múltiples puntos de vista
  • Equilibra la verbosidad, la perspicacia y la concisión

Comparación Transparente

  • Vista lado a lado de todas las respuestas individuales
  • Visibilidad completa de las clasificaciones de la revisión por pares
  • Los usuarios pueden formar sus propios juicios junto con el consenso de la IA

Persistencia de la Conversación

  • Guardado automático del historial de conversaciones
  • Almacenamiento basado en JSON para facilitar la portabilidad de los datos
  • Capacidad para revisar y analizar sesiones pasadas del consejo

Instalación y Configuración

Requisitos Previos

  • Python 3.10 o superior
  • Node.js y npm
  • Clave API de OpenRouter (requiere créditos comprados)

Configuración del Backend

# Instalar dependencias usando uv
uv sync

Configuración del Frontend

# Navegar al directorio frontend
cd frontend

# Instalar dependencias npm
npm install

cd ..

Configuración

  1. Crear archivo .env en la raíz del proyecto:
OPENROUTER_API_KEY=sk-or-v1-tu-clave-aqui
  1. Configurar el Consejo en backend/config.py:
COUNCIL_MODELS = [
    "openai/gpt-5.1",
    "google/gemini-3-pro-preview",
    "anthropic/claude-sonnet-4.5",
    "x-ai/grok-4",
]
CHAIRMAN_MODEL = "google/gemini-3-pro-preview"

Ejecutando la Aplicación

Opción 1: Script de Inicio Rápido

./start.sh

Opción 2: Inicio Manual

# Terminal 1 - Backend
uv run python -m backend.main

# Terminal 2 - Frontend
cd frontend
npm run dev

Acceder a la aplicación en: http://localhost:5173

Casos de Uso

Lectura y Análisis Literario

  • Caso de uso original de Karpathy: leer libros con múltiples perspectivas de IA
  • Diferentes modelos enfatizan diferentes aspectos literarios
  • Análisis comparativo de estilos de interpretación

Investigación y Análisis

  • Preguntas complejas que requieren múltiples puntos de vista
  • Evaluación de documentación técnica
  • Evaluación de la estrategia empresarial

Evaluación de Contenido

  • Análisis de documentos legales
  • Interpretación de artículos científicos
  • Revisión de código y redacción técnica

Comparación de Modelos

  • Evaluación comparativa de diferentes capacidades de LLM
  • Comprensión de las fortalezas y debilidades del modelo
  • Identificación de patrones de sesgo entre proveedores

Hallazgos Interesantes

Autoevaluación del Modelo

  • Los modelos frecuentemente seleccionan las respuestas de los competidores como superiores a las suyas propias
  • Demuestra una objetividad sorprendente en el proceso de revisión por pares
  • Revela diferencias genuinas en el enfoque y la calidad

Patrones de Clasificación

En las pruebas de Karpathy con capítulos de libros:

  • Ganador por Consenso: GPT-5.1 consistentemente calificado como el más perspicaz
  • Perdedor por Consenso: Claude consistentemente clasificado como el más bajo
  • Nivel Medio: Gemini 3 Pro y Grok-4 entre extremos

Divergencia entre el Juicio Humano y el de la IA

  • El consenso de la IA puede no alinearse con las preferencias humanas
  • GPT-5.1 elogiado por su perspicacia pero criticado por Karpathy como "demasiado verboso"
  • Claude clasificado como el más bajo por sus pares pero preferido por el creador por su concisión
  • Gemini apreciado por sus salidas condensadas y procesadas
  • Sugiere que los modelos pueden favorecer la verbosidad sobre la concisión

Filosofía del Proyecto

Enfoque "Vibe Coded"

  • Descrito como un proyecto de hackeo de sábado "99% vibe coded"
  • Desarrollo rápido con asistencia de IA
  • Sin compromiso de soporte a largo plazo por parte del creador
  • Filosofía de "el código es efímero ahora y las bibliotecas han terminado"

Código Abierto e Inspiración

  • Proporcionado tal cual para la inspiración de la comunidad
  • Se anima a los usuarios a modificar a través de sus propios LLM
  • Representa la arquitectura de referencia para la orquestación de IA
  • Demuestra el aprendizaje conjunto aplicado a los modelos de lenguaje

Implicaciones Empresariales

Middleware de Orquestación

  • Revela la arquitectura de la coordinación multi-modelo
  • Aborda las preocupaciones sobre el bloqueo del proveedor
  • Demuestra la viabilidad de aplicaciones agnósticas al modelo

Capa de Control de Calidad

  • La revisión por pares agrega validación ausente en los sistemas de un solo modelo
  • Reduce los sesgos individuales del modelo
  • Proporciona transparencia en la toma de decisiones de la IA

Implementación de Referencia

  • Muestra la arquitectura mínima viable para la IA de conjunto
  • Guía las decisiones de construir vs. comprar para plataformas empresariales
  • Desmitifica la complejidad de la orquestación multi-modelo

Limitaciones y Consideraciones

Costo

  • Requiere créditos API de OpenRouter para todos los miembros del consejo más el presidente
  • Múltiples llamadas de modelo por consulta aumentan los costos operativos
  • No hay operación de nivel gratuito disponible

Velocidad

  • El proceso de tres etapas es más lento que las consultas de un solo modelo
  • Múltiples llamadas API agregan latencia
  • Compensación entre velocidad y calidad/consenso

Disponibilidad del Modelo

  • Dependiente del catálogo de modelos de OpenRouter
  • Requiere claves API y créditos activos
  • Sujeto a los límites de velocidad del proveedor del modelo

Mantenimiento

  • El creador declara explícitamente que no hay soporte continuo
  • Solo mejoras impulsadas por la comunidad
  • Los usuarios son responsables de las adaptaciones y actualizaciones

Consideraciones Técnicas

Estrategia de Anonimización

  • Se asignan ID aleatorios (A, B, C, D) a las respuestas
  • Previene el sesgo basado en la identidad en la revisión por pares
  • Mantiene la objetividad en el proceso de evaluación

Integración API

  • Punto único de integración a través de OpenRouter
  • Abstrae las API de proveedores individuales
  • Simplifica la coordinación multi-modelo

Privacidad de Datos

  • La aplicación web local se ejecuta en la máquina del usuario
  • Las conversaciones se almacenan localmente como JSON
  • Las llamadas API pasan por OpenRouter (terceros)

Comunidad y Ecosistema

Proyectos Relacionados

  • Swarms Framework: Implementa la clase LLMCouncil inspirada en este proyecto
  • Hugging Face Spaces: Implementaciones comunitarias disponibles
  • Cobertura de Medium/VentureBeat: Análisis e implicaciones empresariales

Enfoques Similares

  • Aprendizaje conjunto en aprendizaje automático
  • Arquitecturas de Mixture of Experts
  • Sistemas de IA multi-agente
  • Protocolos de consenso en sistemas distribuidos

Direcciones Futuras

Si bien Karpathy declara explícitamente que no hay mejoras planificadas, las posibles extensiones de la comunidad podrían incluir:

  • Soporte de Modelo Extendido: Agregar más miembros del consejo de proveedores emergentes
  • Criterios de Clasificación Personalizados: Dimensiones de evaluación definidas por el usuario
  • Respuestas de Streaming: Visualización en tiempo real de las salidas del modelo
  • Síntesis Avanzada: Algoritmos de presidente más sofisticados
  • Optimización de Costos: Selección inteligente de modelos basada en el tipo de consulta
  • Análisis de Rendimiento: Seguimiento de la precisión del modelo y los patrones de preferencia
  • API de Integración: Incorporación de la funcionalidad del consejo en otras aplicaciones

Empezando

  1. Clonar el repositorio: git clone https://github.com/karpathy/llm-council
  2. Seguir las instrucciones de instalación anteriores
  3. Configurar sus modelos de consejo preferidos
  4. Empezar a consultar y comparar perspectivas
  5. Experimentar con diferentes combinaciones de modelos
  6. Analizar los patrones de revisión por pares

Conclusión

LLM Council representa un enfoque pragmático para abordar las limitaciones de un solo modelo a través de la orquestación de conjuntos. Si bien se presenta como un proyecto casual de fin de semana, ofrece información valiosa sobre la arquitectura multi-modelo, los mecanismos de revisión por pares y el futuro del middleware de orquestación de IA. Para los desarrolladores, investigadores y empresas que exploran más allá de las soluciones de un solo proveedor, este proyecto proporciona tanto inspiración como una implementación de referencia concreta para construir sistemas de IA más robustos e impulsados por el consenso.

El enfoque minimalista del proyecto, unos pocos cientos de líneas de código que logran una sofisticada coordinación multi-modelo, demuestra que las barreras técnicas para la IA de conjunto son más bajas de lo que muchos suponen. Los verdaderos desafíos no radican en el enrutamiento de las indicaciones, sino en la gobernanza, la gestión de costos y la determinación de cuándo el consenso realmente mejora los resultados sobre las respuestas de modelos individuales.

Star History Chart