karpathy/llm-council View GitHub Homepage for Latest Official Releases

Herramienta de colaboración Multi-LLM que consulta múltiples modelos de IA, permite la revisión por pares y sintetiza las respuestas a través de un modelo de presidente

Pythonllm-councilkarpathy 14.1k Last Updated: November 22, 2025

LLM Council - Plataforma de Colaboración de IA Multi-Modelo

Resumen del Proyecto

LLM Council es un innovador proyecto de código abierto creado por Andrej Karpathy que transforma las interacciones de IA de un solo modelo en sistemas colaborativos de consenso multi-modelo. En lugar de depender de un único proveedor de LLM, esta herramienta orquesta múltiples modelos de IA de vanguardia para que trabajen juntos, revisen las salidas de los demás y produzcan respuestas sintetizadas a través de un proceso democrático.

Concepto Central

La idea fundamental detrás de LLM Council es aprovechar las fortalezas de diferentes modelos de IA mientras se minimizan los sesgos individuales del modelo. Al crear un "consejo asesor de IA", los usuarios reciben respuestas más completas y revisadas por pares a preguntas complejas en lugar de depender de la perspectiva de un solo modelo.

Arquitectura y Flujo de Trabajo

Proceso de Tres Etapas

Etapa 1: Primeras Opiniones

La consulta del usuario se envía simultáneamente a todos los modelos miembros del consejo a través de la API de OpenRouter.
Cada LLM genera su respuesta independiente sin ver las salidas de los demás.
Las respuestas individuales se muestran en una vista de pestañas para la comparación lado a lado.
El consejo predeterminado incluye: GPT-5.1, Gemini 3.0 Pro, Claude Sonnet 4.5 y Grok 4.

Etapa 2: Revisión Anónima por Pares

Cada modelo recibe respuestas anónimas de todos los demás miembros del consejo.
Los modelos evalúan y clasifican cada respuesta según la precisión y la perspicacia.
La anonimización de la identidad previene el sesgo y el favoritismo en las evaluaciones.
La evaluación entre modelos revela patrones sorprendentes (los modelos a menudo clasifican a los competidores más alto).

Etapa 3: Síntesis del Presidente

Un LLM designado como Presidente (configurable) revisa todas las respuestas originales.
Considera las clasificaciones y evaluaciones de la revisión por pares.
Produce una respuesta final sintetizada que incorpora los mejores elementos.
Entrega una respuesta completa al usuario.

Pila Técnica

Backend

Framework: FastAPI (Python 3.10+)
Cliente HTTP: async httpx para llamadas API no bloqueantes
Integración API: OpenRouter API para acceso multi-modelo
Almacenamiento: Persistencia de conversación basada en JSON en data/conversations/
Gestión de Paquetes: uv para la gestión moderna de dependencias de Python

Frontend

Framework: React con Vite para desarrollo y compilaciones rápidas
Renderizado: react-markdown para salida formateada
UI: Interfaz similar a ChatGPT con vistas de pestañas para la comparación de modelos
Servidor de Desarrollo: Servidor de desarrollo Vite en el puerto 5173

Características Clave

Envío Multi-Modelo

Ejecución simultánea de consultas en múltiples modelos de vanguardia
Membresía configurable del consejo a través de backend/config.py
Soporte para modelos de OpenAI, Google, Anthropic, xAI y más

Revisión Objetiva por Pares

La evaluación anónima de respuestas previene el sesgo del modelo
Sistema de clasificación cuantitativa para la precisión y la perspicacia
Revela patrones interesantes en las preferencias y fortalezas del modelo

Consenso Sintetizado

El modelo Presidente agrega diversas perspectivas
Produce respuestas finales coherentes que incorporan múltiples puntos de vista
Equilibra la verbosidad, la perspicacia y la concisión

Comparación Transparente

Vista lado a lado de todas las respuestas individuales
Visibilidad completa de las clasificaciones de la revisión por pares
Los usuarios pueden formar sus propios juicios junto con el consenso de la IA

Persistencia de la Conversación

Guardado automático del historial de conversaciones
Almacenamiento basado en JSON para facilitar la portabilidad de los datos
Capacidad para revisar y analizar sesiones pasadas del consejo

Instalación y Configuración

Requisitos Previos

Python 3.10 o superior
Node.js y npm
Clave API de OpenRouter (requiere créditos comprados)

Configuración del Backend

# Instalar dependencias usando uv
uv sync

Configuración del Frontend

# Navegar al directorio frontend
cd frontend

# Instalar dependencias npm
npm install

cd ..

Configuración

Crear archivo .env en la raíz del proyecto:

OPENROUTER_API_KEY=sk-or-v1-tu-clave-aqui

Configurar el Consejo en backend/config.py:

COUNCIL_MODELS = [
    "openai/gpt-5.1",
    "google/gemini-3-pro-preview",
    "anthropic/claude-sonnet-4.5",
    "x-ai/grok-4",
]
CHAIRMAN_MODEL = "google/gemini-3-pro-preview"

Ejecutando la Aplicación

Opción 1: Script de Inicio Rápido

./start.sh

Opción 2: Inicio Manual

# Terminal 1 - Backend
uv run python -m backend.main

# Terminal 2 - Frontend
cd frontend
npm run dev

Acceder a la aplicación en: http://localhost:5173

Casos de Uso

Lectura y Análisis Literario

Caso de uso original de Karpathy: leer libros con múltiples perspectivas de IA
Diferentes modelos enfatizan diferentes aspectos literarios
Análisis comparativo de estilos de interpretación

Investigación y Análisis

Preguntas complejas que requieren múltiples puntos de vista
Evaluación de documentación técnica
Evaluación de la estrategia empresarial

Evaluación de Contenido

Análisis de documentos legales
Interpretación de artículos científicos
Revisión de código y redacción técnica

Comparación de Modelos

Evaluación comparativa de diferentes capacidades de LLM
Comprensión de las fortalezas y debilidades del modelo
Identificación de patrones de sesgo entre proveedores

Hallazgos Interesantes

Autoevaluación del Modelo

Los modelos frecuentemente seleccionan las respuestas de los competidores como superiores a las suyas propias
Demuestra una objetividad sorprendente en el proceso de revisión por pares
Revela diferencias genuinas en el enfoque y la calidad

Patrones de Clasificación

En las pruebas de Karpathy con capítulos de libros:

Ganador por Consenso: GPT-5.1 consistentemente calificado como el más perspicaz
Perdedor por Consenso: Claude consistentemente clasificado como el más bajo
Nivel Medio: Gemini 3 Pro y Grok-4 entre extremos

Divergencia entre el Juicio Humano y el de la IA

El consenso de la IA puede no alinearse con las preferencias humanas
GPT-5.1 elogiado por su perspicacia pero criticado por Karpathy como "demasiado verboso"
Claude clasificado como el más bajo por sus pares pero preferido por el creador por su concisión
Gemini apreciado por sus salidas condensadas y procesadas
Sugiere que los modelos pueden favorecer la verbosidad sobre la concisión

Filosofía del Proyecto

Enfoque "Vibe Coded"

Descrito como un proyecto de hackeo de sábado "99% vibe coded"
Desarrollo rápido con asistencia de IA
Sin compromiso de soporte a largo plazo por parte del creador
Filosofía de "el código es efímero ahora y las bibliotecas han terminado"

Código Abierto e Inspiración

Proporcionado tal cual para la inspiración de la comunidad
Se anima a los usuarios a modificar a través de sus propios LLM
Representa la arquitectura de referencia para la orquestación de IA
Demuestra el aprendizaje conjunto aplicado a los modelos de lenguaje

Implicaciones Empresariales

Middleware de Orquestación

Revela la arquitectura de la coordinación multi-modelo
Aborda las preocupaciones sobre el bloqueo del proveedor
Demuestra la viabilidad de aplicaciones agnósticas al modelo

Capa de Control de Calidad

La revisión por pares agrega validación ausente en los sistemas de un solo modelo
Reduce los sesgos individuales del modelo
Proporciona transparencia en la toma de decisiones de la IA

Implementación de Referencia

Muestra la arquitectura mínima viable para la IA de conjunto
Guía las decisiones de construir vs. comprar para plataformas empresariales
Desmitifica la complejidad de la orquestación multi-modelo

Limitaciones y Consideraciones

Costo

Requiere créditos API de OpenRouter para todos los miembros del consejo más el presidente
Múltiples llamadas de modelo por consulta aumentan los costos operativos
No hay operación de nivel gratuito disponible

Velocidad

El proceso de tres etapas es más lento que las consultas de un solo modelo
Múltiples llamadas API agregan latencia
Compensación entre velocidad y calidad/consenso

Disponibilidad del Modelo

Dependiente del catálogo de modelos de OpenRouter
Requiere claves API y créditos activos
Sujeto a los límites de velocidad del proveedor del modelo

Mantenimiento

El creador declara explícitamente que no hay soporte continuo
Solo mejoras impulsadas por la comunidad
Los usuarios son responsables de las adaptaciones y actualizaciones

Consideraciones Técnicas

Estrategia de Anonimización

Se asignan ID aleatorios (A, B, C, D) a las respuestas
Previene el sesgo basado en la identidad en la revisión por pares
Mantiene la objetividad en el proceso de evaluación

Integración API

Punto único de integración a través de OpenRouter
Abstrae las API de proveedores individuales
Simplifica la coordinación multi-modelo

Privacidad de Datos

La aplicación web local se ejecuta en la máquina del usuario
Las conversaciones se almacenan localmente como JSON
Las llamadas API pasan por OpenRouter (terceros)

Comunidad y Ecosistema

Proyectos Relacionados

Swarms Framework: Implementa la clase LLMCouncil inspirada en este proyecto
Hugging Face Spaces: Implementaciones comunitarias disponibles
Cobertura de Medium/VentureBeat: Análisis e implicaciones empresariales

Enfoques Similares

Aprendizaje conjunto en aprendizaje automático
Arquitecturas de Mixture of Experts
Sistemas de IA multi-agente
Protocolos de consenso en sistemas distribuidos

Direcciones Futuras

Si bien Karpathy declara explícitamente que no hay mejoras planificadas, las posibles extensiones de la comunidad podrían incluir:

Soporte de Modelo Extendido: Agregar más miembros del consejo de proveedores emergentes
Criterios de Clasificación Personalizados: Dimensiones de evaluación definidas por el usuario
Respuestas de Streaming: Visualización en tiempo real de las salidas del modelo
Síntesis Avanzada: Algoritmos de presidente más sofisticados
Optimización de Costos: Selección inteligente de modelos basada en el tipo de consulta
Análisis de Rendimiento: Seguimiento de la precisión del modelo y los patrones de preferencia
API de Integración: Incorporación de la funcionalidad del consejo en otras aplicaciones

Empezando

Clonar el repositorio: git clone https://github.com/karpathy/llm-council
Seguir las instrucciones de instalación anteriores
Configurar sus modelos de consejo preferidos
Empezar a consultar y comparar perspectivas
Experimentar con diferentes combinaciones de modelos
Analizar los patrones de revisión por pares

Conclusión

LLM Council representa un enfoque pragmático para abordar las limitaciones de un solo modelo a través de la orquestación de conjuntos. Si bien se presenta como un proyecto casual de fin de semana, ofrece información valiosa sobre la arquitectura multi-modelo, los mecanismos de revisión por pares y el futuro del middleware de orquestación de IA. Para los desarrolladores, investigadores y empresas que exploran más allá de las soluciones de un solo proveedor, este proyecto proporciona tanto inspiración como una implementación de referencia concreta para construir sistemas de IA más robustos e impulsados por el consenso.

El enfoque minimalista del proyecto, unos pocos cientos de líneas de código que logran una sofisticada coordinación multi-modelo, demuestra que las barreras técnicas para la IA de conjunto son más bajas de lo que muchos suponen. Los verdaderos desafíos no radican en el enrutamiento de las indicaciones, sino en la gobernanza, la gestión de costos y la determinación de cuándo el consenso realmente mejora los resultados sobre las respuestas de modelos individuales.