Ferramenta de colaboração Multi-LLM que consulta múltiplos modelos de IA, permite revisão por pares e sintetiza respostas através de um modelo coordenador.

Pythonllm-councilkarpathy 11.2k Last Updated: November 22, 2025

LLM Council - Plataforma de Colaboração de IA Multi-Modelo

Visão Geral do Projeto

LLM Council é um projeto inovador de código aberto criado por Andrej Karpathy que transforma interações de IA de modelo único em sistemas colaborativos de consenso multi-modelo. Em vez de depender de um único provedor de LLM, esta ferramenta orquestra múltiplos modelos de IA de ponta para trabalharem juntos, revisarem as saídas uns dos outros e produzirem respostas sintetizadas através de um processo democrático.

Conceito Central

A ideia fundamental por trás do LLM Council é aproveitar os pontos fortes de diferentes modelos de IA, minimizando os vieses de modelos individuais. Ao criar um "conselho consultivo de IA", os usuários recebem respostas mais abrangentes e revisadas por pares para perguntas complexas, em vez de depender da perspectiva de um único modelo.

Arquitetura e Fluxo de Trabalho

Processo de Três Etapas

Etapa 1: Primeiras Opiniões

  • A consulta do usuário é enviada simultaneamente para todos os modelos membros do conselho via OpenRouter API
  • Cada LLM gera sua resposta independente sem ver as saídas dos outros
  • As respostas individuais são exibidas em uma visualização de guias para comparação lado a lado
  • O conselho padrão inclui: GPT-5.1, Gemini 3.0 Pro, Claude Sonnet 4.5 e Grok 4

Etapa 2: Revisão Anônima por Pares

  • Cada modelo recebe respostas anônimas de todos os outros membros do conselho
  • Os modelos avaliam e classificam cada resposta com base na precisão e insight
  • A anonimização da identidade evita viés e favoritismo nas avaliações
  • A avaliação entre modelos revela padrões surpreendentes (os modelos geralmente classificam os concorrentes mais alto)

Etapa 3: Síntese do Presidente

  • Um LLM Presidente designado (configurável) revisa todas as respostas originais
  • Considera as classificações e avaliações da revisão por pares
  • Produz uma resposta final sintetizada incorporando os melhores elementos
  • Entrega uma resposta abrangente ao usuário

Stack Tecnológico

Backend

  • Framework: FastAPI (Python 3.10+)
  • Cliente HTTP: async httpx para chamadas de API não bloqueantes
  • Integração de API: OpenRouter API para acesso multi-modelo
  • Armazenamento: Persistência de conversas baseada em JSON em data/conversations/
  • Gerenciamento de Pacotes: uv para gerenciamento moderno de dependências Python

Frontend

  • Framework: React com Vite para desenvolvimento e builds rápidos
  • Renderização: react-markdown para saída formatada
  • UI: Interface semelhante ao ChatGPT com visualizações de guias para comparação de modelos
  • Servidor de Desenvolvimento: Vite dev server na porta 5173

Principais Características

Despacho Multi-Modelo

  • Execução simultânea de consultas em múltiplos modelos de ponta
  • Membros do conselho configuráveis através de backend/config.py
  • Suporte para modelos da OpenAI, Google, Anthropic, xAI e mais

Revisão Objetiva por Pares

  • A avaliação anônima de respostas evita o viés do modelo
  • Sistema de classificação quantitativa para precisão e insight
  • Revela padrões interessantes nas preferências e pontos fortes do modelo

Consenso Sintetizado

  • O modelo Presidente agrega diversas perspectivas
  • Produz respostas finais coerentes incorporando múltiplos pontos de vista
  • Equilibra verbosidade, insight e concisão

Comparação Transparente

  • Visualização lado a lado de todas as respostas individuais
  • Visibilidade completa das classificações de revisão por pares
  • Os usuários podem formar seus próprios julgamentos juntamente com o consenso da IA

Persistência de Conversas

  • Salvamento automático do histórico de conversas
  • Armazenamento baseado em JSON para fácil portabilidade de dados
  • Capacidade de revisar e analisar sessões passadas do conselho

Instalação e Configuração

Pré-requisitos

  • Python 3.10 ou superior
  • Node.js e npm
  • Chave OpenRouter API (requer créditos comprados)

Configuração do Backend

# Instale as dependências usando uv
uv sync

Configuração do Frontend

# Navegue para o diretório frontend
cd frontend

# Instale as dependências npm
npm install

cd ..

Configuração

  1. Crie o arquivo .env na raiz do projeto:
OPENROUTER_API_KEY=sk-or-v1-sua-chave-aqui
  1. Configure o Conselho em backend/config.py:
COUNCIL_MODELS = [
    "openai/gpt-5.1",
    "google/gemini-3-pro-preview",
    "anthropic/claude-sonnet-4.5",
    "x-ai/grok-4",
]
CHAIRMAN_MODEL = "google/gemini-3-pro-preview"

Executando a Aplicação

Opção 1: Script de Início Rápido

./start.sh

Opção 2: Início Manual

# Terminal 1 - Backend
uv run python -m backend.main

# Terminal 2 - Frontend
cd frontend
npm run dev

Acesse a aplicação em: http://localhost:5173

Casos de Uso

Leitura e Análise Literária

  • Caso de uso original de Karpathy: leitura de livros com múltiplas perspectivas de IA
  • Diferentes modelos enfatizam diferentes aspectos literários
  • Análise comparativa de estilos de interpretação

Pesquisa e Análise

  • Questões complexas que requerem múltiplos pontos de vista
  • Avaliação de documentação técnica
  • Avaliação de estratégia de negócios

Avaliação de Conteúdo

  • Análise de documentos legais
  • Interpretação de artigos científicos
  • Revisão de código e redação técnica

Comparação de Modelos

  • Benchmarking de diferentes capacidades de LLM
  • Compreensão dos pontos fortes e fracos do modelo
  • Identificação de padrões de viés entre provedores

Descobertas Interessantes

Autoavaliação do Modelo

  • Os modelos frequentemente selecionam as respostas dos concorrentes como superiores às suas próprias
  • Demonstra objetividade surpreendente no processo de revisão por pares
  • Revela diferenças genuínas na abordagem e qualidade

Padrões de Classificação

Nos testes de Karpathy com capítulos de livros:

  • Vencedor por Consenso: GPT-5.1 consistentemente classificado como o mais perspicaz
  • Perdedor por Consenso: Claude consistentemente classificado como o mais baixo
  • Nível Médio: Gemini 3 Pro e Grok-4 entre os extremos

Divergência entre Julgamento Humano e IA

  • O consenso da IA pode não se alinhar com as preferências humanas
  • GPT-5.1 elogiado por insight, mas criticado por Karpathy como "muito prolixo"
  • Claude classificado como o mais baixo pelos pares, mas preferido pelo criador pela concisão
  • Gemini apreciado por saídas condensadas e processadas
  • Sugere que os modelos podem favorecer a verbosidade em vez da concisão

Filosofia do Projeto

Abordagem "Vibe Coded"

  • Descrito como um projeto de hack de sábado "99% vibe coded"
  • Desenvolvimento rápido com assistência de IA
  • Nenhum compromisso de suporte de longo prazo do criador
  • Filosofia de que "o código é efêmero agora e as bibliotecas acabaram"

Código Aberto e Inspiração

  • Fornecido como está para inspiração da comunidade
  • Os usuários são encorajados a modificar através de seus próprios LLMs
  • Representa a arquitetura de referência para orquestração de IA
  • Demonstra aprendizado de conjunto aplicado a modelos de linguagem

Implicações Empresariais

Middleware de Orquestração

  • Revela a arquitetura de coordenação multi-modelo
  • Aborda preocupações com o aprisionamento de fornecedores
  • Demonstra a viabilidade de aplicações agnósticas a modelos

Camada de Controle de Qualidade

  • A revisão por pares adiciona validação ausente em sistemas de modelo único
  • Reduz os vieses de modelos individuais
  • Fornece transparência na tomada de decisões de IA

Implementação de Referência

  • Mostra a arquitetura mínima viável para IA de conjunto
  • Orienta as decisões de construir vs. comprar para plataformas empresariais
  • Desmistifica a complexidade da orquestração multi-modelo

Limitações e Considerações

Custo

  • Requer créditos OpenRouter API para todos os membros do conselho mais o presidente
  • Múltiplas chamadas de modelo por consulta aumentam os custos operacionais
  • Nenhuma operação de nível gratuito disponível

Velocidade

  • Processo de três etapas mais lento do que consultas de modelo único
  • Múltiplas chamadas de API adicionam latência
  • Trade-off entre velocidade e qualidade/consenso

Disponibilidade do Modelo

  • Dependente do catálogo de modelos OpenRouter
  • Requer chaves API e créditos ativos
  • Sujeito a limites de taxa do provedor de modelo

Manutenção

  • O criador declara explicitamente nenhum suporte contínuo
  • Apenas melhorias impulsionadas pela comunidade
  • Usuários responsáveis por adaptações e atualizações

Considerações Técnicas

Estratégia de Anonimização

  • IDs aleatórios (A, B, C, D) atribuídos às respostas
  • Evita viés baseado na identidade na revisão por pares
  • Mantém a objetividade no processo de avaliação

Integração de API

  • Ponto único de integração via OpenRouter
  • Abstrai APIs de provedores individuais
  • Simplifica a coordenação multi-modelo

Privacidade de Dados

  • A aplicação web local é executada na máquina do usuário
  • As conversas são armazenadas localmente como JSON
  • As chamadas de API passam pelo OpenRouter (terceiro)

Comunidade e Ecossistema

Projetos Relacionados

  • Swarms Framework: Implementa a classe LLMCouncil inspirada neste projeto
  • Hugging Face Spaces: Implantações da comunidade disponíveis
  • Cobertura da Mídia/VentureBeat: Análise e implicações empresariais

Abordagens Semelhantes

  • Aprendizado de conjunto em aprendizado de máquina
  • Arquiteturas de Mistura de Especialistas
  • Sistemas de IA multi-agente
  • Protocolos de consenso em sistemas distribuídos

Direções Futuras

Embora Karpathy declare explicitamente nenhuma melhoria planejada, extensões potenciais da comunidade podem incluir:

  • Suporte Estendido a Modelos: Adicionar mais membros do conselho de provedores emergentes
  • Critérios de Classificação Personalizados: Dimensões de avaliação definidas pelo usuário
  • Respostas de Streaming: Exibição em tempo real das saídas do modelo
  • Síntese Avançada: Algoritmos de presidente mais sofisticados
  • Otimização de Custos: Seleção inteligente de modelos com base no tipo de consulta
  • Análise de Desempenho: Rastreamento da precisão do modelo e padrões de preferência
  • APIs de Integração: Incorporação da funcionalidade do conselho em outras aplicações

Começando

  1. Clone o repositório: git clone https://github.com/karpathy/llm-council
  2. Siga as instruções de instalação acima
  3. Configure seus modelos de conselho preferidos
  4. Comece a consultar e comparar perspectivas
  5. Experimente diferentes combinações de modelos
  6. Analise os padrões de revisão por pares

Conclusão

LLM Council representa uma abordagem pragmática para abordar as limitações de modelo único através da orquestração de conjunto. Embora apresentado como um projeto casual de fim de semana, oferece insights valiosos sobre arquitetura multi-modelo, mecanismos de revisão por pares e o futuro do middleware de orquestração de IA. Para desenvolvedores, pesquisadores e empresas que exploram além de soluções de provedor único, este projeto fornece tanto inspiração quanto uma implementação de referência concreta para construir sistemas de IA mais robustos e orientados ao consenso.

A abordagem minimalista do projeto—algumas centenas de linhas de código alcançando coordenação multi-modelo sofisticada—demonstra que as barreiras técnicas para a IA de conjunto são menores do que muitos supõem. Os verdadeiros desafios não estão no roteamento de prompts, mas na governança, gerenciamento de custos e na determinação de quando o consenso realmente melhora os resultados em relação às respostas de modelos individuais.

Star History Chart