karpathy/llm-council View GitHub Homepage for Latest Official Releases

Ferramenta de colaboração Multi-LLM que consulta múltiplos modelos de IA, permite revisão por pares e sintetiza respostas através de um modelo coordenador.

Pythonllm-councilkarpathy 14.1k Last Updated: November 22, 2025

LLM Council - Plataforma de Colaboração de IA Multi-Modelo

Visão Geral do Projeto

LLM Council é um projeto inovador de código aberto criado por Andrej Karpathy que transforma interações de IA de modelo único em sistemas colaborativos de consenso multi-modelo. Em vez de depender de um único provedor de LLM, esta ferramenta orquestra múltiplos modelos de IA de ponta para trabalharem juntos, revisarem as saídas uns dos outros e produzirem respostas sintetizadas através de um processo democrático.

Conceito Central

A ideia fundamental por trás do LLM Council é aproveitar os pontos fortes de diferentes modelos de IA, minimizando os vieses de modelos individuais. Ao criar um "conselho consultivo de IA", os usuários recebem respostas mais abrangentes e revisadas por pares para perguntas complexas, em vez de depender da perspectiva de um único modelo.

Arquitetura e Fluxo de Trabalho

Processo de Três Etapas

Etapa 1: Primeiras Opiniões

A consulta do usuário é enviada simultaneamente para todos os modelos membros do conselho via OpenRouter API
Cada LLM gera sua resposta independente sem ver as saídas dos outros
As respostas individuais são exibidas em uma visualização de guias para comparação lado a lado
O conselho padrão inclui: GPT-5.1, Gemini 3.0 Pro, Claude Sonnet 4.5 e Grok 4

Etapa 2: Revisão Anônima por Pares

Cada modelo recebe respostas anônimas de todos os outros membros do conselho
Os modelos avaliam e classificam cada resposta com base na precisão e insight
A anonimização da identidade evita viés e favoritismo nas avaliações
A avaliação entre modelos revela padrões surpreendentes (os modelos geralmente classificam os concorrentes mais alto)

Etapa 3: Síntese do Presidente

Um LLM Presidente designado (configurável) revisa todas as respostas originais
Considera as classificações e avaliações da revisão por pares
Produz uma resposta final sintetizada incorporando os melhores elementos
Entrega uma resposta abrangente ao usuário

Stack Tecnológico

Backend

Framework: FastAPI (Python 3.10+)
Cliente HTTP: async httpx para chamadas de API não bloqueantes
Integração de API: OpenRouter API para acesso multi-modelo
Armazenamento: Persistência de conversas baseada em JSON em data/conversations/
Gerenciamento de Pacotes: uv para gerenciamento moderno de dependências Python

Frontend

Framework: React com Vite para desenvolvimento e builds rápidos
Renderização: react-markdown para saída formatada
UI: Interface semelhante ao ChatGPT com visualizações de guias para comparação de modelos
Servidor de Desenvolvimento: Vite dev server na porta 5173

Principais Características

Despacho Multi-Modelo

Execução simultânea de consultas em múltiplos modelos de ponta
Membros do conselho configuráveis através de backend/config.py
Suporte para modelos da OpenAI, Google, Anthropic, xAI e mais

Revisão Objetiva por Pares

A avaliação anônima de respostas evita o viés do modelo
Sistema de classificação quantitativa para precisão e insight
Revela padrões interessantes nas preferências e pontos fortes do modelo

Consenso Sintetizado

O modelo Presidente agrega diversas perspectivas
Produz respostas finais coerentes incorporando múltiplos pontos de vista
Equilibra verbosidade, insight e concisão

Comparação Transparente

Visualização lado a lado de todas as respostas individuais
Visibilidade completa das classificações de revisão por pares
Os usuários podem formar seus próprios julgamentos juntamente com o consenso da IA

Persistência de Conversas

Salvamento automático do histórico de conversas
Armazenamento baseado em JSON para fácil portabilidade de dados
Capacidade de revisar e analisar sessões passadas do conselho

Instalação e Configuração

Pré-requisitos

Python 3.10 ou superior
Node.js e npm
Chave OpenRouter API (requer créditos comprados)

Configuração do Backend

# Instale as dependências usando uv
uv sync

Configuração do Frontend

# Navegue para o diretório frontend
cd frontend

# Instale as dependências npm
npm install

cd ..

Configuração

Crie o arquivo .env na raiz do projeto:

OPENROUTER_API_KEY=sk-or-v1-sua-chave-aqui

Configure o Conselho em backend/config.py:

COUNCIL_MODELS = [
    "openai/gpt-5.1",
    "google/gemini-3-pro-preview",
    "anthropic/claude-sonnet-4.5",
    "x-ai/grok-4",
]
CHAIRMAN_MODEL = "google/gemini-3-pro-preview"

Executando a Aplicação

Opção 1: Script de Início Rápido

./start.sh

Opção 2: Início Manual

# Terminal 1 - Backend
uv run python -m backend.main

# Terminal 2 - Frontend
cd frontend
npm run dev

Acesse a aplicação em: http://localhost:5173

Casos de Uso

Leitura e Análise Literária

Caso de uso original de Karpathy: leitura de livros com múltiplas perspectivas de IA
Diferentes modelos enfatizam diferentes aspectos literários
Análise comparativa de estilos de interpretação

Pesquisa e Análise

Questões complexas que requerem múltiplos pontos de vista
Avaliação de documentação técnica
Avaliação de estratégia de negócios

Avaliação de Conteúdo

Análise de documentos legais
Interpretação de artigos científicos
Revisão de código e redação técnica

Comparação de Modelos

Benchmarking de diferentes capacidades de LLM
Compreensão dos pontos fortes e fracos do modelo
Identificação de padrões de viés entre provedores

Descobertas Interessantes

Autoavaliação do Modelo

Os modelos frequentemente selecionam as respostas dos concorrentes como superiores às suas próprias
Demonstra objetividade surpreendente no processo de revisão por pares
Revela diferenças genuínas na abordagem e qualidade

Padrões de Classificação

Nos testes de Karpathy com capítulos de livros:

Vencedor por Consenso: GPT-5.1 consistentemente classificado como o mais perspicaz
Perdedor por Consenso: Claude consistentemente classificado como o mais baixo
Nível Médio: Gemini 3 Pro e Grok-4 entre os extremos

Divergência entre Julgamento Humano e IA

O consenso da IA pode não se alinhar com as preferências humanas
GPT-5.1 elogiado por insight, mas criticado por Karpathy como "muito prolixo"
Claude classificado como o mais baixo pelos pares, mas preferido pelo criador pela concisão
Gemini apreciado por saídas condensadas e processadas
Sugere que os modelos podem favorecer a verbosidade em vez da concisão

Filosofia do Projeto

Abordagem "Vibe Coded"

Descrito como um projeto de hack de sábado "99% vibe coded"
Desenvolvimento rápido com assistência de IA
Nenhum compromisso de suporte de longo prazo do criador
Filosofia de que "o código é efêmero agora e as bibliotecas acabaram"

Código Aberto e Inspiração

Fornecido como está para inspiração da comunidade
Os usuários são encorajados a modificar através de seus próprios LLMs
Representa a arquitetura de referência para orquestração de IA
Demonstra aprendizado de conjunto aplicado a modelos de linguagem

Implicações Empresariais

Middleware de Orquestração

Revela a arquitetura de coordenação multi-modelo
Aborda preocupações com o aprisionamento de fornecedores
Demonstra a viabilidade de aplicações agnósticas a modelos

Camada de Controle de Qualidade

A revisão por pares adiciona validação ausente em sistemas de modelo único
Reduz os vieses de modelos individuais
Fornece transparência na tomada de decisões de IA

Implementação de Referência

Mostra a arquitetura mínima viável para IA de conjunto
Orienta as decisões de construir vs. comprar para plataformas empresariais
Desmistifica a complexidade da orquestração multi-modelo

Limitações e Considerações

Custo

Requer créditos OpenRouter API para todos os membros do conselho mais o presidente
Múltiplas chamadas de modelo por consulta aumentam os custos operacionais
Nenhuma operação de nível gratuito disponível

Velocidade

Processo de três etapas mais lento do que consultas de modelo único
Múltiplas chamadas de API adicionam latência
Trade-off entre velocidade e qualidade/consenso

Disponibilidade do Modelo

Dependente do catálogo de modelos OpenRouter
Requer chaves API e créditos ativos
Sujeito a limites de taxa do provedor de modelo

Manutenção

O criador declara explicitamente nenhum suporte contínuo
Apenas melhorias impulsionadas pela comunidade
Usuários responsáveis por adaptações e atualizações

Considerações Técnicas

Estratégia de Anonimização

IDs aleatórios (A, B, C, D) atribuídos às respostas
Evita viés baseado na identidade na revisão por pares
Mantém a objetividade no processo de avaliação

Integração de API

Ponto único de integração via OpenRouter
Abstrai APIs de provedores individuais
Simplifica a coordenação multi-modelo

Privacidade de Dados

A aplicação web local é executada na máquina do usuário
As conversas são armazenadas localmente como JSON
As chamadas de API passam pelo OpenRouter (terceiro)

Comunidade e Ecossistema

Projetos Relacionados

Swarms Framework: Implementa a classe LLMCouncil inspirada neste projeto
Hugging Face Spaces: Implantações da comunidade disponíveis
Cobertura da Mídia/VentureBeat: Análise e implicações empresariais

Abordagens Semelhantes

Aprendizado de conjunto em aprendizado de máquina
Arquiteturas de Mistura de Especialistas
Sistemas de IA multi-agente
Protocolos de consenso em sistemas distribuídos

Direções Futuras

Embora Karpathy declare explicitamente nenhuma melhoria planejada, extensões potenciais da comunidade podem incluir:

Suporte Estendido a Modelos: Adicionar mais membros do conselho de provedores emergentes
Critérios de Classificação Personalizados: Dimensões de avaliação definidas pelo usuário
Respostas de Streaming: Exibição em tempo real das saídas do modelo
Síntese Avançada: Algoritmos de presidente mais sofisticados
Otimização de Custos: Seleção inteligente de modelos com base no tipo de consulta
Análise de Desempenho: Rastreamento da precisão do modelo e padrões de preferência
APIs de Integração: Incorporação da funcionalidade do conselho em outras aplicações

Começando

Clone o repositório: git clone https://github.com/karpathy/llm-council
Siga as instruções de instalação acima
Configure seus modelos de conselho preferidos
Comece a consultar e comparar perspectivas
Experimente diferentes combinações de modelos
Analise os padrões de revisão por pares

Conclusão

LLM Council representa uma abordagem pragmática para abordar as limitações de modelo único através da orquestração de conjunto. Embora apresentado como um projeto casual de fim de semana, oferece insights valiosos sobre arquitetura multi-modelo, mecanismos de revisão por pares e o futuro do middleware de orquestração de IA. Para desenvolvedores, pesquisadores e empresas que exploram além de soluções de provedor único, este projeto fornece tanto inspiração quanto uma implementação de referência concreta para construir sistemas de IA mais robustos e orientados ao consenso.

A abordagem minimalista do projeto—algumas centenas de linhas de código alcançando coordenação multi-modelo sofisticada—demonstra que as barreiras técnicas para a IA de conjunto são menores do que muitos supõem. Os verdadeiros desafios não estão no roteamento de prompts, mas na governança, gerenciamento de custos e na determinação de quando o consenso realmente melhora os resultados em relação às respostas de modelos individuais.