karpathy/llm-council View GitHub Homepage for Latest Official Releases

Multi-LLM-Kollaborationstool, das mehrere KI-Modelle abfragt, Peer-Review ermöglicht und Antworten durch ein Chairman-Modell synthetisiert.

Pythonllm-councilkarpathy 14.1k Last Updated: November 22, 2025

LLM Council – Plattform für KI-Zusammenarbeit mit mehreren Modellen

Projektübersicht

LLM Council ist ein innovatives Open-Source-Projekt von Andrej Karpathy, das Einzelmodell-KI-Interaktionen in kollaborative Konsenssysteme mit mehreren Modellen verwandelt. Anstatt sich auf einen einzigen LLM-Anbieter zu verlassen, orchestriert dieses Tool mehrere führende KI-Modelle, damit diese zusammenarbeiten, die Ausgaben der anderen überprüfen und durch einen demokratischen Prozess synthetisierte Antworten erstellen.

Kernkonzept

Die grundlegende Idee hinter LLM Council ist es, die Stärken verschiedener KI-Modelle zu nutzen und gleichzeitig die Verzerrungen einzelner Modelle zu minimieren. Durch die Schaffung eines "KI-Beirats" erhalten Benutzer umfassendere, von Experten begutachtete Antworten auf komplexe Fragen, anstatt sich auf die Perspektive eines einzelnen Modells zu verlassen.

Architektur & Workflow

Dreistufiger Prozess

Stufe 1: Erste Meinungen

Die Benutzerabfrage wird gleichzeitig über die OpenRouter-API an alle Ratsmitglieder-Modelle gesendet.
Jedes LLM generiert seine unabhängige Antwort, ohne die Ausgaben der anderen zu sehen.
Einzelne Antworten werden in einer Tabellenansicht für den direkten Vergleich angezeigt.
Der Standardrat umfasst: GPT-5.1, Gemini 3.0 Pro, Claude Sonnet 4.5 und Grok 4

Stufe 2: Anonyme Peer-Review

Jedes Modell erhält anonymisierte Antworten von allen anderen Ratsmitgliedern.
Modelle bewerten und ordnen jede Antwort nach Genauigkeit und Erkenntnis.
Die Anonymisierung der Identität verhindert Voreingenommenheit und Bevorzugung bei Bewertungen.
Die modellübergreifende Bewertung zeigt überraschende Muster (Modelle bewerten Wettbewerber oft höher).

Stufe 3: Vorsitzenden-Synthese

Ein designiertes Vorsitzenden-LLM (konfigurierbar) überprüft alle ursprünglichen Antworten.
Berücksichtigt Peer-Review-Rankings und -Bewertungen.
Erstellt eine endgültige synthetisierte Antwort, die die besten Elemente enthält.
Liefert dem Benutzer eine umfassende Antwort.

Technischer Stack

Backend

Framework: FastAPI (Python 3.10+)
HTTP-Client: async httpx für nicht-blockierende API-Aufrufe
API-Integration: OpenRouter-API für Multi-Modell-Zugriff
Speicher: JSON-basierte Konversationspersistenz in data/conversations/
Paketverwaltung: uv für modernes Python-Abhängigkeitsmanagement

Frontend

Framework: React mit Vite für schnelle Entwicklung und Builds
Rendering: react-markdown für formatierte Ausgabe
UI: ChatGPT-ähnliche Oberfläche mit Tabellenansichten für Modellvergleich
Dev Server: Vite Dev Server auf Port 5173

Hauptmerkmale

Multi-Modell-Dispatching

Gleichzeitige Abfrageausführung über mehrere führende Modelle hinweg
Konfigurierbare Ratsmitgliedschaft über backend/config.py
Unterstützung für Modelle von OpenAI, Google, Anthropic, xAI und mehr

Objektive Peer-Review

Anonymisierte Antwortbewertung verhindert Modellverzerrungen
Quantitatives Ranking-System für Genauigkeit und Erkenntnis
Enthüllt interessante Muster in Modellpräferenzen und -stärken

Synthetisierter Konsens

Das Vorsitzenden-Modell aggregiert verschiedene Perspektiven
Erstellt kohärente endgültige Antworten, die mehrere Standpunkte einbeziehen
Balanciert Ausführlichkeit, Einsicht und Prägnanz

Transparenter Vergleich

Direkte Ansicht aller einzelnen Antworten
Vollständige Transparenz der Peer-Review-Rankings
Benutzer können sich neben dem KI-Konsens ein eigenes Urteil bilden

Konversationspersistenz

Automatisches Speichern des Konversationsverlaufs
JSON-basierte Speicherung für einfache Datenportabilität
Möglichkeit, vergangene Ratssitzungen zu überprüfen und zu analysieren

Installation & Einrichtung

Voraussetzungen

Python 3.10 oder höher
Node.js und npm
OpenRouter-API-Schlüssel (erfordert gekaufte Credits)

Backend-Setup

# Installieren Sie Abhängigkeiten mit uv
uv sync

Frontend-Setup

# Navigieren Sie zum Frontend-Verzeichnis
cd frontend

# Installieren Sie npm-Abhängigkeiten
npm install

cd ..

Konfiguration

Erstellen Sie eine .env-Datei im Projektstammverzeichnis:

OPENROUTER_API_KEY=sk-or-v1-your-key-here

Konfigurieren Sie den Rat in backend/config.py:

COUNCIL_MODELS = [
    "openai/gpt-5.1",
    "google/gemini-3-pro-preview",
    "anthropic/claude-sonnet-4.5",
    "x-ai/grok-4",
]
CHAIRMAN_MODEL = "google/gemini-3-pro-preview"

Ausführen der Anwendung

Option 1: Schnellstartskript

./start.sh

Option 2: Manueller Start

# Terminal 1 - Backend
uv run python -m backend.main

# Terminal 2 - Frontend
cd frontend
npm run dev

Greifen Sie auf die Anwendung zu unter: http://localhost:5173

Anwendungsfälle

Lese- und Literaturanalyse

Karpathys ursprünglicher Anwendungsfall: Bücher mit mehreren KI-Perspektiven lesen
Verschiedene Modelle betonen unterschiedliche literarische Aspekte
Vergleichende Analyse von Interpretationsstilen

Forschung & Analyse

Komplexe Fragen, die mehrere Standpunkte erfordern
Bewertung technischer Dokumentation
Bewertung der Geschäftsstrategie

Inhaltsbewertung

Analyse von Rechtsdokumenten
Interpretation wissenschaftlicher Arbeiten
Code-Review und technisches Schreiben

Modellvergleich

Benchmarking verschiedener LLM-Fähigkeiten
Verständnis der Modellstärken und -schwächen
Identifizierung von Verzerrungsmustern bei verschiedenen Anbietern

Interessante Erkenntnisse

Modell-Selbstbewertung

Modelle wählen häufig die Antworten von Wettbewerbern als besser als ihre eigenen aus
Demonstriert überraschende Objektivität im Peer-Review-Prozess
Enthüllt echte Unterschiede in Ansatz und Qualität

Ranking-Muster

In Karpathys Tests mit Buchkapiteln:

Konsensgewinner: GPT-5.1 wird durchweg als aufschlussreichster bewertet
Konsensverlierer: Claude wird durchweg am niedrigsten eingestuft
Mittlere Ebene: Gemini 3 Pro und Grok-4 zwischen den Extremen

Divergenz zwischen menschlichem und KI-Urteil

Der KI-Konsens stimmt möglicherweise nicht mit den menschlichen Präferenzen überein
GPT-5.1 wird für seine Einsichten gelobt, aber von Karpathy als "zu wortreich" kritisiert
Claude wird von Kollegen am niedrigsten eingestuft, aber vom Ersteller für seine Kürze bevorzugt
Gemini wird für seine komprimierten, verarbeiteten Ausgaben geschätzt
Legt nahe, dass Modelle Ausführlichkeit gegenüber Prägnanz bevorzugen könnten

Projektphilosophie

"Vibe Coded"-Ansatz

Beschrieben als "99% Vibe Coded" Samstag-Hack-Projekt
Schnelle Entwicklung mit KI-Unterstützung
Keine langfristige Support-Verpflichtung des Erstellers
"Code ist jetzt vergänglich und Bibliotheken sind vorbei"-Philosophie

Open Source & Inspiration

Wird "wie besehen" zur Inspiration für die Community bereitgestellt
Benutzer werden ermutigt, über ihre eigenen LLMs zu modifizieren
Stellt eine Referenzarchitektur für die KI-Orchestrierung dar
Demonstriert Ensemble Learning angewendet auf Sprachmodelle

Auswirkungen auf Unternehmen

Orchestrierungs-Middleware

Enthüllt die Architektur der Multi-Modell-Koordination
Behebt Bedenken hinsichtlich der Abhängigkeit von Anbietern
Demonstriert die Machbarkeit von modellagnostischen Anwendungen

Qualitätskontrollschicht

Peer-Review fügt eine Validierung hinzu, die in Einzelmodellsystemen fehlt
Reduziert Verzerrungen einzelner Modelle
Bietet Transparenz bei der KI-Entscheidungsfindung

Referenzimplementierung

Zeigt die minimale tragfähige Architektur für Ensemble-KI
Leitet Build-vs.-Buy-Entscheidungen für Unternehmensplattformen
Entmystifiziert die Komplexität der Multi-Modell-Orchestrierung

Einschränkungen & Überlegungen

Kosten

Erfordert OpenRouter-API-Credits für alle Ratsmitglieder plus Vorsitzenden
Mehrere Modellaufrufe pro Abfrage erhöhen die Betriebskosten
Kein kostenloser Betrieb möglich

Geschwindigkeit

Dreistufiger Prozess langsamer als Einzelmodellabfragen
Mehrere API-Aufrufe erhöhen die Latenz
Kompromiss zwischen Geschwindigkeit und Qualität/Konsens

Modellverfügbarkeit

Abhängig vom OpenRouter-Modellkatalog
Erfordert aktive API-Schlüssel und Credits
Unterliegt den Ratenbeschränkungen des Modellanbieters

Wartung

Der Ersteller erklärt ausdrücklich keinen fortlaufenden Support
Nur Community-gesteuerte Verbesserungen
Benutzer sind für Anpassungen und Aktualisierungen verantwortlich

Technische Überlegungen

Anonymisierungsstrategie

Zufällige IDs (A, B, C, D) werden Antworten zugewiesen
Verhindert identitätsbasierte Verzerrungen bei der Peer-Review
Erhält die Objektivität im Bewertungsprozess

API-Integration

Einzelner Integrationspunkt über OpenRouter
Abstrahiert einzelne Anbieter-APIs
Vereinfacht die Multi-Modell-Koordination

Datenschutz

Die lokale Webanwendung läuft auf dem Rechner des Benutzers
Konversationen werden lokal als JSON gespeichert
API-Aufrufe laufen über OpenRouter (Drittanbieter)

Community & Ökosystem

Zukünftige Richtungen

Während Karpathy ausdrücklich keine geplanten Verbesserungen angibt, könnten potenzielle Community-Erweiterungen Folgendes umfassen:

Erweiterte Modellunterstützung: Hinzufügen weiterer Ratsmitglieder von aufstrebenden Anbietern
Benutzerdefinierte Ranking-Kriterien: Benutzerdefinierte Bewertungsdimensionen
Streaming-Antworten: Echtzeitanzeige von Modellausgaben
Erweiterte Synthese: Anspruchsvollere Vorsitzenden-Algorithmen
Kostenoptimierung: Intelligente Modellauswahl basierend auf dem Abfragetyp
Performance Analytics: Verfolgung der Modellgenauigkeit und Präferenzmuster
Integrations-APIs: Einbettung der Ratsfunktionalität in andere Anwendungen

Erste Schritte

Klonen Sie das Repository: git clone https://github.com/karpathy/llm-council
Befolgen Sie die obigen Installationsanweisungen
Konfigurieren Sie Ihre bevorzugten Ratsmodelle
Beginnen Sie mit der Abfrage und vergleichen Sie Perspektiven
Experimentieren Sie mit verschiedenen Modellkombinationen
Analysieren Sie Peer-Review-Muster

Fazit

LLM Council stellt einen pragmatischen Ansatz zur Bewältigung von Einzelmodellbeschränkungen durch Ensemble-Orchestrierung dar. Obwohl es als ein zwangloses Wochenendprojekt präsentiert wird, bietet es wertvolle Einblicke in die Multi-Modell-Architektur, Peer-Review-Mechanismen und die Zukunft der KI-Orchestrierungs-Middleware. Für Entwickler, Forscher und Unternehmen, die über Einzelanbieterlösungen hinausgehen, bietet dieses Projekt sowohl Inspiration als auch eine konkrete Referenzimplementierung für den Aufbau robusterer, konsensgesteuerter KI-Systeme.

Der minimalistische Ansatz des Projekts – ein paar hundert Codezeilen, die eine ausgefeilte Multi-Modell-Koordination erreichen – zeigt, dass die technischen Hürden für Ensemble-KI niedriger sind als viele annehmen. Die eigentlichen Herausforderungen liegen nicht im Routing von Prompts, sondern in der Governance, dem Kostenmanagement und der Feststellung, wann Konsens die Ergebnisse gegenüber einzelnen Modellantworten wirklich verbessert.