Multi-LLM-Kollaborationstool, das mehrere KI-Modelle abfragt, Peer-Review ermöglicht und Antworten durch ein Chairman-Modell synthetisiert.

Pythonllm-councilkarpathy 11.2k Last Updated: November 22, 2025

LLM Council – Plattform für KI-Zusammenarbeit mit mehreren Modellen

Projektübersicht

LLM Council ist ein innovatives Open-Source-Projekt von Andrej Karpathy, das Einzelmodell-KI-Interaktionen in kollaborative Konsenssysteme mit mehreren Modellen verwandelt. Anstatt sich auf einen einzigen LLM-Anbieter zu verlassen, orchestriert dieses Tool mehrere führende KI-Modelle, damit diese zusammenarbeiten, die Ausgaben der anderen überprüfen und durch einen demokratischen Prozess synthetisierte Antworten erstellen.

Kernkonzept

Die grundlegende Idee hinter LLM Council ist es, die Stärken verschiedener KI-Modelle zu nutzen und gleichzeitig die Verzerrungen einzelner Modelle zu minimieren. Durch die Schaffung eines "KI-Beirats" erhalten Benutzer umfassendere, von Experten begutachtete Antworten auf komplexe Fragen, anstatt sich auf die Perspektive eines einzelnen Modells zu verlassen.

Architektur & Workflow

Dreistufiger Prozess

Stufe 1: Erste Meinungen

  • Die Benutzerabfrage wird gleichzeitig über die OpenRouter-API an alle Ratsmitglieder-Modelle gesendet.
  • Jedes LLM generiert seine unabhängige Antwort, ohne die Ausgaben der anderen zu sehen.
  • Einzelne Antworten werden in einer Tabellenansicht für den direkten Vergleich angezeigt.
  • Der Standardrat umfasst: GPT-5.1, Gemini 3.0 Pro, Claude Sonnet 4.5 und Grok 4

Stufe 2: Anonyme Peer-Review

  • Jedes Modell erhält anonymisierte Antworten von allen anderen Ratsmitgliedern.
  • Modelle bewerten und ordnen jede Antwort nach Genauigkeit und Erkenntnis.
  • Die Anonymisierung der Identität verhindert Voreingenommenheit und Bevorzugung bei Bewertungen.
  • Die modellübergreifende Bewertung zeigt überraschende Muster (Modelle bewerten Wettbewerber oft höher).

Stufe 3: Vorsitzenden-Synthese

  • Ein designiertes Vorsitzenden-LLM (konfigurierbar) überprüft alle ursprünglichen Antworten.
  • Berücksichtigt Peer-Review-Rankings und -Bewertungen.
  • Erstellt eine endgültige synthetisierte Antwort, die die besten Elemente enthält.
  • Liefert dem Benutzer eine umfassende Antwort.

Technischer Stack

Backend

  • Framework: FastAPI (Python 3.10+)
  • HTTP-Client: async httpx für nicht-blockierende API-Aufrufe
  • API-Integration: OpenRouter-API für Multi-Modell-Zugriff
  • Speicher: JSON-basierte Konversationspersistenz in data/conversations/
  • Paketverwaltung: uv für modernes Python-Abhängigkeitsmanagement

Frontend

  • Framework: React mit Vite für schnelle Entwicklung und Builds
  • Rendering: react-markdown für formatierte Ausgabe
  • UI: ChatGPT-ähnliche Oberfläche mit Tabellenansichten für Modellvergleich
  • Dev Server: Vite Dev Server auf Port 5173

Hauptmerkmale

Multi-Modell-Dispatching

  • Gleichzeitige Abfrageausführung über mehrere führende Modelle hinweg
  • Konfigurierbare Ratsmitgliedschaft über backend/config.py
  • Unterstützung für Modelle von OpenAI, Google, Anthropic, xAI und mehr

Objektive Peer-Review

  • Anonymisierte Antwortbewertung verhindert Modellverzerrungen
  • Quantitatives Ranking-System für Genauigkeit und Erkenntnis
  • Enthüllt interessante Muster in Modellpräferenzen und -stärken

Synthetisierter Konsens

  • Das Vorsitzenden-Modell aggregiert verschiedene Perspektiven
  • Erstellt kohärente endgültige Antworten, die mehrere Standpunkte einbeziehen
  • Balanciert Ausführlichkeit, Einsicht und Prägnanz

Transparenter Vergleich

  • Direkte Ansicht aller einzelnen Antworten
  • Vollständige Transparenz der Peer-Review-Rankings
  • Benutzer können sich neben dem KI-Konsens ein eigenes Urteil bilden

Konversationspersistenz

  • Automatisches Speichern des Konversationsverlaufs
  • JSON-basierte Speicherung für einfache Datenportabilität
  • Möglichkeit, vergangene Ratssitzungen zu überprüfen und zu analysieren

Installation & Einrichtung

Voraussetzungen

  • Python 3.10 oder höher
  • Node.js und npm
  • OpenRouter-API-Schlüssel (erfordert gekaufte Credits)

Backend-Setup

# Installieren Sie Abhängigkeiten mit uv
uv sync

Frontend-Setup

# Navigieren Sie zum Frontend-Verzeichnis
cd frontend

# Installieren Sie npm-Abhängigkeiten
npm install

cd ..

Konfiguration

  1. Erstellen Sie eine .env-Datei im Projektstammverzeichnis:
OPENROUTER_API_KEY=sk-or-v1-your-key-here
  1. Konfigurieren Sie den Rat in backend/config.py:
COUNCIL_MODELS = [
    "openai/gpt-5.1",
    "google/gemini-3-pro-preview",
    "anthropic/claude-sonnet-4.5",
    "x-ai/grok-4",
]
CHAIRMAN_MODEL = "google/gemini-3-pro-preview"

Ausführen der Anwendung

Option 1: Schnellstartskript

./start.sh

Option 2: Manueller Start

# Terminal 1 - Backend
uv run python -m backend.main

# Terminal 2 - Frontend
cd frontend
npm run dev

Greifen Sie auf die Anwendung zu unter: http://localhost:5173

Anwendungsfälle

Lese- und Literaturanalyse

  • Karpathys ursprünglicher Anwendungsfall: Bücher mit mehreren KI-Perspektiven lesen
  • Verschiedene Modelle betonen unterschiedliche literarische Aspekte
  • Vergleichende Analyse von Interpretationsstilen

Forschung & Analyse

  • Komplexe Fragen, die mehrere Standpunkte erfordern
  • Bewertung technischer Dokumentation
  • Bewertung der Geschäftsstrategie

Inhaltsbewertung

  • Analyse von Rechtsdokumenten
  • Interpretation wissenschaftlicher Arbeiten
  • Code-Review und technisches Schreiben

Modellvergleich

  • Benchmarking verschiedener LLM-Fähigkeiten
  • Verständnis der Modellstärken und -schwächen
  • Identifizierung von Verzerrungsmustern bei verschiedenen Anbietern

Interessante Erkenntnisse

Modell-Selbstbewertung

  • Modelle wählen häufig die Antworten von Wettbewerbern als besser als ihre eigenen aus
  • Demonstriert überraschende Objektivität im Peer-Review-Prozess
  • Enthüllt echte Unterschiede in Ansatz und Qualität

Ranking-Muster

In Karpathys Tests mit Buchkapiteln:

  • Konsensgewinner: GPT-5.1 wird durchweg als aufschlussreichster bewertet
  • Konsensverlierer: Claude wird durchweg am niedrigsten eingestuft
  • Mittlere Ebene: Gemini 3 Pro und Grok-4 zwischen den Extremen

Divergenz zwischen menschlichem und KI-Urteil

  • Der KI-Konsens stimmt möglicherweise nicht mit den menschlichen Präferenzen überein
  • GPT-5.1 wird für seine Einsichten gelobt, aber von Karpathy als "zu wortreich" kritisiert
  • Claude wird von Kollegen am niedrigsten eingestuft, aber vom Ersteller für seine Kürze bevorzugt
  • Gemini wird für seine komprimierten, verarbeiteten Ausgaben geschätzt
  • Legt nahe, dass Modelle Ausführlichkeit gegenüber Prägnanz bevorzugen könnten

Projektphilosophie

"Vibe Coded"-Ansatz

  • Beschrieben als "99% Vibe Coded" Samstag-Hack-Projekt
  • Schnelle Entwicklung mit KI-Unterstützung
  • Keine langfristige Support-Verpflichtung des Erstellers
  • "Code ist jetzt vergänglich und Bibliotheken sind vorbei"-Philosophie

Open Source & Inspiration

  • Wird "wie besehen" zur Inspiration für die Community bereitgestellt
  • Benutzer werden ermutigt, über ihre eigenen LLMs zu modifizieren
  • Stellt eine Referenzarchitektur für die KI-Orchestrierung dar
  • Demonstriert Ensemble Learning angewendet auf Sprachmodelle

Auswirkungen auf Unternehmen

Orchestrierungs-Middleware

  • Enthüllt die Architektur der Multi-Modell-Koordination
  • Behebt Bedenken hinsichtlich der Abhängigkeit von Anbietern
  • Demonstriert die Machbarkeit von modellagnostischen Anwendungen

Qualitätskontrollschicht

  • Peer-Review fügt eine Validierung hinzu, die in Einzelmodellsystemen fehlt
  • Reduziert Verzerrungen einzelner Modelle
  • Bietet Transparenz bei der KI-Entscheidungsfindung

Referenzimplementierung

  • Zeigt die minimale tragfähige Architektur für Ensemble-KI
  • Leitet Build-vs.-Buy-Entscheidungen für Unternehmensplattformen
  • Entmystifiziert die Komplexität der Multi-Modell-Orchestrierung

Einschränkungen & Überlegungen

Kosten

  • Erfordert OpenRouter-API-Credits für alle Ratsmitglieder plus Vorsitzenden
  • Mehrere Modellaufrufe pro Abfrage erhöhen die Betriebskosten
  • Kein kostenloser Betrieb möglich

Geschwindigkeit

  • Dreistufiger Prozess langsamer als Einzelmodellabfragen
  • Mehrere API-Aufrufe erhöhen die Latenz
  • Kompromiss zwischen Geschwindigkeit und Qualität/Konsens

Modellverfügbarkeit

  • Abhängig vom OpenRouter-Modellkatalog
  • Erfordert aktive API-Schlüssel und Credits
  • Unterliegt den Ratenbeschränkungen des Modellanbieters

Wartung

  • Der Ersteller erklärt ausdrücklich keinen fortlaufenden Support
  • Nur Community-gesteuerte Verbesserungen
  • Benutzer sind für Anpassungen und Aktualisierungen verantwortlich

Technische Überlegungen

Anonymisierungsstrategie

  • Zufällige IDs (A, B, C, D) werden Antworten zugewiesen
  • Verhindert identitätsbasierte Verzerrungen bei der Peer-Review
  • Erhält die Objektivität im Bewertungsprozess

API-Integration

  • Einzelner Integrationspunkt über OpenRouter
  • Abstrahiert einzelne Anbieter-APIs
  • Vereinfacht die Multi-Modell-Koordination

Datenschutz

  • Die lokale Webanwendung läuft auf dem Rechner des Benutzers
  • Konversationen werden lokal als JSON gespeichert
  • API-Aufrufe laufen über OpenRouter (Drittanbieter)

Community & Ökosystem

Verwandte Projekte

  • Swarms Framework: Implementiert die LLMCouncil-Klasse, inspiriert von diesem Projekt
  • Hugging Face Spaces: Community-Bereitstellungen verfügbar
  • Medium/VentureBeat Coverage: Unternehmensanalyse und -auswirkungen

Ähnliche Ansätze

  • Ensemble Learning im maschinellen Lernen
  • Mixture of Experts-Architekturen
  • Multi-Agenten-KI-Systeme
  • Konsensprotokolle in verteilten Systemen

Zukünftige Richtungen

Während Karpathy ausdrücklich keine geplanten Verbesserungen angibt, könnten potenzielle Community-Erweiterungen Folgendes umfassen:

  • Erweiterte Modellunterstützung: Hinzufügen weiterer Ratsmitglieder von aufstrebenden Anbietern
  • Benutzerdefinierte Ranking-Kriterien: Benutzerdefinierte Bewertungsdimensionen
  • Streaming-Antworten: Echtzeitanzeige von Modellausgaben
  • Erweiterte Synthese: Anspruchsvollere Vorsitzenden-Algorithmen
  • Kostenoptimierung: Intelligente Modellauswahl basierend auf dem Abfragetyp
  • Performance Analytics: Verfolgung der Modellgenauigkeit und Präferenzmuster
  • Integrations-APIs: Einbettung der Ratsfunktionalität in andere Anwendungen

Erste Schritte

  1. Klonen Sie das Repository: git clone https://github.com/karpathy/llm-council
  2. Befolgen Sie die obigen Installationsanweisungen
  3. Konfigurieren Sie Ihre bevorzugten Ratsmodelle
  4. Beginnen Sie mit der Abfrage und vergleichen Sie Perspektiven
  5. Experimentieren Sie mit verschiedenen Modellkombinationen
  6. Analysieren Sie Peer-Review-Muster

Fazit

LLM Council stellt einen pragmatischen Ansatz zur Bewältigung von Einzelmodellbeschränkungen durch Ensemble-Orchestrierung dar. Obwohl es als ein zwangloses Wochenendprojekt präsentiert wird, bietet es wertvolle Einblicke in die Multi-Modell-Architektur, Peer-Review-Mechanismen und die Zukunft der KI-Orchestrierungs-Middleware. Für Entwickler, Forscher und Unternehmen, die über Einzelanbieterlösungen hinausgehen, bietet dieses Projekt sowohl Inspiration als auch eine konkrete Referenzimplementierung für den Aufbau robusterer, konsensgesteuerter KI-Systeme.

Der minimalistische Ansatz des Projekts – ein paar hundert Codezeilen, die eine ausgefeilte Multi-Modell-Koordination erreichen – zeigt, dass die technischen Hürden für Ensemble-KI niedriger sind als viele annehmen. Die eigentlichen Herausforderungen liegen nicht im Routing von Prompts, sondern in der Governance, dem Kostenmanagement und der Feststellung, wann Konsens die Ergebnisse gegenüber einzelnen Modellantworten wirklich verbessert.

Star History Chart