Karpathys autoresearch lässt KI-Agenten maschinelles Lernen erforschen, während Sie schlafen
Zusammenfassung der Nachrichten
März 2026 (ET) — Andrej Karpathy, der gefeierte KI-Forscher und Gründer von Eureka Labs, hat auf GitHub ein neues Open-Source-Projekt namens autoresearch veröffentlicht. Das im März 2026 angekündigte Projekt überträgt einem KI-Agenten die Verantwortung für die autonome Durchführung von Machine-Learning-Experimenten auf einer einzelnen GPU – und ersetzt damit effektiv den menschlichen Forscher in der experimentellen Schleife während nächtlicher Läufe.
Was ist autoresearch?
Das Konzept ist täuschend einfach: Geben Sie einem KI-Agenten eine kleine, aber voll funktionsfähige Trainingsumgebung für große Sprachmodelle (LLM) und lassen Sie ihn unabhängig iterieren. Der Agent modifiziert den Trainingscode, führt ein 5-minütiges Experiment durch, prüft, ob sich die Leistung anhand der Validierungsmetrik verbessert hat, und behält oder verwirft dann die Änderung – und wiederholt diesen Zyklus über Nacht. Am Morgen wacht der Benutzer mit einem vollständigen Protokoll der Experimente und idealerweise einem bedeutsam besseren Modell auf.
Das Projekt baut auf Karpathys früheren Arbeiten, nanochat, einer Single-GPU-LLM-Trainingsimplementierung, auf. Die Codebasis ist bewusst minimal gehalten: Nur drei Dateien sind wichtig. prepare.py kümmert sich um die Datenvorbereitung und Hilfsprogramme und wird vom Agenten nie berührt. train.py ist die einzige Datei, die der Agent frei bearbeitet – er modifiziert alles, von der Modellarchitektur und den Hyperparametern bis hin zum Optimierer und der Batch-Größe. program.md ist eine Anweisungsdatei im Markdown-Format, die vom menschlichen Forscher geschrieben wurde, um das Verhalten des Agenten zu steuern und effektiv als „Forschungsorg-Spezifikation“ zu fungieren.
Festes Zeitbudget: Das clevere Kern-Design
Eine der bemerkenswertesten Designentscheidungen bei autoresearch ist das strikte 5-minütige Echtzeit-Zeitbudget für jedes Experiment. Unabhängig davon, was der Agent ändert – Modellgröße, Batch-Größe, Architektur – jeder Lauf dauert genau 5 Minuten. Dies ergibt etwa 12 Experimente pro Stunde und ungefähr 100 Experimente während einer einzigen Nachtruhe.
Der Vorteil ist, dass alle Läufe direkt vergleichbar sind, da sie auf demselben Zeitbudget und nicht auf schwimmender Rechenleistung konkurrieren. Der Kompromiss ist, dass die Ergebnisse plattformspezifisch sind: Ein Lauf auf einer NVIDIA H100 ist nicht mit einem Lauf auf einer anderen GPU vergleichbar. Die Bewertungsmetrik ist val_bpb (validation bits per byte), ein von der Vokabulargröße unabhängiges Maß, das faire Vergleiche gewährleistet, auch wenn der Agent die Modellarchitektur ändert.
Minimale Abhängigkeiten, maximale Autonomie
Karpathy hat das Projekt eigenständig gehalten, ohne externe Infrastrukturabhängigkeiten über PyTorch und eine Handvoll kleiner Pakete hinaus. Es gibt kein verteiltes Training, kein komplexes Konfigurationssystem und keine Cloud-Anforderungen. Eine einzelne NVIDIA-GPU ist alles, was benötigt wird, zusammen mit Python 3.10+ und dem uv-Paketmanager.
Um in den autonomen Forschungsmodus zu wechseln, weisen Benutzer einfach ihren KI-Agenten der Wahl – Claude, Codex oder einen anderen – auf das Repository und weisen ihn an, program.md zu lesen und mit dem Experimentieren zu beginnen. Karpathy merkt an, dass die Datei program.md eine „super leichte Fähigkeit“ ist – eine reine Textschnittstelle zur Programmierung von Forschungsabsichten.
Reaktion der Community und frühe Dynamik
Seit seiner Veröffentlichung hat das Repository erhebliche Aufmerksamkeit von der Community auf sich gezogen und Anfang März 2026 über 1.800 Sterne und 200 Forks auf GitHub erhalten. Mehrere von der Community getriebene Forks sind bereits erschienen, darunter eine macOS-kompatible Variante. Das Projekt hatte innerhalb weniger Tage nach dem Start 20 Commits und aktive Issues, was auf ein starkes Entwicklerinteresse hindeutet.
Ein Blick in die Zukunft der Forschung
Karpathy begleitete das Projekt mit einer charakteristisch witzigen philosophischen Rahmung und schrieb: „Eines Tages wurde Spitzenforschung im Bereich KI von Fleischcomputern zwischen Essen, Schlafen und anderen Vergnügungen betrieben… Diese Ära ist längst vorbei.“ Obwohl augenzwinkernd, spiegelt die Aussage einen breiteren Wandel in der Art und Weise wider, wie die KI-Community beginnt, über automatisierte Forschungspipelines und agentengesteuerte wissenschaftliche Entdeckungen nachzudenken.