L'autoresearch de Karpathy permet aux agents IA de mener des recherches en apprentissage automatique pendant que vous dormez
Résumé des actualités
Mars 2026 (HE) — Andrej Karpathy, le célèbre chercheur en IA et fondateur d'Eureka Labs, a publié un nouveau projet open-source appelé autoresearch sur GitHub. Le projet, annoncé en mars 2026, confie à un agent IA la tâche d'exécuter des expériences d'apprentissage automatique de manière autonome sur un seul GPU — remplaçant ainsi efficacement le chercheur humain dans la boucle expérimentale pendant les exécutions nocturnes.
Qu'est-ce qu'autoresearch ?
Le concept est d'une simplicité trompeuse : donner à un agent IA un environnement d'entraînement de modèle linguistique de grande taille (LLM) petit mais entièrement fonctionnel et le laisser itérer indépendamment. L'agent modifie le code d'entraînement, exécute une expérience de 5 minutes, vérifie si les performances se sont améliorées sur la métrique de validation, puis conserve ou rejette la modification — répétant ce cycle toute la nuit. Au matin, l'utilisateur se réveille avec un journal complet des expériences et, idéalement, un modèle significativement meilleur.
Le projet s'appuie sur les travaux antérieurs de Karpathy, nanochat, une implémentation d'entraînement de LLM sur un seul GPU. La base de code est délibérément minimale : seuls trois fichiers sont importants. prepare.py gère la préparation des données et les utilitaires et n'est jamais touché par l'agent. train.py est le seul fichier que l'agent modifie librement — modifiant tout, de l'architecture du modèle et des hyperparamètres à l'optimiseur et à la taille du lot. program.md est un fichier d'instructions au format Markdown écrit par le chercheur humain pour guider le comportement de l'agent, agissant efficacement comme une « spécification d'organisation de recherche ».
Budget temporel fixe : le cœur de la conception astucieuse
L'une des décisions de conception les plus notables d'autoresearch est le budget strict de 5 minutes de temps de calcul réel pour chaque expérience. Indépendamment de ce que l'agent modifie — taille du modèle, taille du lot, architecture — chaque exécution dure exactement 5 minutes. Cela permet environ 12 expériences par heure et environ 100 expériences pendant une seule nuit de sommeil.
L'avantage est que toutes les exécutions deviennent directement comparables, car elles sont en concurrence sur le même budget temporel plutôt que sur la puissance de calcul flottante. Le compromis est que les résultats sont spécifiques à la plateforme : une exécution sur un NVIDIA H100 ne sera pas comparable à une exécution sur un autre GPU. La métrique d'évaluation est val_bpb (validation bits per byte), une mesure indépendante de la taille du vocabulaire, garantissant des comparaisons équitables même lorsque l'agent modifie l'architecture du modèle.
Dépendances minimales, autonomie maximale
Karpathy a maintenu le projet autonome, sans dépendances d'infrastructure externes au-delà de PyTorch et d'une poignée de petits paquets. Il n'y a pas d'entraînement distribué, pas de système de configuration complexe et pas d'exigences cloud. Un seul GPU NVIDIA suffit, avec Python 3.10+ et le gestionnaire de paquets uv.
Pour entrer en mode de recherche autonome, les utilisateurs pointent simplement leur agent IA de choix — Claude, Codex, ou tout autre — vers le dépôt et lui demandent de lire program.md et de commencer à expérimenter. Karpathy note que le fichier program.md est une « compétence super légère » — une interface en texte brut pour programmer l'intention de recherche.
Réponse de la communauté et élan initial
Depuis sa sortie, le dépôt a suscité une attention considérable de la part de la communauté, recueillant plus de 1 800 étoiles et 200 forks sur GitHub début mars 2026. Plusieurs forks communautaires sont déjà apparus, dont une variante compatible macOS. Le projet a enregistré 20 commits et des problèmes actifs ont été signalés quelques jours après le lancement, témoignant d'un fort intérêt des développeurs.
Un aperçu de l'avenir de la recherche
Karpathy a accompagné le projet d'un cadre philosophique typiquement plein d'esprit, écrivant : « Un jour, la recherche de pointe en IA était effectuée par des ordinateurs biologiques entre les repas, le sommeil, et d'autres plaisirs… Cette époque est révolue depuis longtemps. » Bien que dit sur le ton de la plaisanterie, cette déclaration reflète un changement plus large dans la manière dont la communauté de l'IA commence à envisager les pipelines de recherche automatisés et la découverte scientifique pilotée par des agents.