卡帕西的 autoresearch 让 AI 智能体在你睡觉时进行机器学习研究
新闻摘要
2026年3月(美国东部时间) — 著名人工智能研究员、Eureka Labs创始人Andrej Karpathy在GitHub上发布了一个名为autoresearch的新开源项目。该项目于2026年3月宣布,旨在让一个AI代理在单块GPU上自主运行机器学习实验,有效地在夜间运行期间取代人类研究员在实验循环中的角色。
什么是autoresearch?
这个概念看似简单:给一个AI代理一个小型但功能齐全的大型语言模型(LLM)训练环境,让它独立迭代。该代理会修改训练代码,运行一个5分钟的实验,检查性能是否在验证指标上有所提升,然后保留或放弃该更改——在整个夜间重复这个循环。到早上,用户醒来时会看到一份完整的实验日志,并且理想情况下,会得到一个有意义改进的模型。
该项目建立在Karpathy早期工作nanochat的基础上,nanochat是一个单GPU LLM训练实现。代码库故意保持最小化:只有三个文件是关键。prepare.py负责数据准备和实用工具,代理永远不会触及它。train.py是代理可以自由编辑的唯一文件——修改从模型架构和超参数到优化器和批次大小的任何内容。program.md是一个由人类研究员编写的Markdown格式指令文件,用于指导代理的行为,有效地充当“研究组织规范”。
固定时间预算:巧妙的核心设计
autoresearch中最值得注意的设计决策之一是每个实验严格的5分钟时钟时间预算。无论代理更改什么——模型大小、批次大小、架构——每次运行都恰好需要5分钟。这使得每小时大约可以进行12个实验,在单次夜间睡眠期间大约可以进行100个实验。
这样做的好处是所有运行都可以直接进行比较,因为它们是在相同的时钟预算下竞争,而不是在浮动的计算资源上。权衡是结果是平台特定的:在NVIDIA H100上的运行与在不同GPU上的运行不可比较。评估指标是val_bpb(validation bits per byte),这是一个与词汇表大小无关的度量,即使代理更改模型架构也能确保公平比较。
最少的依赖,最大的自主性
Karpathy将该项目保持独立,除了PyTorch和少量小型包之外,没有外部基础设施依赖。没有分布式训练,没有复杂的配置系统,也没有云要求。只需要一块NVIDIA GPU,以及Python 3.10+和uv包管理器。
要进入自主研究模式,用户只需将他们选择的AI代理——Claude、Codex或任何其他代理——指向该存储库,并指示它读取program.md并开始实验。Karpathy指出,program.md文件是一个“超轻量级技能”——一个用于编程研究意图的纯文本接口。
社区反应和早期势头
自发布以来,该存储库吸引了社区的广泛关注,截至2026年3月初,在GitHub上已获得超过1800颗星和200个fork。已经出现了多个社区驱动的fork,包括一个macOS兼容版本。项目在发布后的几天内就有20次提交和活跃的issue报告,预示着开发者浓厚的兴趣。
研究未来的一瞥
Karpathy以其一贯的诙谐哲学视角伴随该项目,写道:“有一天,前沿人工智能研究曾经是由肉体计算机在吃饭、睡觉、享受其他乐趣的间隙进行的……那个时代早已过去。”虽然是半开玩笑,但这句话反映了人工智能社区如何开始思考自动化研究流程和代理驱动的科学发现的更广泛转变。