Karpathy 的 autoresearch 讓 AI 代理在你睡覺時進行機器學習研究

March 08, 2026

Andrej Karpathy

4 min

新聞摘要

2026 年 3 月 (ET) — 著名 AI 研究員兼 Eureka Labs 創辦人 Andrej Karpathy 在 GitHub 上發布了一個名為 autoresearch 的新開源專案。該專案於 2026 年 3 月宣布，讓一個 AI 代理負責在單一 GPU 上自主運行機器學習實驗 — 在夜間運行期間，有效取代實驗迴圈中的人類研究員。

autoresearch 是什麼？

這個概念看似簡單：給予一個 AI 代理一個小型但功能齊全的大型語言模型 (LLM) 訓練環境，讓它獨立迭代。該代理會修改訓練程式碼，運行一個 5 分鐘的實驗，檢查效能是否在驗證指標上有所提升，然後保留或捨棄該變更 — 在夜間重複這個循環。到了早上，使用者醒來時會看到一份完整的實驗記錄，理想情況下，還會有一個有意義上改進的模型。

該專案建立在 Karpathy 先前的工作 nanochat 的基礎上，nanochat 是一個單 GPU LLM 訓練實現。程式碼庫刻意保持最小化：只有三個檔案是關鍵。prepare.py 負責資料準備和工具，代理永遠不會觸碰它。train.py 是代理可以自由編輯的單一檔案 — 修改從模型架構和超參數到優化器和批次大小的任何內容。program.md 是由人類研究員編寫的 Markdown 格式指令檔案，用於指導代理的行為，有效地充當「研究組織規格」。

固定時間預算：巧妙的核心設計

autoresearch 中最值得注意的設計決策之一是每個實驗嚴格的 5 分鐘實際執行時間預算。無論代理修改什麼 — 模型大小、批次大小、架構 — 每次運行都精確地花費 5 分鐘。這意味著每小時大約可以進行 12 個實驗，單次夜間睡眠期間大約可以進行 100 個實驗。

好處是所有運行都可以直接比較，因為它們是在相同的時間預算下競爭，而不是在浮動的計算資源上競爭。權衡是結果是平台特定的：在 NVIDIA H100 上的運行無法與在不同 GPU 上的運行進行比較。評估指標是 val_bpb (驗證每位元組的位元數)，這是一個與詞彙表大小無關的度量，即使代理更改模型架構也能確保公平比較。

最少的依賴，最大的自主性

Karpathy 讓該專案保持獨立，除了 PyTorch 和少量小型套件外，沒有外部基礎設施依賴。沒有分散式訓練，沒有複雜的配置系統，也沒有雲端需求。只需要一個 NVIDIA GPU，以及 Python 3.10+ 和 uv 套件管理器。

要進入自主研究模式，使用者只需將他們選擇的 AI 代理 — Claude、Codex 或任何其他代理 — 指向儲存庫，並指示它閱讀 program.md 並開始實驗。Karpathy 指出 program.md 檔案是一個「超輕量級技能」— 一個用於編程研究意圖的純文字介面。

社群回應和早期動能

自發布以來，該儲存庫吸引了顯著的社群關注，截至 2026 年 3 月初，在 GitHub 上已獲得超過 1,800 顆星和 200 個分支。多個由社群驅動的分支已經出現，包括一個與 macOS 相容的版本。該專案在推出後幾天內就有 20 次提交和活躍的 issue 報告，顯示出強烈的開發者興趣。

研究未來的一瞥

Karpathy 以其一貫的機智哲學框架伴隨該專案，寫道：「有一天，前沿的 AI 研究曾經是由肉體電腦在吃飯、睡覺、享受其他樂趣的間隙進行的……那個時代早已過去。」雖然是半開玩笑，但這句話反映了 AI 社群開始如何思考自動化研究流程和代理驅動的科學發現的更廣泛轉變。