カルパシーのautoresearchは、AIエージェントがあなたが眠っている間に機械学習研究を行うことを可能にする
ニュースサマリー
2026年3月(米国東部時間) — 高名なAI研究者であり、Eureka Labsの創設者であるアンドレイ・カルパシー氏が、GitHub上で新しいオープンソースプロジェクト「autoresearch」を公開しました。2026年3月に発表されたこのプロジェクトは、AIエージェントが単一のGPU上で機械学習実験を自律的に実行する役割を担い、夜間の実行中に実験ループにおける人間の研究者を事実上置き換えます。
autoresearchとは?
そのコンセプトは、 deceptively simple です。AIエージェントに、小さくても完全に機能する大規模言語モデル(LLM)のトレーニング環境を与え、それを独立して反復させます。エージェントはトレーニングコードを変更し、5分間の実験を実行し、検証メトリックでのパフォーマンスが向上したかどうかを確認し、変更を保持または破棄します。このサイクルを夜通し繰り返します。朝になると、ユーザーは実験の完全なログと、理想的には意味のある改善がなされたモデルを目にすることになります。
このプロジェクトは、カルパシー氏の以前の作品である、単一GPUでのLLMトレーニング実装「nanochat」の上に構築されています。コードベースは意図的に最小限に抑えられており、3つのファイルのみが重要です。prepare.pyはデータ準備とユーティリティを処理し、エージェントによって決して変更されません。train.pyは、エージェントが自由に編集できる唯一のファイルであり、モデルアーキテクチャやハイパーパラメータからオプティマイザやバッチサイズまで、あらゆるものを変更します。program.mdは、人間の研究者がエージェントの行動をガイドするために記述したMarkdown形式の指示ファイルであり、実質的に「研究組織仕様」として機能します。
固定時間予算:巧妙なコアデザイン
autoresearchにおける最も注目すべき設計上の決定の1つは、各実験に対する厳格な5分間の壁時計時間予算です。エージェントがモデルサイズやバッチサイズ、アーキテクチャを変更しても、すべての実行は正確に5分かかります。これにより、1時間あたり約12回の実験、単一の夜間の睡眠中に約100回の実験が可能になります。
利点は、すべての実行が同じ時間予算で競合するため、浮動小数点計算ではなく、直接比較可能になることです。トレードオフは、結果がプラットフォーム固有であることです。NVIDIA H100での実行は、別のGPUでの実行とは比較できません。評価メトリックはval_bpb(検証ビット/バイト)であり、語彙サイズに依存しない測定値であるため、エージェントがモデルアーキテクチャを変更した場合でも公平な比較が保証されます。
最小限の依存関係、最大限の自律性
カルパシー氏は、PyTorchと少数の小さなパッケージ以外の外部インフラストラクチャ依存関係なしに、プロジェクトを自己完結型に保っています。分散トレーニング、複雑な設定システム、クラウド要件はありません。必要なのは単一のNVIDIA GPU、Python 3.10以上、およびuvパッケージマネージャーです。
自律研究モードに入るには、ユーザーはClaude、Codex、またはその他の任意のAIエージェントをリポジトリに向け、program.mdを読み込んで実験を開始するように指示するだけです。カルパシー氏は、program.mdファイルが「超軽量スキル」であり、研究意図をプログラミングするためのプレーンテキストインターフェイスであると述べています。
コミュニティの反応と初期の勢い
リリース以来、このリポジトリは大きなコミュニティの注目を集め、2026年3月上旬現在、GitHubで1,800以上のスターと200のフォークを獲得しています。すでにmacOS互換のバリアントを含む、複数のコミュニティ主導のフォークが登場しています。プロジェクトは、ローンチから数日以内に20件のコミットとアクティブなイシューが提出され、開発者の強い関心を示しています。
研究の未来への一瞥
カルパシー氏は、プロジェクトにいつものように機知に富んだ哲学的なフレーミングを添えて、「かつては、最先端のAI研究は、食事、睡眠、その他の楽しみの合間に、肉体コンピュータによって行われていました…その時代はとうに過ぎました。」と書いています。これは冗談めかしていますが、AIコミュニティが自動化された研究パイプラインとエージェント主導の科学的発見について考え始めている、より広範な変化を反映しています。