カラペティが寝ている間に、AI が 100 回の実験を自動実行

カラペティがまた大きな動きをしました。

昨日、彼は X（旧 Twitter）に次のような投稿をしました。「AGI 後の時代という感じは……私は何もしなかった。サウナに行きました。」

そして、本当にサウナに行きました。

彼が戻ってきた頃には、AI が彼の GPU で 100 回のトレーニング実験を連続して実行し、自動的にコードを修正し、モデルをトレーニングし、結果を評価し、改善を維持し、失敗を破棄するという、完全な無人運転の状態でした。

このプロジェクトの名前はautoresearchです。

Python コード 630 行、GPU 1 枚、Markdown ファイル 1 つ。

それだけです。

どのように実現したか

autoresearch の核心となる考え方は極めてシンプルです：AI に実際のモデルトレーニング環境を与え、AI 自身に実験を行わせる。

具体的には、このプロジェクト全体には 3 つの重要なファイルしかありません：

prepare.py：データ準備、トークナイザーのトレーニング、評価関数。読み取り専用で、AI は触ることができません。
train.py：モデルアーキテクチャ、オプティマイザー、トレーニングループ。AI が唯一変更できるファイルです。
program.md：AI への指示。目標は何であるか、ルールは何であるか、結果をどのように記録するかを伝えます。

トレーニング予算は5 分に固定されています。

使用する GPU が何であれ、AI がコードをどのように変更しても、各実験は 5 分間実行されます。

これにより、すべての実験が直接比較可能になります。モデルサイズを変更しても比較可能です。バッチサイズを変更しても比較可能です。オプティマイザーを変更しても、依然として比較可能です。

1 時間で 12 回の実験を実行でき、一晩で 100 回の実験を実行できます。

評価指標は 1 つだけ：val_bpb（検証セットのバイトあたりのビット数）です。低いほど良いです。この指標は語彙サイズに依存しないため、AI がトークナイザーに関連するアーキテクチャを変更しても、結果は公平です。

止まらない

最も印象的なのは、program.mdの中に書かれている次の一節です：

決して止まらないでください。実験ループが一度開始したら、人間に継続するかどうかを尋ねてはいけません。人間は寝ているか、すでにコンピューターを離れているかもしれません。彼はあなたが手動で停止するまで、無限に働き続けることを期待しています。あなたは自律的です。アイデアがなくなったら、より一生懸命考えなさい。

「アイデアがなくなったら、より一生懸命考えなさい。」

この言葉には奇妙な力強さがあります。これは単なる自動化スクリプトではなく、新しい働き方を描写しています：人間は目標と境界を設定し、その後離れます。AI は自分で方法を考えます。

実験ループのフローは次の通りです：

現在の Git ステータスを確認
train.pyを変更し、新しいアイデアを試す
Git コミット
5 分間のトレーニングを実行し、出力をログにリダイレクト
結果を読み取る
val_bpbが低下した場合（改善された場合）、維持する
改善がない場合は、git resetで元に戻す
繰り返す

改善があれば前進し、失敗すれば後退する。

永遠にループする。

連続して失敗した場合、AI は自分で新しい方向性を考えなければなりません。

カラペティは指示の中で次のように書いています。「コードを読み直し、論文を読み、以前は少し成功したアプローチを組み合わせて試み、より過激なアーキテクチャの変更を試みなさい。」

コードを書くことから Markdown を書くことへ

カラペティは README に次のような示唆に富んだ言葉を残しました：核心となる考え方は、従来の研究者のように直接 Python ファイルを操作するのではなく、プログラミングの対象が program.md、つまり AI エージェントにコンテキストを提供する Markdown ファイルになるということです。

Python を書くことはなくなります。Markdown を書くのです。

従来の AI 研究プロセスは次の通りでした：研究者がアイデアを考える → コードを実装する → 実験を実行する → 結果を見る → 次のアイデアを考える。各ループには 1 日、1 週間、あるいは 1 か月かかることもありました。

現在のプロセスは変化しました：研究者が目標、制約、戦略を記述した program.md を作成 → AI が自らコードを変更し、実験を実行し、結果を確認し、次のアイデアを考える。各ループは 5 分です。

研究者は「実行者」から「指揮官」へと変化しました。

見ての通り、これは昨日の記事 Claude Code が /loop 無限ループを導入、1 台のコンピューターが無限のエビに変身で議論した Claude Code の /loop と同じ論理です。/loop が開発分野で AI に自律的なループを可能にするのに対し、autoresearch は研究分野で AI に自律的なループを可能にします。

実際、根本的には同じことです：閉ループフィードバック。

シンプルさの妙

カラペティの設計哲学は、相変わらずシンプルです。

program.md には「単純性の原則」というルールがあります：小さな改善が醜い複雑さを導入する場合、それは価値がありません。コードを削除して val_bpb が 0.001 向上する場合は、残します。改善がほぼゼロでもコードがよりシンプルになる場合も、残します。

コードを削除しても同じ結果が得られるなら、削除します。

これは単なるエンジニアリングの潔癖症ではなく、研究哲学です：最も良い改善は、往々にして最もシンプルなものです。

autoresearch プロジェクト全体もこの原則を実践しています。分散トレーニングはありません。複雑な設定システムはありません。マルチ GPU サポートはありません。GPU 1 枚、ファイル 1 つ、ループ 1 つだけです。

630 行のコードで完了です。

よく考えると、autoresearch が最も過小評価されている点は、トレーニング効果そのものではなく、以下の事実を明らかにした点かもしれません：仮説から実験、評価、反復までの完全な研究サイクル全体が、1 つのプロンプトファイルと 630 行のコードに詰め込まれているということ。 私たちは数十年かけて研究インフラを構築してきましたが、結局のところ、これらのインフラ自体がボトルネックであったことがわかりました。

それと比較して、Sakana AI の AI Scientist プロジェクトははるかに複雑です。

それは仮説の生成、実験の設計、論文の執筆、さらにはピアレビューに至るまで、科学研究の完全なライフサイクルをカバーしようとしています。AI Scientist-v2 は、完全に AI によって生成され、ワークショップで受理された最初の論文を生み出しました。

しかし、カラペティのアプローチは異なります。

彼は包括性を追求するのではなく、極致のシンプルさ を追求します。1 つの目標（val_bpb の低下）、1 つの制約（5 分）、1 つのフィードバック（維持または破棄）。

それだけで十分です。

新しいアイデアではない

自動化研究の概念自体は新しいものではありません。

2024 年、Sakana AI は AI Scientist を発表し、LLM にアイデアから論文までの全プロセスを完了させようとしました。2025 年には v2 バージョンを発表し、Agentic Tree Search を用いて研究分野を探索しました。

香港大学のチームによる AI-Researcher も同様のことを行っています：複数のエージェントの協調により、科学研究の全周期をカバーします。

しかし、これらのプロジェクトはすべて「重く」なっています。

autoresearch の違いは、人間の科学研究プロセスを模倣しようとしていない点 にあります。これは進化アルゴリズムに似たことを行います：ランダムな変異（コードの変更）→ 適合度評価（5 分間のトレーニング実行）→ 自然選択（維持または破棄）→ 繰り返し。

論文も、要約も、ピアレビューもありません。ただ赤裸々に：コードを変更し、数字を見て、良いものを選び、悪いものを捨てる。

カラペティは 2 か月前に X で次のように述べていました。「プログラマーとして、私はこれほど遅れていると感じたことはありません。この職業は劇的に再構築されつつあります。」その後、彼は自分のコーディング方法が「80% の手書き + 20% のエージェント」から「80% のエージェント + 20% の手動微調整」に逆転したことを明かしました。

autoresearch はおそらくそれに対する彼の回答でしょう：ついていけないなら、AI に自分で走らせればよい。

このプロジェクトは GitHub に公開されてから 24 時間足らずで公式に推薦され、コミュニティの反応も直接的でした。すぐに Apple Silicon に対応した macOS バージョンをフォークした人もいれば、この同じパターンを創薬、材料科学、コンパイラ最適化などの他の分野に応用できるかどうかを議論し始めた人もいます。

これはまさに、autoresearch の最大の価値がそれ自体の実験結果にあるのではなく、示されたパラダイム にあることを示しています：AI に実際の環境、定量化された指標、無限のループを与え、その後立ち去ること。

睡眠こそが研究

カラペティの投稿に戻りましょう。「AGI 後の時代という感じは……私は何もしなかった。」

もちろん、これは単なる冗談です。autoresearch は AGI からほど遠いです。それは極端に制限された空間（1 つの Python ファイル、1 つの評価指標）内でのみ最適化を行うことができます。それは革命的な新しい理論を提示することも、新しい物理法則を発見することも、まともな論文を書くこともありません。

しかし、それは可能性を示しています。

もし AI が 5 分ごとのループでモデルを継続的に改善できるなら、ループ時間を 1 日、1 週間、1 か月に延長したらどうなるでしょうか？探索空間を 1 つのファイルからコードベース全体に拡大したらどうなるでしょうか？評価指標を val_bpb から多次元に拡大したらどうなるでしょうか？

この方向性の果てには、真の自動化研究があります。

昨日、私たちは自律の本質はループであるという記事を書き、サイバネティクスの観点から、なぜフィードバックループが自律の基礎であるかを分析しました。

autoresearch はこの理論の完璧なケーススタディです：

知覚（val_bpb の読み取り）→ 判断（改善されたかどうか）→ 行動（コードの変更）→ 再知覚。

ウィーナーの恒温器、カラペティの autoresearch、Claude Code の /loop。形式は異なりますが、本質は同じです。

すべてがループです。

使用方法

NVIDIA GPU をお持ちの場合は、すぐに実行できます：

curl -LsSf https://astral.sh/uv/install.sh | shgit clone https://github.com/karpathy/autoresearchcd autoresearchuv syncuv run prepare.py

その後、Claude Code（または任意のコーディングエージェント）を開き、次のように指示してください。「program.md を見て、実験を開始してください。」

AI は自動的に実行を開始します。あなたは眠るだけです。

すでに Apple Silicon をサポートする macOS バージョン（miolini/autoresearch-macos）がフォークされています。

研究者の未来

カラペティは autoresearch を通じて、次のことを実演しました：未来の AI 研究者の核心的なスキルは、PyTorch コードを書くことではなく、program.md を書くことになるかもしれません。

目標を定義し、制約を設定し、戦略を記述し、その後手を離す。

これは管理学に非常に似ています。優れた管理者は、自分自身が最も速く仕事をする人ではなく、問題を最もよく定義し、境界を最もよく設定する人です。

autoresearch は AI 研究を管理業務へと変えました。

あなたが管理するのは人ではなく、エージェントです。あなたが書くのはコードではなく、Markdown です。あなたの成果物はモデルではなく、実験ログです。

もちろん、これで AI 研究者が姿を消すわけではありません。/loop がプログラマーを消滅させないのと同じです。しかし、仕事の内容は変化します。

これまでの研究：アイデアを考える → コードを書く → 結果を待つ → 次のアイデアを考える。

これからの研究：program.md を書く → 眠る → 起きてログを見る → program.md を修正する。

カラペティ自身の説明は以下の通りです：

「AGI 後の感覚は……私は何もしなかった。」