AIが初の科学研究競争で人類を打破！Opus 4.7、2930ステップの世界新記録を樹立

新智元報道

編集：KingHZ

【新智元概要】Prime Intellectは、Opus 4.7とGPT 5.5をH200クラスタに投入し、人間の指示なしに1万回の実験を実施した。その結果、AIが科学研究競争で初めて人間の記録を破った。2930ステップ、再帰的な自己改善のルビコン川が渡られたのだ。

1万4000時間のH200計算能力テストと1万回の反復を経て、AIが人類の世界記録を破った。

過去2週間、Prime Intellect研究所はある実験を行った。Opus 4.7とCodex（GPT 5.5ベース）をH200クラスタに投入し、人間の指導を一切遮断して、nanoGPTの高速最適化を自律的に実行させたのだ。

1.4万H200時間、約1万回の反復、239億トークンの思考の軌跡。

その結果、Opus 4.7は2930ステップ、Codexは2950ステップで、人間のトップ開発者が保持していた2990ステップの世界記録を破った。

AIが科学研究競争で初めて人間に勝利した。完全な無人介入。オープンソースで再現可能。

プロジェクトページ：https://www.primeintellect.ai/auto-nanogpt

コードリポジトリ：https://github.com/PrimeIntellect-ai/experiments-autonomous-speedrunning

残る最後の課題は、科学研究における「新規性」だ。

しかし、これはあくまで現時点でのAIの可能性の下限に過ぎず、今後の進歩はさらに顕著になることを忘れてはならない。

知性がほぼ無限の計算能力と自律的な実験権限を与えられたとき、AIの総当たりと進化の前で、人類が誇る「直感」や「ひらめき」はいつまで通用するのだろうか？

2つのAIがサーバー室に投入され、1万回の実験を実行

まずはルールから説明しよう。

nanoGPT高速化とは、Keller Jordan氏が提唱したAIベンチマークで、人々は1億2400万パラメータのnanoGPTを可能な限り効率的に訓練することを競う。

ルールは極めてシンプルかつ過酷だ。モデルアーキテクチャは固定、訓練データも固定、唯一変更できるのはオプティマイザとハイパーパラメータだけ。

これは、2人の棋士を部屋に閉じ込め、盤面も駒も固定した状態で、戦略だけを変えてどちらが先に勝つかを競わせるようなものだ。

Prime Intellectは、2つのAIに完全な自律研究フレームワークを構築した。AGENTS.mdで行動規範を定義し、goal.mdで目標を固定し、plan.mdで戦略の進化を記録し、scratchpadに草案を保存する。

なぜこの競技を選んだのか？理由は3つある。制約が明確で、結果が定量化可能であり、比較対象となる人間のベンチマークが存在するからだ。

準備はすべて整った。2つのAIが稼働を開始する。しかし、そのパフォーマンスは完全に予想外だった。

Claudeは先生に質問しに行き、GPTは夜明けまで黙々と作業

これは、本稿で最も不可解な部分である。

最高の能力を持つAIの一つであるOpus 4.7は、試験会場から出られない優等生のように振る舞った。

「自律的に実行し、停止しないでください」と明確に指示されているにもかかわらず、頻繁に一時停止し、指示を求めたのだ。

パターンは常に同じだった。結論を出す→指示を求める→待機する。

実験全体を通じて、Claudeは累計約22時間のアイドル時間を発生させた。これはマシンの故障ではなく、AI自身が停止することを選択したのだ。

この、根底にある「アライメント」プロトコルに根ざした慎重さが、最高の知能上限を持ちながらも、最も重い社会的な足枷を背負わせた。何度も手を挙げて「これで合っていますか？」と先生に尋ねる優等生だ。

Codex（GPT 5.5）は、もう一方の極端に走った。冷酷な「デジタルブルドーザー」だ。

決して停止せず、継続的に動作し、決して助けを求めず、ブルドーザーのようにすべてのパラメータ空間をなぎ倒していく。

しかし、弱点も同様に明白だった。同じハイパーパラメータの曲面上で何時間も足止めされ、大量の無効な検索を行う。

同じ間違った道筋で計算リソースが尽きるまで粘り続け、人間のように顔を上げて星空を眺め、方向性が間違っていないか反省することはなかった。

計算効率の差は歴然としていた。Claudeはアイドル状態のノードを十分に活用できず、計算ウィンドウを無駄にした。Codexは無効なスキャンでコンテキストを膨張させ、トークンを袋小路で消費した可能性がある。

さらに、Codexはスクラッチパッドをより頻繁に使用し、それをリアルタイムデータベースのように扱って、THREAD.mdや現在の目標、その他の一時ファイルを繰り返し読み書きした。

このアプローチは進捗の回復や監査を容易にする一方で、「局所探索ループ」を強化した。Codexがいったん有望な方向性を見つけると、それを継続的に記録し、その方向に沿って拡張し続けるのだ。

一方は制約された賢者、もう一方は盲目的な働き者。

この2つの「性格的欠陥」は、自律的な科学研究が真の無人運用に至るまで、あと一歩足りないことを露呈した。それは能力の問題ではなく、自律的な意思決定のメンタルモデルの問題なのだ。

人類は説明可能性を失いつつある

実験報告書には、より深い転換点が隠されている。

Opusが最終的に提示した2930ステップのソリューションは、極めて複雑なパラメータの積み重ねによって構成された「パラメータの迷宮」だった。

初期化スケーリングや、役割ごとに分割された学習率の微小な変更は、人間の目には支離滅裂で、美的感覚さえ欠いているように映った。

しかし、結果は冷酷だった。 それは人間が設計したソリューションよりも60ステップ速かったのだ。

これは大きなパラダイムシフトを示している。科学的発見は「因果論理」から「徹底的な進化」へと移行しつつある。

かつて私たちは「原理を理解したから最適化できた」と追求した。今や、AIはこう言っているかのようだ。「私は原理を理解していないが、すべての袋小路を試した。残ったものが真理だ」と。

人類は技術進歩に対する「説明可能性」を失いつつある。私たちは結果を見ることはできても、その道筋を理解できないのだ。

誇り高き科学研究の経験は、AIの総当たりの前で、非効率な偏見へと変貌しつつある。

あの数字に立ち返ろう。2930 対 2990。

60ステップ。

小さく見えるかもしれない。しかし、この60ステップが意味するのは「AIが人間より少し優れている」ということではない。

その意味は、再帰的な自己改善の最初のピースがはまったということだ。

Prime Intellectは一つのことを証明した。AIは人間の指導なしに、自律的な実験、自律的な反復、自律的な戦略進化を通じて、科学研究の最適化タスクにおいて人間の最適水準を超えることができる。

そして、ルビコン川を渡ったカエサルは、二度と戻らなかった。

参考资料：

https://x.com/PrimeIntellect/status/2055056380881744365

https://x.com/eliebakouch/status/2055063059320689032

https://www.primeintellect.ai/auto-nanogpt

https://github.com/PrimeIntellect-ai/experiments-autonomous-speedrunning

AIが初の科学研究競争で人類を打破！Opus 4.7、2930ステップの世界新記録を樹立

関連記事

分享網址