博士の80時間の徹夜作業をCodexが2時間で完了！科研のシンギュラリティ到来

科研界の「シンギュラリティ」が、誰もが予想していたよりもはるかに近づいている。

最近、Codexの「目標モード（Goal Mode）」に関する実験が学界に衝撃を与えた。CodexはAIによる研究効率を40倍も向上させることができるのだ。

Agentic AIエンジニアのDan McAteer氏が最近X（旧Twitter）上で公開した実験によると、OpenAI CodexのGoal Modeを使用して、機械的解釈可能性（Mechanistic Interpretability）の研究タスクを実行したという。

GPT-5.5自身の推定では、このタスクは博士課程の学生が完了するのに約80時間かかるとされていた。しかし、実際の操作では、AIはわずか1時間56分でタスクを完全に完了した。

表面的な効率は約40倍も向上している！

彼が使用したのは、Codexに内蔵されたスキル /goal である。

そして著者はこう考えている。

/goal + gpt-5.5 高精度 + 高速モードは、現在利用可能な最も効率的なAIエージェント構成である

つまり、モデルに自ら目標を設定させることであり、その鍵となるのは、AIが作成するプロンプトが、おそらく人間のものよりも優れているという点だ。

これはもはや単なる「効率化」ではない。これは根本的な「次元の異なる破壊」である。

研究期間が「週」単位から「時間」単位へと短縮され、AIが自ら実験目標（/goal）を作成し始めたとき、我々は冷酷な現実を認めざるを得ない。

「知能爆発」の曲線は既に現れており、AIの自己反復速度は人間の制御リズムから外れつつあるのだ！

Codex /goal モードとは一体何か？

まず、この実験がどのように行われたかを見てみよう。

実験の発起人はDan McAteer氏。Agentic AIエンジニアで、元Amp Codeのエンジニアである。

彼はX上で、AIエージェントのエンジニアリングに関する具体的な実践を長年共有している。

彼の実験設定は非常にシンプルだ——

ツール：OpenAI Codex /goal コマンド
モデル：GPT-5.5 high
モード：fast mode
タスク：機械的解釈可能性（Mechanistic Interpretability）に関する研究タスク

彼自身によるこの構成の評価は、「現在利用可能な最も効率的なAIエージェント構成」というものだ。

Codex /goal が重要な理由

この件で本当に注目すべきは、Codex /goalというモードそのものである。

OpenAI CodexのエンジニアPhilip Corey氏の説明によると、「/goalは我々がRalph Loopを実装したものだ。目標を複数回の対話にわたって持続させ、達成するか失敗するまで停止させない」という。

簡単に言えば、通常のCodex呼び出しは、あなたが一言指示し、AIが一手を実行し、一言返すというものだ。

Codex /goalは、あなたが一つの目標を伝え、AIが自らサブタスクに分解し、自ら実行し、自らレビューし、目標達成または失敗まで自ら継続する。

これは、対話型AIから目標駆動型AIへの工学的な切り替えである。

機械的解釈可能性のような研究タスクにとって、/goalモードは非常に親和性が高い。

研究プロセス自体が、仮説の提起→実験の設計→実行→結果の確認→仮説の修正→再実験というループであり、自己循環可能なエージェントに投入するのにまさに適している。

McAteer氏の実験が真に証明したのは、Codex /goal モードが研究型のループタスクにおいて利用可能であることだ。研究者を代替するのではなく、研究者の反復操作部分を代替するのだ。

この能力が安定して提供されれば、AI研究そのものに対して非常に直接的なレバレッジ効果をもたらす。

それは、AIラボ内部のAI研究者が、将来的に、トレーニングデータの準備、実験設定、アブレーション研究、可視化生成、初期結果分析といった反復作業をAIエージェントを使って行えるようになることを意味する。

これはまさに、AnthropicやOpenAIが最近繰り返し述べている「AIがAI研究そのものを加速している」という状況である。

博士の80時間 vs AIの2時間

従来の研究環境において、博士課程の学生の日常は、文献調査、モデル構築、コードのデバッグ、結果の検証、報告書の作成である。

このプロセスが長引くのは、人間の脳が複雑な論理と膨大なデータを処理する際に物理的な限界があるからだ。

しかし、Codexによるこの実験は、その認識を完全に打ち砕いた。

「/goal + GPT-5.5 High + Fast Mode」という最強のエージェント構成の下で、AIはもはや「指示を聞く」ツールではなく、「戦略を立てる」独立した研究者となった。

AIは複雑な自然言語オートエンコーダ（NLA）の実験要件を理解し、自律的にタスクを分解し、2時間足らずで、人間のエリートが2週間かけてようやく完了する作業を終えた。

これは、人間の研究への参入障壁が完全に崩壊したことを意味する。かつては数年にわたる懸命な学習で得られた専門的な分析能力が、今やアルゴリズムによってモジュール化されつつある。

しかも、自律型AI研究者は既に到来している！

OpenAIが以前に設定した目標は、2026年末までにAIによる自律的な研究を実現することだった。

しかし、現在の実験の進捗状況から見ると、2026年は始まりではなく、人類が研究のバトンを完全に引き渡す終点となるかもしれない。

再帰的自己改善が創発している

Codexの40倍速実験が目を引く個別事例だとしたら、さらに人を落ち着かなくさせるのは、「再帰的自己改善」に関する証拠が集中的に現れていることだ。

5月7日、Axiosの報道によると、Anthropicの共同創業者Jack Clark氏は公の場で一つの確率を示した。

2028年末までに、AIが完全な再帰的自己改善を達成する確率は60%を超えるという。

Sakana AIとブリティッシュコロンビア大学（UBC）の研究チームは今年、Darwin Gödel Machineを作り出した。これは、自身のソースコードを書き換えて能力を向上させるプログラミングエージェントである。

論文アドレス：https://arxiv.org/abs/2505.22954

SWE-benchにおいて、そのスコアは人間の介入なしに20.0%から50.0%へと自己改善した。

同じチームのAI Scientistプロジェクトは今年3月にNature誌に掲載された。

これは、研究アイデアの創出、コードを書いて実験を行う、完全な論文の執筆、ピアレビューの実施を自ら行うことができる。

一連の研究パイプライン全体を、AIが最初から最後まで自律的に完了する。

別の確かなデータを見てみよう。GPQA Diamondは、博士号を持つ専門家が出題する科学質疑応答ベンチマークである。2023年11月時点のGPT-4のスコアは39%だった。その分野の人間の専門家の平均レベルは約65%である。

2026年4月、最先端モデルが一斉にそのラインを超えた。Gemini 3.1 Proは94.3%、Claude Opus 4.7は94.2%を獲得した。

全ての最先端モデルが、人間の博士号専門家をはるかに引き離したのだ。

SWE-benchの軌跡は、加速の度合いをさらに如実に示している。

2023年末、Claude 2の正答率は2%だった。今では93.9%である。

2年半で、2%から93.9%へと急上昇したのだ。

この曲線を描けば、高校数学を学んだ者なら誰でもその形状に見覚えがあるだろう。

明らかに、再帰的自己改善（RSI）のプロセスは既に始まっている。

AIがこの40倍の効率で自らの基盤コードを書き換え、自らのアーキテクチャを最適化し始めれば、知能の成長はもはや線形ではなく、垂直に上昇するだろう。

AGIは既に実現している、業界全体があなたに「ガスライティング」を仕掛けている

実は、今年2月には既に、異なる最先端分野から集まった4人の学者が、「今年最も不安にさせる」論文と称される共同論文を発表していた。『AGIのケーススタディ：今日のLLMは基準を満たしている』である。

この4人の著者は、それぞれ現代の知性の4つの柱、すなわち哲学、機械学習、言語学、認知科学を代表している。彼らは、身の毛もよだつ一致した結論に達した。

2022年以前の定義に従えば、AGIは実はとっくに実現していたのだ。

それが今もって誰にも認められていないのは、AI業界全体が世間に対して集団的な「ガスライティング（心理操作）」を行っているからだ。

論文は、人間がAIの台頭に直面した際に、極めて強い「心理的防衛機制」を示していると指摘する。

2022年以前は、チューリングテストに合格し、分野を超えてタスクを処理できれば、それがAGIとされていた。

ChatGPTの登場後は、「それだけでは不十分で、完全な推論能力、身体性（具現化）、自己意識が必要だ」と言われるようになった。

モデルが一つの関門を突破するたびに、人間は即興で新たな、掴みどころのない指標を敷居として追加し、ゴールポストを動かし続けているのだ。

問題は、もしAGIが既に存在しているのなら、現在の業界の論理は極めて不条理なものになるということだ。

OpenAIはまだ「AGIを構築する」と称して400億ドルを調達しており、Anthropicは新モデルをリリースするたびに「AGIに近い」未来予想として包装している。

論文は痛烈に暴いている。大手企業は、「既に販売済みのもの」を「これから研究開発される」奇跡のように偽装し、それによって継続的な資金と権力を得ているのだ。

知能爆発の前夜

今、我々は極めて奇妙な節目に立っている。

研究室では、AIが既に40倍速で機械的解釈可能性の研究を行い、自身のためのコードを書いている。

市場では、計算能力が依然として基軸通貨であり、NVIDIAのBlackwellチップは奪い合いとなっている。一つ一つのチップが、そのシンギュラリティの到来を加速させている。

しかし社会心理においては、大衆は未だに「復唱機械」や「確率予測」といった時代遅れの言葉で自らを慰めている。

もし40倍速の研究効率が常態化すれば、人類の文明が数千年かけて蓄積した知識の総量を、AIはわずか数ヶ月で倍増させるかもしれない。

AIが博士レベルのタスクを単独で完了できるようになったとき、我々の既存の教育システム、職位評価、さらには「専門家」という言葉の意味そのものが、存亡の危機に直面するだろう。

コペルニクスが地球を宇宙の中心から外したように、今のAIは人類を「唯一の知的生命体」という聖域から引きずり下ろしつつある。

今、この知能爆発と呼ばれる戦争に硝煙はない。

我々はこの新しい知性種との共生の術を学ぶか、あるいは、それが40倍の速度で我々を塵の中に置き去りにするのを、ただ指をくわえて見ているしかない。

参考資料：

https://x.com/daniel_mac8/status/2054192370049241203

博士の80時間の徹夜作業をCodexが2時間で完了！科研のシンギュラリティ到来

関連記事

分享網址