AI分野の発展は、将来の機械が自己改善を実現できるかどうかにかかっている。1966年、イギリスの数学者I・J・グッドは次のように記している。
「超知能マシンは、より優れたマシンを設計できる。その後、疑いなく『知能爆発』が起こり、人間の知能ははるか後方に取り残されるだろう」
研究者たちは何十年もの間、この「再帰的自己改善」(RSI)に期待しつつも、警戒してきた。そして今、AIの能力が急速に進歩するにつれ、ある疑問が現実味を帯び始めている。このプロセスは、すでに始まっているのだろうか?
しかし、RSIという言葉自体が非常に曖昧だ。
ある人々はこれを規制推進のための警鐘として使い、また別の人々はマーケティングのキャッチフレーズとして扱う。完全に自律したクローズドなシステムを意味すると考える人がいる一方で、「技術が技術の製造を支援する」だけで、ある種の自己改善とみなす人もいる。
最も安全な理解方法は、おそらくこれを連続的なスペクトラムとして捉えることだろう。
最も厳密な定義では、RSIは出力結果だけでなく、「自身の改善プロセスそのもの」を改善できるシステムを指す。つまり、人間の介入を一切必要とせずに、自らアイデアを提案し、結果を評価し、手法を修正できるものだ。この基準に照らせば、今日のほとんどのAIシステムはまだ基準に達していない。確かに、より優れたAIの構築を支援することはできているが、目標を設定し、成功基準を定義し、どの修正を保持すべきかを判断するのは依然として人間に依存している。
真の問題は、「自己改善がすでに存在するか」ではなく、「この閉ループが、一体どこまで閉じているのか」だ。
自己改善への階段
実際には、研究者たちは何年も前からRSIへの道筋を敷いてきた。
機械学習アルゴリズムは、プログラムのパラメータを自動調整できるようになって久しい。進化的アルゴリズムは、設計案を絶えず生成、選別、反復することができる。過去10年間では、AutoMLがニューラルネットワークの構造設計、トレーニング、評価の一部プロセスを自動化し始めた。
そして今日、OpenAIのGPT、Google DeepMindのGemini、AnthropicのClaude、xAIのGrokといった大規模言語モデルが、このトレンドをさらに推し進めている。これらのモデルの最も重要な用途の一つが、コードを書くことだ。それも、次世代モデルを生成するためのコードである。
今年2月、OpenAIはGPT-5.3-Codexがすでに自社の開発プロセスにおいて、トレーニングのデバッグ支援、デプロイメント管理、評価結果の分析といった重要な役割を果たしていると発表した。同時期にAnthropicも、同社のコードの大部分がClaude Codeによって書かれるようになったと主張している。それにもかかわらず、これらのシステムは依然としてプロセス全体を指揮し、検証するために人間を必要としている。
2025年、Google DeepMindは「科学的およびアルゴリズム的発見のためのコーディングエージェント」であるAlphaEvolveというシステムを公開した。これは、大規模言語モデルを利用して、ニューラルネットワーク構造の最適化、データセンターのスケジューリング、チップ設計などの解空間の探索を誘導する。依然として人間が問題と評価基準を定義する必要はあるものの、アルゴリズムのブレークスルーは、そのたびにAI研究開発そのものの能力を逆に向上させている。
AlphaEvolveの高次元な概要。
AlphaEvolveに参加したコンピューター科学者Matej Balogは、「これは高度に協調的なプロセスです」と評価する。多くの場合、人間の研究者はAIが発見した新しいソリューションから逆にインスピレーションを受けるという。
一方、DeepMindの初期のチップ設計システムAlphaChipの共同責任者は、AIチップの設計にAIを活用することを目指す新会社Rircursive Intelligenceを設立した。
共同創業者のAzalia Mirhoseiniは、従来1年から2年かかるチップ設計サイクルを「数日」に短縮したいと語る。そのビジョンは3つの段階に分かれる。
第一段階:AIが人間の設計を支援。
第二段階:専門チームを持たない企業向けに、AIが自動でチップ開発を完了。
第三段階:より優れたAIチップをAIで設計し、そのチップを使ってさらに強力なAIをトレーニングする。
もっとも、研究チームはこのプロセスにも人間の監督が残ることを強調している。
システムが自らの振る舞いを修正することを直接狙った研究もある。例えば昨年、ブリティッシュコロンビア大学とSakana AIは、Darwin Gödel Machines(DGM)を発表した。これは、LLMベースのコードエージェントを進化的アルゴリズムで継続的に改善するシステムだ。
https://spectrum.ieee.org/evolutionary-ai-coding-agents
DGMとスーパーエージェント。
これらはまだ基盤となる言語モデル自体を修正することはできないが、自己改善はますます得意になっている。さらに進んだバージョンでは、すでに「自己改善メカニズム」そのものを修正し始めている。
同じ研究チームは後に、科学研究のループ全体を自動化しようとする試みとして、「AI Scientist」を開発した。これは、コードだけではなく、実験、評価、さらには知識生産そのものの自動化を意味する。
知能爆発には依然として大きな壁が立ちはだかる
しかし、誰もが「シンギュラリティ」が目前に迫っていると考えているわけではない。
多くの研究者は、今日のAIはまだ、アイデアの生成、コードの実装、結果の評価といったステップを「そこそこうまく」こなしているに過ぎず、完全に自律しているとは到底言えないと指摘する。
Nathan Lambertは最近、未来の自己改善は「再帰的」ではなく、「損失のある自己改善」(lossy self-improvement)になるだろうと提唱した。システムが複雑になるにつれて、摩擦や調整コストが徐々にフライホイール全体の回転を遅くするという。
https://www.interconnects.ai/p/lossy-self-improvement
もう一つの現実的な問題はコストだ。今日の最先端AIシステムの開発コストは数十億ドルに達しており、それほど高価なシステムを完全にAIの自律的な運用に委ねたいと考える企業はどこにもない。
さらに、AIがより優れたソフトウェアを設計できたとしても、それが現実世界の複雑な生産システムをすぐに掌握できることを意味するわけではない。完全なRSIを実現するには、AIがチップやアルゴリズムを設計するだけでなく、データセンターの建設、発電システムの運用、鉱物の採掘、ロボット生産チェーンの管理まで必要になるかもしれない。
そして、これらの能力は現在もなお、人間社会と産業インフラに深く依存しているのだ。
自己改善型AIと協調型AI。
「AIのカンブリア爆発」
一部の研究者は、RSIに対する人々の想像の仕方そのものが間違っている可能性があると考えている。
これについて多くの人は、単一でますます強力になる超AIを想像するが、現実は生物の進化により近いかもしれない。それは、ある種の人工生命形態のカンブリア爆発のようなものになる可能性がある。つまり、多種多様なAIエージェントが同時に出現し、独自の生態系、文化、経済システムを持つようになるのだ。
しかし、人類は科学研究のループから外されるのだろうか?
おそらく、しかしもっとゆっくりとだろう。
人間の研究者は、まず低レイヤーの作業から退き、自ら細部をデバッグする代わりに、教授やチームリーダーのように研究方向の選択を担当するようになる。その後、人間はプロジェクトマネージャーやCEOのように、よりマクロな目標を策定する役割になる。さらに進むと、人間の役割は徐々に監督者へと変わっていくだろう。
しかし、AIがガンを治癒できるように進化した時、学者たちは喜んで、この愛すべき仕事を手放すことになるのかもしれない。