Meta が Neural Computers に賭ける:次世代のコンピュータとは、モデルそのものなのか?

画像

私たちは、機械そのものが動作することを学ぶようになることを期待し始めている。

画像

もしあなたが「AI は最終的に一種のコンピュータになるだろう」と考えたことがあるなら、この記事はあなたのために書かれています。

過去数十年間、コンピュータは人間がタスクを完了するための重要な媒体となってきました。ここ数年で、AI もその座に就き始めています。もはや質問に答えるだけでなく、ツールを呼び出し、インターフェースを操作し、実際のワークフローに参加し始めています。

問題は変化しました。私たちは AI にコンピュータを使うことを期待しているのか、それともコンピュータそのものになることを期待しているのでしょうか?

Neural Computer(神経コンピュータ、以下 NC)が議論しているのはまさにこの問題です。モデルが、本来機械の動作そのものに属する責任の一部を担えるようになるかどうかです。

ここで言う Neural Computer は、Alex Graves らによる NTM / DNC の路線 [1][2] のみを指すわけではなく、最近の Taalas のような新しいハードウェアや、特定のアプリケーションについて語っているのでもありません。

本稿で議論したいのは、学習する機械(learning machine)が「コンピュータを使う」存在から「コンピュータそのもの」へと進化しうるかどうかということです。

したがって、以下は Neural Computer の目標ではありません。例えば、より強力なエージェント、コンピュータ環境内でのワールドモデル、従来のコンピュータの上に追加されるもう一つのレイヤーとしての知能などです。

NC が関心を持っているのは、これまでプログラムスタック、ツールチェーン、コントロールレイヤーが担っていたシステム責任の一部が、徐々にモデルが実際に依存するランタイム(Runtime)内部へと移行するかどうかです。

この考えは、多くの人の心に浮かんだことがあるでしょう。私はこれを「前コンセンサス(前合意)」と呼ぶことにします。

主な観点は以下の通りです。

  • Neural Computer(NC)が議論したいのは、モデルが本来機械そのものの動作責任の一部を担い始めるかどうかです。

  • 従来のコンピュータは明示的なプログラムの周りに構築され、Agent はタスクの周りに、World Model は環境の周りに構築されますが、NC はランタイム(Runtime)の周りに構築されます。

  • Completely Neural Computer(完全神経コンピュータ、CNC)は NC の完全な状態です。

  • 現在の一部のプロトタイプは、すでに初期のランタイム原語の萌芽を示し始めています。

  • もし能力がランタイム内部に入り込み、そこでインストール、再利用、ガバナンスされるようになれば、Neural Computer は「コンピュータ」という言葉を再定義する可能性があります。

画像

論文アドレス:

https://arxiv.org/abs/2604.06425

GitHub アドレス:

https://github.com/metauto-ai/NeuralComputer

画像

なぜ今なのか:「新しい機械の形態」が現れつつある

現在、3 つの事象が同時に起こっています。

第一に、エージェント(agent)が物事をより巧くこなせるようになっています。

2023 年の MetaGPT(「古参」のコーディングエージェントの一つ)[3] がようやく数百行のコードを書ける程度だったのに対し、2025 年には Cursor、Codex、Claude Code がプログラマーの生産性ツールとして標準装備されるようになり、そして今日では OpenClaw [4] が一般の注目を集めるまでになりました。

人々が関心を持っているのは、エージェントがたまに一つのタスクを完了できるかどうかではなく、実際の生産現場や日常生活に入り込み、多様な物事を安定的に処理できるかどうかです。

エージェントにとって、現在より関心のあるボトルネックは以下の通りです。1)長期的なタスクにおいていかに安定性を保つか、2)いかに能力を蓄積するか、3)いかにプロセスを持続的に再利用するかです。

当面の解決策は、主にエージェントの足場(スキャフォールド、またはハーネス)側にさらに機能を追加することです。より強力な記憶、より長いワークフロー、より安定した行動の閉ループを用いて、タスク完了率を可能な限り高めようとしています。

さらに一歩進めば、より急進的な方向として、再帰的自己改善があります。モデルが次世代のモデルを訓練し、エージェントが自分自身を書き換え続けるというものです [5]。

画像
画像

エージェントはプロトタイプ実験から、専門的な生産性ツールへ、そして一般向けの日常的インフラへと進化しています。[3][4]

第二に、ワールドモデル(world model)が動的な環境のモデリングをますます得意にするようになっています。

この 1 年、GameNGen や Genie 2/3 などのプロジェクトにおけるワールドモデルの実験から、モデルは現在の状態を表現するだけでなく、内部で「次に何が起こるか」に関する動的な構造を維持できると信じる人が増えています。

元々それは環境の進化をシミュレートするものでした。現在注目すべきは、この能力がいくつかの実際のクローズドループ(閉じた系)に入り込んでいることです。

この点は、現実世界において低コストで反復的に収集することが困難なコーナーケース(特殊事例)において特に顕著です。これらのシナリオでは、ロールアウト(rollout)が予測、計画、制御、訓練に直接使用されています。

この流れに沿って見ると、Jürgen Schmidhuber が 1990 年に提唱した Making the World Differentiable [6] から、2018 年の『World Models』[7] を経て、現在 Waymo が自動運転のシミュレーションと訓練にワールドモデルを活用するに至るまで [8][9]、この路線は自動運転シミュレーション、訓練、対話型環境生成といった具体的なシステム要素へと入り込み始めています。

これにより、ワールドモデルは単に「世界を表現する」だけでなく、「世界を展開し」、「世界に介入する」方向へと進み始めています。

ワールドモデルにとって、より得意としているのは、いくつかの可能な未来の状態を先生成し、それらのロールアウトに基づいて計画、選択、行動の閉ループを行うことです。

現在、この路線はいくつかの明確な方向に分かれています。自動運転やフィジカル AI においては、主にシミュレーションおよび合成データエンジンの役割を果たし、実世界では高価で危険、あるいは希少なデータを補完するために使用されます。

例えば Waymo World Model や NVIDIA Cosmos [8][10] などです。空間的知能(spatial intelligence)においては、生成可能で、没入可能で、持続的に相互作用可能な 3D 世界を追求しており、World Labs の Marble [11] などがその例です。

よりリアルタイムな対話型世界に向かう方向では、生成モデルは静的なコンテンツ生成から、制御可能、対話可能、探索可能な環境生成へと移行しています。代表的な例として、DOOM のリアルタイムな神経シミュレーションである GameNGen [12] や、Google DeepMind の Genie 2 / Genie 3 [13][14] などがあります。

これらの方向性は分化していますが、本質的には同じ種類の問題、すなわち「環境が時間、動作、制約に従って進化する規律を、いかにシステム内部に学習させるか」という問題を解決しようとするものです。

画像
画像
画像

1990 年から 2018 年、そして現在へ:ワールドモデルは初期の微分可能世界モデリングの構想から、Waymo World Model に代表される自動運転シミュレーションおよび訓練へと進化しました [6][7][8][9]

第三に、AI 時代における伝統的なコンピュータの構造的な摩擦がますます顕著になっています。

今日、ますます多くのタスクが決定論的な求解からオープンエンドな要求へ、一度きりの入出力から長期的な対話へ、明確なプログラムから、曖昧な目標を持ち継続的な調整を必要とするプロセスへと変化しています。

そのため、伝統的なソフトウェアスタックは重たく見えてきています。安定性という利点こそあれ、自然言語、デモンストレーション、インターフェース操作、弱い制約が主体となる多くのシナリオでは、これらのタスクを組織化し駆動するコストは高まる一方です。

伝統的なコンピュータそのものも、AI のために基盤を書き換えつつあります。チップ、コンパイラ、メモリシステム、ソフトウェアスタックは、よりモデルフレンドリーになりつつあります。

しかし、これらの変化の多くは依然として既存の計算パラダイム内部で起こっています。古い機械を AI に適合させてはいますが、「機械とは何か」という定義を書き換えるまでには至っていません。

これらの変化の中で、Taalas のような路線はこれをさらに一歩押し進め、特定のモデルを一種のデプロイメントユニットとして扱い始めています。モデルはもはや単に機械上で動作する負荷ではなく、「モデルに合わせてハードウェアを編成する」という境界線に近づきつつあります [15]。

しかし少なくとも現時点では、これはデプロイメントレイヤーの変化に過ぎず、汎用的な機械の形態とまでは言えません。

これら 3 つの変化は、実は同じ問題を指し示しています。

もしエージェントがより巧く物事をこなし、ワールドモデルがより推論を得意とし、伝統的なコンピュータが AI のために基盤を書き換えているなら、実行、ロールアウト、能力の蓄積を一台の学習する機械(learning machine)の中に収める新しいランタイムは現れないのでしょうか?

人間と機械の関係という観点から見れば、ここには主要な関係の移行が対応しています。伝統的な計算では、人間は主にコンピュータと対話していました。エージェントの時代には、人間はよりエージェントと対話し、エージェントがコンピュータを呼び出して物事を成し遂げるようになります。

ここでワールドモデルは、より並列的な予測レイヤーとして機能します。人間にもエージェントにも役立ちますが、それ自体が物事を成し遂げる責任は負いません。

さらに一歩進めば、NC が変えようとしているのは機械そのものです。現在、コンピュータ、エージェント、ワールドモデルの間に分散している責務を、一台の学習する機械内部に統合しようとするのです。

その時、人間が直面するのはもはや「エージェントが自分に代わってコンピュータを呼び出す」ことではなく、このような神経コンピュータを直接使用することになるでしょう。

画像

人間と機械の関係はいかに変化するか:過去には Human → Computer であったものが、エージェント時代には Human → Agent → Computer となり、ワールドモデルはより並列的な予測レイヤーとして現れます。もし NC が成立すれば、人間はより直接的に Neural Computer と対面することになります。

これはまた、対話そのものが「プログラミング」の意味合いを帯び始めることを意味します。

今日、自然言語の指示、マウスやキーボードの軌跡、画面の変化、タスクのフィードバックは、単なるプロセスログに過ぎません。しかし NC の設定では、それらは将来の行動を形作る材料へと変わるのです。

今日、私たちは主にコードを通じて能力をインストールしています。しかし今後は、デモンストレーション、対話の軌跡、制約そのものが、ランタイムに能力を取り込む入り口となる可能性があります。

画像

Neural Computer とは何か、何が真に成立したと言えるのか?

まずこの表をご覧ください。これは、伝統的なコンピュータ、エージェント、ワールドモデル、Neural Computer を同じ「物差し」で比較したものです。

画像

この表を見れば、違いと関連性は明白です。それぞれが何を中心に組織され、真実の源(source of truth)がどこにあり、どのような責務を担っているかがわかります。

次に、もし NC がすでに存在すると仮定して、人間がそれをどう使うか想像してみましょう。

伝統的なコンピュータではソフトウェアをインストールし、エージェントではタスクを記述します。NC では、機械に能力をインストールし、その能力が将来も機械内部に残り続けることを期待するという行為に近くなります。

正因为如此、ここで言う ランタイム(Runtime) とは、あるソフトウェアコンポーネントのことではなく、システムがいかにして同一の機械であり続けるかを支えるレイヤーを指します。何が残り、何が状態を前進させ、どの入力が真に機械を変え、どの変化が機械の書き換えに等しいのかを定義するものです。

NC にとって重要なのは、外部ツールをもう一段重ねることではなく、能力と状態が真に同一の学習済みランタイム内部に入り込めるかどうかです。

もし成立するとすれば、機械はどのような姿になるのか?

第一に、今日のようなファウンデーションモデルの路線を延々と辿り続けるとは限りません。

今日、より自然な発想は、モデルを 1B から 10T クラスの高密度、あるいは MoE(Mixture of Experts)のファウンデーションモデルへと巨大化・強化することです。多くの作業が実際にその方向へ進んでいます。

しかし私の考えでは、NC が真に成熟した暁には、その基盤は別の方向へ向かうでしょう。10T から 1000T クラスで、よりスパース(疎)で、よりアドレス可能で、わずかにサーキット(回路)の気配を帯びたものになるはずです。

将来の CNC(完全神経コンピュータ)は、連続した表現が巨大化した塊ではなく、ルーティング可能で、組み合わせ可能で、局所的な検証がより容易な機械の基盤に似ているかもしれません。

それは動物の知覚や人間の脳を模倣する必要性はなく、むしろ NAND のような気質を持つニューラルネットワーク、つまり離散的で、スパースで、局所的に検証可能なものに近づく可能性があります。

少なくとも現時点では、この道筋は体系的に展開されていません。

OpenAI が最近ウェイトスパースなトランスフォーマーで行っている作業はその兆候の一つに過ぎず、重要なのはその背後に、AI においてより古く、より豊かな発想が存在していることです。特に強化学習の分野では、スパースな構造、局所的な分担、ルーティングメカニズムは、システムがいかに学習し、いかに行動かと直接関連しています [16]。

第二に、常にパラメータ全体を書き換えることで自らをアップグレードするわけではありません。

NC が指し示すのは、ランタイムの自己プログラミングと継続的な対話を通じて、機械が内部の能力構造に沿って継続的に自己進化するという別の進化の仕方です。

ユーザーの入力はもはや一度きりの行動をトリガーするだけでなく、徐々にインストール、呼び出し、組み合わせ、そして再利用可能なニューラルルーチン(neural routines)として保持され、将来的に呼び出し可能な内部エグゼキュータ(実行者)さえ形成するようになります。

機能の分担という点では、これはプロセッサというよりは、伝統的なコンピュータの「メモリ」に近いです。アップグレードとは必ずしも機械そのものの全体を書き換えることではなく、これらの新しい構造をアドレス可能で、呼び出し可能で、保持可能な内部状態のレイヤーに安定して書き込むことでもあります。

この道筋を進めば、アップグレードは「より大きなモデルへ乗り換える」ことではなく、機械内部に新しい部品を持続的にインストールすることに似てきます。

数年前の NPI や HyperNetworks も、類似しているが不完全な初期の発想と見なせます。前者は複雑なプログラムを呼び出し可能で組み合わせ可能なサブルーチンに分割しようと試みました [17]。後者は、機械が下流のニューラルモジュールさえ生成し、自身の能力の境界を拡張しうることを示唆しました [18]。

もちろん、私は野心をさらに大きく持ってもよいと考えます。十分に強力な Neural Computer であれば、新しい(サブ)ニューラルネットワークを直接生成し、それらを着脱可能な形で自らの内部に接続することさえ可能でしょう。コードの手書きやコンパイルという仲介を省き、今日のソフトウェアのインストールやアンインストールと同様に自然に行うのです。

第三に、ワールドモデル的なロールアウトをランタイム内部に徐々に取り込む可能性もあります。

その時、ロールアウトは機械の日常的なメカニズムとなり、この自己プログラミングと自己進化の一部となるでしょう。

人間は入力や期待される出力(GT)を与えることも、評価指標を事前に記述することも、あるいはあるラウンドでは何も与えないこともできます。ランタイムは内部で継続的に自己対戦(self-play)、自己テスト、候補のスクリーニングと圧縮を行い、有効な改善を次回の能力更新として蓄積させるのです。

理想的な状態では、人間が眠っている間に、機械は内部で評価、試行錯誤、反復を完了させます。真に残るものは、より多くのコンテキストではなく、内部の能力構造そのものが変化したという事実です。

もちろん、これら全ての前提は、システムを勝手に変化させる放任ではなく、更新経路そのものがガバナンス可能であることです。

このように見ると、機械の形態としての NC の輪郭は比較的明確です。鍵は、能力が真にランタイム内部に入り込み、そこでインストール、再利用、実行、ガバナンスされるかどうかです。

CNC が語るのは、このことが成し遂げられた後の姿(完全体)です。

元の論文の定義によれば、NC のインスタンスが CNC と見なされるには、4 つの条件を同時に満たす必要があります。それは チューリング完全 であり、普遍的にプログラム可能 であり、明示的に再プログラミングされない限り 行動が一貫 しており、伝統的なコンピュータに対する NC のアーキテクチャとプログラミングセマンティクスを体現していることです。

下の表は、元の論文のこれら 4 つの要件をより平易に要約したものです。

画像
画像

論文で実装されたプロトタイプ:何が証明され、何が欠けているのか

私の判断では、Neural Computer が真に形を成すまでには、あと 3 年ほどかかるでしょう。したがって、私が真に想定する Neural Computer と比較すれば、我々の論文での作業はまだ非常に初期の一歩に過ぎません。

今日現在、最も扱いやすい統一された媒体は、ビデオ生成やワールドモデル向けのニューラルネットワークです。まずピクセル、アクション、時間のロールアウトを一つのエンドツーエンドのプロトタイプに統合する必要があり、それが最も近道です。

現在私たちがそれらで検証しているのは、NC の重要な能力の一部に過ぎません。これらは過渡的な実装上の参考例であり、NC の最終構造ではありません。真に CNC へ到達するには、最終的にはより徹底的で、ボトムアップな再構築が必要となるでしょう。

3.1 CLIGen (General): 偽物を以て真に為す「コンピュータ模倣ゲーム」

まずターミナルレンダリングが成立するかどうかを見てみましょう。配色、カーソル、スクロール、TUI、そして全体的なリズム感です。

最初の実験で生成された結果をご覧ください。注意深く見なければ、本物と見間違うほどです。CLIGen (General) にとって、ここでまず言えるのは、ビデオモデルがターミナルレンダリングを十分に本物らしく行えるようになったということです。

画像

主流のビデオモデルは本来、このような文字密度が高く、離散的なレイアウトに強く依存するコンピュータ向けに訓練されたものではありません。しかし、さらなる訓練を経ることで、「コンピュータのための模倣ゲーム(Imitation Game for Computers)」は確かに実現可能となりました。

画像

このグループでまず学習されたのは、ターミナルの最も外側にあるものです。配色がどう変わり、カーソルがどう点滅し、ウィンドウのアスペクト比が安定しているか、長いログがどうスクロールし、フルスクリーンの TUI、プログレスバー、ステータスバーがどう現れるかです。

まず確立されたのも、このターミナルという層の表象とリズムです。前述の言い方を借りれば、ここでまず学習されたのはランタイムの「外見」です。

2025 年 9 月という時点に戻って見れば、この実験結果は驚くべきものです。

ノイズの多い約 1,100 時間のターミナルデータセットを使用しただけで、元々はコンピュータインターフェースをほとんど理解せず、少し小さい文字でさえ生成が難しかった Wan2.1 [31] を、ターミナル表現を安定的に生成できるレベルまで引き上げました。一般的なコマンド、エコー、ログの形態に対しても、相当な浅いレベルでの整合性が見られています。

ビデオ生成にとって、文字密度が高く、変化が速く、点滅があり、自然な動きがほとんどないこの種のシナリオは、最も困難なクラスの一つです。しかし、この結果は当時の多くの人々の予想を上回るものでした。

ここで使用されたのはターミナル分野の一般的なビデオであり、スタイルも多様で、シナリオも雑多です。ターミナルレンダリングがまず確立されたことで、次はコンピュータにおけるより困難なもの、つまり記憶、推論、プログラミング、実行への挑戦が促されます。

3.2 REPL と Math:もはや単に「ターミナルを描く」だけではない

ここで注目すべきは、より堅牢な実行構造です。入力、エンター、エコー、部分的な編集、状態の継続性などです。

ターミナルレンダリングの予備実験の後、より興味深い問題は、ターミナルをアクションによって安定的に駆動される局所的な機械としてテストできるかどうかです。

コマンドを一つ打てばバッファは進むのか、エンターを一度押せばエコーは続くのか、誤入力や修正、再入力の後でも状態は継続できるのか。REPL と Math はここでは同じコインの裏表です。モデルはターミナル内の状態遷移の法則を少しは学習し始めたのかどうか。

画像

現在、焦点はコマンド実行の因果構造に移っています。このグループの訓練データは、よりクリーンで再現可能なスクリプトの軌跡から得られたものです。私たちがスクリプトと Docker 環境を通じてこれらのターミナルビデオを生成し、入力、エンター、エコー、エラー、部分的な編集がより安定したターミナル環境内に収まるようにしました。

この結果から、モデルがコンピュータターミナルの最も基本的な動作法則をいくつか学習し始めたことがわかります。

pwd、date、whoami、echo $HOME、env | head -n 5 といった非常に単純なコマンドにおいて、入力、エンター、エコー、結果の表示はすでに現実にかなり近いレベルで実現されています。異なるコマンドに対してどのような出力形態が現れるべきかも、対応するターミナルシナリオと合致しています。

前のセクションの実験と比較して、コマンドそのものが文字の更新、エコーの生成、局所的な状態の変化を推進できるようになり、ターミナルはその動作様式に従って展開するようになりました。

この線をさらに進めると、モデルは単純な数学的シナリオにおいても何かを掴みかけつつありますが、推論能力そのものはまだ真に解決されていません。

2 桁の足し算という最も基礎的な算術レベルに至っても、現在のモデルはまだ安定的に正解を導き出すのが困難です。

ここにはもちろんデータ量の問題があります。安定的な推論を引き出すために、十分でかつ堅牢な訓練データをモデルに与えきれていません。しかし、より根本的な別の可能性もあります。現在の DiT ベースのビデオモデルで安定的な推論を担わせること自体が、偽命題(あり得ない話)である可能性です。

当面のより慎重な判断としては、ターミナル実行という層はすでに確立されつつあるが、記号的推論という層はまだ通過していない、ということです。

3.3 GUIWorld:インターフェース操作も成立し始める

最後に、アクションが実際にインターフェースの状態を推進できるかを見てみましょう。クリック、ホバー、入力、ウィンドウのフィードバックが閉じるかどうかです。

CLI の段階で、おおよそのことは見えてきました。ビデオモデルのレンダリング能力は強く、基礎的な記憶と実行能力も現れ始めていますが、最も底辺にある記号的推論はまだ十分ではありません。

GUIWorld に来ると、焦点は再び、インターフェースの状態がアクションによって推進されるかどうかに移ります。

画像
画像

GUIWorld は問題を CLI から GUI へと押し上げました。

ここに来ると、もはやテキストやコマンドが主ではなく、本物のマウスとキーボードのアクションが問題となります。マウスは正確な位置に落ち、ホバーすればフィードバックがあり、クリックすればボタン、ドロップダウン、モーダルウィンドウ、入力ボックスが実際に状態を変え、キーボード入力も 1 フレームずつインターフェースを前進させなければなりません。

対応するデータは、かなり完全な対話用リグ(rig)です。私たちはまず Ubuntu 22.04 の XFCE4 デスクトップで 1024×768、15 FPS の環境を固定し、デスクトップ全体の動作、録画、アクション再生のフローを構築しました。これにより、すべてのクリック、ホバー、入力、インターフェースの変化を安定的に記録できるようになりました。

データは 3 つに分類されます。約 1000 時間のランダムスロー、約 400 時間のランダムファスト、そして Claude CUA によって駆動された約 110 時間の実際の対話型ゴールディレクテッド軌跡です。

前者 2 つは、マウスの加速度、停止、ホバー、ウィンドウ切り替えなどのオープンワールドノイズがモデルにどう影響するかを試すものです。後者はより明確なアクションとレスポンスのペアを提供し、モデルがこのアクションを行った後、インターフェースが適切に変化するトリガーを学習したかどうかを見極めます。

モデル側では、単一のアクション注入方式のみを試したのではなく、4 つのバージョンを並行して作成しました。それらの核心的な違いは「アクションを追加したかどうか」ではなく、アクションがどの程度の深さのレイヤーでバックボーンに入り、状態の進化に参加するかにあります。

論文の Figure 7 は、この 4 つの方式を非常に明確に描いています。

画像

Figure 7: GUI アクションを Diffusion Transformer に注入する 4 つの方法。これは上記のモデル 1 からモデル 4 に対応します。

画像

最終的な実験結果から(詳細は省略します)、4 つのモデル設計の中で、モデル 4 の総合結果が最も良好でした。

この結果は、GUI のような細粒度で、時間的連続性が強く、局所的な相互作用が強い環境においては、アクションを直接ブロック内部に打ち込むことで、モデルが「アクションの後にインターフェースがどう進行するか」をバックボーンに学習させやすくなることを示しています。

同時に、110 時間の教師ありデータは、約 1400 時間のランダムデータよりも明らかに優れており、明示的なカーソルの視覚的監督は、単純な座標監督よりもはるかに強力でした。

合わせ技で言えば、GUIWorld の最も率直な結論は、GUI ラインに最も欠けているのは、より堅牢なアクションのセマンティクス、より明確な状態遷移、そしてカーソルを視覚的オブジェクトとして監督することです。

当初、ビデオモデルがこのように高度に離散的で文字密度が高く、アクションに敏感なコンピュータシナリオを処理できると見る人はほとんどいませんでしたが、タスク設計とデータ編成が適切であれば、インターフェースのレンダリング、ページ遷移、短期的な状態の継続、局所的な相互作用、実行のエコー、さらには非常に初歩的な作業記憶においてさえ、多くの興味深い結果を出すことができます。

言い換えれば、ビデオモデルは最終形には程遠いかもしれませんが、初期のプロトタイプの容器としては、もともと抽象的だった Neural Computer の問題を数多く表に出すには十分です。

3.4 プロトタイプ NC から CNC へ、何が欠けているのか

セクション 2 の CNC 条件表を再度参照すると、現在のプロトタイプのおおよその結論は明確です。チューリング完全 は縁に触れた程度で、普遍的にプログラム可能 は入り口が現れただけ、行動の一貫性 は制御された環境内での局所的な成立に留まり、マシンネイティブなセマンティクス に至っては、結論よりも方向性の方が明確です。

NC が解決すべきは、エージェント、ワールドモデル、伝統的なコンピュータを単に積み重ねることではなく、今日これらのオブジェクトに分散している責任の一部を、徐々に同一の学習済みランタイム内部に回収することです。

現在のプロトタイプが真に重要なのは、すでに終局に近づいていることではなく、CNC が成立するかどうかを決定するいくつかの難関を事前に露呈させた点にあります。

画像

Neural Computer が成立すれば、ソフトウェア、ハードウェア、そして「プログラム」は変化する

関係をより明確に言えば、Neural Computer はまず次世代のコンピュータに関する一つの判断です。

しかし私には予感があります。将来的に最も強力な競合圧力となるのは、強力な記憶、強力なツール呼び出し、常時接続能力を備えたパーソナライズされたスーパーエージェントからのものでしょう。

下の表はこの 3 つを並べて比較したものです。

手早く表を見るには:まず「実際に得られるもの」「経験がどう蓄積されるか」「何がインストールされるか」をご覧ください。

画像

もし CNC が真に成立すれば、真っ先に変わるのはデリバリーオブジェクトとシステムの組織方法です。

今日インストールされているのは依然としてソフトウェア、ツール、ワークフロー、メモリの項目ですが、NC の道筋では、徐々にインストールされていくのは能力そのものになるでしょう。

コードは依然として存在するでしょうが、もはや唯一の入り口ではありません。説明、デモンストレーション、操作の軌跡、制約もまた、「能力のインストール」を直接担うようになります。

「プログラム」という言葉の意味もまた変化します。もはや単なるコードの断片ではなく、インストール、組み合わせ、バージョニング、継続的な更新が可能な能力オブジェクトのようなものになるでしょう。

さらに進めば、変化はシステムスタックと機械の境界そのものへと伝わります。ソフトウェアの構築法、ハードウェアの構成法、更新のガバナンス、問題の追跡方法はすべて、同一の稼働し続ける機械を中核として再編成されるようになります。

スマートフォン、ブラウザ、IDE、ターミナルといった入り口は残るでしょうが、それらはますます同一の機械にアクセスするための異なるウィンドウのようになっていくでしょう。

最終的に書き換えられるのは、あるツールスタックだけでなく、「コンピュータ」という言葉そのものの意味なのです。

声明と謝辞:本ブログの内容と見解は、Neural Computer に関する論文の大部分の意図、および Mingchen Zhuge の個人的見解を代表するものです。

Wenyi Wang、Haozhe Liu、Shuming Liu、Yuandong Tian、Dylan R. Ashley の各氏には、査読のご意見をいただき感謝申し上げます。

文中の一部の図表および素材は、元の論文および関連する公開資料からの引用です。

もしこの内容を引用される場合は、以下の arXiv エントリーまたはブログエントリーを直接使用してください。

@misc{zhuge2026neuralcomputers,  title         = {Neural Computers},  author        = {Mingchen Zhuge and Changsheng Zhao and Haozhe Liu and Zijian Zhou and Shuming Liu and Wenyi Wang and Ernie Chang and Gael Le Lan and Junjie Fei and Wenxuan Zhang and Yasheng Sun and Zhipeng Cai and Zechun Liu and Yunyang Xiong and Yining Yang and Yuandong Tian and Yangyang Shi and Vikas Chandra and J{"u}rgen Schmidhuber},  year          = {2026},  eprint        = {2604.06425},  archivePrefix = {arXiv},  primaryClass  = {cs.LG},  url           = {https://arxiv.org/abs/2604.06425}}

@online{zhuge2026neuralcomputerblog,  author  = {Mingchen Zhuge},  title   = {Neural Computer:一種新しい機械の形態、現れつつある},  year    = {2026},  month   = feb,  day     = {7},  url     = {https://metauto.ai/neuralcomputer/index_cn.html},  note    = {Research essay},  urldate = {2026-04-06}}

画像

参考文献

画像
[1] Alex Graves, Greg Wayne, and Ivo Danihelka. Neural Turing Machines. arXiv:1410.5401, 2014.
[2] Alex Graves et al. Hybrid computing using a neural network with dynamic external memory. Nature 538, 471-476 (2016).
[3] MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework. ICLR 2024.
[4] OpenClaw. GitHub repository.
[5] Mingchen Zhuge et al. AI with Recursive Self-Improvement. ICLR 2026 Workshop Proposals.
[6] Schmidhuber, Jürgen. Making the world differentiable: on using self supervised fully recurrent neural networks for dynamic reinforcement learning and planning in non-stationary environments. Vol. 126. Inst. für Informatik, 1990.
[7] David Ha and Jürgen Schmidhuber. World Models. 2018.
[8] The Waymo World Model: A New Frontier For Autonomous Driving Simulation. Waymo Blog.
[9] Demis Hassabis on Waymo World Model and Genie 3. X post.
[10] NVIDIA Research. Cosmos World Foundation Models. NVIDIA, 2025.
[11] World Labs. Marble: A Multimodal World Model. World Labs, 2025.
[12] Dani Valevski, Yaniv Leviathan, Moab Arar, and Shlomi Fruchter. GameNGen: Diffusion Models Are Real-Time Game Engines. Project page, 2024.
[13] Google DeepMind. Genie 2: A large-scale foundation world model. DeepMind Blog, 2024.
[14] Google DeepMind. Genie 3: A new frontier for world models. DeepMind Blog, 2025.
[15] Ljubisa Bajic. The Path to Ubiquitous AI. Taalas.
[16] Leo Gao, Achyuta Rajaram, Jacob Coxon, Soham V. Govande, Bowen Baker, and Dan Mossing. Weight-sparse transformers have interpretable circuits. arXiv:2511.13653, 2025.
[17] Scott Reed and Nando de Freitas. Neural Programmer-Interpreters. arXiv:1511.06279, 2015.
[18] David Ha, Andrew Dai, and Quoc V. Le. HyperNetworks. arXiv:1609.09106, 2016.
[19] David Silver and Richard S. Sutton. Welcome to the Era of Experience. Preprint of a chapter to appear in Designing an Intelligence. 2025.
[20] Sam Altman. The Gentle Singularity. Sam Altman Blog. Accessed March 15, 2026.
[21] Dario Amodei. The Adolescence of Technology. Dario Amodei, January 2026.
[22] Demis Hassabis, Dario Amodei, and Zanny Minton Beddoes. The Day After AGI. World Economic Forum Annual Meeting 2026 session, January 20, 2026.
[23] Carver Mead. How we created neuromorphic engineering. Nature Electronics 3, 434-435 (2020).
[24] Mingchen Zhuge, Wenyi Wang, Louis Kirsch, Francesco Faccio, Dmitrii Khizbullin, and Jürgen Schmidhuber. GPTSwarm: Language Agents as Optimizable Graphs. Proceedings of the 41st International Conference on Machine Learning, PMLR 235:62743-62767, 2024.
[25] Mingchen Zhuge, Changsheng Zhao, Dylan R. Ashley, Wenyi Wang, Dmitrii Khizbullin, Yunyang Xiong, Zechun Liu, Ernie Chang, Raghuraman Krishnamoorthi, Yuandong Tian, Yangyang Shi, Vikas Chandra, and Jürgen Schmidhuber. Agent-as-a-Judge: Evaluate Agents with Agents. Proceedings of the 42nd International Conference on Machine Learning, PMLR 267:80569-80611, 2025.
[26] Wenyi Wang, Piotr Piękos, Li Nanbo, Firas Laakom, Yimeng Chen, Mateusz Ostaszewski, Mingchen Zhuge, and Jürgen Schmidhuber. Huxley-Gödel Machine: Human-Level Coding Agent Development by an Approximation of the Optimal Self-Improving Machine. arXiv:2510.21614, 2025.
[27] ICLR 2026 Workshop: AI with Recursive Self-Improvement. Workshop website.
[28] Peter H. Diamandis. Elon Musk: Optimus 3 Is Coming, Recursive Self-Improvement Is Already Here, and the Singularity #239. YouTube, March 11, 2026.
[29] I. J. Good. Speculations Concerning the First Ultraintelligent Machine. Advances in Computers, Volume 6, 1966.
[30] Jürgen Schmidhuber. Gödel Machines: Self-Referential Universal Problem Solvers Making Provably Optimal Self-Improvements. IDSIA Technical Report, revised December 27, 2004.
[31] Wan Team. Wan: Open and Advanced Large-Scale Video Generative Models. arXiv:2503.20314, 2025.
[32] Xianglong He et al. Matrix-Game 2.0: An Open-Source, Real-Time, and Streaming Interactive World Model. arXiv:2508.13009, 2025.
[33] Anssi Kanervisto et al. World and Human Action Models towards gameplay ideation. Nature, 2025.
[34] Lvmin Zhang, Anyi Rao, and Maneesh Agrawala. Adding Conditional Control to Text-to-Image Diffusion Models. ICCV 2023.

続きを読む

関連記事

分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.