この記事では、同様に重要でありながら、理論の重心と工学的アプローチが明らかに異なる別の路線について論じる。それは、LeCunが提唱する、世界モデル、ジョイントエンベディング予測、そして表現学習を中核とする新しいAIアーキテクチャである。
チューリング賞受賞者であるYann LeCun氏が共同創業者兼エグゼクティブチェアマンとして深く関与し、中国人科学者であるSaining Xie氏(DiTの共同執筆者)が共同設立したAMI Labsは、総額10億3000万ドルという巨額のシード資金調達を完了した。10億ドル超という資金調達額は、資本市場においても異例の規模であり、AMI Labsは現在のLLMパラダイムに対して、技術路線の面から正面戦を公式に挑んだ形となる。
単に計算資源とデータを積み増すだけのスケーリング則が、計画、理解、行動が可能な汎用知能へと本当に到達できるのか、という根本的な問いが投げかけられている。
現在の生成AIを覆う「大規模言語モデル=汎用知能」という物語に対して、LeCun氏に代表される一派は一貫して疑問を投げかけている。トークンレベルでの自己回帰予測だけで、世界を真に理解し、長期的な計画を立て、実環境で行動できる知覚システムを手に入れられるのか、と。
この問題意識のもと、新たな技術構想が結実しつつある。それは、「次のピクセル、次のフレーム、次の単語」を生成することを知能の核心とは見なさず、システムが抽象的な表現空間において世界の安定した構造、予測可能な制約、行動結果を学習し、その上位層に言語、計画、制御を構築するというものだ。この路線における現時点で最も代表的な実装が、ジョイントエンベディング予測アーキテクチャ(JEPA)と、そこから動画の世界モデルへと発展する分岐である。
一、なぜ大規模言語モデルでは不十分なのか
この新アーキテクチャの出発点は、大規模言語モデルの工学的価値を否定することではない。指摘すべきは、「言語予測は、人類が書き留めた知識の圧縮には長けているが、物理世界、因果構造、身体的行動、長期目標の真の理解とは自動的には結びつかない」ということだ。論文『A Path Towards Autonomous Machine Intelligence』によれば、機械が動物や人間のように学習するには、少なくとも次の3つの能力が必要とされる。それは、世界の状態を階層的に表現すること、複数の時間スケールで予測と計画を行うこと、完全には観測・予測不可能な環境下で行動を選択すること、である。この定義自体が、問題を「言語の生成」から「世界モデルの学習」へと移行させるものだ。
この観点から見ると、現在の主流な生成モデルには二つの根本的な限界がある。
第一に、それらは通常、ピクセル、音波、トークンといったデータ空間で直接モデル化し、条件付き分布を近似しようとする点だ。
第二に、訓練目標と最終的な知能目標を混同しがちな点だ。しかし現実世界は静的なコーパスではなく、高度にマルチモーダルで、部分的にしか観測できず、分岐に満ちた動的システムである。同一の世界状態に対し、次の瞬間には複数の等しく妥当な結果が生じうる。モデルが生のピクセル上で単一の答えを出すよう強いられると、「なぜ未来がそうなるのか」ではなく、「複数の可能性の平均」を学習してしまう。これが、初期の動画予測モデルがしばしばぼやけた結果を出力した大きな理由である。
二、核心的判断
この路線は、生成そのものを否定しているのではない。否定しているのは、「最低層のデータの詳細を網羅的に生成すること」が知能への主たる道筋になるべきだ、という考え方だ。核心的な判断は次の通りである。知能システムはまず、真に予測可能で、真にタスクに関連する抽象的な構造を予測することを学ぶべきであり、高周波の細部、偶発的なノイズ、不可分なランダム性は、潜在変数や下流のデコーダ、専用の生成モジュールに委ねるべきである。I-JEPAの論文はこれを非常に明確に述べている。それは「非生成的(non-generative)」な自己教師あり手法であり、画像ピクセルを再構築するのではなく、画像の一部コンテキストから、同一画像内の別の領域の表現を予測する。意味レベルの情報を学習させるには、ターゲットブロックは十分に大きく、コンテキストは十分に分散表現化されていなければならない。言い換えれば、モデルはすべてのピクセルを記憶するのではなく、「その領域はおおまかに何であり、周囲の構造との関係はどうか、次のどのような変化を予測する価値があるのか」を自ら把握するように仕向けられるのである。
動画版となると、この点はさらに強調される。V-JEPAの公式発表では、それを「非生成モデル」と定義し、生のピクセルを補完するのではなく、抽象的な表現空間においてマスクされた動画セグメントを予測する、としている。その目的は、下流のタスクには重要ではない枝葉末節に計算資源を浪費させることなく、モデルを高次元の概念情報に集中させることにある。公式の説明では非常に直感的な例が用いられている。もし動画に木が現れたら、システムが真に把握すべきは「シーンに木があること、その木がどう動いているか、木と他のオブジェクトとの関係性」であって、葉の一枚一枚の微細な揺らぎを予測することではないのだ。
三、シャムネットワークから表現の崩壊防止へ
JEPAを理解するには、まずそれが継承する表現学習の伝統を理解しなければならない。鍵となる問題は「どのように生成するか」ではなく、「いかにして崩壊せず、転移可能で、意味のある表現を得るか」である。ここでシャムネットワークの考え方が非常に重要になる。同一オブジェクトの2つのビューを用意し、2つのエンコーダに、一貫性はあるが過度に冗長ではない表現を生成させるのである。真の難関は表現の崩壊(representation collapse)、つまりモデルが異なる入力をほぼ同一のベクトルに写像し、表面上は損失が低いが、実際には何も学習していない状態である。Barlow Twinsの論文はこの点を明確に指摘している。自己教師あり表現学習に繰り返し現れる問題は、自明な定数解(trivial constant solutions)である。その解決策として、2つのブランチ出力間の相互相関行列を計測し、それを単位行列に近づける。これにより、異なるビュー間の一貫性を保ちつつ、異なる次元間の冗長性を抑制するのだ。
この思想は、一連の非対照的自己教師あり手法の中でさらに発展した。DINOの論文は、教師-生徒型の自己蒸留がVision Transformer上で極めて強力な意味構造を生み出し、教師なし特徴量から意味セグメンテーション情報が明示的に出現することさえ示した。このような特性は、教師ありViTやCNNではそれほど自然には現れない。このステップは極めて重要である。なぜなら、人間のラベルに頼らなくても、モデルは「別の視点から自分自身を予測する」ことで、高度に構造化された意味表現を学習できることを示しているからだ。JEPAはこの道をさらに前進し、もはや2つのビューの一貫性だけを追求するのではなく、抽象表現レベルでマスク領域を直接条件付き予測するのである。
四、JEPAとは何か:表現空間における世界予測
JEPAの要点は一言でまとめられる。コンテキストの表現を与えられたとき、ターゲット領域の潜在表現を予測するのである。I-JEPAのやり方は以下の通りだ。まずエンコーダで可視コンテキストを表現空間にマッピングし、次に予測器にマスクされたターゲットブロックの表現を推定させる。ターゲット表現は別のエンコーダ分岐から得られるが、訓練目標はピクセルの再構築ではなく、2つの表現間の一貫性である。この設計には2つの深い利点がある。第一に、細部が欠落した状況でも安定的に予測できるのはこれらの情報だけであるため、モデルは自然と意味層、関係層、構造層をより重視するようになる。第二に、「不確実性」を表面的な詳細から分離できる。つまり、現在の文脈から推測できない要因は主たる予測に無理に押し込まず、潜在変数、後続のサンプリング、またはより専門化された生成コンポーネントに委ねることができる。
より完全な世界モデルの構想においては、この「抽象表現予測」は潜在変数と組み合わされる。立場論文では明確にこう述べられている。世界モデルは複数の妥当な未来を表現できなければならず、潜在変数はまさに、現在の観測からは決定できないが将来の進展に影響を与える隠れた要因を表現するために使われる。前方の車が分岐路で曲がろうとしている場合、「左折」と「右折」はどちらも妥当な予測でありうる。優れた世界モデルは、ぼやけた中間画像を出力するのではなく、この分岐をサンプリング可能、計画可能、探索可能な潜在的構造として表現すべきなのである。
五、I-JEPAからV-JEPA 2へ:この路線はいかに世界モデルと計画へ向かうか
I-JEPAが主にこの手法の画像表現学習における実現可能性を証明したとすれば、V-JEPAとV-JEPA 2は、それを時系列理解、未来予測、ロボット計画へと進めようとする試みである。V-JEPAの公式説明は、学習された潜在空間においてマスクされた時空間領域を予測するのであって、生の動画フレームを予測するのではないと強調する。そのため、動きやインタラクション、イベント構造に重点を置くことができる。2025年のV-JEPA 2では、さらに目標が拡大された。論文では、まず100万時間を超えるインターネット動画と画像で動作とは無関係な事前訓練を行い、その後、少量のロボット軌道データを組み合わせて、「理解、予測、計画」が可能な自己教師あり動画世界モデルを形成することを提案している。
結果から見ると、V-JEPA 2はもはや単なる「表現学習器」ではない。論文は、Something-Something v2で77.3のtop-1精度、Epic-Kitchens-100の動作予測タスクで39.7のrecall@5を達成したと報告している。大規模言語モデルとアライメントされた場合、いくつかの動画質問応答タスクで当時の80億パラメータ規模の最先端性能を達成した。ロボットの部分では、著者らは62時間未満のラベルなしロボット動画データに基づいて動作条件付き世界モデルV-JEPA 2-ACを訓練し、2つの新しい実験室のFrankaロボットアームにおいて、把持、配置、画像目標計画のゼロショット性能を実現した。
しかし、この結果は慎重に理解しなければならない。
第一に、V-JEPA 2の現在の最も強力なエビデンスは、依然として視覚世界のモデリング、動作予測、制御されたロボットシナリオに集中しており、オープンドメインの知識推論において大規模言語モデルを代替できることは証明されていない。
第二に、論文が「動画質問応答の性能が非常に強い」と述べている点自体が、タスクが自然言語によるインターフェースを必要とする場合、この路線は依然として言語モデルとの結合を必要とすることを示している。
したがって、より正確な判断は以下の通りである。これは次世代知能システムに、LLMの下位、傍ら、あるいは前置きとして機能する可能性のある世界モデリングの基盤を提供するものだ。言語モデルはインターフェース層、説明層、知識スケジューリング層にはなりえても、システム全体の中核的な学習メカニズムではなくなるかもしれない。
六、真に新しいアーキテクチャとは「世界モデル+コストモジュール+アクター+記憶」のシステム全体である
この路線を単に新しい自己教師ありアルゴリズムと見なすだけでは、その野心を過小評価している。あの立場論文が実際に提案しているのは、一整套の自律知能エージェントアーキテクチャである。すなわち、知覚モジュールはセンサからタスク関連の状態表現を抽出する。世界モデルモジュールは不可視の状態を補完し未来の可能な世界状態を予測する。コストモジュールは「内在的コスト」と「訓練可能な評論家」から成り、システムの現在または未来の状態におけるエネルギーや不快度を測定する。アクターモジュールは行動シーケンスを提案し、世界モデルとコストモジュールを通じて最適化する。短期記憶は過去、現在、想像上の未来の状態を保存する。コンフィギュレーターは実行制御システムのように、特定のタスクに応じて知覚、世界モデル、コスト、アクターをオンラインで再構成する。
この構造は「世界を見る」「未来を想像する」「結果を評価する」「行動を選択する」という機能を、分業可能かつインターフェース化可能なモジュールに分割している。すべてを統一された次の単語予測器に押し込めてしまうことはしないのである。特に注目すべきは、論文がアクターを、モデル予測制御に類似した、世界モデルとコスト勾配を用いて最適化と探索を行うモジュールとして明確に定義している点である。論文はさらに、アクターは行動のみならず、潜在変数の設定も探索し、不確実条件下での計画を可能にすべきだと強調している。これにより、このアーキテクチャは古典制御、計画、価値学習、世界モデル学習との間に統一的な閉ループを形成する。JEPAがここで果たす役割は、主としてこの「世界モデル」の環を、もはやピクセル層から出発させるのではなく、安定した抽象表現の上に構築することにある。
七、この路線が真に解決したものと、未解決のもの
現在真に解決しているのは、「大量の人工ラベルなしに、より意味的で、転移可能で、予測と計画に適した視覚表現をモデルに学習させる方法」である。I-JEPAは、非生成的な表現予測が効率的にスケールし、画像タスクにおいて高品質な意味的特徴を生成することを証明した。V-JEPAとV-JEPA 2は、この思想が動画理解、動作予測、さらにはある程度のロボット計画にまで応用できることを示した。この意味で、この路線は確かに、「ピクセル再構築やテキスト生成だけに頼る」よりも世界モデリングに近い技術的な道筋を提供している。
しかし、未解決のものも同様に重要である。
第一に、オープンワールドにおける長期的な因果推論、クロスモーダルな統一表現、複雑な言語構成の汎化、階層的なタスク分解、生涯記憶は依然として未完成の問題である。
第二に、JEPA系の手法は不確実性と複数の未来を重視するが、現時点の主流な実装では、不確実性はしばしば潜在変数の設計や後段の計画構造で表現されるにとどまり、ある種のベイジアンアーキテクチャのように最初から最後まで明示的な確率的信念を維持するわけではないことが多い。
第三に、この路線のロボット分野での成功はまだ「少量の行動データ+制御されたタスク+比較的短期の計画」段階にあり、オープン環境における汎用身体化知能(embodied intelligence)には依然として顕著な隔たりがある。
八、Karl Fristonの能動推論型新AIアーキテクチャとは何が違うのか
Yann LeCunのJEPA―世界モデル路線とKarl Fristonの能動推論(active inference)路線を並べて比較すると、どちらも表面的には「純粋な自己回帰生成=知能」に反対し、世界モデル、予測、行動、身体性、不確実性を重視している点で共通している。しかし、その基盤となる哲学と工学的重心は異なる。能動推論は変分自由エネルギー枠組みに由来し、その核心的主張は、知能エージェントが変分自由エネルギーと期待自由エネルギーを最小化することで知覚、学習、行動を同時に達成するというものだ。この過程では、明示的な信念、ベイズ更新、リスク、情報利得が統一されている。一方、JEPA路線はよりスケーラブルな学習システムの設計図に近い。高品質な世界表現を学習することを重視し、その後に行動、コスト、記憶、計画をその表現システムに接続する。
二つの路線の核心的な違い
比較軸 | JEPA/世界モデル路線 | 能動推論路線 |
理論的出発点 | 自己教師あり表現学習と世界モデル工学を核心とし、拡張可能な知覚―予測―計画基盤の構築を目指す。 | 自由エネルギー原理とベイズ推論を核心とし、知覚、学習、行動、探索の統一的説明を目指す。 |
主たる訓練対象 | ピクセルやトークンを直接生成するのではなく、マスクされた領域や未来状態の抽象表現を予測する。 | 潜在変数、状態、方策に対する確率的信念を維持・更新する。 |
不確実性の処理 | 通常、潜在変数、多重未来、または後段の計画機構を通じて表現され、工学的に強弱をつけられる。 | 不確実性は一級市民であり、リスクと情報利得が目的関数に明示的に組み込まれる。 |
行動選択 | 世界モデル+コストモジュール+アクターによる最適化で、モデル予測制御に近い。 | 期待自由エネルギーの最小化を通じて、活用と探索を統一的に扱う。 |
LLMとの関係 | LLMに下位の世界モデルを提供する形に近く、言語モデルはインターフェース層や上位モジュールとなりうる。 | LLMと結合可能だが、大規模な自己回帰型言語モデリングよりも、明示的な信念更新やメッセージパッシングに重点が置かれることが多い。 |
システムのスタイル | 拡張可能な深層学習と表現学習の工学寄り。 | 規範的理論、確率的グラフィカルモデル、信念伝播寄り。 |
現在の強力なエビデンス | 画像・動画の表現、動画理解、動作予測、制御されたロボット計画。 | 認知モデリング、計画、ナビゲーション、探索、および一部の能動推論エージェントのプロトタイプ。 |
両者の違いは次の一言に集約できる。JEPA路線は「データの細部に足を取られずに世界の安定した構造を学習できる表現―予測システムをいかに構築するか」を問うのに対し、能動推論路線は「知能エージェントは明示的な不確実性の下で、統一的なベイズ目的関数を通じて知覚、行動、探索、選好をいかに統合するか」を問うているのである。前者は工学的なスケーラビリティを指向する学習パラダイムであり、後者は統一的な知能理論を指向する規範的フレームワークである。両者は相互排他的ではない。将来的には、下位でJEPA系の世界モデルが抽象状態を学習し、上位で能動推論型の信念更新と方策選択が不確実な意思決定を扱うシステムも十分に想像できる。
結び
知能とは結局、言語生成から最初に生まれるのか、それとも世界モデリングから最初に生まれるのか。もし知能エージェントが、部分的にしか観測できず、分岐に満ち、行動によって検証しなければならない物理世界に生きねばならないのなら、その答えはおそらく後者であろう。
未来のより強力な知能システムは、もはや単一の自己回帰型言語モデルが中核を独占することはないだろう。それはおそらく、世界モデル、記憶、コスト/価値、行動最適化、言語インターフェースによって共に構成される。その中で、JEPA路線は「世界がいかに表現され予測されるか」という新たな基盤を提供し、能動推論路線は「信念がいかに更新され、行動が不確実性のもとでいかに選択されるか」という規範的原理を提供する。その意味で、これらの新しいAIアーキテクチャは、次のことに賭けていると言える。すなわち、世界を復唱することよりも、世界を理解することのほうが、真の知能により近いのだ。
記事セレクション:
3.ノーベル賞受賞者DeepMindトップの最新インタビュー抜粋:AI起業家の堀は?AGIまであと1-2個の重要なアイデア、最も不足しているのは計算能力ではなく、これだ
4.GPTの父がAIを1930年に投げ込んだ:コードを一行も見たことないのに、Pythonを「発明」した!
5.チューリング賞受賞者チャールズ・バックマン:彼はデータが海となる前に、人工知能のために岸を作った
6.チューリング賞受賞者リチャード・サットン最新講演:大規模モデルは一時的な熱狂に過ぎず、AIの本当の時代はまだ始まっていない
7.チューリング賞受賞者ベンジオがo1はAGIに到達できないと予言!NatureがAIの驚異的な進化を権威付け、究極の限界は目の前だ
8.チューリング賞受賞者、強化学習の父リッチ・サットン:大規模言語モデルは誤った出発点である
9.チューリング賞受賞者ヤン・ルカン:大規模言語モデルは物理世界の理解と推論能力を欠いており、人間レベルの知能を実現できない
10.速報:Claudeがグラフ理論の予想をわずか31ステップで単独解決!アルゴリズムの祖、チューリング賞受賞者ドナルド・クヌースが衝撃の声明を発表