エージェンティック・ワールドモデリング:基盤、能力、法則、そしてその先へ

1 序論

「世界の永遠の神秘は、それが理解可能であることだと言えるかもしれない。」 — アインシュタイン (1936)

現実の内部モデルを構築するという野心には長い知的歴史があり、心的モデルに関する哲学的説明や、予測、制御、シミュレーション、科学的推論を支える学習済み潜在ダイナミクスとしての現代機械学習に見られる。「ワールドモデル」という用語は現在、研究コミュニティで広く使われているが、その厳密な技術的意味はかなり異なる。強化学習では、エージェントは行動する前に未来を想像するために遷移構造を学習する。コンピュータビジョンでは、「ワールドモデル」はしばしば視覚的ダイナミクスと時間的一貫性を維持するビデオまたは3Dジェネレーターを指す。言語モデリングとエージェントシステムでは、この用語は計画、ウェブインタラクション、社会環境のためのテキストベースのシミュレーションを指すことがある。ロボティクスでは、学習されたダイナミクスは安全な計画、データ効率の良い方策学習、Sim-to-Real転送に役立つ。科学においては、システムはサロゲートモデルと仮説駆動型の実験を組み合わせる。

ワールドモデルとエージェントは密接に連携している。ワールドモデルは中核として環境の状態遷移ダイナミクスを学習する。つまり、現在の状態と行動が与えられると、結果として生じる次の状態を予測する。対照的に、エージェントはタスクの目的と現在の観測に基づいて行動を選択する。エージェントはワールドモデルに依存して候補行動の結果を予測し、先読み計画とサンプル効率の良い学習を可能にする。逆に、ワールドモデルはエージェントが生成した経験から恩恵を受け、意思決定に重要な状態空間の領域でのモデルの正確性を向上させる。この密接な連携が、本サーベイで採用されている能力ベースの視点の動機となっている。ワールドモデルは多くの目的に役立つが、我々はそれを運用上、ダウンストリームのエージェントに対して可能にする意思決定の質によって価値を定義する。

前述の多様性は概念的な断片化も生み出す。ある研究者は生成されたフレームの視覚的忠実度でワールドモデルを評価する一方で、強化学習の実践者はタスクパフォーマンスを向上させるかどうかで評価する。結果として、論文は「ワールドモデル」のある解釈の下では大きな進歩を報告しても、別の解釈の下では比較できないままでいる可能性がある。本論文は、ドメイン固有の違いを消し去ることなくコミュニティを連携させる共通言語を提供することで、この断片化に対処する。

1.1 動機

  1. 1.

    現在のサーベイの状況。 最近のいくつかのサーベイがこの急速に成長する文献を整理しようと試みている。Dingら(2025a)は「理解」対「予測」という二重の分類法を提案し、自律走行、ロボティクス、社会的模擬実験といった応用分野にワールドモデルをマッピングしている。Zhuら(2024)はSoraによって触媒された生成的機能に焦点を当て、ビデオ生成、自律走行、自律エージェントのためのワールドモデルを調査している。Yueら(2025)は、ロボティクス、自律走行、ゲームに適用される四世代の能力分類法(G1–G4)を用いた2Dビジュアルワールドモデリングのロードマップを提供している。彼らのG1–G4分類法は、ますますインタラクティブになるビジュアル生成システムを区別するのに有用である。我々のL1–L3階層は補完的であり、競合するものではない。なぜなら、視覚モダリティから抽象化し、物理的、デジタル的、社会的、科学的領域にわたって、システムが局所予測、意思決定に使用可能なシミュレーション、または証拠駆動型の改訂をサポートするかどうかを問うからである。大まかに言えば、初期のGレベルは外観と行動条件付き予測を強調するのに対し、我々のL2/L3の境界は制約を満たすロールアウトと永続的なモデル更新によって決定される。ドメイン固有のサーベイも急増している。Liら(2025e)は特に身体化AIのための3軸フレームワーク(機能性、時間モデリング、空間表現)を提供し、Fengら(2025c)とTuら(2025)は自律走行のためのワールドモデルを調査し、Kongら(2025)は3Dおよび4Dワールドモデリングを検討し、Zhangら(2025d)はロボット操作のためのワールドモデルを調査している。また、学習済みモデルが物理学を「理解する」とはどういうことか疑問を投げかける意見論文も増えている(LeCun, 2022; Kangら, 2025a)。科学のためのAIでは、Weiら(2025b)が生命科学、化学、材料、物理学にわたる自律的科学発見を調査し、プロセス指向、自律性指向、メカニズム指向の視点を統合している。エージェント計画と推論に関するサーベイも並行して存在する。Weiら(2025a)は計画生成と検証にわたるLLM計画能力を調査し、Huangら(2024c)は計画メカニズムを分解、選択、内省に分類し、Caoら(2025a)はファインチューニングと探索ベースの計画手法の体系的な比較を提供し、Zhaoら(2025)はエージェント推論を単一エージェント、ツールベース、マルチエージェントの枠組みに整理し、Arunkumarら(2026)は知覚、計画、行動、コラボレーションにわたる統一エージェント分類法を提案している。これらのサーベイは我々の研究を補完するものであり、エージェントがどのように「決定し行動するか」に焦点を当てているのに対し、我々はそれらの決定を情報に基づいたものにする予測基盤(ワールドモデル)に焦点を当てている。価値ある貢献にもかかわらず、既存のサーベイは共通の組織化原則を共有しており、それは根本的に限定的であると我々は主張する。それは、分野を「モダリティ」または「応用分野」によって分割することである。我々の研究は、モダリティを横断する能力ベースの分類法を通じて分野を組織化する点で異なり、身体化操作や自律走行からウェブエージェント、マルチエージェント調整、科学的発見パイプラインに至るまでの意思決定分野をカバーする。

    図2: 既存のワールドモデルとエージェントサーベイに対する本サーベイの位置付け。身体化ワールドモデル、生成的ワールドモデル、言語エージェント、AI for Scienceの4つのクラスターがそれぞれフィールドのサブセットをカバーする。本サーベイ(中央)は、能力ベースの分類法(L1/L2/L3 × 4つの領域)を用いてドメイン横断的なカバレッジを統合し、ほぼ孤立したコミュニティを橋渡しする。
    図2: 既存のワールドモデルとエージェントサーベイに対する本サーベイの位置付け。 身体化ワールドモデル、生成的ワールドモデル、言語エージェント、AI for Scienceの4つのクラスターがそれぞれフィールドのサブセットをカバーする。本サーベイ(中央)は、能力ベースの分類法(L1/L2/L3 × 4つの領域)を用いてドメイン横断的なカバレッジを統合し、ほぼ孤立したコミュニティを橋渡しする。
    既存のサーベイにおけるギャップ。

    モダリティ中心およびドメイン中心の分類法は、二つの重大なギャップを残している。第一に、それらはモダリティを横断する「能力の進展」を捉えられていない。その好例がモデルベース強化学習であり、潜在空間での「想像」ロールアウトが、Atari、連続制御、Minecraftといった多様なドメインにわたってモデルフリーのベースラインに匹敵するか、それを上回ることができる(Hafnerら, 2025; Schrittwieserら, 2020; Hafnerら, 2020)。我々はこの進展を、一段階予測、長期シミュレーション、証拠駆動型のモデル改訂という三層の能力階層として形式化する。我々の枠組みの第二の動機は、大規模生成モデルが単なるもっともらしい生成器なのか、本物の世界シミュレーターなのかという激化する議論である。既存のサーベイはこの緊張関係を表面化させている(Brooksら, 2024; Bruceら, 2024; Kangら, 2025a; Dingら, 2025a)が、能力ベースの分類法は、ロールアウト、介入感度、制約の一貫性という観点から、この問いをより正確に述べるのに役立つ。我々は、ワールドモデルを特徴づけ、一般的な予測器を超える四つの段階的に強力な能力、すなわちロールアウト、介入感度、制約の一貫性、閉ループ使用を特定する(セクション2で形式化)。さらに、既存のサーベイは、ウェブエージェント、ツール使用エージェント、マルチエージェントシステムを含むエージェンティックAI応用におけるワールドモデリングの役割を過小評価している。これらの応用では、学習された環境ダイナミクスが計画と行動選択に不可欠である(Guら, 2025b; Wangら, 2024d; Parkら, 2023)。本論文の目標は、明確で検証可能な境界条件を持つ能力ベースの分類法を確立し、それを使用して、現在異なる前提、目的、指標でワールドモデリングシステムを評価している研究コミュニティを結びつけることである。

2は、本サーベイを既存研究に対して二つの軸に沿って位置付けている。それは、範囲(ドメイン固有からドメイン横断へ)と組織化原則(モダリティ中心から能力中心へ)である。図1は、論文の組織構造を一目で示しており、三つの能力レベル(L1予測器、L2シミュレーター、L3進化器)と四つの支配法則領域(物理的世界、デジタル世界、社会世界、科学世界)によってセクションをグループ化している。

L1-L3の統一POMDPグラフィカルモデル
図 7: L1〜L3の統一POMDPグラフィカルモデル。 破線の円は隠れた環境状態 xx を表し、二重円は学習された潜在状態 zz を、影付きの円は観測 oo を、四角は行動 aa を表す。青い実線矢印は学習されたモデル(推論 qϕq_{\phi} と動力学 pθp_{\theta})を示し、灰色の破線矢印は環境の遷移 TT と観測の放出を示す。上のブロックは、現在の環境 𝒳\mathcal{E}\!\sim\!\mathcal{X} とモデル t\mathcal{M}_{t} の下でのエージェントのPOMDPを示し、下のブロックは、改訂された環境 𝒳\mathcal{E}^{\prime}\!\sim\!\mathcal{X}^{\prime} とモデル t+1\mathcal{M}_{t+1} の下での同じ構造を示しており、赤い reflect(反映)矢印を介して得られる。色付きの破線ボックスは、各レベルの範囲を示す。L1は単一ステップの潜在遷移 pθ(ztzt1,at1)p_{\theta}(z_{t}\mid z_{t-1},a_{t-1}) をカバーする。L2は固定モデル下での完全な軌道ロールアウト p^(τz0,a1:H,c)\hat{p}(\tau\mid z_{0},a_{1:H},c) をカバーする。L3は証拠駆動型のモデル改訂 tt+1\mathcal{M}_{t}\to\mathcal{M}_{t+1} をカバーする。これは、現在のモデルが体系的に失敗した場合に、𝒳\mathcal{X} から改訂された環境 𝒳\mathcal{X}^{\prime} へと移行することに対応する。

科学的発見において、モデルの更新は複数のスケールで発生する。小さな異常は局所的な修正を引き起こし、一方で19世紀後半の物理学における「二つの暗雲」(Kelvin, 1901)のような永続的な矛盾は、認識論的なギャップを露呈し、理論の不変性構造の改訂を強いる。例えば、ニュートン力学から相対論的力学への移行は、ガリレイ不変性をローレンツ不変性で置き換えた。現代の機械学習システムも不変性を符号化する。例えば、畳み込みにおける並進等価性や、注意機構ベースのモデルにおける形状バイアス(Geirhos et al., 2018)などであるが、それらはアーキテクチャと訓練を通じて暗黙的に行われ、明示的に修正可能な構造としては存在しない。これは、固定されたモデルの下でのL1予測やL2シミュレーションには適しているが、L3(そこでのタスクはモデル構造そのものを改訂することである)では不利となる。対照的に、記号的表現は、支配原理を直接検査・修正可能な第一級オブジェクトとして公開する。

したがって、我々は表現を、ワールドモデルが何であるかについての基礎的な問いであり、交換可能な設計間の選択ではないと捉える。潜在的動力学は、L1およびL2の足場として不可欠であるが、L3の終着点、すなわち支配法則の真の改訂は、記号的な基盤を必要とする。この見方では、L1\rightarrowL2\rightarrowL3 は、単にロールアウトの深さにおける進展だけでなく、法則がどのように発見され、構成され、改訂されるかにおける進展である。様々な領域における実用的なインスタンス化または実装については、セクション 7 でサーベイする。次のセクション 2.4 では、具象化に依存しない基礎的な形式主義を導入する。

表 1: 本論文で使用する記号の要約。
記号 定義
環境
=(𝒳,𝒜,Ω,T,O,R,γ)\mathcal{E}=(\mathcal{X},\mathcal{A},\Omega,T,O,R,\gamma) POMDP環境タプル
xtx_{t} 時刻 tt における隠れた環境状態
oto_{t} 時刻 tt における観測(ピクセル、トークン、音声など)
ata_{t} 時刻 tt における行動
T(xt+1xt,at)T(x_{t+1}\mid x_{t},a_{t}) 環境遷移カーネル
O(otxt)O(o_{t}\mid x_{t}) 環境観測(放出)モデル
R,γR,\;\gamma 報酬関数と割引因子
学習されたワールドモデルの構成要素
ztz_{t} 学習された潜在/内部状態
qϕ(ztot,at1)q_{\phi}(z_{t}\mid o_{\leq t},a_{\leq t-1}) 状態推論(エンコーダ/フィルタ); パラメータ ϕ\phi
pθ(ztzt1,at)p_{\theta}(z_{t}\mid z_{t-1},a_{t}) 順方向動力学(単一ステップ潜在遷移); パラメータ θ\theta
pψ(otzt)p_{\psi}(o_{t}\mid z_{t}) 観測デコーダ; パラメータ ψ\psi
πη(atzt1,zt)\pi_{\eta}(a_{t}\mid z_{t-1},z_{t}) 逆動力学モデル; パラメータ η\eta
p^()\hat{p}(\cdot) 軌道レベル(または合成された)分布; ハット記号は明示的な近似的オブジェクトを示す(例: pθp_{\theta} の繰り返し適用によって誘導されるロールアウト周辺分布)
軌道と計画
a1:H=(a1,,aH)a_{1:H}=(a_{1},\ldots,a_{H}) ホライズン長 HH の行動系列
τ=(z1,,zH)\tau=(z_{1},\dots,z_{H}) 未来の潜在セグメント(z0z_{0} に固定)
p^(τz0,a1:H,c)\hat{p}(\tau\mid z_{0},a_{1:H},c) L2ロールアウトクエリ: アンカー、行動、制約 cc に条件付けられた軌道分布
bt;Bel(bt,at,ot+1)b_{t};\;\mathrm{Bel}(b_{t},a_{t},o_{t+1}) 古典的な信念状態とベイズ信念更新
π\pi 方策(ワールドモデルのクエリを消費するが、ワールドモデルの因数分解の一部ではない)
L3モデル改訂
t\mathcal{M}_{t} 改訂ステップ tt におけるワールドモデリングスタック
dtd_{t} 展開証拠(軌道、エラー、テスト)
\mathcal{H} モデル改訂のための仮説空間

2.3 表記法

前節では、認識論的な直感から3つの能力段階を提案した。ここでは統一的な記号体系を定め、セクション 2.4 でそれを使用して各段階に正確な定義を与える。モデルベース強化学習、予測的表現学習、ビデオ/世界シミュレーション、生成的モデリングを網羅するために、我々は表記法を部分観測マルコフ決定過程(POMDP)(Kaelbling et al., 1998; Puterman, 1994)に基礎を置く。図 7 は、このPOMDP構造を三層分類法の中心に据えている。各能力段階は、同一のグラフィカルモデル上で強調表示された範囲として視覚化されている。

環境は以下のタプルで表される:

=(𝒳,𝒜,Ω,T,O,R,γ),\mathcal{E}=(\mathcal{X},\mathcal{A},\Omega,T,O,R,\gamma),

ここで、𝒳\mathcal{X} は(観測不能な)状態空間、𝒜\mathcal{A} は行動空間、Ω\Omega は観測空間(ピクセル、トークン、音声など)である。遷移と観測は以下に従う:

xt+1T(xt+1xt,at),otO(otxt).x_{t+1}\sim T(x_{t+1}\mid x_{t},a_{t}),\qquad o_{t}\sim O(o_{t}\mid x_{t}).

部分観測下では、エージェントは信念 btb_{t} または学習された潜在状態 ztz_{t} を維持する。古典的な信念更新は bt+1=Bel(bt,at,ot+1)b_{t+1}=\mathrm{Bel}(b_{t},a_{t},o_{t+1}) と記述され、記号 τ\tau は以下の潜在軌道のために予約される。学習されたシステムは、履歴から潜在変数を推論する:

zt=fϕ(ot,at1)またはqϕ(ztot,at1).z_{t}=f_{\phi}(o_{\leq t},a_{\leq t-1})\quad\text{or}\quad q_{\phi}(z_{t}\mid o_{\leq t},a_{\leq t-1}).
  • T,OT,O: 環境の遷移および観測メカニズム。

  • qϕ()q_{\phi}(\cdot): 推論(履歴 \rightarrow 潜在変数)。

  • pθ()p_{\theta}(\cdot): 学習された局所的な予測因子または生成因子(一段階動力学、デコーダなど)。パラメータは θ\theta (同様に、推論とレンダリングには ϕ,ψ\phi,\psi)。

  • p^()\hat{p}(\cdot): 軌道レベル(またはその他の合成)分布。ハット記号は、pθp_{\theta} の繰り返し適用によって誘導されるロールアウト周辺分布のような、明示的な近似的オブジェクトを示す。

  • π,R,γ\pi,\, R,\, \gamma: プランナー/方策、報酬、割引率。これらはワールドモデルのクエリを消費するが、ワールドモデルの因数分解 (qϕ,pθ,pψ)(q_{\phi},p_{\theta},p_{\psi}) の一部ではない。この概念的な分離については、セクション B.2 で議論する。

慣習: p^\hat{p} は、p^(τz0,a1:H,c)\hat{p}(\tau\mid z_{0},a_{1:H},c) のような合成されたオブジェクトのために予約される。通常の一段階動力学は常に pθ(ztzt1,at)p_{\theta}(z_{t}\mid z_{t-1},a_{t}) と記述される。表 1 は、本論文で使用される記号の簡潔なリファレンスを提供する。

a1:H=(a1,,aH)a_{1:H}=(a_{1},\ldots,a_{H}) は、アンカー状態 z0z_{0} の直後から適用される長さ HH の行動系列を表す。未来のセグメントは以下の通りである:

τ=(z1,z2,,zH),\tau\;=\;(z_{1},z_{2},\ldots,z_{H}),

これにより、 \hat{p}(\tau\mid z_{0},a_{1:H},c) はセクション 4 のL2形式と一致する。任意の時刻インデックス t からも、些細なシフトの後で同じ規約が適用される。つまり、アンカーを z_{t} に置き、 a_{t+1:t+H} で条件付けする。

2.4 能力の定義

セクション 2.3 で確立された記号体系を用いて、各能力段階に対し、検証可能な境界条件を伴う厳密な定義を与える。

L1 Predictor ダイアグラム: 推論、前方動力学、観測デコーダ、逆動力学の4つの構成要素を示す図。

これらの演算子は、訓練分布の下での1ステップ(または短いホライズン)の精度を目標とする。多段階合成の一貫性については保証されない。セクション 3 では、代表的な手法を詳細に示す。

L2 Simulator ダイアグラム: L1から拡張し、意思決定に利用可能な多段階シミュレーションを提供する様子を示す図。

L1との主な違いは、1ステップの質ではなく、合成の下でのロールアウトの忠実度である。

L2の3つの境界条件は、冗長ではなく相補的である。「長期ホライズンの一貫性」は、ロールアウトの質が時間経過に伴う合成に耐えられるかどうかに関係する。「介入感度」は、行動や前提の変更が予測される未来に安定的で方向性のある意味ある変化を誘発するかどうかに関係する。そして、「制約の一貫性」は、結果として生じる軌道が対象領域の支配法則の下で有効であり続けるかどうかに関係する。これらのどれもが一般的に他を包含するわけではない。例えば、モデルは一貫性はあるが行動に鈍感なロールアウトを生成するかもしれないし、行動に敏感でありながら領域の制約に違反するロールアウトを生成するかもしれない。実際には、これらは互いにトレードオフの関係になることもある。例えば、積極的な制約の強制が軌道を安定させる一方で、介入への応答性が低下するという代償を伴う場合などである。

4つ目の能力である閉ループ利用(モデル化された環境との相互作用を通じて計画、行動、自己改善をサポートすること)は、ワールドモデリングを一般的な予測からさらに区別するが、L1/L2/L3とは直交する。天気エミュレータは、組み込みのプランナーなしでL2ワールドモデルになり得る(詳細な議論は付録 B を参照)。ここで「閉ループ」という言葉は、混同してはならない2つの異なる意味で用いる。ワールドモデルを制御や計画のループ内で使用することは直交する展開特性であるのに対し、展開からの証拠に基づいてワールドモデルスタック自体を改訂することは、L3を定義づける特徴である。

L3 Evolver ダイアグラム: L2から拡張し、証拠駆動型のモデル改訂を実現する様子を示す図。

L2との主な違いは、モデル自体が改訂の対象となることであり、単にクエリされる固定された足場ではない点にある(Lu et al., 2024a; Boiko et al., 2023)。図 7 のスコープを振り返ると、L1 (予測器) は、その推論とデコーディング演算子をサポートとする単一ステップの遷移 p_{\theta}(z_{t}\mid z_{t-1},a_{t-1}) であり、潜在連鎖の1つのエッジ上で局所的に作用する。L2 (シミュレータ) は、それらの局所演算子を、固定モデル \mathcal{M}_{t} と支配法則制約 c の下で軌道 \hat{p}(\tau\mid z_{0},a_{1:H},c) へと合成する。そして、L3 (進化器) は、蒸留された証拠 d_{t} からモデルスタック \mathcal{M}_{t}\to\mathcal{M}_{t+1} を改訂し、異なる潜在グラフ(図の下部ブロック)を生み出す。その実効環境 \mathcal{E}^{\prime}\!\sim\!\mathcal{X}^{\prime} は、世界自体がシフトしたためか、エージェントが以前はモデル化されていなかった構造を発見したためか、あるいは仮説空間が拡張されたために、元のものとは異なる可能性がある。これら3つのレベルは包含階層を形成する。L2は各ステップでL1を呼び出し、L3はモデル更新をコミットする前に証拠を求めて世界を探るたびにL2を呼び出す。

エージェント中心の視点:状態、行動、タスク。

上記の形式的構成要素は、エージェントの意思決定が、エージェントが世界があると信じている状態、実行できる行動、そして満たすべきタスク(または制約 c)という3つの要素によって決定される様子を記述する。この三つ組こそが、ワールドモデルとプランナーの間のインターフェースを定義するのであり、観測から行動への平面的なマッピングではない。有用な z_{t} を構築するには、セクション 3 を構成する2つの直交する課題が伴う。(i) 空間表現:高次元の観測 o_{t} を、意思決定に関連する構造(幾何学、意味論、アフォーダンス)を保持するコンパクトな潜在変数に圧縮すること。(ii) 時間的融合:部分観測の状況下でも z_{t} がマルコフ信念を近似するように、履歴 (o_{\leq t},a_{\leq t-1}) を統合すること。行動は平坦な変数ではない。それらは事前定義されるのではなく、表現学習から創発し得るものであり、中核となる動力学は潜在表現によって捉えられ、その他すべてはデコーダとして機能する(LeCun, 2022)。実際のエージェントの振る舞いは、低レベルの運動プリミティブ、中レベルのスキル、高レベルのタスク計画を含む、時間的スケールと抽象化レベルにわたって分解される。ワールドモデルは、プランナーのクエリのホライズンに合致する粒度で遷移を予測しなければならない。この行動階層は、L1からL2への境界と直接相互作用する。局所動力学はプリミティブレベルの予測には十分であるが(Sun et al., 2025a)、スキルレベルやタスクレベルのロールアウトには、L2を定義する多段階の一貫性が必要となる。L3レベルでは、エージェントは時間的スケールを超えて遷移を予測するだけでなく、自身の遷移モデルが不十分であると判断し、モデル改訂を開始する必要がある。L3は、ワールドモデリングスタック自体を行動の対象として扱う。診断プローブ、アーキテクチャ修正、回帰テストは、環境自体ではなくモデルに作用する「メタ行動」となり、システムが単に行動する方法ではなく、学習する方法を再形成する。

2.5 法則の適用範囲

セクション 1.2 で紹介したように、本サーベイは能力レベル(L1/L2/L3)と支配法則のレジームという2つの直交する軸に沿って構成される。本サブセクションでは、4つのレジームと、それぞれが学習された遷移関数に課す制約について詳しく説明する。ここでは、物理世界の法則(物理環境を知覚し行動するエージェントを支配する)、デジタル世界の法則(決定論的なプログラム意味論、つまりコード、API、状態機械を支配する)、社会世界の法則(心と制度のダイナミクス、つまり信念、目標、規範を支配する)、そして科学世界の法則(人間の設計とは無関係に存在し、そのダイナミクスが経験的観測から発見されなければならないシステムを支配する)を区別する。これら4つのレジームは代表的なものであり、網羅的ではない。現実世界のシステムは、しばしば複数のレジームの下で同時に動作する。例えば、自動運転は物理的ダイナミクスと社会的規範の両方を伴い、薬剤設計は自然のメカニズムとデジタルシミュレーションパイプラインを結合させる。

物理世界の法則は、身体を持つエージェントが尊重しなければならない物理的ダイナミクスを通じて遷移を制約する。具体的には、接触力学、衝突応答、重力加速度、摩擦、運動学的実現可能性などである。ロボット操作、自動運転、インタラクティブ3Dシミュレーションにおいて、学習された遷移 p_{\theta}(z_{t}\mid z_{t-1},a_{t}) は、これらの物理的相互作用を忠実に符号化しなければならない(Todorov et al., 2012; Hu et al., 2023; Wang et al., 2024h)。このレジームは、解析的に特徴付け可能な支配方程式によって区別される。物理エンジンや解析モデルは、予測された遷移が剛体制約やニュートン力学と整合しているかどうかを検証できる。制約違反は、物体がすり抜けたり、ロールアウトの途中で重力が反転したり、物理的に不可能な変形が生じたりする形で現れる。このような失敗は、真のダイナミクスが閉形式または数値的に厳密な参照解を許容するため、即座に検出可能である。

デジタル世界の法則は、API契約、UIの状態機械、ファイルシステムのロジック、ネットワークプロトコルを含む、決定論的なプログラム意味論を通じて遷移を制約する。ウェブナビゲーション、コード生成、ソフトウェアテストにおいて、遷移関数 p_{\theta}(z_{t}\mid z_{t-1},a_{t}) は大部分が決定論的であるが、エラーコード、権限チェック、エッジケースを通じて大きく分岐する(Gu et al., 2025b; Yao et al., 2022)。このレジームは、仕様化可能かつ検証可能な遷移によって定義される。プログラムを実行し、その出力をモデルの予測と比較することができる。制約違反は、存在しないAPI呼び出しを生成したり、返されたエラーコードを無視したり、型制約に違反したりする形で現れる。基盤となるシステムが形式的な人工物であるため、そのようなエラーは機械的にチェック可能である。

社会世界の法則は、信念、目標、規範、社会契約、制度的ルールを通じて遷移を制約する。社会シミュレーション、対話システム、マルチエージェント相互作用において、 p_{\theta}(z_{t}\mid z_{t-1},a_{t}) は、共同行動と心的状態を新しい心的状態と社会的結果にマッピングする(Park et al., 2023; Zhou et al., 2025b)。このレジームを際立たせるのは2つの特性である。遷移は再帰的であり、状態についてのエージェントの信念が状態そのものを積極的に変化させることを意味する。また、それらは規範的でもあり、何が起こるかだけでなく、共有された慣習に従って何が起こるべきかによって支配される。制約違反は、結果を伴わずに約束を破ったり、以前のコミットメントを忘れたり、確立された社会規範を無視したりする形で現れる。社会的成果は相互期待に依存するため、このような失敗は一貫性を損なう。

科学世界の法則は、アプリオリに指定されるのではなく、経験的観測から発見されなければならない潜在的な因果メカニズムを通じて遷移を制約する。天気予報、分子動力学、タンパク質折り畳み、創薬において、p_{\theta}(z_{t}\mid z_{t-1},a_{t}) は、正確な関数形が未知であるか、解析的に記述するには複雑すぎる大気力学、化学反応速度論、生物学的プロセスを符号化する(Karniadakis et al., 2021; Lam et al., 2023; Abramson et al., 2024)。このレジームは、支配方程式が閉形式で利用できない点で異なる。ワールドモデルはデータからそれらを学習し、実験計測に対して検証されなければならない。制約違反は、物理的に不可能な分子配置を予測したり、経験的に成り立つ保存則に違反したり、既知の因果依存関係を無視したりする形で現れる。検出には通常、記号的な検証ではなく、実験室や観測データとの比較が必要となる。

これらの基盤を踏まえ、以降のセクションでは各能力レベルを順に具体化する。セクション 3 ではL1手法をサーベイし、セクション 4 ではL2シミュレーションを扱い、セクション 5 ではL3モデル改訂を検討する。付録 B では、ワールドモデリングと一般的な予測、ワールドモデルとプランナー、ワールドモデリングとスクリプト化されていない状況でエージェントが依存する常識推論との違いを明確にする。

3 L1予測器:局所マルコフ予測

階層構造はL1から始まる。これは、ワールドモデルの局所的な予測能力を評価するものであり、有意義な内部状態を維持し、局所的な予測メカニズムを用いて次の状態(潜在的な観測や行動を含む)を予測することを要求する。図 7 の統一されたグラフィカルモデルにおいて、L1は、行動 a_{t-1} で条件付けられた単一のエッジ z_{t-1}\to z_{t} のスコープである。このセクションのすべては、この1ステップ遷移を構成する演算子を詳述し、それらが現代のワールドモデルシステムでどのように実現されているかを検証する。

3.1 定義

L1は、タスクや目標を達成するために環境内で行動するエージェントにとっての、ワールドモデルの局所的な予測能力に関係する。より正確には、エージェントとは、観測を与えられた上で、目的を満たすために意思決定と行動を行うシステムである。したがって、本論文におけるL1ワールドモデルの役割は、単に次の信号を予測することではなく、1ステップ(または短い固定ホライズン)の粒度でそのような意思決定をサポートする局所的な予測演算子を提供することである。この認識論的スタンスは、ヒュームの恒常的連接の考え方と一致する。つまり、因果的必然性を主張することなく、観測されたデータから規則性が抽出される(セクション 2.1)。

L1の基盤となるPOMDP定式化は強化学習の文献に由来し、そこではエージェントは累積報酬を最大化するために部分観測下で行動を選択しなければならない(Kaelbling et al., 1998; Puterman, 1994)。この設定では、エージェントは隠れ状態に対する内部信念を維持し、信念を行動にマッピングする方策 \pi(a_{t}\mid b_{t}) を作成する。この定式化は、典型的なエージェント-環境ループを構成する(Sutton, 1991)。タスクを達成するために環境と相互作用するエージェントにとって、POMDPは4つの局所演算子に分解される:状態推論、前方動力学、観測デコーディング、逆動力学である。これらは共に、L1レベルにおけるワールドモデルの基礎的な学習問題を記述する。

この定式化(セクション 2)に従うと、L1 は、学習された内部状態 z_{t} (信念状態に類似)に作用する局所予測演算子によって特徴付けられ、モデリングの中核概念は1ステップ(または短い固定ホライズン)の遷移演算子に集中する。実用的には、z_{t} は観測と行動から推定され、潜在的な環境状態や信念の学習された近似として機能する(Hafner et al., 2025; Schrittwieser et al., 2020)。このような潜在動力学を学習する概念は、制御のための局所線形潜在モデル(Watter et al., 2015)やガウス過程動力学(Deisenroth and Rasmussen, 2011)にまで遡ることができ、現代の深層学習アーキテクチャによって強化されてきた(Ha and Schmidhuber, 2018; Hafner et al., 2020)L1 における「マルコフ」という用語は、学習された内部状態 z_{t} におけるマルコフ性を意味し、環境状態が直接観測可能であることではなく、z_{t} が後続の局所ステップを予測するのに十分(またはほぼ十分)であることを示す(Hafner et al., 2019; 2025; Gelada et al., 2019)

モデルレベルでは、L1は z_{t} に対する4つの局所演算子に分解される(表 2)。中核となる演算子は潜在動力学(z_{t-1}\to z_{t})であり、その他は一般的なサポート演算子である:

表2: L1コンポーネントの因数分解。 4つの局所演算子がL1ワールドモデルの構成要素を形成する。中核演算子は前方動力学であり、その他はサポート演算子である。

V-JEPA(Bardes et al., 2024) https://arxiv.org/abs/2404.08471 論文 https://github.com/facebookresearch/jepa コード ✔ ✗ ✗ ✗ ViT + 予測器

DINOv2(Oquab et al., 2024) https://arxiv.org/abs/2304.07193 論文 https://github.com/facebookresearch/dinov2 コード ✔ ✗ ✗ ✗ ViT 自己蒸留

モデルベースRL

PILCO(Deisenroth and Rasmussen, 2011) https://dl.acm.org/doi/10.5555/3104482.3104541 論文 https://github.com/UCL-SML/pilco-matlab コード ✗ ✔ ✗ ✗ ガウス過程

E2C(Watter et al., 2015) https://arxiv.org/abs/1506.07365 論文 – ✔ ✔ ✔ ✗ 局所線形潜在

PETS(Chua et al., 2018) https://arxiv.org/abs/1805.12114 論文 https://github.com/kchua/handful-of-trials コード ✗ ✔ ✗ ✗ NNのアンサンブル

World Models(Ha and Schmidhuber, 2018) https://arxiv.org/abs/1803.10122 論文 https://github.com/hardmaru/WorldModelsExperiments コード ✔ ✔ ✔ ✗ VAE + MDN-RNN

Dreamer(Hafner et al., 2020) https://arxiv.org/abs/1912.01603 論文 https://github.com/danijar/dreamer コード ✔ ✔ ✔ ✗ RSSM(GRU + 確率的)

DreamerV2(Hafner et al., 2021) https://arxiv.org/abs/2010.02193 論文 https://github.com/danijar/dreamerv2 コード ✔ ✔ ✔ ✗ RSSM(離散的確率的)

DreamerV3(Hafner et al., 2025) https://arxiv.org/abs/2301.04104 論文 https://github.com/danijar/dreamerv3 コード ✔ ✔ ✔ ✗ RSSM + symlog

MuZero(Schrittwieser et al., 2020) https://arxiv.org/abs/1911.08265 論文 – ✔ ✔ ✗ ✗ MLPダイナミクス + MCTS

EfficientZero(Ye et al., 2021) https://arxiv.org/abs/2111.00210 論文 https://github.com/YeWR/EfficientZero コード ✔ ✔ ✗ ✗ MuZero + 自己教師あり

TD-MPC2(Hansen et al., 2024) https://arxiv.org/abs/2310.16828 論文 https://github.com/nicklashansen/tdmpc2 コード ✔ ✔ ✗ ✗ MLP潜在ダイナミクス

DeepMDP(Gelada et al., 2019) https://arxiv.org/abs/1906.02736 論文 – ✔ ✔ ✗ ✗ ベルマン整合潜在

MBPO(Janner et al., 2019) https://arxiv.org/abs/1906.08253 論文 https://github.com/jannerm/mbpo コード ✗ ✔ ✗ ✗ NNのアンサンブル

トークン / 拡散ベース

IRIS(Micheli et al., 2023) https://arxiv.org/abs/2209.00588 論文 https://github.com/eloialonso/iris コード ✔ ✔ ✔ ✗ VQ-VAE + Transformer

TransDreamer(Chen et al., 2022) https://arxiv.org/abs/2202.09481 論文 https://github.com/changchencc/TransDreamer コード ✔ ✔ ✔ ✗ Transformer-XL + 確率的

Latent Diffusion(Rombach et al., 2022) https://arxiv.org/abs/2112.10752 論文 https://github.com/CompVis/latent-diffusion コード ✔ ✗ ✔ ✗ 潜在空間拡散

STORM(Zhang et al., 2023a) https://arxiv.org/abs/2310.09615 論文 https://github.com/weipu-zhang/STORM コード ✔ ✔ ✔ ✗ Transformer + VAE

DIAMOND(Alonso et al., 2024) https://arxiv.org/abs/2405.12399 論文 https://github.com/eloialonso/diamond コード ✗ ✔ ✗ ✗ ピクセル空間拡散

Delta-IRIS(Micheli et al., 2024) https://arxiv.org/abs/2406.19320 論文 https://github.com/vmicheli/delta-iris コード ✔ ✔ ✔ ✗ VQ-VAE + 差分符号化

私たちは、先に定義した四つの局所演算子、すなわち状態推論(観測と履歴データからz_tを導出する)、前方動力学(基本的な遷移モデル)、観測デコーディング(z_tとo_tを関連付ける)、逆動力学(連続する状態から行動を推測する)に基づいて、著名なL1技術を分類する(Ding et al., 2025a; Moerland et al., 2023)。表3は、代表的な手法とその主要な革新を要約している。前方動力学に最も多くの紙幅を割くが、それはこの演算子が、L1システムを後にL2シミュレータへと昇華させることができるかどうかを最も直接的に決定するためである。他の構成要素も依然として不可欠ではあるが、その役割は主に、潜在状態をその遷移に使えるようにすることにある。

状態推論は、高次元の観測を、意思決定に重要な情報を保持するコンパクトな潜在表現z_tへと凝縮し、部分観測のシナリオにおいてz_tがマルコフ的な信念を近似するよう、時間的文脈を統合する(Lesort et al., 2018)。

対照予測符号化(CPC; Oord et al., 2018)は、InfoNCE損失を介して現在と未来の埋め込み間の相互情報量を最大化するようにエンコーダーを訓練する。これは、時間的に隣接する正のペアを、同じバッチから取った負例と対比させるものである。SimCLR(Chen et al., 2020)とMoCo(He et al., 2020)は、それぞれデータ拡張に基づく正のペアと、運動量で更新されるエンコーダーによって、汎用的な対照学習のフレームワークを確立し、下流のワールドモデルが依拠する事前学習済みの視覚的バックボーンを提供した。しかし、汎用的な視覚表現は、z_tが制御に関連する情報を保持することを保証しない。CURL(Laskin et al., 2020)は、連続するフレーム間の時間的近接性を正のペアとして対照学習をRLに拡張することでこれに対処し、Atariや連続制御においてモデルベース手法に匹敵するサンプル効率を達成した。自己予測表現(SPR; Schwarzer et al., 2021)は、エンコーダーに自身の未来の表現を予測するように訓練し、時間構造と意思決定に関連するダイナミクスを組み込む。どちらの手法もAtari 100kで高いサンプル効率を示し、ワールドモデルの表現が意思決定の目的に合わせて調整されることで恩恵を受けることを裏付けている。

ペアを対比させるのではなく、別の系統の手法は、隠蔽された領域の埋め込みを潜在空間で直接予測する。JEPAとその変種であるI-JEPA(Assran et al., 2023)とV-JEPA(Bardes et al., 2024)は、ピクセルにデコードし直すことなく、隠蔽領域の埋め込みを予測する(LeCun, 2022)。このアプローチは、エンコーダーがピクセルレベルでの複雑な再構成に縛られることなく、意味的・構造的な一貫性を把握することを促す。別の側面として、基盤モデル領域のDINOv2(Oquab et al., 2024)は、自己蒸留を通じて多用途な視覚特徴を生成し、後続タスクのための堅牢な状態エンコーダーを確立する。補完的な方向性として、推論された状態を、純粋に連続的なものではなく、明示的にオブジェクト中心的でプログラム的なものにする研究もある。「Thinking with Blueprints」は、画像をJSON形式の青写真に変換し、質問に関連するオブジェクトの位置、サイズ、属性を記録し、この構造化された表現に基づいて空間的なクエリに応答する(Ma et al., 2026)。これは逐次制御ではなくVLMの空間推論のために提案されたものだが、有用な内部状態が、密な潜在埋め込みだけでなく、意思決定指向のシーン記述という形を取りうることを示している点で、L1の状態推論に大いに関連する。

第三の研究の流れは、報酬予測、逆モデル損失(Pathak et al., 2017)、価値関数の一貫性といった制御指向の補助目的関数を通じてz_tを形成するもので、DeepMDP(Gelada et al., 2019)で定式化されている。このフレームワークは、潜在的なマルコフ連鎖がベルマン方程式に近似的に従うことの必要性を明確に示している。Embed to Control(E2C; Watter et al., 2015)は、潜在空間内でのLQRベースの計画のために、VAEエンコーダー・デコーダーと同時に局所線形の潜在ダイナミクスを獲得した。

単一の観測が不十分な場合、モデルは過去情報をz_tに集約しなければならない。Hafner et al.(2019)のリカレント状態空間モデル(RSSM)は、潜在変数を決定論的なリカレント経路h_t = f(h_{t-1}, z_{t-1}, a_{t-1})と確率的な要素z_t ∼ q_ϕ(z_t ∣ h_t, o_t)に分割し、任意の長さの履歴を圧縮しつつ確率的な不確実性を保持する。このリカレントな信念状態(h_t, z_t)は、Dreamerファミリーにおいて、下流のあらゆる予測と制御のための内部状態として機能する(Hafner et al., 2020; 2021; 2025)。

科学的な応用は、生の観測が高次元で、科学的に意味のある状態が潜在的なものである場合に、同じ状態推論の原理がどのように機能するかを示している。構造生物学では、タンパク質の立体構造予測はL1の状態推論として捉えることができる。つまり、アミノ酸配列(観測)を主要な3D座標状態へとマッピングするのである。AlphaFoldの系譜は、学習された距離ベースのポテンシャル(Senior et al., 2020)から、実験精度に迫るエンドツーエンドのEvoformerアーキテクチャ(Jumper et al., 2021)、そして拡散ベースの生体分子複合体構造の結合予測(Abramson et al., 2024)へと進歩した。並行する取り組みにより、三方向ネットワーク(Baek et al., 2021)や、単一配列推論を可能にするタンパク質言語モデル(Lin et al., 2023)によっても、強力な構造予測が達成可能であることが示された。 神経科学では、HMM(Baker et al., 2014)、RNN(Gohil et al., 2022)、Transformer(Khan et al., 2023)が、Ha and Schmidhuber(2018)と概念的に類似した状態推論パラダイムに従い、電気生理学的記録を一連の潜在ネットワークモードへとマッピングするために用いられている。 学習された解釈可能な潜在表現の分析からは、様々な知見が明らかになっている。安静時の皮質活動は、300~1,000msのタイムスケールでサイクルに組織化された(van Es et al., 2025)、一時的で断続的に再発するイベント(Vidaurre et al., 2018)として記述できる。

これらのアプローチは、p_θ(z_t ∣ z_{t-1}, a_t)を直接確立し、L1の中核を形成する。ダイナミクスネットワークの精度は、価値ある1ステップ予測を生み出すために極めて重要であり、多数のステップにわたって集約できるだけの表現力を持たねばならない。これはL2ではより厳しくなる重要な要件である(Moerland et al., 2023)。

モデルベース強化学習(RL)において、行動条件付きの潜在遷移モデルは中心的な役割を果たす。PILCO(Deisenroth and Rasmussen, 2011)は、ガウス過程ダイナミクスと解析的な不確実性伝播を組み合わせ、効率的な連続制御を実現した。MuZero(Schrittwieser et al., 2020)は、観測再構成なしに、価値予測とモンテカルロ木探索のためにエンドツーエンドで訓練される決定論的ダイナミクス関数z_t = f_θ(z_{t-1}, a_t)を採用している。EfficientZero(Ye et al., 2021)は、自己教師ありの一貫性損失を組み込むことでこのアプローチをさらに強化し、わずか2時間の経験でAtariゲームにおいて超人的なパフォーマンスを達成した。逆に、Dreamer(Hafner et al., 2020; 2021; 2025)のリカレント状態空間モデル(RSSM)は、不確実性を考慮したロールアウトを容易にするために確率的ダイナミクスを活用する。PETS(Chua et al., 2018)は、ダイナミクスモデルのアンサンブルが、ロバストな計画に不可欠な信頼性の高い認識論的不確実性の推定を提供することを示した。TD-MPC(Hansen et al., 2022)は、時間差分目的関数を通じて潜在ダイナミクスを学習し、ダイナミクスモデルと価値推定を直接整合させる。TD-MPC2(Hansen et al., 2024)は、単一の3億1700万パラメータのエージェントにスケールアップし、様々なドメインにわたる104のタスクを習得することに長けている。

最近のトレンドは、連続的な潜在ダイナミクスから、離散トークンまたは拡散ベースの遷移への移行である。例えば、IRIS(Micheli et al., 2023)は、VQ-VAEコードブック(van den Oord et al., 2017)を用いて観測をトークン化し、その結果得られたシーケンスを自己回帰型Transformerでモデル化する。一方、TransDreamer(Chen et al., 2022)は、長期の注意範囲を強化するために、RSSMのGRUをTransformer-XLに置き換えている。Zhang et al.(2023a)は、Transformerのシーケンスモデリングと確率的VAEダイナミクスを組み合わせ、Micheli et al.(2024)は、フレーム全体ではなく、フレーム間の確率的な差分を符号化する。拡散モデルの分野では、DIAMOND(Alonso et al., 2024)が、低容量の潜在ダイナミクスでは見落とされる可能性のある視覚的な細部を保持するために、1ステップの遷移演算子として拡散デノイジングを採用している。

予測符号化の原理(Rao and Ballard, 1999; Friston, 2010)に基づき、CPC(Oord et al., 2018)、SPR(Schwarzer et al., 2021)、JEPA(Bardes et al., 2024; Assran et al., 2023)などの方法論は、観測そのものではなく、次に来る観測の潜在埋め込みを予測する。SimPLe(Kaiser et al., 2020)は、効率的なAtari RLのためのワールドモデルとしてピクセルレベルの動画予測の実行可能性を示したが、ピクセル空間と潜在空間の間の予測忠実度の相違は、抽象的なダイナミクスへの進歩と、L1からL2への移行を強調している。

方策最適化のためにドリーミングを用いる以外にも、1ステップダイナミクスモデルは経験の生成器としても機能する。MBPO(Janner et al., 2019)は、サンプル効率を高めるために短いモデルロールアウトをリプレイバッファに統合する。Nagabandi et al.(2018)は、モデルベースの事前学習とモデルフリーの微調整を組み合わせることで、両方のアプローチの長所を活用できることを示した。DayDreamer(Wu et al., 2023a)は、潜在的な想像力を物理ロボットに転移させ、Wang et al.(2024c)はこれを視覚ドメイン間での転移強化学習(RL)知識へと拡張し、Hao et al.(2025)は、神経運動シミュレーションを通じて長期の物理スキルを獲得する方向へとワールドモデルを推し進めている。これらの応用は、L1ダイナミクスがデータ触媒、計画基盤(Schrittwieser et al., 2020; Hafner et al., 2025; Hansen et al., 2024)、そして生の相互作用を高レベルな行動へと圧縮するメカニズム(Moerland et al., 2023)として機能することを強調している。

デコーダーはp_ψ(o_t ∣ z_t) を実装し、三つの重要な機能を持つ。それは、z_tが十分な情報を保持することを保証するための訓練信号を提供し、モデルが学習した表現を調べるための診断インターフェースとして機能し、ドリーミング中に想定される観測を生成するためのレンダリングエンジンとして機能する(Ha and Schmidhuber, 2018; Hafner et al., 2020)。

変分オートエンコーダー(VAE; Kingma and Welling 2014, 独立に Rezende et al., 2014)は、標準的な確率的フレームワークを提供する。エンコーダー q_ϕ(z_t ∣ o_t) は観測を潜在事後分布にマッピングし、デコーダー p_ψ(o_t ∣ z_t) は潜在変数から観測を再構成し、ELBOを通じて同時に訓練される。ワールドモデリングのワークフローでは、VAEは生のピクセル入力を簡潔なコードへと圧縮し、ダイナミクスモデルへと伝達する(Ha and Schmidhuber, 2018; Hafner et al., 2019)。β-VAE(Higgins et al., 2017)は、もつれを解いた因子を促すためにKLダイバージェンス項を増幅し、VQ-VAE(van den Oord et al., 2017)は、連続的な潜在変数を離散的なコードブックに置き換え、トークンベースのワールドモデルの基礎となる(Micheli et al., 2023)。Ha and Schmidhuber (2018) によるWorld Modelsの概念は、VAEエンコーダー、LSTMダイナミクスモデル(MDN-RNN)、そして独立したコントローラーの融合を導入した。その後、Dreamer の系譜(Hafner et al., 2020; 2021; 2025)は、このパラダイムをエンドツーエンドの潜在想像フレームワークへと拡張し、方策と価値関数は想像上の潜在軌跡のみで訓練され、デコーダーはそれ自体が生成的な目的というよりも、主に正則化と補助的な忠実度チェックとして機能する。

Sora(Brooks et al., 2024)のような大規模な動画生成モデルは、潜在軌跡からフォトリアリスティックなフレームを生成するために高容量の観測デコーダーを活用する。Latent Diffusion Models(Rombach et al., 2022)は、画像をより低次元の潜在空間へと圧縮し、その空間で拡散過程をより効率的に適用する。一方、Diffusion Transformer(DiT; Peebles and Xie 2023)は、U-Netバックボーンを標準的なTransformerに置き換えることで拡張性を高めている。最近の画像生成バックボーンは、Dynamic Generative Image Transformer(Mao et al., 2026b)のような情報適応型のトークン化と生成も探求しており、それ自体は多段階のワールドモデルではないが、観測レベルのデコーダーのための有用な設計方向性を示唆している。これらのモデルは、p_ψ(o_t ∣ z_t) を大規模に高品質に実現できる可能性を示している。しかし、デコーダーを制御する潜在ダイナミクスの質と、z_tが一貫した多段階予測を促進する能力は、L2の議論への移行を動機付ける課題として依然として残っている。

逆ダイナミクス演算子 π_η(a_t ∣ z_{t-1}, z_t) は、二つの連続する潜在状態の間で取られた行動を推測する。この演算子は、現代のワールドモデルシステムにおいて複数の役割を果たす。Pathak et al. (2017) は、好奇心駆動型の探索戦略として逆ダイナミクスを利用し、環境の制御可能な側面だけを捉えるように表現を洗練させた。連続する状態間の行動を予測するようにエンコーダーを訓練することで、逆モデルはエージェントの決定には無関係な外因性の視覚ノイズ(例:動く雲、ちらつく背景)をフィルタリングする。より広い文脈では、逆ダイナミクスはz_tが行動に関連する特性を保持するように促す追加の訓練信号として機能し、意思決定に有用な表現を学習するためのメカニズムとして、前方ダイナミクスや再構成を補完する(Lesort et al., 2018)。

逆ダイナミクスの特に影響力のある応用は、大規模な模倣学習のための遡及的な行動ラベリングである。Baker et al. (2022) は、少量の行動ラベル付きMinecraftゲームプレイで逆ダイナミクスモデルを訓練し、それを用いて、はるかに大規模なラベルなしインターネット動画群にラベル付けを行い、Video PreTraining (VPT) が受動的な観察のみからダイヤモンド採掘のような複雑な行動を学習することを可能にした。このパイプラインは、逆ダイナミクスが、豊富なラベルなし動画と行動クローニングに必要な行動アノテーションとの間のギャップを埋め、観測のみのデータを方策学習のための利用可能な訓練信号へと効果的に変換できることを示している。逆ダイナミクスはまた、目標条件付き方策アーキテクチャの基盤にもなっている。現在の状態 z_{t-1} と望ましい目標状態 z_g が与えられた場合、逆モデルは目標に向かって遷移するであろう行動を予測し、上位のプランナーがサブゴールを選択し、下位の逆モデルがそれを実行する階層的計画のための自然なインターフェースを提供する(Ghosh et al., 2021)。Agrawal et al. (2016) は、ロボットが物体を「つつき」、観測された状態変化からつつきのパラメータを予測するように逆モデルを訓練することで、直感的な物理を学習できることを示し、逆ダイナミクスが相互作用を通じて物理的理解を具体的なものにできることを例示した。

多くの効果的なワールドモデルは逆ダイナミクスを完全に除外しているが、他のモデルはそれを軽い正則化の手法として用いている。実用的だが十分に議論されていない問題は、行動ラベルの質である。行動が直接記録されるのではなく遡及的に推測される場合、逆モデルの誤差は、ワールドモデルが最も信頼できる教師信号を必要とする分布の端で正確に蓄積する。さらに、逆演算子は、状態ペア間の行動が一意またはほぼ一意であることを前提としており、この前提は確率的な環境や、複数の行動が同じ結果につながる場合には破綻し、そのような設定での信頼性が制限される。

本論文は時間tでインデックス化された時間的な局所予測に焦点を当てているが、同じ局所演算子の視点は、拡散ステップ、再精製ステップ、階層的更新段階といった非時間的な軸に沿っても適用できる。我々はこれらをL1の境界事例として扱い、独立した能力レベルとはみなさない。なぜなら、重要な特性は依然として局所的な遷移予測であり、意思決定に使える多段階ロールアウトではないからである。

L1だけでは、長期のホライズンにわたる一貫した行動を保証できない。1ステップ誤差の複利(Janner et al., 2019; Chua et al., 2018)や、多数のステップにわたる一貫性の維持、介入や反実仮想推論の方法の欠如といった課題は、L2の必要性を浮き彫りにする。同様に、L1もL2も、本質的に新しい証拠に基づいてモデルを適応させるわけではない。この能力はL3の焦点である。L1とL2の根本的な区別は、そのシステムが1ステップ予測の精度だけに焦点を当てるのではなく、多段階ロールアウトの正確さと制約の遵守のために定式化され評価されるかどうかにある(Hafner et al., 2025; Ding et al., 2025a; Moerland et al., 2023)。L1の限界は、1ステップ予測が重要でないということではなく、局所的な予測品質だけでは、構成下での意思決定に使える振る舞いを保証しないということである。したがって、実践的な問いは、短期ホライズンの演算子がプランナーのニーズを満たさなくなるのはいつか、ということになる。

L1が「現在の状態と行動が与えられたとき、次の局所状態は何か?」という問いに答えるのに対し、L2は意思決定に関連する問い「エージェントがタスク制約の下で候補となる行動系列を実行した場合、どのような将来の軌跡が展開する可能性が高いか?」に答える。この高度化により、1ステップ演算子は、エージェントが行動にコミットする前に問い合わせることのできるシミュレータへと変貌し、実際の環境との相互作用を必要とせずに未来の想像を提供する。モデルベースの計画はまさにこの能力を利用する。学習されたモデル内で候補プランをロールアウトすることにより、エージェントは結果を比較し、最も有望な行動方針を選択するのである(Sutton, 1991; Hafner et al., 2025; Schrittwieser et al., 2020)。重要な帰結は、エージェントのための合成訓練データを生成するために使用されるあらゆるシステムは、方策の改善を支えるのに十分なほど現実的な状態遷移を生成しなければならないため、暗黙のうちにワールドモデルとして機能するということである(Gu et al., 2025b; Fang et al., 2025)。意思決定に使えるシミュレーションはもっともらしいダイナミクスに焦点を当てていることは注目に値する。これは、状態変化が恣意的でありうるL1との区別を保持するものである。例えば、固体のテーブルを通り抜けるカップ、結果を伴わずに車線境界を横切る車、または静かに消え去る社会的な約束は、それぞれ対象となる領域の支配的な不変量を保存することの失敗を表している。

表4は、三つのL2境界条件を、各支配法則体制における具体的な実体化へとマッピングしている。より正確には、L2システムは p̂(τ ∣ z_0, a_{1:H}, c), τ = (z_1, …, z_H) という形式の軌跡レベルのクエリをサポートする。ここで a_{1:H} は行動系列を示し、c は支配法則体制によって課される任意の制約を示す。介入構造化ロールアウトは、パールの因果階層の介入段階と整合する。L2をL1から分かつのは、1ステップ予測の品質だけではなく、支配法則の下での一貫した多段階ロールアウトである。したがってL2は、エッジごとのL1演算子を完全な軌跡 z_0 → z_1 → ⋯ → z_H へとつなぎ合わせる。

表4は、これら三つのL2境界条件を各支配法則体制における具体的な実体化へとマッピングしている。より正確には、L2システムは p̂(τ ∣ z_0, a_{1:H}, c), τ = (z_1, …, z_H) という形式の軌跡レベルのクエリをサポートする。ここで a_{1:H} は行動系列、c は支配法則体制によって課される任意の制約を示す。介入構造化ロールアウトは、パールの因果階層の介入段階(2.1節)と整合する。L2をL1から分かつのは、1ステップ予測の品質だけではなく、 支配法則の下での一貫した多段階ロールアウト である。したがってL2は、エッジごとのL1演算子を完全な軌跡 z_0 → z_1 → ⋯ → z_H へとつなぎ合わせる(図7上段参照)。

WebDreamer(Gu et al., 2025b)論文コードLLMによるWeb状態シミュレーション
CodeWM(Dainese et al., 2024)論文コードLLMとMCTSによるコード生成
WorldCoder(Tang et al., 2024)論文コードLLMによる段階的なコード合成
GameNGen(Valevski et al., 2025)論文U-Netを用いた拡散モデル
WMA(Chae et al., 2025)論文コードLLMによるWeb遷移予測
WebSynthesis(Gao et al., 2025)論文コードLLMとMCTSによるプランニング
NeuralOS(Rivard et al., 2025)論文コードRNNとピクセル単位の拡散モデル
GameFactory(Yu et al., 2025a)論文コード行動制御による動画生成
GameCraft(Li et al., 2025b)論文コード拡散モデルによるゲーム動画生成
MobileDreamer(Cao et al., 2026)論文LLMによるGUIスケッチ予測
Word2World(Li et al., 2025g)論文コードLLMによるテキストベースの世界モデル
Code2World(Zheng et al., 2026)論文コードVLMによるコードレンダリング
gWorld(Koh et al., 2026)論文コードVLMによるコードレンダリング
WebWorld(Xiao et al., 2026)論文ファインチューニング済みVLMによるWebシミュレータ
RWML(Yu et al., 2026)論文LLMと強化学習によるSim-to-Real
手法リンクLHISCCアーキテクチャ
社会世界
Deal or No Deal(Lewis et al., 2017)論文コードRNNと強化学習による自己対戦
Social Simulacra(Park et al., 2022)論文GPTによるプロンプト連鎖に基づくコミュニティシミュレーション
CICERO(Bakhtin et al., 2022)論文コードLLMと戦略的プランニング
Generative Agents(Park et al., 2023)論文コードLLMによる内省的な記憶
Sotopia(Zhou et al., 2024c)論文コードLLMによる社会的評価
AvalonBench(Light et al., 2023)論文コードLLMによる演繹的推論
Werewolf(Xu et al., 2023)論文コードLLMと強化学習による戦略方策
ProjectSid(AL et al., 2024)論文コードLLMによるマルチエージェント文明シミュレーション
OASIS(Yang et al., 2024d)論文コードLLMによる社会シミュレーション
MASim(Zhang et al., 2025g)論文多言語エージェントシミュレーション
SWM-AP(Zhang et al., 2025e)論文社会世界モデルによるメカニズム設計
AIvilization(Fan et al., 2026)論文サンドボックス経済シミュレーション
PolicySim(Huang et al., 2026a)論文コードLLMによるプラットフォーム政策サンドボックス
科学世界
GNS(Sanchez-Gonzalez et al., 2020)論文コードGNNによるメッセージパッシング
ChemBO(Korovina et al., 2020)論文コードガウス過程と合成グラフに基づくベイズ最適化
P3BO(Angermueller et al., 2020)論文適応的な集団ベース最適化
FNO(Li et al., 2021b)論文コードフーリエニューラルオペレーター
Pangu-Weather(Bi et al., 2023)論文コード3D地球トランスフォーマー
ClimaX(Nguyen et al., 2023)論文コードViTによる気候基盤モデル
GraphCast(Lam et al., 2023)論文コードGNNによる自己回帰型気象予測
GenCast(Price et al., 2024)論文コード球面アンサンブル拡散モデル
NeuralGCM(Kochkov et al., 2024)論文コード物理モデルとニューラルネットワークのハイブリッドコア
BAX(Chitturi et al., 2024)論文コードガウス過程とユーザー主導の獲得関数

Aurora (Bodnar et al., 2025) https://arxiv.org/abs/2405.13063 https://github.com/microsoft/aurora ✔ ✗ ✔ 3D Swin気象基盤モデル

Lingshu-Cell (Zhang et al., 2026a) https://arxiv.org/abs/2603.25240 — ✔ ✗ ✔ マスク拡散による細胞世界モデル

4.2.1 物理世界の法則

物理領域では、L2モデルは幾何学、運動学、保存則を尊重しなければならない。支配的な制約は接触、到達可能性、安定性、エネルギー保存である。これらのいずれかに違反すると、プランナーは現実の実行で壊滅的に失敗する行動を提案してしまう。

物理シミュレーション

剛体制御シミュレータ。古典的な物理シミュレータは、身体化された世界モデリングにおける実行可能な遷移の妥当性の基盤であり続けている。 MuJoCoは、多関節剛体力学と接触が豊富な制御を提供し、dm_controlはこれらの機能を標準化された連続制御スイートにパッケージ化している (Todorov et al., 2012; Tassa et al., 2020)。 Braxは、微分可能な剛体シミュレーションをアクセラレータ規模のスループットに押し上げ (Freeman et al., 2021)、Isaac GymとIsaac Labは大規模なGPU並列ロボティクスシミュレーションを重視している (Makoviychuk et al., 2021; Mittal et al., 2025)。

スケーラブルで汎用的なシミュレーションプラットフォーム。Genesisは、生成的で普遍的な物理エンジンとしての地位を確立しており (Genesis Authors, 2024)、これは制御と大規模な合成データ生成の両方を共同でサポートできる、より高スループットなシミュレータへの幅広いトレンドを反映している。

インタラクション中心の身体化シミュレータ。グラフィックスとロボティクスのインターフェースでは、SAPIENは部品認識型でインタラクション中心のシミュレーションを提供し、ManiSkill3は汎化可能な身体化AIのためにGPU並列レンダリングをスケールさせる (Xiang et al., 2020; Tao et al., 2024)。これらのシステムは学習されたシミュレータではない。それらは、その価値が正確な接触処理、多関節拘束、再現可能なロールアウトにある、明示的な法則実行者である。

動画生成モデル

外観優先の長尺動画生成。物理世界シミュレーションへのスケーラブルなルートは「動画インターフェース」である。すなわち、現在の観測とオプションの行動が与えられると、モデルは未来のフレームを想像して返す。この流れは、Sora、Lumiere、VideoPoetといったシステムが拡張された時間軸にわたって首尾一貫した視覚的ダイナミクスを示す、外観優先のロールアウトから始まる (Brooks et al., 2024; Bar-Tal et al., 2024; Kondratyuk et al., 2024)。また、ピクセルレベルのリアリズムを超えて、幾何学認識構造がますます現れている (Li et al., 2024d)。 FramePack (Zhang et al., 2025c) とSelf-Forcing (Huang et al., 2025c) は、フレームコンテキストパッキングを通じて長尺のずれを低減する。

行動条件付けとインタラクティブな動画世界。第二の方向性は、受動的な継続から介入認識型の生成へと移行する。Genieはラベルなしのインターネット動画から潜在行動空間を学習し (Bruce et al., 2024)、一方でGAIA-1は反実仮想評価のための明示的な制御信号に未来の生成を条件付ける (Hu et al., 2023)。より最近のシステムは、この流れをリアルタイム、長尺、ストリーミングインタラクションへと押し進めている。Oasisは統一トランスフォーマー世界におけるオープンエンドなインタラクティブ生成を探求し (Decart et al., 2024)、WorldPlayはリアルタイムインタラクティブ世界モデリングのための長期的な幾何学的一貫性を重視し (Sun et al., 2025b)、Matrix-Game 3.0は明示的な長期記憶を持つストリーミング設定へとインタラクティブ生成を拡張し (Wang et al., 2026b)、Yume-1.5はテキスト制御のインタラクティブ世界生成を研究し (Mao et al., 2025)、LongLiveはリアルタイムのインタラクティブ長尺動画生成を目標としている (Yang et al., 2025b)。これらを総合すると、これらのシステムは受動的な動画予測から、制御可能で介入認識型、かつ時間的に持続的な動画世界への移行を示している。

意思決定指向の動画世界モデル。モデルベース強化学習では、SimPLe (Kaiser et al., 2020) とDIAMOND (Alonso et al., 2024) が動画世界モデルの意思決定理論的な役割を明確にする。ロボティクスでは、DreamZero (Ye et al., 2026b) とDreamDojo (Gao et al., 2026) が動画世界モデルを介したゼロショットおよび汎用的な方策学習を実証し、一方でFutureVLA (Xu et al., 2026a) は視覚運動予測をVision-Language-Action方策と直接結びつけ、知覚と制御を統合する。

評価と限界。しかし、我々のL2の枠組みでは、視覚的なもっともらしさは意思決定の有用性とは等しくない。介入感度は依然として脆弱であり、長尺の一貫性は知覚品質だけで判断すると過大評価されやすく (Guo et al., 2025)、制約の一貫性はレンダリングされたフレームから検証することが困難である。FVD (Unterthiner et al., 2018) のような標準的な指標は分布のリアリズムを捉える。VBenchスタイルのスイート (Huang et al., 2024d; 2025e) は制御性をよりよく分解し、VBench-2.0 (Zheng et al., 2025a) は物理一貫性と常識推論に評価を拡張し、VChain (Huang et al., 2025d) は因果的一貫性のために視覚的な思考連鎖を導入する。動画インターフェースは最もスケーラブルな観測層のエントリポイントだが、プランナーにとって重要な構造はピクセルに暗黙的にとどまる。付録Cでは、そのような構造を明示的にする幾何学を担う代替案を概観する。

ロボティクスとSim-to-Real転移

実ロボットに転移された世界モデル。DayDreamer (Wu et al., 2023a) は、Dreamerファミリーの世界モデルが、センサーノイズ、接触ダイナミクス、作動遅延を処理しながら、シミュレーションから物理ロボットに転移できることを示した。DreamZero (Ye et al., 2026b) は、次の状態と行動の両方を予測する世界行動モデルを介してゼロショット方策学習を達成し、FutureVLA (Xu et al., 2026a) はVision-Language-Actionモデル内に視覚運動予測を埋め込み、行動グラウンディングを改善する。

Sim-to-Realの堅牢性のための物理に基づいた橋渡し。PIN-WM (Li et al., 2025d) は、微分可能物理を学習された視覚世界モデリングと統合し、物理認識ランダム化を通じて「デジタル従兄弟」を作り出す。

表現の要件。これらのシステム全体で、重要な問いは、より豊かな表現が可能かどうかではなく、物体の永続性、自由空間、接触の開始、支持関係、有用な期間にわたる行動条件付きの変化といったプランナーにとって重要な構造を維持する「最も弱い表現」は何か、ということである。3D構造化された世界モデルと自動運転に関する詳細は付録Cに記載されている。

4.2.2 デジタル世界の法則

デジタル世界の法則は、有限オートマトン(UIの状態機械)や文脈自由文法(構造化データ形式)からチューリング完全なプログラム(一般的なソフトウェア)まで、形式的な仕様によって定義されるシステムにおける遷移を支配する。物理世界や社会世界の法則とは異なり、これらの制約は「明示的に指定され、機械的に検証可能」である。すなわち、遷移はプログラムの意味論を満たすか、満たさないかのどちらかである。ソフトウェアの遷移は決定論的な状態機械に近似され、失敗はログ可能であるため(エラーコード、ポップアップ、許可拒否、タイムアウト)、コード世界におけるシミュレータの中核的な課題は、視覚的忠実度ではなく「構造化された状態予測」(DOMツリー、プログラム状態、ゲーム状態)である。

コーディングエージェント

新たなパラダイムは、世界モデルをニューラルネットワークではなく実行可能なプログラムとして表現する。CodeWM (Dainese et al., 2024) は、モンテカルロ木探索に導かれたLLMを用いて、18の環境にわたる強化学習のための明示的で解釈可能な世界モデルとして機能するPythonプログラムを生成する。WorldCoder (Tang et al., 2024) は補完的なアプローチを取り、LLMエージェントが環境とのインタラクションを通じてPython世界モデルを段階的に構築し、サンプル効率の高い転移を実現する。WKM (Qiao et al., 2024) は、LLMエージェントの計画を導くためにグローバルなタスク知識と動的な状態知識の両方を提供し、一方でコード世界モデル研究用に特別に学習された32BのオープンウェイトLLMであるCWM (Copet et al., 2025) は、SWE-bench Verifiedで65.8%を達成する。概念的に異なるバリアントはさらに推し進める。すなわち、LLMを使ってコード世界モデルを「生成」するのではなく、世界モデルが「動作しているソフトウェアシステムそのもの」である。Web World Models (Feng et al., 2025a) は、世界状態を通常のWebコード(TypeScriptモジュール、HTTPハンドラ、データベーススキーマ)として実装し、LLMがコンテキストと高レベルの意思決定を生成する一方で、論理的一貫性をWebスタックの決定論的な実行に委任する。これらのコードベースのアプローチは、ニューラルダイナミクスが近似することしかできない、解釈可能で、構成可能で、検証可能な世界モデルを生み出す。

Webエージェント

Webエージェントは通常ウェブサイトを閲覧する。したがって、ウェブサイト内の状態遷移をモデル化しシミュレーションすることは、効果的なWeb世界モデルを構築する上で極めて重要である。WebDreamer (Gu et al., 2025b) は、LLMをインターネットの暗黙的な世界モデルとして使用するアイデアを導入したが、その後の研究で、既製のLLMでは不十分であることが示された。遷移に焦点を当てた抽象化による専用の学習が必要である (Chae et al., 2025)。エージェントと世界モデルの共進化に取り組む研究が増えている。WebEvolver (Fang et al., 2025) は両者を相互改善ループで密接に結びつけ、一方でDreamGym (Chen et al., 2025f) は思考連鎖推論を用いた経験モデルを構築し、WebArenaで30%以上の改善を達成する。より大規模には、WebSynthesis (Gao et al., 2025) は完全に合成データを用いたMCTSベースの計画と世界モデルを組み合わせ、WebWorld (Xiao et al., 2026) は100万以上の軌跡で学習されたオープンWebシミュレータを訓練し、30ステップ以上のシミュレーションをサポートする。AUI (Lin et al., 2025a) は異なるアプローチを取り、反復的なコラボレーションループでコンピューター使用エージェントからのフィードバックを活用して、コーダーがウェブサイトを最適化する。直交する設計選択肢としては、ツールの仕様のみから軌跡を生成するもの (Simia; Li et al. 2025f) や、各ステップで世界モデルを参照する「かどうか」を決定するメタ認知層を追加するもの (WAC; Shen et al. 2026)、そして分布外の振る舞いを処理するためにエージェントが収集したデータを活用するものなどが含まれる。

GUIエージェント

GUIエージェント (Qin et al., 2025; Lin et al., 2025b; Xu et al., 2024b) は通常、実際の環境でアクションを実行する。しかし、アクションが危険であるか、望ましくない結果につながりうるシナリオでは、事前にそれらを推定することが有益である。GUI世界モデルはこれらのアクションをシミュレーションして評価し、それによりより信頼性の高いアセスメントを提供できる。したがって、MobileDreamer (Cao et al., 2026) はGUI画像をタスク関連のスケッチに変換して構造化された状態予測を行い、MobileWorldBench (Li et al., 2025c) は140万の(状態、行動、未来状態)トリプレットによる体系的な評価を提供する。明示的なGUI世界モデルを補完するものとして、UI-AGILEは効果的な強化学習と正確な推論時のグラウンディングが、強力な下流のGUIエージェントパフォーマンスにとって等しく重要であることを示している (Lian et al., 2025)。中心的な設計上の問いは出力表現である。ViMo (Luo et al., 2025) はシンボリックなテキスト表現を用いて未来の観測を画像として生成し、一方でgWorld (Koh et al., 2026) はレンダリング可能なWebコードを予測された次の状態として生成する。これは、GUIをレンダリングするコードを生成することが、ピクセルを直接生成するよりも忠実度が高い可能性を示唆している。OSレベルでは、NeuralOS (Rivard et al., 2025) はユーザー入力から画面フレームを予測することでデスクトップGUIをシミュレーションし、一方でCUWM (Guan et al., 2026) は、長尺のワークフローにわたって永続的なドキュメント状態を保持しなければならないデスクトップソフトウェアを対象とする。Code2World (Zheng et al., 2026) は、コードをレンダリング可能な世界として扱うことでこの路線をさらに拡張する。ここでは、生成されたプログラムが実行時に直接視覚状態(例:HTML)を生成する。これにより、環境ダイナミクスを実行可能なコード生成としてモデル化し、GUIなどのインタラクティブな領域において知覚、行動、状態遷移を密接に結びつけることが可能になる。

4.2.3 社会世界の法則

社会世界モデルはL2を人間の相互作用に拡張する。そこでは、支配的な法則は物理学ではなく、信念、欲求、意図、規範、制度である。社会世界は、特に「不透明性」(エージェントは互いの心的状態を直接観察できない)、「再帰性」(社会状態についての信念がフィードバックループを生み出す)、「規範性」(遷移は部分的に共有された規範によって支配される)という3つの特徴的な特性を示す。このような特性により、遷移関数は部分的に自然法則ではなく集団的な合意によって構成される (Zheng et al., 2025c)。使える社会シミュレータは、表面的な言語を根底にある社会状態から分離する。すなわち、対話は変化しうるが、コアな状態(目標、信念、関係、規範)は一貫性を保ち、解釈可能な遷移をもたらさなければならず、これは合理的音声行為フレームワーク (Goodman and Frank, 2016; Degen, 2023) によって形式化されている。具体的には、社会的整合性項 ϕc(τ) がコミットメントの一貫性を符号化できる。すなわち、エージェント i が時間 t に行動 b を約束した場合、後の状態は、i が説明、再交渉、制裁なしに b に違反した場合、低い整合性を受け取る。同様の項が、軌跡にわたる規範遵守、役割の一貫性、信念状態の首尾一貫性をスコアリングできる。

社会状態としての心の理論

計算論的基盤はベイジアン心の理論 (BToM) によって築かれた。これは心的状態推論を合理的エージェントに関する確率的な逆計画として形式化する (Baker et al., 2011)。ニューラルアプローチはToMnet (Rabinowitz et al., 2018) から始まり、そのキャラクター、心的状態、予測ネットワークが共同で特性と信念を推論する。また、LaBToM (Ying et al., 2025) などの最近の研究は、ベイジアン逆計画と形式的な認識言語を橋渡しする。しかし、現在のモデルは堅牢な心的状態推論を欠いている。FANToM (Kim et al., 2023) は、最先端のすべてのLLMにわたって「幻想的な心の理論」を明らかにし、ExploreToM (Sclar et al., 2024) はGPT-4o (Chen et al., 2025c) に関してわずか9%の精度を達成する。補完的な課題は「二重構造」問題である。社会エージェントは、他者の心的状態をモデル化する(心の理論)と同時に、長い相互作用にわたって自身の永続的な内部状態、特に目標、ペルソナ、記憶、知識を維持しなければならない。言語エージェントのための認知アーキテクチャ (CoALA) (Sumers et al., 2024) は、この二重構造を、相互に一貫性を保たなければならない別個の記憶と行動空間として形式化し、現在のLLMエージェントがどのようにして安定した自己表現を達成するか、しないかについての原理的な枠組みを提供する。

戦略的相互作用

CICERO (Bakhtin et al., 2022) は、Diplomacyのために言語モデルとpiKL計画を統合し、ゲームアクションと対話を共同で最適化しながら二次信念をモデル化し、人間の平均スコアの2倍以上を達成する。Deal or No Deal (Lewis et al., 2017) は、交渉ダイナミクスの前方シミュレーションのための対話ロールアウトを開拓した。人狼とAvalonゲームは、欺瞞、信頼、信念操作の集中的なテストベッドとして機能し (Xu et al., 2023; Light et al., 2023)、欺く側が認知限界を悪用することで一貫して勝つことを明らかにしている。

サンドボックスシミュレーション

ジェネレーティブエージェントは創発的な社会ダイナミクスを示した。25エージェントのシミュレーション (Park et al., 2023) は記憶ベースの状態追跡と定期的な内省を用い、一方でSotopia (Zhou et al., 2024c) は7次元にわたる社会シミュレーション評価を形式化した。規模は劇的に増大している。Project Sid (AL et al., 2024) は1000のエージェントを展開し、創発的な専門化と統治を示し、OASIS (Yang et al., 2024d) は情報拡散と集団分極を再現する100万エージェントにスケールした。個人レベルでは、Argyle et al. (2023) が「シリコンサンプリング」を実証している。これはLLMを特定の人口統計学的プロファイルに条件付け、対象とする部分集団からの調査回答をシミュレーションするものであり、アメリカ国民選挙調査データとの強い整合性を示し、個々の社会世界モデリングへの道を開く。生成的社会的選択 (Fish et al., 2024) はこれを民主的集約に拡張し、多様な合成参加者から代表的な声明を生成するためにLLMを使用し、熟議を可能にする。

課題と設計原則

社会シミュレーションは依然として未成熟である。LLMは二次信念推論を超えると急激に劣化し (Wu et al., 2023b)、エージェントは役割のずれと目標の忘却に悩まされ (Park et al., 2023; Zhou et al., 2024c)、正式なコミットメント追跡 (Telang et al., 2021) はどのLLMアーキテクチャにも統合されていない。実践的な設計パターンは、コンパクトな社会状態表現(コミットメント、制約、関係)、対話ジェネレーター、一貫性を強制し状態遷移をログ可能かつ再実行可能にする遷移更新器を分離する。柔軟なペルソナ生成は、多様で制御可能なエージェントを社会シミュレータに投入するために不可欠である。PersonaGym (Samuel et al., 2025) は、LLMが複雑な社会的タスクにわたって指定されたペルソナをどれほど忠実に演じるかを評価するベンチマークを提供し、敵対的プロービング下でのペルソナ一貫性の維持における体系的な失敗を明らかにする。個人レベルでのパーソナライゼーションに関しては、LaMP (Salemi et al., 2024) が、LLMが特定のユーザーの履歴と一貫性のある出力を生成することを要求する7つのタスクのベンチマークを導入し、検索拡張アプローチがギャップを大幅に埋めることを示している。心の理論のプロンプティング、サンドボックスアーキテクチャ、創発現象、デジタルツイン、制度的アプローチに関する詳細は、付録Cに記載されている。

4.2.4 科学世界の法則

AI for Scienceにおいて、L1からL2への移行は、局所的な状態や構造のモデル化から、複数ステップにわたるダイナミクスのシミュレーションへと焦点をシフトさせる。これらのダイナミクスは二軸に沿って生じる。第一はシステムの時間的発展に関するものであり、モデルは与えられた条件や介入の下で自然システムが時間とともにどのように展開するかを予測する。第二は科学研究そのものに関わるものであり、モデルは推論と行動をサポートするために仮説、実験、結果のシーケンスをシミュレーションする。これら二つの形式が、科学世界モデルにおける対応するシミュレーションの形式を定義する。すなわち、システムダイナミクスの前方シミュレーションと、候補実験の代理評価に基づく意思決定シミュレーションである。

前方シミュレーション

世界モデルは、高価な数値ソルバーを学習された遷移演算子に置き換えることで、科学システムの進化を近似する。GNS (Sanchez-Gonzalez et al., 2020) は、粒子グラフ上のメッセージパッシングが、流体、剛体、変形可能な材料を汎化可能なダイナミクスでシミュレーションできることを示した。フーリエニューラルオペレーター (Li et al., 2021b) は、スペクトル畳み込みを介して解像度不変の演算子学習を確立し、従来のソルバーよりも1000倍の高速化を達成し、その後の気象や流体の代理モデルを支えた。惑星規模では、Pangu-Weather (Bi et al., 2023) とGraphCast (Lam et al., 2023) が検証対象の90%でECMWF運用システムを上回るパフォーマンスを示す。GenCast (Price et al., 2024) は拡散アーキテクチャを介してこれらを確率的予測に拡張し、対象の97.2%でアンサンブルシステムを上回る。NeuralGCM (Kochkov et al., 2024) は、微分可能な大気大循環モデル内に学習されたパラメタリゼーションを統合し、熱帯低気圧などの創発現象を生み出し、機械論的構造と学習されたコンポーネントを結合することの価値を示している。Aurora (Bodnar et al., 2025) はこのパラダイムを地球システムの基盤モデルにさらにスケールさせ、大幅に削減された計算コストで複数の予測タスクにわたって強力なパフォーマンスを達成する。分子科学では、Behler and Parrinello (2007) によって開拓されたニューラルネットワークポテンシャルが、分子動力学のために密度汎関数理論よりも桁違いの高速化を可能にし、その後のすべての機械学習分野の基礎を確立した。

意思決定シミュレーション

世界モデルは、実験的な決定ループをインシリコでシミュレーションすることで、科学的発見のコストを削減する。代表的なシステムは、分子設計 (ChemBO; Korovina et al. 2020)、集団ベースのモデルアンサンブルとメタレベルの探索再配分による生物配列最適化 (P3BO; Angermueller et al. 2020)、ユーザー定義のアルゴリズム目的によって導かれる材料発見 (BAX; Chitturi et al. 2024) に及ぶ。これらのシステム全体で、モデルは個々の結果だけでなく、実験選択の逐次プロセスをシミュレーションし、最適化中に不整合を特定しながら、候補に関する信念を維持・更新する。しかし、これらの能力は固定されたデータ体制に限定されたままである。モデルは、現在の仮定に挑戦する「新しい情報」を獲得するために、実験を能動的に設計し実行することができない。その結果、そのようなシステムは最適化の誤りを修正することはできても、不完全な知識から生じる不確実性を解決することはできず、長い時間軸にわたって累積的なバイアスを招く。L3世界モデル(5節)は、モデルを修正するために積極的に証拠を収集することでこれを克服する。

4.2.5 領域横断分析

4つの支配法則レジームの診断マップ。軸は計量的というより図式的である。横軸は遷移ルールがどれだけ形式的に規定可能で機械的に検証可能かを反映し、縦軸は関連する状態と制約がどれだけ直接的に観察可能かを反映する。この図の目的は分類ではなく比較である。すべてがL2シミュレーションのインスタンスであっても、異なるレジームが異なる形式のロールアウト検証を要求する理由を強調している。実際のシステムはしばしば混合レジームであり、単一のボックス内ではなく領域間に位置する場合がある。

図8は、4つのレジームを、支配的制約の「形式化可能性」と「観察可能性」という2つの診断軸に沿って配置している。4つのレジームすべてにわたって、繰り返し現れるパターンが見られる。優れたシミュレータは世界そのものに似ている必要はなく、「制約に似ている」必要がある。物理では幾何学/接触制約を使用し、ソフトウェアでは状態機械と構造化フィードバックチャネルを使用し、社会世界では役割/規範の一貫性を使用し、科学では証拠連鎖と反証可能性を使用する。制約を明示的にすること(ログ可能、再実行可能、回帰テスト可能にすること)は、知覚的忠実度を上げるよりも長期的な安定性を向上させることが多い。表7は、各レジームにおける支配法則、状態タイプ、一般的な失敗モード、評価の焦点を要約している。

クロスレジームシステム

多くの実世界での展開は、単一の支配法則レジームにきれいに収まるわけではない。代わりに、L2シミュレータは複数の制約ファミリーに「同時に」わたって首尾一貫したロールアウトを維持する必要がある。レジームが相互作用する場合、ある領域での違反が別の領域に連鎖する可能性がある。物理的にありえない車両操作が社会的意図予測を無意味にするかもしれないし、ソフトウェアのバグが、そうでなければ健全な実験計画を無効にするかもしれない。したがって、クロスレジームシステムの設計と評価は、レジームごとの単独評価ではなく、「共同制約充足」を要求する。

自動運転: 物理(車両ダイナミクス、接触力学)+ 社会(歩行者意図予測、交通規範遵守) (Hu et al., 2023; Wang et al., 2024h)。

Minecraftエージェント (Voyager): 物理(3Dナビゲーション、戦闘ダイナミクス)+ デジタル(クラフトレシピ、インベントリ管理、ゲーム状態ロジック) (Wang et al., 2024b)。

Diplomacy (CICERO): 社会(交渉、信頼モデリング、同盟形成)+ デジタル(ゲーム状態管理、ルール施行) (Bakhtin et al., 2022)。

自動実験室 (A-Lab): 科学(実験設計、仮説評価)+ 物理(サンプル操作、機器制約) (Szymanski et al., 2023; Boiko et al., 2023)。

4.3 失敗モード

すべての4つの領域にわたって、5つの繰り返し発生する失敗モードがL2システムを制約する。

1. 複合誤差。ステップごとの小さな偏差が時間とともに増幅され、想像上の軌跡を現実とはますます無関係な分岐へと押しやる。最も効果的な軽減策は、1ステップ予測の見栄えを良くすることではなく、効果的な計画ウィンドウを短くし(長いタスクを検証可能な短いセグメントに分解し、実際のフィードバックで頻繁に再計画する)、複数時間スケール構造 (Shaj et al., 2023) を用い、証拠収集行動を方策に組み込むことである。

2. 状態のエイリアシングとドリフト。複雑な環境では、異なる実際の状態が非常に似て見えることがある(2つのUIページ、わずかに異なるキッチンレイアウト、社会的なトーンの一言の変化など)。表現がこれらの状態を崩壊させると、エージェントは不可逆的な誤った行動をとる可能性がある。効果的な実践には、キーノードでの明示的な検証、記憶と検索の補強、明示的な失敗原因ラベル (Xie et al., 2024; Yang et al., 2025a; Nasiriany et al., 2024) が含まれる。

3. 制御性の失敗。視覚的に豊かだが行動条件付けが弱いモデルは、行動に反応する大まかなモデルよりも計画立案には役に立たない。モデルが行動に鈍感である場合、「Aを行う vs. Bを行う」を比較することは無意味になる (Wu et al., 2024c; Liu et al., 2025; Brooks et al., 2024; Ball et al., 2025)。

4. 悪用可能性とシミュレータエスケープ。シミュレータや評価ハーネスに抜け穴がある場合、探索/計画はそれを体系的に悪用する。これはソフトウェア世界や自動評価で特に一般的である (Xie et al., 2024; Yang et al., 2025a; Zheng et al., 2025c)。

5. 分布シフト下の較正失敗。環境の変化(UIバージョン、レイアウト、アクセント、オブジェクトのプロパティ)は、しばしば過信的な誤った予測を引き起こす。実際には、「自信があるが間違っている」ことは、進化のための強いシグナルとして扱われるべきである (Xie et al., 2024; Yang et al., 2025a; Nasiriany et al., 2024)。

これらの失敗は単なるモデルの欠点ではない。それらは、表現、ロールアウト期間、制御手順、エビデンス品質の間の相互作用によって生み出されるシステムレベルの病理である。要点は、システムが (i) エビデンスを介して失敗を局所化し (ii) シフトと悪用圧力の下で振る舞いを変えることができない限り、平均的なケースの予測を改善するだけでは不十分であるということである。

この制約第一のレンズは、何をログに記録し、何を回帰テストするかを選択するための有用なガイドでもある。中核となる制約が破られた場合(例:不可能な行動が成功する、構造化フィードバックチャネルが消える)、エージェントは誤った教訓を学ぶ。逆に、制約が明示的で安定している場合、単純なエージェントでさえ、Evolverスタイルのアセット蒸留 (Xie et al., 2024; Yang et al., 2025a; Nasiriany et al., 2024; Zheng et al., 2025c; Ghugare et al., 2) を通じて確実に改善できる。

上記の境界条件は、単一の原則として統合できます。すなわち、世界モデルが配備後も固定されたままであるか、それとも可塑的になるか、ということです。L2からL3へのこの移行は、次の3つの側面に現れます。モデルが配備後にパラメータと構造を更新できるかどうか、時間の経過とともに新しい能力をどのように蓄積するか、そしてデータを受動的に消費するのか、それとも実験を通じて能動的に生成するのか、という点です。

固定 vs. 適応

L2シミュレータは通常、訓練後に固定されます。訓練データに基づいて無限のロールアウトを生成できますが、その中核的な遷移関数は進化しません。つまり、凍結された知識の含意を探求するのです。対照的に、L3システムは配備後に適応的です。自身のパラメータや構造を更新すべき仮説として扱います。すなわち、モデルは証拠によって更新されるのです。

成長の様式

L3の成長は単純なデータのバッファリングを超え、次の3つの異なる様式を包含します。

  • パラメータ更新:新しい証拠に基づき、勾配降下法やベイズ更新によって重みを変更すること。例としては、オンライン学習、継続的なRLのファインチューニング、ベイズモデル更新などがあります。
  • アーキテクチャ更新:複雑さに対処するために、新しいモジュール、エキスパート、またはキャパシティを動的に追加すること。例えば、コンテキストウィンドウの拡張や新しいメモリスロットの割り当てなどです。
  • 仮説空間の拡張:以前は表現できなかった説明を表現するためにモデルクラスを拡張すること。これは、新しい変数、メカニズム、または抽象概念を導入することに相当し、「これらのk個の選択肢のうちどれが正しいか分からない」という状態から、「正しい説明は現在のk個の選択肢の中にはない」という状態への移行を意味します。これは最も困難な様式であり、アブダクションや真の科学的発見と密接に関連しています。
受動 vs. 能動

L2システムは、受動的なオンライン学習(流入するデータストリームでの重み更新)や意思決定シミュレーションをサポートする可能性がありますが、L3は能動的な試行錯誤ループによって特徴付けられます。L3は単にデータを待つのではなく、特定の仮説や不確実性の領域に関する情報利得を最大化するデータを生成するために行動します。この能動的な姿勢は、エージェントを経験の消費者から実験の設計者へと変容させます。これは、アブダクションの哲学や科学的方法に直接つながる質的な転換です。L3は、一般的な計画という意味での閉ループの利用によって定義されるべきではありません。むしろ、配備結果が、連続する利用の反復を通じて世界モデルスタック自体を診断、更新、検証するために使用されるように、「証拠から改訂へ」のループを閉じることによって定義されます。

5.3 事例と応用

L3は、高度に計装化され、迅速なフィードバックを提供し、明確に定義された評価基準を持つ領域で最も扱いやすいものです。L3の実証的支持は領域によって不均一です。自律的科学や他の高度に計装化された設定が最も明確な実証を提供する一方で、社会、コード、具現化された環境は、部分的には経験的であり、部分的には将来的な設計空間のままです。この状況を、4つの主要な法則体制にわたる特徴的な証拠シグナルと失敗モードとともに、図10に示します。

図10:4つの主要な法則体制にわたるL3の進化。各パネルは代表的な領域における設計-実行-観測-振り返りループを示す。(a)物理的知能:適応的探索が接触力学を改訂する。(b)社会的知能:規範の変動が社会モデルの改訂を引き起こす。(c)デジタル知能:回帰ゲート付きの評価器駆動型プログラム探索。(d)科学的知能:シンクロトロンビームラインでの閉ループ自律実験。
物理的知能

具現化された設定では、L3は力学モデルを推論し更新するための適応的探索として現れます。ロボットが滑りやすい表面や変形可能な物体などの予期しない接触力学に遭遇した場合、システムは診断アクション(接触モデルに関する仮説を明確にするために設計された小さな摂動)を能動的に実行し、その結果の証拠を用いて力学モデルを更新できます。この体制における異常シグナルは本質的に物理的です。力/トルクの偏差、予期しない接触イベント、予測されたエンドエフェクタ軌道と観測されたエンドエフェクタ軌道の不一致が、モデル更新のための定量的証拠を提供します。最近の研究では、ロボットが自律的に物理的損傷を検出し、永続的な自己モデルを再訓練できることが示されています。Huら (2025b)は、自己中心的な視覚自己モデルが、予測と観測の不一致を通じて形態変化を検出し、再訓練によって移動を回復することを示しています。AdaptSim (Renら, 2023)は、少数の実世界のタスクパフォーマンスデータからシミュレーションパラメータを反復的に改訂する適応方策をメタ学習し、固定されたドメインランダム化ではなく、証拠駆動型のシミュレーション改訂によってSim-to-Realギャップを埋めます。各実世界への配備が、次のシミュレーション更新のラウンドに情報を提供します(実例については付録Dを参照)。

デジタル知能

ソフトウェアとWeb環境は、状態が完全に観測可能で、アクションが決定的に再現可能であり、回帰テストが組み込みの検証ゲートを提供するため、L3に自然に適しています。評価器駆動型の発見ループは、この体制の典型です。Romera-Paredesら (2024)は、事前学習済みLLMと自動評価器を進化的ループで組み合わせます。LLMが候補プログラムを生成し、評価器が形式的な仕様に対してスコアリングし、高スコアのソリューションがさらなる改良のためにフィードバックされます。このループは、キャップセット問題(長年の未解決の組み合わせ論問題)に対する新しい構成と、既知のベースラインを上回る新しいビンパッキングヒューリスティックを発見しました。評価器は自動化された回帰ゲートとして機能しますが、これは重要なL3の特性です。ただし、このシステムは能動的な情報拡張や永続的なモデル改訂なしに、設計と観測のコンポーネント(プログラム生成と自動スコアリング)のみを実現しています。Novikovら (2025)は、この進化的コーディングパラダイムを拡張し、LLMが生成したプログラムの突然変異と自動正当性評価器を組み合わせることで、56年ぶりにStrassenの行列乗算アルゴリズムを改善し、従来の最先端を超える未解決の数学問題の20%を解決しました。これは、アルゴリズム領域におけるL3の門番としての形式的検証の力を示しています。CodeIt (Buttら, 2024)は、より緊密なループを閉じます。LLMは、優先順位付けされた後知恵リプレイを通じて自身の探索軌跡からファインチューニングされるため、生成モデル自体(プログラム空間の暗黙の世界モデルとして機能する)がタスク全体にわたって持続的に改善されます。AI Scientist-v2 (Yamadaら, 2025)は、実験選択にエージェント的木探索を採用することで、計算実験をさらに推し進めます。システムは自律的に仮説を立て、実験を設計・実行し、結果を分析し、完全な原稿を作成します。VLMフィードバックループが図と内容を反復的に改良します。2025年に、このシステムは完全にAIが生成した論文を作成し、ICLRワークショップで査読を通過しました。しかし、システムの実験は計算論的(ML訓練ジョブの実行)であり、その改訂ループは機構的理解ではなく論文の質に作用するため、十分に計装化された計算領域におけるL3と、真の科学的発見というより困難な課題との間のギャップを示しています。AUI (Linら, 2025a)では、Coder-Computer-Use AgentループがWebサイトにおいてこの原則を具体化します。CoderがWebサイト実装を反復的に改訂し、CUAがタスク軌跡を実行して機能的正しさ(例:ナビゲーションの成功とタスク完了)を検証することで自動評価器として機能します。静的な検査ではなく実行可能な対話に基づく結果のフィードバックは、後続のコード更新を導く回帰シグナルとして機能し、L3特性に沿った閉ループ最適化プロセスを形成します。

社会的知能

社会的領域におけるL3は、他のエージェントの予測行動が観測行動から逸脱した場合、例えば心の理論の予測が体系的に失敗した場合や、社会規範が時間とともに変動した場合に、エージェントの社会モデルを改訂することを必要とします。これは現在、L3にとって最も困難な体制です。なぜなら、帰属が本質的に曖昧であり(失敗した社会的予測は、他のエージェントの目標に関する誤った信念、時代遅れの規範モデル、または確率的行動を反映している可能性がある)、社会実験が倫理的に制約されているからです。マルチエージェント集団における規範の出現と慣習形成に関する初期の研究(セクション4.2.3)は、社会的L3への第一歩を表していますが、配備証拠からの社会世界モデルの持続的で検証された改訂は、依然としてほぼ未解決のままです。社会的L3への予備的な一歩として、マルチエージェントガバナンスルールの進化的合成があります。Kumarら (2026)は、LLM駆動の遺伝的プログラミングを用いて、社会の安定性スコアから解釈可能な憲法を進化させ、人間が設計したルールを123%上回りました。

科学的知能

L3の最も完全な現在の例は、自律的科学からもたらされます。そこでは、完全な設計-実行-観測-振り返りループが計装によって閉じられています。自律的閉ループ科学的発見のパラダイムは、ロボット科学者Adam (Sparkesら, 2010)によって確立されました。これは、遺伝子機能に関する実験を自律的に設計し、実行し、結果を観測し、モデルを改訂した最初の機械です。その後継システムは、酵母システム生物学における実験設計、実行、モデル改訂の閉ループサイクルを実証し、生物学的モデル開発を加速させました (Coutantら, 2019)。CAMEO (Kusneら, 2020)は、シンクロトロンビームラインでのベイズ能動学習による閉ループ材料発見を実装します。システムは、候補組成がどの相を形成するかを予測し、それを合成し、X線回折によって生成物を特性評価し、ベイズ信念モデルを更新し、情報利得を最大化するために次の実験を能動的に選択します。各実験サイクルは数秒から数分で完了し、追加の人間による訓練なしに新しい相変化メモリ材料を発見しました。A-Lab (Szymanskiら, 2023)は、これを完全自律合成に拡張します。3本のロボットアームが粉末計量、加熱、XRD特性評価を自動化し、ターゲットが失敗した場合には能動学習アルゴリズムが改良されたレシピを生成します。17日間の閉ループ運用で、A-Labは353回の実験を行い、57のターゲットから36の化合物を実現しました。重要なことに、失敗した合成の分析は、将来の合成戦略を改良するための構造化された証拠を提供しました。失敗は破棄されず、永続的な知識へと蒸留されました。Strieth-Kalthoffら (2024)は、自己駆動型ラボのパラダイムを分散型のマルチサイト運用に拡張します。非局在化された自己駆動型ラボは、地理的に離れた施設にわたる合成および特性評価データからベイズサロゲートを反復的に更新することで、新しい有機レーザーエミッターを自律的に発見します。BacterAI (Damaら, 2023)は、L3が事前の生物学的知識ゼロで動作できることを示しています。システムは、微生物のアミノ酸要求性をマッピングするために実験を反復的に設計・実行し、純粋に実験的証拠から代謝モデルを改訂します。計算化学では、MOOSE-Chem (Yangら, 2025e)が、LLMベースのフレームワークが2024年以前の文献のみを使用して、2024年にNatureやScienceに掲載された化学の仮説を再発見できることを示し、L3ループの仮説生成コンポーネントが自然科学領域で既に実現可能である証拠を提供します。その後継であるMOOSE-Chem2 (Yangら, 2025d)は、きめ細かい仮説コンポーネントに対する階層的探索を導入し、生成された発見の精度と新規性の両方を向上させます。付録Dは、4つの体制すべてにわたる実例を示します。より広範なエージェントシステムは、L3ループを生物医学へとさらに推し進めています。Biomni (Huangら, 2025a)は、25のサブフィールドにわたる100を超えるツールと59のデータベースを統合する汎用生物医学AIエージェントを提供し、因果的遺伝子優先順位付けからドラッグリパーパシングまでのタスクの自律的実行を可能にします。BioLab (Jinら, 2025)は、生物学的基盤モデル上に構築されたマルチエージェントシステムを介して、エンドツーエンドの自律的生命科学研究へとこれを拡張します。OriGene (Zhangら, 2025i)は、反復的仮説改良を通じて治療標的を自律的に発見する自己進化型仮想疾患生物学者を実証しています。AI共同科学者システム (Gottweisら, 2025)は、仮説生成に「生成-討論-進化」アプローチを採用し、ドラッグリパーパシングとエピジェネティック標的発見で検証されたマルチエージェントトーナメントプロセスを持っています。これらのシステムを補完するものとして、Yangら (2026)は、現在のLLMが依然として真の生物学的知識の導出には不十分であることを明らかにする動的ベンチマークを導入しており、文献検索と、基礎となるモデルを実際に更新する真のL3改訂との間の持続的なギャップを浮き彫りにしています。

表8:主要な法則体制別の代表的なL3システム。ループステップは、各システムが設計、実行、観測、振り返りサイクルのどの段階を実現しているかを示します。

表8は、4つの主要な法則体制にわたる代表的なL3システムを要約し、各システムが設計-実行-観測-振り返りループのどの段階を実現しているかを示しています。

証拠の質と反証可能性

進化の質は証拠の質に依存します。表9は、各主要な法則体制においてL3モデル更新を引き起こす改訂シグナルを整理したものです。エージェントが何を検出するか、なぜそれが現在のモデルが間違っていることを示すのか、そしてそのシグナルがどの程度反証可能か、という点をまとめています。

表9:主要な法則体制別のL3進化のための改訂シグナル。行の色は領域内の反証可能性を示します(体制間での比較はできません)。

認識的ギャップの検出(Damaら, 2023):観測結果がモデルの表現範囲の外側にある場合。

有用な原則は、反証可能な証拠を優先することです(2.1節)。スクリーンショットとDOMスナップショット、エラーコード、アクションシーケンスを組み合わせたものは再現可能で反駁可能ですが、「ページが読み込まれなかったと思う」という発言はそうではありません。人間のフィードバックは単一の反証可能性クラスとして扱うべきではありません。主観的または選好的フィードバックは反証可能性が低い一方で、専門家による診断的フィードバックは、その主張が後にテストや実験、構造化された評価によってチェックされる場合、強く反証可能となり得ます。進化器(Evolver)の進歩は、教訓を検証可能にし、間違っていた場合には元に戻せるようにすることにかかっています。この要件は、セクション5.1で定義された異常と認識的ギャップのトリガーに直接結びついています。異常は、予測と観測の間の偏差が記録された証拠から定量化できる場合にのみ対処可能であり、認識的ギャップは、システムが既存の仮説ではその観測を適切に説明できないことを実証できる場合にのみ認識可能です。大規模な展開では、証拠は圧縮可能でインデックス可能でなければなりません。実用的なシステムは、高速検索のためのコンパクトなエラーカテゴリと状態フィンガープリントおよび差分サマリーを組み合わせたものと、詳細な監査のためのより重いアーティファクト(スクリーンショット、DOMスナップショット、完全なログ)へのポインタを併せ持つ、マルチ解像度の証拠を維持します。証拠の質は、プライバシーと安全性の制約とも密接に結びついています。進化器パイプラインは、永続的に保存するもの(サニタイズされたログ、ハッシュ化されたフィンガープリント)と、一時的またはアクセス制御下に置くものを分離し、監査証跡を保持しつつ機密データを保護しなければなりません(Xieら, 2024; Yangら, 2025a)。

継続的な自己改善は、ベンチマークへの過適合、知識汚染、失敗の誤った原因特定といった統治上の課題も引き起こします。これらのリスクと、それを軽減するための実践的な対策(バージョン管理、ロールバック、回帰ゲート)については、セクション8で未解決の問題として議論します。

5.4 文脈におけるL3:成熟度、統治、および展望

L3進化ループ、その領域固有のインスタンス化、そして証拠の質の役割を確立した上で、ここではその実践的な状況と含意を検討します。このサブセクションでは、二つの補完的な問い、すなわち成熟度(さまざまな法則体制においてL3システムがどこで成功裏に実現されているか)と統治(持続的で自動化されたモデル改訂からどのようなリスクが生じるか)を取り上げます。これらの視点は、L3をモデリングパラダイムとして、また現実世界の制約下で確実に進化しなければならないデプロイされたシステムとして特徴づけます。

さまざまな領域における成熟度。

4つの法則体制にわたる成熟度を以下のように要約します。

1. 科学的世界(確立): 最も成熟した体制であり、高速で構造化されたフィードバック、明確な異常シグナル(仮説の反証)、明確に定義された改訂対象(サロゲートモデルパラメータ、合成レシピ)を提供します(Kusneら, 2020; Szymanskiら, 2023; Sparkesら, 2010; Damaら, 2023)。主なボトルネックは、機器へのアクセスと実データの予算です。

2. デジタル世界(部分的): 回帰テストは自動化された検証ゲートを提供しますが、多くのシステムは依然として能動的な情報拡張の境界条件を欠いています(Romera-Paredesら, 2024; Novikovら, 2025; Buttら, 2024)。主なボトルネックは、能動的な実験計画がしばしば欠如していることです。

3. 物理世界(新興): 有望ではあるものの、原因特定の難しさによって制限されています。操作の失敗は、知覚、動力学、駆動、または環境の変化に起因する可能性があり、脆弱なコンポーネントを特定するには慎重な実験計画が必要です(Renら, 2023; Huら, 2025b)。主なボトルネックは、知覚、動力学、駆動にわたる失敗の原因特定です。

4. 社会世界(野心的): 社会実験は倫理的に制約されており、原因特定は本質的に曖昧で、行動のグラウンドトゥルースにはノイズが含まれます(Kumarら, 2026)。主なボトルネックは、原因特定の曖昧さと、社会実験に対する倫理的制約です。

統治の課題。

持続的で自動化されたモデル改訂からは、特に三つの統治リスクが生じます。ベンチマークへの過適合は、回帰ゲートが訓練分布に近すぎる場合に発生し、システムが真に改善するのではなく、テストに合格する方法を学習してしまいます。知識汚染は、改訂ループがそれ自体に偏りがあるか敵対的に構築された証拠を取り込む場合に発生し、OOD入力においてモデルを静かに劣化させます。誤帰属の連鎖は、ある失敗モードに対する修正が、意図せずして別のコンポーネントを劣化させる場合に発生します。包括的な回帰スイートがなければ、アップデートの正味の効果はマイナスになり得ます。緩和策としては、訓練データとは独立して更新されるホールドアウト・プローブセット、完全なロールアウト前に回帰を表面化させるカナリアデプロイメント、各アップデートの寄与を特定する因果的アブレーションが含まれます。

セクション6および7との関係。

評価の観点(セクション6)から見ると、L3の評価には、単一エピソードの精度を超えたプロトコルが必要です。重要な指標は、システムがホールドアウト・プローブで後退することなく、改訂サイクルkにわたって改善するかどうかです。実装の観点(セクション7)から見ると、L3はシステムスタックに最も重い要求(永続ストレージ、リプレイインフラ、回帰ハーネス、ロールバックメカニズム)を課しますが、これらは現在のアーキテクチャではしばしば十分に仕様化されていません。したがって、L3を構築することは、モデル容量と同様に評価インフラへの投資を意味します。

分類体系の価値は、分類そのものにあるのではなく、システム設計を導く点にあります。本セクションでは、世界モデルの実装を、表象、ダイナミクス、制御インターフェースという3つのアーキテクチャ軸に分解し(セクション7.1)、どのような組み合わせが実際に有効であるかを、支配法則体制がどのように制約するかについて検討します(セクション7.2)。これらのシステムを展開するにあたっては、エンドツーエンド学習とモジュール型の学習のどちらを選ぶか、遅延と計算量のトレードオフ、シミュレーションから実環境への転移、モデルの不確実性下でのグレースフル・デグラデーションといった、分野横断的な工学的課題が生じます。学習された世界モデルは、推論時に固定された計算グラフへとシミュレーションコストを償却する一方で、陽的なシミュレーションは通常、エンティティ数、相互作用、ソルバーステップ、またはホライズン長に応じて、より直接的にコストが増大します。これは、ニューラル推論が関連するすべての変数について文字通りに O(1) であることを意味するわけではありません。そのコストは依然としてモデルサイズ、入力解像度、系列長、ロールアウトの深さに依存します。実用的な利点はむしろ、学習されたダイナミクスが、さもなければますます高価になる陽的なシミュレーションを必要とするようなシステムの複雑さの側面に関して、ほぼ一定の計算量による近似を提供できる点にあります。ここでの効率化技術が重要なのは、一般的な展開のテクニックとしてではなく、三つの能力レベルと異なる相互作用をするからです。L1システムにとっては、圧縮は主にワンステップ予測精度とのトレードオフになります。L2システムにとっては、メモリとロールアウト効率が達成可能なホライズン、反実仮想分岐、ひいては長期ホライズンの一貫性に直接影響します。L3システムにとっては、同じ効率性の選択が、回帰ゲート付きの更新ループを展開中に継続的に実行できるほど安価であるかどうかに影響します。さらなるスケーリングには効率化技術が不可欠です。リアルタイム計画のための少数ステップ蒸留、複合誤差がステップごとのわずかな劣化さえも増幅するという制約下での量子化とプルーニング、長期ホライズンの自己回帰ダイナミクスのためのKVキャッシュ圧縮などが挙げられます。これらの展開と効率性に関するトピック、ならびに具体的な計算量と遅延の測定については、付録Fで詳しく扱っています。

初期のAIは、世界モデルを論理ルールと制約として手作業でコーディングしようと試みました。STRIPSはロボット計画のための最初のアクションスキーマ表現を導入しましたが、フレーム問題(セクション4.1参照)によって、すべてのアクションが変化しないものを明示的に指定する公理を必要とし、その負荷が組み合わせ的に増大することが露呈しました。ライトヒル報告書は、実験室でのデモと現実世界の能力との間のギャップを暴露し、最初のAI冬の時代(1974~1980年)を引き起こしました。第二次AI冬の時代(1987~1993年)は、エキスパートシステムの脆弱性とLispマシン市場の崩壊に続いて起こりました。CYCのような手作業で作られた知識ベースは、不確実性や常識的な例外をうまく扱えなかったのです。ここから得られた最大の教訓は明快でした。純粋にシンボリックな世界モデルは、オープンワールドな領域ではスケールしないということです。

誤差逆伝播法から深層畳み込みネットワーク、そしてTransformerに至るニューラルネットワークの復活は、パラダイムを手作りのルールから学習された表現へと移行させました。世界モデルは、潜在ダイナミクスモデルから一般的なピクセルベースの制御に至るまで、モデルベース強化学習の分野で再び注目を集めました(詳細はセクション3を参照)。

拡散モデルやGPT-3のような大規模言語モデルは、先行する時代に確立されたTransformerを基盤として、質的な転換を促しました。動画生成モデルやLLMベースのエージェントは予測とシミュレーションの境界を曖昧にしつつありますが、体系的な物理法則違反は依然として残っています(セクション3~4)。より広く見ると、この分野はニューロシンボリックなフロンティアへと収束しつつあります。これは、遷移関数を学習するためのニューラルダイナミクスモジュール(L1/L2)と、制約強制や仮説空間拡張のためのシンボリックコンポーネント(L3)を組み合わせるものです。

これら4つの時代全てを通じて、表現学習は共有の基盤として機能します。学習された状態 z_t の質が、予測(L1)、シミュレーション(L2)、改訂(L3)のいずれにおいても、その上限を決定します。その表現が潜在ベクトル、離散トークンシーケンス、3D点群、プログラムのいずれであっても、支配法則の体制によって、その表現が保持しなければならない不変量が決まります。

この歴史的な流れは一貫した教訓を示唆しています。世界モデリングの進歩は、規模の拡大だけによるものではなく、何が表現され、何がホライズンにわたって合成可能であり、何が証拠から改訂可能であるかが変化したことによってもたらされてきました。以下の未解決問題は、L1、L2、L3における残存するボトルネックを中心に構成されています。

Cao et al. (2025b) Z. Cao, F. Hong, Z. Chen, L. Pan, Z. Liu. PhysX-Anything: 単一画像からシミュレーション可能な物理3Dアセットを生成する手法。 arXiv preprint arXiv:2511.13648, 2025b.

Chae et al. (2025) H. Chae, N. Kim, K. T.-i. Ong, M. Gwak, G. Song, J. Kim, S. Kim, D. Lee, J. Yeo. 世界モデルを持つウェブエージェント:ウェブナビゲーションにおける環境動的モデルの学習と活用。 International Conference on Learning Representations, 2025.

Chai et al. (2025) Y. Chai, L. Deng, R. Shao, J. Zhang, K. Lv, L. Xing, X. Li, H. Zhang, Y. Liu. Gaf: ロボット操作における動的世界モデリングのための4D表現としてのガウス作用場。 arXiv preprint arXiv:2506.14135, 2025.

Chen et al. (2022) C. Chen, Y.-F. Wu, J. Yoon, S. Ahn. TransDreamer: Transformer世界モデルを用いた強化学習。 arXiv preprint arXiv:2202.09481, 2022.

Chen et al. (2025a) D. Chen, M. Shukor, T. Moutakanni, W. Chung, J. Yu, T. Kasarla, Y. Bang, A. Bolourchi, Y. LeCun, P. Fung. VL-JEPA: 視覚-言語のための結合埋め込み予測アーキテクチャ。 arXiv preprint arXiv:2512.10942, 2025a.

Chen et al. (2025b) L. Chen, Y. Meng, C. Tang, X. Ma, J. Jiang, X. Wang, Z. Wang, W. Zhu. Q-DiT: 拡散Transformerの精度の高いポストトレーニング量子化。 IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 28306–28315, 2025b.

Chen et al. (2025c) R. Chen, W. Jiang, C. Qin, C. Tan. 大規模言語モデルにおける心の理論:評価と強化。 Annual Meeting of the Association for Computational Linguistics, pages 31539–31558, 2025c.

Chen et al. (2020) T. Chen, S. Kornblith, M. Norouzi, G. Hinton. 視覚表現の対照学習のためのシンプルなフレームワーク。 International Conference on Machine Learning, pages 1597–1607. PMLR, 2020.

Chen et al. (2025d) X. Chen et al. InternVLA-M1: 汎用ロボットポリシーのための空間誘導型視覚-言語-行動フレームワーク。 arXiv preprint arXiv:2510.13778, 2025d.

Chen et al. (2025e) Y. Chen, K. Q. Lin, M. Z. Shou. Code2Video: 教育ビデオ生成のためのコード中心パラダイム。 arXiv preprint arXiv:2510.01174, 2025e.

Chen et al. (2026) Y. Chen, P. Li, J. Yang, K. He, X. Wu, Y. Xu, K. Wang, J. Liu, N. Liu, Y. Huang, L. Wang. BridgeV2W: 身体化マスクによるビデオ生成モデルと身体化世界モデルの橋渡し。 arXiv preprint arXiv:2602.03793, 2026.

Chen et al. (2025f) Z. Chen et al. 経験合成によるエージェント学習のスケーリング。 arXiv preprint arXiv:2511.03773, 2025f.

Chitturi et al. (2024) S. R. Chitturi et al. ベイズ的アルゴリズム実行による標的材料発見。 NPJ Computational Materials, 10(1):156, 2024.

Chua et al. (2018) K. Chua, R. Calandra, R. McAllister, S. Levine. 確率的動的モデルを用いた少数試行での深層強化学習。 Advances in Neural Information Processing Systems, volume 31, pages 4759–4770, 2018.

Chuang et al. (2024) Y.-S. Chuang et al. LLMベースエージェントのネットワークによる意見動態のシミュレーション。 Findings of the association for computational linguistics: NAACL 2024, pages 3326–3346, 2024.

Clark (2015) A. Clark. 不確実性をサーフィンする:予測、行動、身体化された心。 Oxford University Press, 2015.

Community (2026) S. Community. Starvla: 視覚-言語-行動モデル開発のためのレゴ風コードベース。 arXiv preprint arXiv:2604.05014, 2026.

Copet et al. (2025) J. Copet et al. CWM: 世界モデルを用いたコード生成研究のためのオープンウェイトLLM。 arXiv preprint arXiv:2510.02387, 2025.

Coutant et al. (2019) A. Coutant et al. 実験設計、実行、学習の閉ループサイクルが酵母のシステム生物学モデル開発を加速する。 Proceedings of the National Academy of Sciences, 116(36):18142–18147, 2019.

Craik (1943) K. J. W. Craik. 説明の本質。 Cambridge University Press, 1943.

Curvo (2025) P. M. Curvo. 裏切り者:マルチエージェント言語モデルシミュレーションにおける欺瞞と信頼。 arXiv preprint arXiv:2505.12923, 2025.

Dai et al. (2024) G. Dai et al. 人工リヴァイアサン:ホッブズの社会契約論のレンズを通したLLMエージェントの社会進化の探求。 arXiv preprint arXiv:2406.14373, 2024.

Dainese et al. (2024) N. Dainese, M. Merler, M. Alakuijala, P. Marttinen. モンテカルロ木探索を用いた大規模言語モデルによるコード世界モデルの生成。 Advances in Neural Information Processing Systems, volume 37, pages 60429–60474, 2024.

Dama et al. (2023) A. C. Dama et al. BacterAIが事前知識なしで微生物代謝をマッピングする。 Nature Microbiology, 8:1018–1025, 2023.

Decart et al. (2024) Decart et al. Oasis: トランスフォーマーの中の宇宙。 ブログ投稿, 2024. URL https://oasis-model.github.io.

Degen (2023) J. Degen. 合理的発話行為フレームワーク。 Annual Review of Linguistics, 9(1):519–540, 2023.

Deisenroth and Rasmussen (2011) M. P. Deisenroth, C. E. Rasmussen. PILCO: モデルベースでデータ効率の高い方策探索アプローチ。 International Conference on Machine Learning, pages 465–472, 2011.

Deng et al. (2022) F. Deng, I. Jang, S. Ahn. DreamerPro: プロトタイプ表現を用いた再構成不要なモデルベース強化学習。 International Conference on Machine Learning, pages 4956–4975. PMLR, 2022.

Deng et al. (2023) X. Deng et al. Mind2Web: ウェブのための汎用エージェントを目指して。 Advances in Neural Information Processing Systems, volume 36, pages 28091–28114, 2023.

Dettmers et al. (2022) T. Dettmers, M. Lewis, Y. Belkada, L. Zettlemoyer. LLM.int8(): 大規模Transformerのための8ビット行列乗算。 Advances in Neural Information Processing Systems, volume 35, pages 30318–30332, 2022.

Dignum and Dignum (2025) V. Dignum, F. Dignum. エージェント型AIのエージェント化。 arXiv preprint arXiv:2511.17332, 2025.

Ding et al. (2025a) J. Ding et al. 世界を理解するか、未来を予測するか?世界モデルの包括的サーベイ。 ACM Computing Surveys, 2025a.

Ding et al. (2019) X. Ding, G. Ding, Y. Guo, J. Han. 複雑な構造を持つ深層畳み込みネットワークの枝刈りのための求心型SGD。 IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 4943–4953, 2019.

Ding et al. (2025b) Z. Ding et al. Dollar: 蒸留と潜在報酬最適化による少数ステップビデオ生成。 IEEE/CVF International Conference on Computer Vision, pages 17961–17971, 2025b.

Dockhorn et al. (2022) T. Dockhorn, A. Vahdat, K. Kreis. Genie: 高次デノイジング拡散ソルバー。 Advances in Neural Information Processing Systems, volume 35, pages 30150–30166, 2022.

Dong et al. (2017) X. Dong, S. Chen, S. Pan. 層単位最適脳外科手術による深層ニューラルネットワークの枝刈り学習。 Advances in Neural Information Processing Systems, 30:4860–4874, 2017.

Dong et al. (2025) Y. Dong et al. 記憶補強型計画と先見性による視覚ナビゲーションの統一世界モデルに向けて。 arXiv preprint arXiv:2510.08713, 2025.

Dong et al. (2026) Y. Dong et al. 視覚ナビゲーションのための言語条件付き世界モデリング。 arXiv preprint arXiv:2603.26741, 2026.

Duhem (1954) P. Duhem. 物理学理論の目的と構造。 Princeton University Press, 1954.

Einstein (1936) A. Einstein. 物理学と現実。 Journal of the Franklin Institute, 221(3):349–382, 1936.

Esteva et al. (2001) M. Esteva et al. 電子制度の形式的仕様について。 Agent Mediated Electronic Commerce: The European AgentLink Perspective, pages 126–147. Springer, 2001.

Evangelou et al. (2024) N. Evangelou et al. 進化する疫学ネットワークの転換点:機械学習支援のデータ駆動有効モデリング。 Chaos: An Interdisciplinary Journal of Nonlinear Science, 34(6), 2024.

Fan et al. (2026) W. Fan et al. AIvilization v0: 統一エージェントアーキテクチャと適応的エージェントプロファイルによる大規模人工社会シミュレーションに向けて。 arXiv preprint arXiv:2602.10429, 2026.

Fang et al. (2025) T. Fang et al. WebEvolver: 共進化する世界モデルによるウェブエージェントの自己改善の強化。 Conference on Empirical Methods in Natural Language Processing, pages 8959–8975, 2025.

Feng et al. (2025a) J. Feng, Y. Zhang, C. Zhang, Y. Lu, S. Liu, M. Wang. ウェブ世界モデル。 arXiv preprint arXiv:2512.23676, 2025a.

Feng et al. (2025b) T. Feng et al. StreamDiffusionV2: 動的でインタラクティブなビデオ生成のためのストリーミングシステム。 arXiv preprint arXiv:2511.07399, 2025b.

Feng et al. (2025c) T. Feng, W. Wang, Y. Yang. 自動運転のための世界モデルのサーベイ。 arXiv preprint arXiv:2501.11260, 2025c.

Fikes and Nilsson (1971) R. E. Fikes, N. J. Nilsson. STRIPS: 問題解決への定理証明の適用に関する新しいアプローチ。 Artificial Intelligence, 2(3–4):189–208, 1971.

Fish et al. (2024) S. Fish et al. 生成的社会的選択。 ACM Conference on Economics and Computation, pages 985–985, 2024.

Frans et al. (2025) K. Frans, D. Hafner, S. Levine, P. Abbeel. ショートカットモデルによるワンステップ拡散。 International Conference on Learning Representations, 2025.

Frantar et al. (2023) E. Frantar, S. Ashkboos, T. Hoefler, D. Alistarh. GPTQ: 生成的事前学習済みTransformerの精度の高いポストトレーニング量子化。 International Conference on Learning Representations, 2023.

Freeman et al. (2021) C. D. Freeman et al. Brax – 大規模剛体シミュレーションのための微分可能物理エンジン。 Advances in Neural Information Processing Systems, 2021.

Friston (2010) K. Friston. 自由エネルギー原理:統一された脳理論か? Nature Reviews Neuroscience, 11(2):127–138, 2010.

Friston et al. (2017) K. Friston et al. 能動的推論:過程理論。 Neural Computation, 29(1):1–49, 2017.

Gandhi et al. (2023) K. Gandhi et al. 言語モデルで言語モデルの社会的推論を理解する。 Advances in Neural Information Processing Systems, volume 36, pages 13518–13529, 2023.

Gao et al. (2023) C. Gao et al. S3: 大規模言語モデル強化エージェントによるソーシャルネットワークシミュレーションシステム。 arXiv preprint arXiv:2307.14984, 2023.

Gao et al. (2024) S. Gao et al. Vista: 高忠実度で多用途な制御可能性を持つ汎化可能運転世界モデル。 Advances in Neural Information Processing Systems, volume 37, pages 91560–91596, 2024.

Gao et al. (2026) S. Gao et al. DreamDojo: 大規模人間ビデオからの汎用ロボット世界モデル。 arXiv preprint arXiv:2602.06949, 2026.

Gao et al. (2025) Y. Gao, J. Ye, J. Wang, J. Sang. WebSynthesis: 効率的なWebUI軌道合成のための世界モデル誘導MCTS。 arXiv preprint arXiv:2507.04370, 2025.

Ge et al. (2024) S. Ge et al. Fréchetビデオ距離におけるコンテンツバイアスについて。 IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 7277–7288, 2024.

Geirhos et al. (2018) R. Geirhos et al. ImageNet学習済みCNNはテクスチャに偏っている;形状バイアスを増やすと精度とロバスト性が向上する。 International Conference on Learning Representations, 2018.

Gelada et al. (2019) C. Gelada et al. DeepMDP: 表現学習のための連続潜在空間モデルの学習。 International Conference on Machine Learning, pages 2170–2179. PMLR, 2019.

Genesis Authors (2024) Genesis Authors. Genesis: ロボット工学とそれ以上のための生成的で普遍的な物理エンジン。 GitHubリポジトリ, 2024. URL https://github.com/Genesis-Embodied-AI/Genesis.

Geng et al. (2025a) Z. Geng, M. Deng, X. Bai, J. Z. Kolter, K. He. ワンステップ生成モデリングのための平均フロー。 arXiv preprint arXiv:2505.13447, 2025a.

Geng et al. (2025b) Z. Geng, A. Pokle, W. Luo, J. Lin, J. Z. Kolter. 容易になった一貫性モデル。 International Conference on Learning Representations, 2025b.

Ghosh et al. (2021) D. Ghosh et al. 反復教師あり学習による目標到達の学習。 International Conference on Learning Representations, 2021.

Ghugare et al. (2025) R. Ghugare et al. Builderbench: 知的エージェントの構成要素。 arXiv preprint arXiv:2510.06288, 2025.

Gohil et al. (2022) C. Gohil et al. 大規模動的機能脳ネットワークモードの混合。 NeuroImage, 263:119595, 2022. ISSN 1053-8119. doi: 10.1016/j.neuroimage.2022.119595.

Goodfellow et al. (2016) I. Goodfellow, Y. Bengio, A. Courville. 深層学習, volume 1. MIT Press, 2016.

Goodman and Frank (2016) N. D. Goodman, M. C. Frank. 確率的推論としての語用論的言語解釈。 Trends in cognitive sciences, 20(11):818–829, 2016.

Goswami et al. (2023) S. Goswami et al. 物理学に基づく深層ニューラルオペレータネットワーク。 Machine Learning in Modeling and Simulation: Methods and Applications, pages 219–254. Springer, 2023.

Gottweis et al. (2025) J. Gottweis et al. AI共同科学者を目指して。 arXiv preprint arXiv:2502.18864, 2025.

Gu et al. (2025a) J. Gu et al. PhyWorldBench: テキスト-ビデオモデルにおける物理的リアリズムの包括的評価。 arXiv preprint arXiv:2507.13428, 2025a.

Gu et al. (2025b) Y. Gu et al. あなたのLLMは密かにインターネットの世界モデルなのか?ウェブエージェントのためのモデルベース計画。 Transactions on Machine Learning Research, 2025b.

Guan et al. (2026) Y. Guan et al. コンピュータ使用世界モデル。 arXiv preprint arXiv:2602.17365, 2026.

Guo et al. (2025) W. Guo et al. Logic-in-frames: 長尺ビデオ理解のための視覚的意味論理検証による動的キーフレーム探索。 arXiv preprint arXiv:2503.13139, 2025.

Ha and Schmidhuber (2018) D. Ha, J. Schmidhuber. 再帰的世界モデルが方策進化を促進する。 Advances in Neural Information Processing Systems, volume 31, pages 2455–2467, 2018.

Hafner et al. (2019) D. Hafner et al. ピクセルからの計画のための潜在ダイナミクス学習。 International Conference on Machine Learning, pages 2555–2565. PMLR, 2019.

Hafner et al. (2020) D. Hafner et al. 制御への夢:潜在想像力による行動の学習。 International Conference on Learning Representations, 2020.

Hafner et al. (2021) D. Hafner et al. 離散世界モデルによるAtariのマスタリング。 International Conference on Learning Representations, 2021.

Hafner et al. (2025) D. Hafner et al. 世界モデルによる多様な制御タスクのマスタリング。 Nature, 640(8059):647–653, 2025.

Hansen et al. (2022) N. Hansen, H. Su, X. Wang. モデル予測制御のための時間差分学習。 International Conference on Machine Learning, pages 8387–8406. PMLR, 2022.

Hansen et al. (2024) N. Hansen, H. Su, X. Wang. TD-MPC2: 連続制御のためのスケーラブルでロバストな世界モデル。 International Conference on Learning Representations, 2024.

Hao et al. (2025) C. Hao, W. Lu, Y. Xu, Y. Chen. ニューラルモーションシミュレータ:強化学習における世界モデルの限界への挑戦。 IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 27608–27617, 2025.

Hao et al. (2023) S. Hao et al. 言語モデルによる推論は世界モデルによる計画である。 Conference on Empirical Methods in Natural Language Processing, pages 8154–8173, 2023.

He et al. (2018) H. He et al. 交渉対話における戦略と生成の分離。 Conference on Empirical Methods in Natural Language Processing, pages 2333–2343, 2018.

He et al. (2020) K. He et al. 教師なし視覚表現学習のためのモメンタム対照。 IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 9729–9738, 2020.

He et al. (2023) Y. He et al. Efficientdm: 低ビット拡散モデルの効率的な量子化対応微調整。 arXiv preprint arXiv:2310.03270, 2023.

Heek et al. (2024) J. Heek, E. Hoogeboom, T. Salimans. 多段階一貫性モデル。 arXiv preprint arXiv:2403.06807, 2024.

Helfrich et al. (2014) R. F. Helfrich et al. 経頭蓋交流刺激による脳振動の同調。 Current biology, 24(3):333–339, 2014.

Henderson et al. (2018) P. Henderson et al. 重要な深層強化学習。 AAAI Conference on Artificial Intelligence, volume 32, pages 3207–3214, 2018.

Higgins et al. (2017) I. Higgins et al. β-VAE: 制約付き変分フレームワークによる基本的な視覚概念の学習。 International Conference on Learning Representations, 2017.

Ho et al. (2020) J. Ho, A. Jain, P. Abbeel. デノイジング拡散確率モデル。 Advances in Neural Information Processing Systems, volume 33, pages 6840–6851, 2020.

Ho et al. (2022) J. Ho et al. ビデオ拡散モデル。 Advances in Neural Information Processing Systems, volume 35, pages 8633–8646, 2022.

Hong et al. (2024) S. Hong et al. MetaGPT: マルチエージェント協調フレームワークのためのメタプログラミング。 International Conference on Learning Representations, 2024.

Hooker (2021) S. Hooker. ハードウェアのくじ引き。 Communications of the ACM, 64(12):58–65, 2021.

Hooper et al. (2024) C. Hooper et al. KVQuant: KVキャッシュ量子化による1000万コンテキスト長LLM推論の実現に向けて。 Advances in Neural Information Processing Systems, volume 37, pages 1270–1303, 2024.

Hu et al. (2023) A. Hu et al. GAIA-1: 自動運転のための生成的ワールドモデル。 arXiv preprint arXiv:2309.17080, 2023.

Hu et al. (2025a) T. Hu et al. 自動運転のための視覚-言語-行動モデル:過去、現在、未来。 arXiv preprint arXiv:2512.16760, 2025a.

  • Senior et al. (2020) A. W. Senior, R. Evans, J. Jumper, J. Kirkpatrick, L. Sifre, T. Green, C. Qin, A. Žídek, A. W. R. Nelson, A. Bridgland, H. Penedones, S. Petersen, K. Simonyan, S. Crossan, P. Kohli, D. T. Jones, D. Silver, K. Kavukcuoglu, and D. Hassabis. 深層学習によるポテンシャルを用いたタンパク質構造予測の改良。 Nature, 577:706–710, 2020.

  • Shaj et al. (2023) V. Shaj, S. G. Zadeh, O. Demir, L. R. Douat, and G. Neumann. マルチタイムスケールワールドモデル。 In Advances in Neural Information Processing Systems, volume 36, pages 26764–26775, 2023.

  • Shanahan (1997) M. Shanahan. フレーム問題の解決:常識的慣性法則の数学的探求。 MIT Press, 1997.

  • Shanahan et al. (2023) M. Shanahan, K. McDonell, and L. Reynolds. 大規模言語モデルによるロールプレイ。 Nature, 623:493–498, 2023.

  • Shang et al. (2023) Y. Shang, Z. Yuan, B. Xie, B. Wu, and Y. Yan. 拡散モデルのポストトレーニング量子化。 In IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 1972–1981, 2023.

  • Shang et al. (2025) Y. Shang, X. Zhang, Y. Tang, L. Jin, C. Gao, W. Wu, and Y. Li. RoboScape: 物理情報に基づく具現化ワールドモデル。 arXiv preprint arXiv:2506.23135, 2025.

  • Shao et al. (2023) Y. Shao, L. Li, J. Dai, and X. Qiu. Character-LLM: ロールプレイングのための訓練可能なエージェント。 In Conference on Empirical Methods in Natural Language Processing, pages 13153–13187, 2023.

  • Shen et al. (2026) Z. Shen, X. Hu, X. Li, T. Fang, J. Li, and S. Zhang. 行動修正を伴うワールドモデル拡張ウェブエージェント。 arXiv preprint arXiv:2602.15384, 2026.

  • Shi et al. (2017) T. Shi, A. Karpathy, L. Fan, J. Hernandez, and P. Liang. World of bits: ウェブベースエージェントのためのオープンドメインプラットフォーム。 In International Conference on Machine Learning, pages 3135–3144, 2017.

  • Singh et al. (2024) P. K. Singh, K. A. Farrell-Maupin, and D. Faghihi. 不確実性下における信頼できるニューラルネットワーク代理モデルの戦略的発見のためのフレームワーク。 Computer Methods in Applied Mechanics and Engineering, 427:117061, 2024.

  • Song et al. (2023a) X. Song, W. Yao, Y. Fan, X. Dong, G. Chen, J. C. Niebles, E. Xing, and K. Zhang. 未知の非定常性下における時間的に分離された表現学習。 In Advances in Neural Information Processing Systems, volume 36, pages 8092–8113, 2023a.

  • Song and Dhariwal (2024) Y. Song and P. Dhariwal. 一貫性モデルの訓練技術の改良。 In International Conference on Learning Representations, 2024.

  • Song et al. (2023b) Y. Song, P. Dhariwal, M. Chen, and I. Sutskever. 一貫性モデル。 In International Conference on Machine Learning, volume 202, pages 32211–32252. PMLR, 2023b.

  • Sparkes et al. (2010) A. Sparkes, W. Aubrey, E. Byrne, A. Clare, M. N. Khan, M. Liakata, M. Markham, J. Rowland, L. N. Soldatova, K. E. Whelan, M. Young, and R. D. King. 自律的科学的発見のためのロボット科学者に向けて。 Automated Experimentation, 2(1):1, 2010.

  • Stalnaker (1968) R. C. Stalnaker. 条件法の理論。 In Studies in Logical Theory, volume 2 of American Philosophical Quarterly Monograph Series, pages 98–112. Blackwell, 1968.

  • Stanić et al. (2023) A. Stanić, Y. Tang, D. Ha, and J. Schmidhuber. オープンワールドサバイバルゲーム「Crafter」におけるオブジェクト中心エージェントによる汎化学習。 IEEE Transactions on Games, 16(2):384–395, 2023.

  • Strieth-Kalthoff et al. (2024) F. Strieth-Kalthoff, H. Hao, V. Rathore, J. Derasp, T. Gaudin, N. H. Angello, M. Seifrid, E. Trushina, M. Guy, J. Liu, X. Tang, M. Mamada, et al. 有機レーザー発光体の非局所的、非同期、閉ループ発見。 Science, 384(6697):eadk9227, 2024.

  • Su et al. (2025a) A. Su, H. Wang, W. Ren, F. Lin, and W. Chen. Pixel reasoner: 好奇心駆動型強化学習によるピクセル空間推論の促進。 arXiv preprint arXiv:2505.15966, 2025a.

  • Su et al. (2025b) Z. Su, Z. Chen, W. Shen, H. Wei, L. Li, H. Yu, and K. Yuan. RotateKV: 外れ値対応型適応回転によるLLM向け正確かつ頑健な2ビットKVキャッシュ量子化。 arXiv preprint arXiv:2501.16383, 2025b.

  • Sumers et al. (2024) T. R. Sumers, S. Yao, K. Narasimhan, and T. L. Griffiths. 言語エージェントのための認知アーキテクチャ。 Transactions on Machine Learning Research, 2024.

  • Sun et al. (2025a) Q. Sun, L. Yang, W. Tang, W. Huang, K. Xu, Y. Chen, M. Liu, J. Yang, H. Zhu, Y. Wang, T. He, Y. Chen, X. Dai, N. Ye, and Q. Gu. プリミティブな具現化ワールドモデルの学習:スケーラブルなロボット学習に向けて。 arXiv preprint arXiv:2508.20840, 2025a.

  • Sun et al. (2025b) W. Sun, H. Zhang, H. Wang, J. Wu, Z. Wang, Z. Wang, Y. Wang, J. Zhang, T. Wang, and C. Guo. WorldPlay: リアルタイムインタラクティブな世界モデリングのための長期的幾何学的整合性に向けて。 arXiv preprint arXiv:2512.14614, 2025b.

  • Sutton (1991) R. S. Sutton. Dyna: 学習、計画、反応のための統合アーキテクチャ。 ACM SIGART Bulletin, 2(4):160–163, 1991.

  • Szot et al. (2021) A. Szot, A. Clegg, E. Undersander, E. Wijmans, Y. Zhao, J. Turner, N. Maestre, M. Mukadam, D. Chaplot, O. Maksymets, A. Gokaslan, V. Vondrus, S. Dharur, F. Meier, W. Galuba, A. Chang, Z. Kira, V. Koltun, J. Malik, M. Savva, and D. Batra. Habitat 2.0: 家庭アシスタントに住環境の再配置を訓練する。 In Advances in Neural Information Processing Systems, volume 34, pages 251–266, 2021.

  • Szymanski et al. (2023) N. J. Szymanski, B. Rendy, Y. Fei, R. E. Kumar, T. He, D. Milsted, M. J. McDermott, M. Gallant, E. D. Cubuk, A. Merchant, H. Kim, A. Jain, C. J. Bartel, K. Persson, Y. Zeng, and G. Ceder. 無機材料の加速合成のための自律実験室。 Nature, 624:86–91, 2023.

  • Tang et al. (2024) H. Tang, D. Key, and K. Ellis. WorldCoder: コードを記述し環境と相互作用することでワールドモデルを構築するモデルベースLLMエージェント。 In Advances in Neural Information Processing Systems, volume 37, pages 70148–70212, 2024.

  • Tao et al. (2024) S. Tao, F. Xiang, A. Shukla, Y. Qin, X. Hinrichsen, X. Yuan, C. Bao, X. Lin, Y. Liu, T. kai Chan, Y. Gao, X. Li, T. Mu, N. Xiao, A. Gurha, V. N. Rajesh, Y. W. Choi, Y.-R. Chen, Z. Huang, R. Calandra, R. Chen, S. Luo, and H. Su. ManiSkill3: 汎化可能な具現化AIのためのGPU並列ロボティクスシミュレーションとレンダリング。 arXiv preprint arXiv:2410.00425, 2024.

  • Tassa et al. (2020) Y. Tassa, S. Tunyasuvunakool, A. Muldal, Y. Doron, P. Trochim, S. Liu, S. Bohez, J. Merel, T. Erez, T. Lillicrap, and N. Heess. dm_control: 連続制御のためのソフトウェアとタスク。 Software Impacts, 6:100022, 2020.

  • Taubenfeld et al. (2024) A. Taubenfeld, Y. Dover, R. Reichart, and A. Goldstein. LLMによる議論シミュレーションにおける系統的バイアス。 In Conference on Empirical Methods in Natural Language Processing, pages 251–267, 2024.

  • Telang et al. (2021) P. R. Telang, M. P. Singh, and N. Yorke-Smith. マルチエージェントシステムにおける社会的コミットメントの維持。 In AAAI Conference on Artificial Intelligence, volume 35, pages 11369–11377, 2021.

  • Tobin et al. (2017) J. Tobin, R. Fong, A. Ray, J. Schneider, W. Zaremba, and P. Abbeel. 深層ニューラルネットワークをシミュレーションから実世界へ転送するためのドメインランダム化。 In IEEE/RSJ International Conference on Intelligent Robots and Systems, 2017.

  • Todorov et al. (2012) E. Todorov, T. Erez, and Y. Tassa. MuJoCo: モデルベース制御のための物理エンジン。 In IEEE/RSJ International Conference on Intelligent Robots and Systems, pages 5026–5033, 2012.

  • Tu et al. (2025) S. Tu, X. Zhou, D. Liang, X. Jiang, Y. Zhang, X. Li, and X. Bai. 自動運転を形成するワールドモデルの役割:包括的調査。 arXiv preprint arXiv:2502.10498, 2025.

  • Turing (1950) A. M. Turing. 計算機械と知性。 Mind, 59(236):433–460, 1950.

  • Unterthiner et al. (2018) T. Unterthiner, S. van Steenkiste, K. Kurach, R. Marinier, M. Michalski, and S. Gelly. 動画の正確な生成モデルに向けて:新たな評価指標と課題。 arXiv preprint arXiv:1812.01717, 2018.

  • Vafa et al. (2024) K. Vafa, J. Y. Chen, A. Rambachan, J. Kleinberg, and S. Mullainathan. 生成モデルに内在するワールドモデルの評価。 In Advances in Neural Information Processing Systems, volume 37, pages 26941–26975, 2024.

  • Valevski et al. (2025) D. Valevski, Y. Leviathan, M. Arar, and S. Fruchter. 拡散モデルはリアルタイムゲームエンジンである。 In International Conference on Learning Representations, 2025.

  • Vallinder and Hughes (2025) A. Vallinder and E. Hughes. LLMエージェント間の協力の文化的進化。 In International Conference on Autonomous Agents and Multiagent Systems, pages 2771–2773, 2025.

  • van de Ven et al. (2024) G. M. van de Ven, N. Soures, and D. Kudithipudi. 継続学習と破滅的忘却。 arXiv preprint arXiv:2403.05175, 2024.

  • van den Oord et al. (2017) A. van den Oord, O. Vinyals, and K. Kavukcuoglu. ニューラル離散表現学習。 In Advances in Neural Information Processing Systems, 2017.

  • van Es et al. (2025) M. W. van Es, C. Higgins, C. Gohil, A. J. Quinn, D. Vidaurre, and M. W. Woolrich. 大規模皮質機能ネットワークは構造化された周期で組織化されている。 Nature Neuroscience, 28(10):2118–2128, 2025.

  • Vaswani et al. (2017) A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, and I. Polosukhin. 注意機構こそが全てである。 In Advances in Neural Information Processing Systems, 2017.

  • Vidaurre et al. (2018) D. Vidaurre, L. T. Hunt, A. J. Quinn, B. A. Hunt, M. J. Brookes, A. C. Nobre, and M. W. Woolrich. 自発的皮質活動は一過性に周波数特異的な位相結合ネットワークへと組織化される。 Nature Communications, 9(1):2987, 2018.

  • Wang et al. (2025a) C. Wang, H. Wang, X. Chen, J. Liu, T. Xue, C. Peng, D. Qi, F. Lin, and Y. Yan. 錯覚から意図へ:視覚言語推論のための視覚的根拠学習。 arXiv preprint arXiv:2511.23031, 2025a.

  • Wang et al. (2024a) F.-Y. Wang, Z. Huang, A. W. Bergman, D. Shen, P. Gao, M. Lingelbach, K. Sun, W. Bian, G. Song, Y. Liu, X. Wang, and H. Li. 位相一貫性モデル。 In Advances in Neural Information Processing Systems, volume 37, pages 83951–84009, 2024a.

  • Wang et al. (2024b) G. Wang, Y. Xie, Y. Jiang, A. Mandlekar, C. Xiao, Y. Zhu, L. Fan, and A. Anandkumar. Voyager: 大規模言語モデルを備えたオープンエンドな具現化エージェント。 Transactions on Machine Learning Research, 2024b.

  • Wang et al. (2025b) H. Wang, L. Li, C. Qu, W. Xu, F. Zhu, W. Chu, and F. Lin. コードを書くべきか否か?期待値最大化による数学言語モデルのための適応的ツール統合。 In Annual Meeting of the Association for Computational Linguistics, pages 3060–3075, 2025b.

  • Wang et al. (2025c) H. Wang, C. Qu, Z. Huang, W. Chu, F. Lin, and W. Chen. VL-Rethinker: 強化学習による視覚言語モデルの自己内省の促進。 arXiv preprint arXiv:2504.08837, 2025c.

  • Wang et al. (2025d) H. Wang, X. Ye, F. Tao, C. Pan, A. Mallik, B. Yaman, L. Ren, and J. Zhang. AdaWM: 自動運転のための適応的ワールドモデルベース計画。 In International Conference on Learning Representations, 2025d.

  • Wang et al. (2026a) J. Wang, Y. Jiang, T. He, J. Sun, Q. Zhang, J. He, J. Cao, Z. Gan, M. Sun, Q. Shao, and X. Yue. MVISTA-4D: ロボット操作のためのテスト時行動推論を備えた視点一貫性のある4Dワールドモデル。 arXiv preprint arXiv:2602.09878, 2026a.

  • Wang et al. (2024c) Q. Wang, J. Yang, Y. Wang, X. Jin, W. Zeng, and X. Yang. オフラインRLをオンライン化:オフライン視覚強化学習のための協調的ワールドモデル。 In Advances in Neural Information Processing Systems, volume 37, pages 97203–97230, 2024c.

  • Wang et al. (2022) R. Wang, P. Jansen, M.-A. Côté, and P. Ammanabrolu. ScienceWorld: あなたのエージェントは小学5年生より賢いか? In Conference on Empirical Methods in Natural Language Processing, pages 11279–11298, 2022.

  • Wang et al. (2024d) R. Wang, G. Todd, Z. Xiao, X. Yuan, M.-A. Côté, P. Clark, and P. Jansen. 言語モデルはテキストベースの世界シミュレーターとして機能できるか? In Annual Meeting of the Association for Computational Linguistics, 2024d.

  • Wang et al. (2024e) R. Wang, H. Yu, W. Zhang, Z. Qi, M. Sap, Y. Bisk, G. Neubig, and H. Zhu. Sotopia-π: 社会的知性を備えた言語エージェントのインタラクティブ学習。 In Annual Meeting of the Association for Computational Linguistics, pages 12912–12940, 2024e.

  • Wang et al. (2024f) S. Wang, C. Liu, Z. Zheng, S. Qi, S. Chen, Q. Yang, A. Zhao, C. Wang, S. Song, and G. Huang. 効果的な欺瞞対処のための再帰的熟考によるLLMエージェントの強化。 In Annual Meeting of the Association for Computational Linguistics, pages 9909–9953, 2024f.

  • Wang et al. (2024g) T. Wang, H. Dong, Y. Jiang, D. C. Parkes, and M. Tambe. マルチエージェント部分観測性のための拡散モデル:共有アトラクター、誤差限界、複合フロー。 arXiv preprint arXiv:2410.13953, 2024g.

  • Wang et al. (2019) X. Wang, W. Shi, R. Kim, Y. Oh, S. Yang, J. Zhang, and Z. Yu. 善意のための説得:ソーシャルグッドのためのパーソナライズされた説得対話システムに向けて。 In Annual Meeting of the Association for Computational Linguistics, pages 5635–5649, 2019.

  • Wang et al. (2024h) X. Wang, Z. Zhu, G. Huang, X. Chen, J. Zhu, and J. Lu. DriveDreamer: 自動運転のための実世界駆動型ワールドモデルに向けて。 In European Conference on Computer Vision, pages 55–72. Springer, 2024h.

  • Wang et al. (2025e) Y. Wang, W. Luo, J. Bai, Y. Cao, T. Che, K. Chen, Y. Chen, J. Diamond, Y. Ding, W. Ding, L. Feng, G. Heinrich, J. Huang, P. Karkus, B. Li, P. Li, T.-Y. Lin, D. Liu, M.-Y. Liu, L. Liu, Z. Liu, J. Lu, Y. Mao, P. Molchanov, L. Pavao, Z. Peng, M. Ranzinger, E. Schmerling, S. Shen, Y. Shi, S. Tariq, R. Tian, T. Wekel, X. Weng, T. Xiao, E. Yang, X. Yang, Y. You, X. Zeng, W. Zhang, B. Ivanovic, and M. Pavone. Alpamayo-R1: ロングテールにおける汎化可能な自動運転のための推論と行動予測の橋渡し。 arXiv preprint arXiv:2511.00088, 2025e.

  • Wang et al. (2025f) Z. Wang, Y. Zhang, X. Yue, X. Yue, Y. Li, W. Ouyang, and L. Bai. 遷移モデル:生成的学習目標の再考。 arXiv preprint arXiv:2509.04394, 2025f.

  • Wang et al. (2026b) Z. Wang, Z. Liu, J. Li, K. Huang, B. Xu, F. Kang, M. An, P. Wang, B. Jiang, Y. Wei, Y. Xietian, J. Pei, L. Hu, B. Jiang, H. Xue, Z. Wang, H. Sun, W. Li, W. Ouyang, X. He, Y. Liu, Y. Li, and Y. Zhou. Matrix-Game 3.0: 長期記憶を備えたリアルタイムかつストリーミングなインタラクティブワールドモデル。 arXiv preprint arXiv:2604.08995, 2026b.

  • Wang et al. (2024i) Z. M. Wang, Z. Peng, H. Que, J. Liu, W. Zhou, Y. Wu, H. Guo, R. Gan, Z. Ni, J. Yang, M. Zhang, Z. Zhang, W. Ouyang, K. Xu, S. W. Huang, J. Fu, and J. Peng. RoleLLM: 大規模言語モデルのロールプレイング能力のベンチマーク、引き出し、強化。 In Annual Meeting of the Association for Computational Linguistics, pages 14743–14777, 2024i.

  • Watter et al. (2015) M. Watter, J. T. Springenberg, J. Boedecker, and M. Riedmiller. 制御への埋め込み:生画像からの制御のための局所線形潜在ダイナミクスモデル。 In Advances in Neural Information Processing Systems, volume 28, pages 2746–2754, 2015.

  • Wei et al. (2025a) H. Wei, Z. Zhang, S. He, T. Xia, S. Pan, and F. Liu. PlanGenLLMs: LLM計画能力の現代的な調査。 arXiv preprint arXiv:2502.11221, 2025a.

  • Wei et al. (2025b) J. Wei, Y. Yang, X. Zhang, Y. Chen, X. Zhuang, Z. Gao, D. Zhou, G. Wang, Z. Gao, J. Cao, Z. Qiu, M. Hu, C. Ma, S. Tang, J. He, C. Song, X. He, Q. Zhang, C. You, S. Zheng, N. Ding, W. Ouyang, N. Dong, Y. Cheng, S. Sun, L. Bai, and B. Zhou. AI for Scienceからエージェンティック・サイエンスへ:自律的科学的発見に関する調査。 arXiv preprint arXiv:2508.14111, 2025b.

  • Wilf et al. (2024) A. Wilf, S. Lee, P. P. Liang, and L.-P. Morency. 考え直す:視点取得が大規模言語モデルの心の理論能力を向上させる。 In Annual Meeting of the Association for Computational Linguistics, pages 8292–8308, 2024.

  • Wolpert (1996) D. H. Wolpert. 学習アルゴリズム間の先験的な区別の欠如。 Neural Computation, 8(7):1341–1390, 1996.

  • World Labs team (2025a) World Labs team. Marble: マルチモーダルワールドモデル。 World Labs Technical Post, 2025a. URL https://www.worldlabs.ai/blog/marble-world-model.

  • World Labs team (2025b) World Labs team. RTFM: リアルタイムフレームモデル。 World Labs Research Preview, 2025b. URL https://www.worldlabs.ai/blog/rtfm.

  • Wu et al. (2024a) H. Wu, Y. Jing, C. Cheang, G. Chen, J. Xu, X. Li, M. Liu, H. Li, and T. Kong. 視覚ロボット操作のための大規模ビデオ生成事前学習の解放。 In International Conference on Learning Representations, 2024a.

  • Wu et al. (2024b) J. Wu, H. Wang, Y. Shang, M. Shah, and Y. Yan. PTQ4DiT: 拡散トランスフォーマーのためのポストトレーニング量子化。 In Advances in Neural Information Processing Systems, volume 37, pages 62732–62755, 2024b.

  • Wu et al. (2024c) J. Wu, S. Yin, N. Feng, X. He, D. Li, J. Hao, and M. Long. iVideoGPT: インタラクティブVideoGPTはスケーラブルなワールドモデルである。 In Advances in Neural Information Processing Systems, volume 37, pages 68082–68119, 2024c.

  • Wu et al. (2023a) P. Wu, A. Escontrela, D. Hafner, K. Goldberg, and P. Abbeel. DayDreamer: 物理ロボット学習のためのワールドモデル。 In Conference on Robot Learning. PMLR, 2023a.

  • Wu et al. (2023b) Y. Wu, Y. He, Y. Jia, R. Mihalcea, Y. Chen, and N. Deng. Hi-ToM: 大規模言語モデルにおける高次心の理論推論を評価するためのベンチマーク。 In Conference on Empirical Methods in Natural Language Processing, pages 10691–10706, 2023b.

  • Xia et al. (2024) H. Xia, Z.-H. Lin, W.-C. Ma, and S. Wang. Video2Game: 単一の動画からリアルタイム、インタラクティブ、リアルかつブラウザ互換の環境を生成する。 In IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 4578–4588, 2024.

  • Xiang et al. (2020) F. Xiang, Y. Qin, K. Mo, Y. Xia, H. Zhu, F. Liu, M. Liu, H. Jiang, Y. Yuan, H. Wang, L. Yi, A. X. Chang, L. J. Guibas, and H. Su. SAPIEN: パーツベースのシミュレーテッドインタラクティブ環境。 In IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 11097–11107, 2020.

  • Xiao et al. (2024) G. Xiao, Y. Tian, B. Chen, S. Han, and M. Lewis. アテンション・シンクを用いた効率的なストリーミング言語モデル。 In International Conference on Learning Representations, 2024.

  • Xiao et al. (2026) Z. Xiao, J. Tu, C. Zou, Y. Zuo, Z. Li, P. Wang, B. Yu, F. Huang, J. Lin, and Z. Liu. WebWorld: ウェブエージェント訓練のための大規模ワールドモデル。 arXiv preprint arXiv:2602.14721, 2026.

  • Xie et al. (2024) T. Xie, D. Zhang, J. Chen, X. Li, S. Zhao, R. Cao, T. J. Hua, Z. Cheng, D. Shin, F. Lei, Y. Liu, Y. Xu, S. Zhou, S. Savarese, C. Xiong, V. Zhong, and T. Yu. OSWorld: 実コンピューター環境におけるオープンエンドタスクのためのマルチモーダルエージェントのベンチマーク。 In Advances in Neural Information Processing Systems, volume 37, pages 52040–52094, 2024.

  • Xing et al. (2024) J. Xing, M. Xia, Y. Zhang, H. Chen, W. Yu, H. Liu, X. Wang, T.-T. Wong, and Y. Shan. DynamiCrafter: ビデオ拡散事前分布を用いたオープンドメイン画像のアニメーション化。 In European Conference on Computer Vision, pages 399–417. Springer, 2024.

  • Xu et al. (2024a) H. Xu, R. Zhao, L. Zhu, J. Du, and Y. He. OpenToM: 大規模言語モデルの心の理論推論能力を評価するための包括的ベンチマーク。 In Annual Meeting of the Association for Computational Linguistics, pages 8593–8623, 2024a.

  • Xu et al. (2026a) X. Xu, H. Li, J. Ye, Y. Chen, J. Zeng, X. Chen, L. Xu, D. Lin, W. Li, and J. Pang. FutureVLA: 視覚-言語-行動モデルのための統合的視覚運動予測。 arXiv preprint arXiv:2603.10712, 2026a.

  • Xu et al. (2026b) X. Xu, A. Liang, Y. Liu, L. Li, L. Kong, Z. Liu, and Q. Liu. U4D: LiDARシーケンスからの不確実性を考慮した4Dワールドモデリング。 In IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2026b.

  • Xu et al. (2024b) Y. Xu, Z. Wang, J. Wang, D. Lu, T. Xie, A. Saha, D. Sahoo, T. Yu, and C. Xiong. Aguvis: 自律的なGUIインタラクションのための統合された純粋視覚エージェント。 arXiv preprint arXiv:2412.04454, 2024b.

  • Xu et al. (2023) Z. Xu, C. Yu, F. Fang, Y. Wang, and Y. Wu. 人狼ゲームにおける戦略的プレイのための強化学習付き言語エージェント。 arXiv preprint arXiv:2310.18940, 2023.

  • Yamada et al. (2025) Y. Yamada, R. T. Lange, C. Lu, S. Hu, C. Lu, J. Foerster, J. Clune, and D. Ha. The AI Scientist-v2: エージェンティック木探索によるワークショップレベルの自動科学的発見。 arXiv preprint arXiv:2504.08066, 2025.

  • Yan et al. (2026) T. Yan, T. Tang, X. Gui, Y. Li, J. Zhesng, W. Huang, L. Kong, W. Han, X. Zhou, X. Zhang, Y. Zhan, K. Zhan, C. zhong Xu, and J. Shen. Ad-r1: 公平なワールドモデルを用いたエンドツーエンド自動運転のための閉ループ強化学習。 In IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2026.

  • Yang et al. (2026) C. Yang, X. Lin, S. Li, W. Wang, R. Guo, F. Feng, and T.-S. Chua. 大規模言語モデルは新しい知識を導出できるか?生物学的知識発見のための動的ベンチマーク。 arXiv preprint arXiv:2603.03322, 2026.

  • Yang et al. (2024a) J. Yang, C. E. Jimenez, A. Wettig, K. Lieret, S. Yao, K. Narasimhan, and O. Press. SWE-Agent: エージェント・コンピューター・インターフェースが自動ソフトウェア工学を可能にする。 In Advances in Neural Information Processing Systems, volume 37, pages 50528–50652, 2024a.

  • Yang et al. (2025a) P. Yang, H. Ci, and M. Z. Shou. macOSWorld: GUIエージェントのための多言語インタラクティブベンチマーク。 arXiv preprint arXiv:2506.04135, 2025a.

  • Yang et al. (2024b) S. Yang, Y. Du, S. K. S. Ghasemipour, J. Tompson, L. P. Kaelbling, D. Schuurmans, and P. Abbeel. インタラクティブな実世界シミュレーターの学習。 In International Conference on Learning Representations, 2024b.

  • Yang et al. (2025b) S. Yang, W. Huang, R. Chu, Y. Xiao, Y. Zhao, X. Wang, M. Li, E. Xie, Y. Chen, Y. Lu, S. Han, and Y. Chen. LongLive: リアルタイムインタラクティブな長尺動画生成。 arXiv preprint arXiv:2509.22622, 2025b.

  • Yang et al. (2025c) S. Yang, H. Xi, Y. Zhao, M. Li, J. Zhang, H. Cai, Y. Lin, X. Li, C. Xu, K. Peng, J. Chen, S. Han, K. Keutzer, and I. Stoica. Sparse VideoGen2: 意味認識型置換によるスパースアテンションで動画生成を加速する。 arXiv preprint arXiv:2505.18875, 2025c.

  • Yang et al. (2024c) Z. Yang, X. Du, J. Li, J. Zheng, S. Poria, and E. Cambria. 自動化されたオープンドメイン科学的仮説発見のための大規模言語モデル。 In Annual Meeting of the Association for Computational Linguistics, pages 13545–13565, 2024c.

  • Yang et al. (2024d) Z. Yang, Z. Zhang, Z. Zheng, Y. Jiang, Z. Gan, Z. Wang, Z. Ling, J. Chen, M. Ma, B. Dong, P. Gupta, S. Hu, Z. Yin, G. Li, X. Jia, L. Wang, B. Ghanem, H. Lu, C. Lu, W. Ouyang, Y. Qiao, P. Torr, and J. Shao. Oasis: 100万エージェントによるオープンエージェント社会的相互作用シミュレーション。 arXiv preprint arXiv:2411.11581, 2024d.

  • https://arxiv.org/abs/2405.03520, 2024.

    自動運転は特に明確なL2設定の一例です。なぜなら、有用なロールアウトは幾何学的な正確さ(車線構造、フリースペース)、動的な一貫性(車両運動力学、交通流)、そして反実仮想的な感度を共同で保持しなければならないからです。つまり、自車両がより早くブレーキをかけたり車線変更したりした場合、周囲の軌道と占有状況は、単に同じシーンを継続するのではなく、首尾一貫して更新される必要があるのです (Hu et al., 2025a; Wang et al., 2025e; Liang et al., 2026a)。GAIA-1 (Hu et al., 2023) や DriveWorld (Min et al., 2024) といった初期のシステムは、制御信号に条件付けられたシーン生成を確立しました。

    その後の研究は、主に二つの軸に沿って分岐しました。表現の軸では、Copilot4D (Zhang et al., 2024a) がLiDAR点群上の離散拡散による教師なし4Dモデリングを導入し、OccWorld (Zheng et al., 2024) はGPTに似た時空間トランスフォーマーを用いた3D占有表現へと移行し、Hermes (Zhou et al., 2025a) はBEV(Bird's-Eye View)によるシーン理解と将来予測を統合しました。忠実度と制御性の軸では、VISTA (Gao et al., 2024) が10Hzで576×\times1024の解像度、15秒にわたる一貫したロールアウトを実証しました。一方、DriveDreamer (Wang et al., 2024h) は、拡散バックボーンを用いて自然な運転データからのみ世界モデルを構築しました。AD-R1 (Yan et al., 2026) は、公平な世界モデリングと、もっともらしい衝突やオフロードイベントの豊富なカリキュラムを組み合わせることで、最初の閉ループシミュレーターを構築しています。

    さらなる研究の方向性は、ベースとなる表現だけではなく、ファインチューニング時の方策アライメントに関係しています。AdaWM (Wang et al., 2025d) は、RLファインチューニング中の表現劣化に対処するため、低ランクアライメントを用いて、新しい運転方策に適応させつつ事前学習済みの構造を保持します。この進展はまた、オープンループのシーン生成から閉ループ制御のサポートへの移行を示しており、そこではアクションは単なる条件付け変数ではなく、実行前にその結果を比較しなければならない介入候補となります。

    C.2 ソフトウェア、ウェブ、ゲームシステム

    ゲーム世界モデル

    ゲーム世界は、物理的知能とデジタル知能の交差点に位置する独特な場所を占めています。視覚的なダイナミクスは物理法則に似たルール(レンダリング、物体の動き、衝突)に従いますが、状態遷移は最終的に決定論的なゲームロジック(スコア更新、レベルトリガー、アイテム変更)によって支配されます。この重なりにより、ゲームは知覚的予測とルールベースの推論を統合しなければならない世界モデルにとって、自然なテストベッドとなります。NitroGen (Magne et al., 2026) は、1000以上のゲームにおける4万時間のゲームプレイで学習されたNVIDIAのオープンなビジョン・アクション基盤モデルであり、大規模な行動クローニングを通じて、未知のゲームで52%の改善を達成しました。DIAMOND (Alonso et al., 2024) やGenie (Bruce et al., 2024)(本文第3節)を含むL1での先行研究は、フレームごとの予測を確立しました。L2の課題は、視覚的なダイナミクスと基礎となるゲームルールの両方を尊重する、長期にわたるアクション条件付きのシミュレーションです。GameNGen (Valevski et al., 2025) は、DOOMのゲームプレイで学習された拡散モデルが、20FPSでリアルタイムのニューラルゲームエンジンとして機能し、元のエンジンと区別がつかないインタラクティブなフレームを生成できることを実証しました。Video2Game (Xia et al., 2024) は、一本の動画をリアルタイムの物理演算とレンダリングを備えたインタラクティブな3Dゲームライクな環境に変換し、受動的な動画理解とインタラクティブな世界シミュレーションの橋渡しをします。これらのドメイン全体で、状態にはDOM構造、フォーカス、ファイルシステム、アプリケーションの状態機械が含まれ、評価可能なタスクはOS (Xie et al., 2024; Yang et al., 2025a)、ウェブ (Zhou et al., 2024b; Deng et al., 2023; Yao et al., 2022)、ソフトウェアデバッグワークフロー (Jimenez et al., 2024; Yang et al., 2024a; Shi et al., 2017) に及びます。

    C.3 社会シミュレーションとマルチエージェントシステム

    心の理論のプロンプトと推論

    構造化されたプロンプト戦略は、社会的推論のボトルネックが知識ではなく推論構造にあることを示唆しています。SymbolicToM (Sclar et al., 2023) は、物語の各イベント後にキャラクターごとの明示的な信念グラフを構築し、グラフ探索を通じて最大三次の信念をサポートします(ACL 2023 Outstanding Paper)。SimToM (Wilf et al., 2024) は、認知科学のシミュレーション理論に触発された二段階プロセスとして視点取得を実装します。まず文脈を対象キャラクターが知っていることにフィルタリングし、次にそのフィルタリングされた視点から回答します。K-Level Reasoning (Zhang et al., 2025h) は、行動経済学のレベルKフレームワークを交渉のためにLLMで再帰的に実装します。Thought-Tracing (Kim et al., 2025) は、逐次モンテカルロ法のような仮説生成を通じて近似的なベイズ推論を実装し、o3-miniのような推論モデルを大幅に上回ります。これは、社会的推論には数学的演繹とは根本的に異なる計算メカニズムが必要かもしれないことを示唆しています。

    サンドボックスアーキテクチャとスケール

    Project Sid (AL et al., 2024) は、PIANOアーキテクチャ(Parallel Information Aggregation via Neural Orchestration)を用いて、Minecraftの6つの町に最大1,000体のエージェントを配置しました。これは、認知、計画、運動実行、発話のための個別の並行モジュールを持つ、脳に着想を得たモジュラー設計です。創発的な現象には、自律的な職業特化、性格に基づくソーシャルネットワーク形成、民主的な統治、自発的な宗教的布教を含む文化的伝達が含まれました。Sotopiaの拡張には、Sotopia-π\pi (Wang et al., 2024e)(社会的スキルのためのインタラクティブな自己強化学習)やLifelong-Sotopia(複数エピソードにわたる長期的な一貫性評価)が含まれます。AgentSociety (Piao et al., 2025) は、マズローの欲求階層説に触発された感情・認知モデルを備えた統合された都市・社会・経済環境で、1万体以上のエージェントが500万回の相互作用を生み出すシミュレーションを行いました。Moltbook(脚注1: https://www.moltbook.com/)のような展開されたプラットフォームは、AIエージェントが自律的に投稿し、議論し、コミュニティ規範を形成する永続的な社会環境を提供し、シミュレーションと現実世界のエージェント社会との間のギャップを橋渡しします。

    創発的な社会現象

    共有地のジレンマシナリオで持続可能な協力を達成したLLMは15モデル中2モデルのみであり (Piatti et al., 2024)、LLMエージェントの世代を超えた協力の進化はモデルに強く依存することが証明されています (Vallinder and Hughes, 2025)。しかし、規範や慣習は確かに出現します。Ren et al. (2024) はLLM社会における規範形成を記録し、Ashery et al. (2025) は臨界質量の転換点を持つ社会慣習を発見しました。そこでは、個々のエージェントには存在しない集団バイアスがグループレベルで現れます。Melting Pot (Leibo et al., 2021) は、このようなダイナミクスを体系的に評価するために、協力、競争、欺瞞、調整をカバーする50以上のサブストレート(基盤環境)を提供します。RoleLLM (Wang et al., 2024i)、CharacterLLM (Shao et al., 2023)、ChatHaruhi (Li et al., 2023a) といったロールプレイングシステムは、ペルソナのファインチューニングや記憶に基づく維持管理を通じてキャラクターの一貫性を探ります。Shanahan et al. (2023) は、LLMが分布表現を通じてキャラクターの状況に関する暗黙の世界モデルを維持していると主張しています。人狼ゲームやアヴァロンは、欺瞞と信頼のための濃縮されたテストベッドとして機能します。包括的なアヴァロン調査 (Lan et al., 2024) は、創発的なリーダーシップとカモフラージュ戦略を記録し、ReCon (Wang et al., 2024f) は欺瞞処理のための再帰的な視点遷移を導入し、The Traitors (Curvo, 2025) は、欺く側が誠実な参加者の認知的限界を悪用することで一貫して勝利することを発見しました。

    デジタルツイン社会

    S3 (Gao et al., 2023) は、ソーシャルメディアプラットフォーム上での情報伝播、感情伝染、態度の二極化をシミュレートします。その拡張版は2024年の米国大統領選挙の結果を予測することに成功し、現実世界の現象に対する予測的妥当性を実証しました。SocioVerse (Zhang et al., 2025f) は、1000万人の実世界ユーザーのプールに対して社会シミュレーションを検証し、前例のない規模での選挙予測、速報ニュースへの反応、経済調査の再現を可能にします。PersuasionForGood (Wang et al., 2019) は、説得を社会的な状態遷移プロセスとしてモデル化し、10の異なる戦略がどのように態度をシフトさせるかを追跡し、社会ダイナミクスが普遍的ではなく個人化されていることを確立しました。

    制度的かつ形式的なアプローチ

    Dignum and Dignum (2025) が論じるように、現在のLLMベースのエージェントは、明示的な推論構造なしに行動の自律性を示します。BDI(Belief–Desire–Intention)アーキテクチャ (Rao and Georgeff, 1995)、規範的マルチエージェントシステム (Boella and van der Torre, 2007)、電子制度 (Esteva et al., 2001)、そして形式的なコミットメントモデル (Telang et al., 2021) は、欠けている機構、つまり心的状態、社会的義務、制度的役割の明示的で検査可能な表現を提供します。MetaGPT (Hong et al., 2024) は標準作業手順(SOP)を通じて組織知識を符号化し、ChatDev (Qian et al., 2024) はコミュニケーションに基づくデハルシネーション(幻覚除去)を備えたチャットチェーンアーキテクチャを実装しており、どちらも組織的な一貫性のために、明示的な制度的制約が個別のエージェントプロンプティングよりも優れていることを示しています。戦略的対話システムは社会ダイナミクスをさらにテストします。CraigslistBargain (He et al., 2018) は戦略を生成から分離し、NegotiationArena (Bianchi et al., 2024) は非合理的な行動を定量化し、Consensus Game (Jacob et al., 2024) はLMのデコードを均衡探索として形式化し、Game-theoretic LLMフレームワーク (Hua et al., 2024) はエージェントワークフローに後ろ向き帰納法を組み込みます。

    C.4 科学のためのAIシステム

    神経ダイナミクスと解釈可能性

    DyNeMo (Gohil et al., 2022; Khan et al., 2023) は、観測を潜在ネットワークモードにマッピングするエンコーダと、それらの時間発展を捉える記憶モデルを組み合わせ、生成的な動的システムを形成します。この構造により、DyNeMoは将来の潜在状態のフォワードシミュレーションと、直接の実験ではなくインシリコシミュレーションによる外部介入への神経応答の予測をサポートします (Helfrich et al., 2014; Ngo et al., 2013)。しかしながら、支配方程式が十分に確立されている物理系とは異なり、大規模な神経活動のダイナミクスはほとんど解明されておらず、科学の主要な目的を解釈可能なメカニズムの発見へとシフトさせています。DyNeMoは、機能的脳ネットワークの空間パターンを捉える構造化され解釈可能な潜在表現を学習することでこれを促進します。その時間的統計は、ネットワーク活性化における構造化されたサイクルを含む高次の組織原理を明らかにします (van Es et al., 2025)。これは、科学的な世界モデルの明確な役割を浮き彫りにします。それは、既知のダイナミクスをシミュレートするだけでなく、解釈可能な表現とその統計的規則性を通じて、状態空間と遷移構造そのものを発見することです。

    演算子学習と分子サロゲート

    ニューラル演算子フレームワーク (Kovachki et al., 2023) は、無限次元関数空間間の写像を学習するための統一的な理論的基盤を提供し、FNO、DeepONet、そしてその後のアーキテクチャを支える近似理論と誤差限界を確立します。PINO (Li et al., 2024e) は、ニューラル演算子アーキテクチャと物理情報に基づくPDEの残差損失を組み合わせ、ゼロショットの超解像とスパースデータ下での汎化性能の向上を可能にします。PI-DeepONet (Goswami et al., 2023) は、支配PDEの残差を演算子学習の目的に直接埋め込む物理情報学習によってDeepONetフレームワークを拡張します。SchNet (Schütt et al., 2017) は、分子グラフに対する連続フィルター畳み込みを導入し、手作りの特徴量なしで量子化学的特性のエンドツーエンド学習を可能にし、等変GNNポテンシャルのアーキテクチャ的な先駆けとなりました。ニューラルポテンシャル、粗視化モデル、生成的サンプリングを含む分子シミュレーションへのMLアプローチの包括的な解説については、Noé et al. (2020) を参照してください。Boltzmann Generators (Noé et al., 2019) は、分子系の熱力学的平衡状態をサンプリングするための深層生成モデルを先駆的に開発し、従来の分子動力学法の逐次的なボトルネックを回避しました。ClimaX (Nguyen et al., 2023) は、天気と気候のための基盤モデルパラダイムを導入し、CMIP6再解析データで自己教師あり学習を用いて事前学習し、予測と気候投影タスクの両方にファインチューニングします。

    F.4 メモリとKVキャッシュ圧縮

    自己回帰トークンダイナミクスは、長期間のロールアウト中にKVキャッシュが線形に増大するため、深刻なメモリ制約を受けます。主要な圧縮戦略には以下のものがあります。

    1. トークン排除:ヘビーヒッター保持 (Zhang et al., 2023b) とアテンションシンク保存 (Xiao et al., 2024) は、キャッシュサイズを制限するために、重要性の低いエントリを破棄します。

    2. チャンクレベルの自己回帰生成:最新の動画モデルはチャンク単位で生成します (Yin et al., 2024b; Huang et al., 2025c; Feng et al., 2025b)。ただし、ハードウェアの制約により、出力は多くの場合約60秒に制限されます。

    3. KV量子化:KIVI (Liu et al., 2024b)、KVQuant (Hooper et al., 2024)、QuaRot (Ashkboos et al., 2024)、RotateKV (Su et al., 2025b) などの方式は、LLM提供向けに成熟していますが、動画拡散モデルに移植すると、活性化統計の違いにより深刻な品質劣化が生じます。

    4. 時空間認識圧縮:効果的な動画KV圧縮には、動画特有の時空間冗長性を明示的に活用するフレームワークが必要です (Yang et al., 2025c)

    関連記事

    分享網址
    AINews·AI 新聞聚合平台
    © 2026 AINews. All rights reserved.