代理人式世界建模：基礎、能力、定律與未來展望

這篇論文的標題是「代理人式世界建模：基礎、能力、定律與未來展望」。

作者群來自多所知名學術機構，包括香港科技大學、新加坡國立大學、牛津大學、南洋理工大學、香港中文大學、香港大學、華盛頓大學等等，這是一項大規模的跨國合作研究。

摘要

隨著人工智慧系統從生成文字，進展到透過持續互動來達成目標，「對環境動態建立模型」的能力，已然成為核心瓶頸。無論是操作物體、在軟體中導航、與其他代理人協調，或是設計實驗，這些都需要預測性的環境模型。然而，「世界模型」這個詞，在不同研究社群中卻有著截然不同的意涵。為此，我們引入一套「等級 × 定律」的分類法，並沿著兩個軸線來組織。第一個軸線定義了三種能力等級：L1 預測者，學習單步的局部狀態轉移規則；L2 模擬器，將這些規則組合成多步驟、可受動作制約的推演，並遵守該領域的法則；以及L3 演化者，當預測結果與新證據不符時，能自主地修正其自身的模型。第二個軸線則識別出四種治理定律的範疇（物理、數位、社會與科學），這些範疇決定了世界模型必須滿足哪些限制，以及最可能在哪裡失效。運用此框架，我們綜合分析了超過四百篇研究，並摘要整理了一百多個具代表性的系統，涵蓋了基於模型強化學習、影片生成、網頁及圖形使用者介面代理人、多代理人社會模擬，以及人工智慧驅動的科學發現等領域。我們深入分析了各「等級－範疇」組合中的方法、失敗模式與評估實務，提出了以決策為核心的評估原則，以及一套精簡、可重現的評估套件，並概述了架構指引、待解問題和治理上的挑戰。最終描繪出的這張路線圖，不僅連結了以往各自孤立的社群，更指引出一條路徑：從被動的下一步預測，邁向能夠模擬乃至重塑代理人運作環境的世界模型。

圖1展示了本綜述的組織結構。全文圍繞三個能力等級（L1預測者， L2模擬器， L3演化者）和四種治理定律的範疇（物理、數位、社會、科學世界）來組織，並輔以評估、實作和待解問題等支援性章節。

1 導論

「我們或許可以說，這個世界永恆的奧秘，正在於其可理解性。」——愛因斯坦（1936）

建立對現實的內部模型，這項企圖心有著悠久的知識史。它不僅出現在關於心智模型的哲學論述中（Craik， 1943；Johnson-Laird， 1983），在現代機器學習中，也以支援預測、控制、模擬和科學推理的「習得之潛在動態」等形式出現（Ha和Schmidhuber， 2018；Hafner等人， 2020；Karniadakis等人， 2021）。「世界模型」一詞如今在各研究社群中被廣泛使用，但其精確的技術意涵卻差異甚大（Ding等人， 2025a；Zhu等人， 2024）。在強化學習中，代理人會學習狀態轉移結構，以便在行動前「想像」未來（Sutton， 1991；Ha和Schmidhuber， 2018；Hafner等人， 2020；Schrittwieser等人， 2020）。在電腦視覺中，「世界模型」通常指的是能維持視覺動態與時間一致性的影片或3D生成器（Brooks等人， 2024；Bruce等人， 2024；Agarwal等人， 2025；Liang等人， 2026a；b；Bian等人， 2025；Kong等人， 2025）。在語言模型和代理人系統中，這個詞可以指用於規劃、網頁互動及社會環境的、立基於文本的模擬（Wang等人， 2024d；Gu等人， 2025b；Park等人， 2023；Zhang等人， 2026d；c）。在機器人學中，學習到的動態模型則用於安全規劃、資料高效的政策學習，以及從模擬到真實的轉換（Wu等人， 2023a；Yang等人， 2024b；Min等人， 2024）。在科學領域，這些系統則會將替代模型與由假說驅動的實驗配對起來（Karniadakis等人， 2021；Lu等人， 2024a）。

從一個互補的觀點來看，世界模型和代理人是緊密耦合的。就其核心而言，世界模型學習環境的狀態轉移動態：給定一個當前狀態和一個動作，它預測隨之產生的下一個狀態。相反地，代理人則根據任務目標和其當前的觀察值來選擇動作。這兩個組成部分是相互支援的。代理人依賴世界模型來預測候選動作的後果，從而實現前瞻性規劃和節省樣本數的學習方式（Hafner等人， 2025；Schrittwieser等人， 2020；Dong等人， 2026；2025）。反過來說，世界模型也受益於代理人所產生的經驗，這些經驗提供了精準、與任務相關的軌跡，從而改善模型在狀態空間中，對決策至關重要區域的預測準確度（Sutton， 1991）。這種緊密的耦合關係，正是促使本綜述採用「以能力為基礎的觀點」的原因：雖然世界模型能服務於多種目的，但我們在操作上，以其為下游代理人能促成的決策品質，來定義它的價值。

由於世界模型是一個基礎性組件，其價值遠超出任何單一代理人架構，它們與日俱增的重要性使得概念清晰化變得更加迫切。然而，上述的多樣性也造成了概念上的碎裂：一位視覺研究員可能會根據其生成影格的視覺保真度來評估世界模型，而一位強化學習從業者則會以它是否提升了任務表現來評斷同一詞彙。其結果是，論文可能在某種對「世界模型」的詮釋下，報告重大的進展，但在另一種詮釋下卻變得無法比較。本文正是為了解決這種碎裂化，提供一個能讓各社群對齊的共通語言，同時不抹煞各個領域特有的差異。

1.1 動機

1. 當前綜述的樣貌。最近有幾篇綜述試圖整理這片快速成長的文獻。Ding等人（2025a）提出了一個「理解」對比「預測」的雙重分類法，將世界模型映射到自動駕駛、機器人學和社會模擬等應用領域。Zhu等人（2024）則聚焦於由Sora所催生的生成能力，綜述了影片生成、自動駕駛和自主代理人的世界模型。Yue等人（2025）為二維視覺世界建模提供了一張具有四代能力分類法（G1–G4）的路線圖，應用於機器人、自動駕駛和遊戲領域。他們的G1–G4分類法對於區分互動性越來越強的視覺生成系統很有用；我們的L1–L3階層關係與其說是彼此競爭，倒不如說是互補的，因為我們的分類法從視覺模態中抽離出來，探問的是一個系統是否支援局部預測、可用於決策的模擬，或是橫跨物理、數位、社會和科學範疇的、由證據驅動的修正。大致來說，早期的G等級強調外觀和受動作制約的預測，而我們在L2/L3之間劃下的界線，則是由「符合約束條件的推演」和「持續性的模型更新」來決定。特定領域的綜述也蓬勃發展：Li等人（2025e）針對實體人工智慧提出了一個三軸框架（功能性、時間建模、空間表徵）；Feng等人（2025c）和Tu等人（2025）綜述了用於自動駕駛的世界模型；Kong等人（2025）檢視了3D和4D世界建模；Zhang等人（2025d）綜述了用於機器人操作的世界模型；而越來越多的立場性論文，則對學習模型能「理解」物理的意義提出質疑（LeCun， 2022；Kang等人， 2025a）。在科學人工智慧的領域，Wei等人（2025b）綜述了橫跨生命科學、化學、材料和物理的自主科學發現，整合了以流程、以自主性和以機制為導向的觀點。另一條平行的路線則是關於代理人規劃與推理的綜述：Wei等人（2025a）綜述了大型語言模型的規劃能力，涵蓋計畫生成與驗證；Huang等人（2024c）將規劃機制分類為分解、選擇和反思；Cao等人（2025a）系統性地比較了微調與基於搜尋的規劃方法；Zhao等人（2025）將代理人的推理能力組織成單一代理人、基於工具和多重代理人的框架；而Arunkumar等人（2026）則提出了一個統一的代理人分類法，橫跨感知、規劃、行動和協作。這些綜述與我們互為補充：它們專注於代理人如何決策與行動，而我們則聚焦於讓這些決策變得有憑有據的預測性基底——也就是世界模型。儘管這些現有綜述有寶貴貢獻，但它們共享一個我們認為根本上有其限制的組織原則：它們是以模態或應用領域來劃分這個領域。我們的研究與眾不同之處在於，我們透過一個橫跨各種模態的、以能力為基礎的分類法來組織這個領域，其範圍涵蓋了從實體操作和自動駕駛，到網頁代理人、多代理人協調和科學發現流程等決策領域。

圖2展示了本綜述與現有世界模型和代理人綜述的相對定位。四大聚落——實體世界模型、生成式世界模型、語言代理人和科學人工智慧——各自涵蓋了這個領域的一部分。我們的綜述（位於中心）整合了跨領域的涵蓋範圍，並採用一套基於能力的分類法（L1/L2/L3 × 四種範疇），從而橋接了原先多半各自孤立的社群。

現有綜述的不足之處。這些以模態和領域為核心的分類法，留下了兩個關鍵的空白。首先，它們未能捕捉到橫跨各種模態的能力進展。一個重要的例子是基於模型的強化學習，在該領域中，於潛在空間進行的「想像」式推演，能在雅達利遊戲、連續控制和Minecraft等各種領域中，達到與無模型方法基準相當甚至更優的表現（Hafner等人， 2025；Schrittwieser等人， 2020；Hafner等人， 2020）。我們將這種進展正式化為一個三級的能力階層：單步預測、長時程模擬，以及由證據驅動的模型修正。我們框架的第二個動機，是關於大型生成模型究竟是「看起來像真的生成器」還是「真正的世界模擬器」的辯論正日趨激烈。現有的綜述已經浮現了這個張力（Brooks等人， 2024；Bruce等人， 2024；Kang等人， 2025a；Ding等人， 2025a），但一套基於能力的分類法有助於更精確地陳述這個問題，也就是從推演、干預敏感性、約束一制性的角度來提問。我們識別出了四種逐步增強的能力——推演、干預敏感性、約束一致性和閉迴路使用——這些能力刻劃了世界模型的特質，並使其超越了泛指的預測器（將在第2節中正式定義）。此外，現有綜述低估了世界建模在代理人式人工智慧應用中所扮演的角色，這些應用包括網頁代理人、工具使用代理人和多代理人系統，在這些情境中，學習到的環境動態對於規劃和行動選擇至關重要（Gu等人， 2025b；Wang等人， 2024d；Park等人， 2023）。本論文的目標是建立一套以能力為基礎、具有清晰且可測試邊界條件的分類法，並用它來連結那些目前以不同的假設、目標和指標來評估世界建模系統的研究社群。

圖2將本綜述沿著兩個軸線來定位於現有研究之間：範圍（從特定領域到跨領域）和組織原則（從以模態為核心到以能力為核心）。圖1則一目了然地展現了本文的組織結構，根據三個能力等級（L1預測者、L2模擬器、L3演化者）和四個治理定律範疇（物理、數位、社會和科學世界）來將各章節分組。

1.2 範疇與組織原則

橫跨各領域的治理原則。我們沿著兩個正交的軸線來組織這篇論文：（一）能力等級（L1/L2/L3，將在第2節中正式定義），以及（二）治理定律範疇，也就是在一個領域中，合法的狀態轉移所必須滿足的限制條件。這些等級是世界建模能力的階段，而非互斥的模型類別：同一個系統可能會根據任務需求，在不同的時間點調用不同的等級。圖3提供了這四大範疇的示意圖。

圖3展示了四個治理定律範疇的示意圖。每個範疇的代表性場景：一個人形機器人在操縱方塊（物理世界）；程式碼和圖形化使用者介面（數位世界）；一個由互動代理人及其言語行為構成的網絡（社會世界）；以及配備了機器人顯微鏡和移液器的儀器化實驗（科學世界）。每個範疇的正式限制條件將在第2.5節中討論。

• 物理世界的定律：感知；物理互動；機器人操作、導航、自動駕駛、以自我為中心的影片預測、受動作制約的影片建模、3D世界建模。

• 數位世界的定律：程式語意；網頁導航、軟體工具使用、圖形化使用者介面環境。

• 社會世界的定律：信念；目標；規範；社會協調、對話、多代理人設定。

• 科學世界的定律：潛在機制；實驗可觀測量；因果結構；科學發現流程、與測量耦合的預測、由假說驅動的實驗。

特別值得一提的是，物理範疇和科學範疇的區別在於如何存取它們的限制條件：物理世界的系統通常允許對狀態轉移進行解析式的或基於模擬器的驗證，而科學世界的系統通常需要經驗性的驗證，因為其治理機制僅被部分了解。這些範疇並非「正交的模態」：真實世界的系統經常混合它們。這個分類法的價值在於其診斷性；它釐清了某個方法試圖保留哪些不變量，以及它能可靠地回答哪些查詢。更廣泛地來說，一個世界模型可以沿著任何組織維度（例如空間尺度、頻帶或因果深度）來預測狀態轉移，只要它在該軸向上維持了這些能力標準即可。在整篇論文中，我們用世界模型來指稱那些學習來的（或混合式的）運算元，它們支援對干預有感知的狀態轉移查詢，而用世界建模來指稱強化這些運算元的階段性過程。

代理人在執行時期如何使用這三種等級。L1/L2/L3的分類法並非對系統的靜態分類，而是描述了代理人在任何特定時刻所調用的能力。單一一個已部署的系統可以根據任務需求，在不同的等級上運作：

1. L1（預測者）：代理人執行快速、即時反應的單步預測（例如感知、低階運動控制，或逐個符元的生成），而不會維持一個多步驟的計畫。

2. L2（模擬器）：當任務需要比較候選的動作序列、針對不同的未來結果進行反事實推理，或是驗證一個計畫好的軌跡是否遵守治理定律的限制時，代理人就會升級到這個等級；此時，代理人在做出決定前，會先展開一段多步驟的模擬推演。

3. L3（演化者）：當代理人的當前模型產生系統性的預測失敗，而這些失敗無法透過在現有模型結構內重新規劃來解決時——也就是說，當模型的結構本身就必須被修正、相關資源必須被萃取，且更新必須在下次部署前經過驗證——代理人就會升級到這個等級。

這種執行時期派送的觀點，釐清了為何L3並非用來取代L1/L2，而是一個治理層，能在證據要求時改善整個技術堆疊。在一個完整的代理人式技術堆疊中，世界模型僅是其中一個組件：工具使用決定代理人如何作用於環境，記憶決定了在跨作業週期間，哪些證據會被持續保留，多代理人協調則塑造了社會環境中的有效轉移動態，而反思則決定了何時失敗會觸發模型修正，而不僅僅是重新規劃。我們關注的焦點是世界模型這個基底，但它的角色始終是為這些更廣泛的代理人式迴路服務的。

圖4展示了代表性世界建模系統的時間軸（2018–2026），並按能力等級進行排列。這條路線圖顯示了70個綜述中的關鍵系統，為求清晰易讀，每個「年份－等級」的格子最多只列出五個系統。L1預測者指的是單步動態，L2模擬器指的是可用於決策的多步驟推演，而L3演化者則代表完整的、由證據驅動的模型修正；部分L3迴路的實例仍留待表8中討論。每個膠囊狀的圖標都按治理定律範疇來著色：物理（藍色）、數位（綠色）、社會（橘色）和科學（紫色）。

1.3 貢獻與定位

主要貢獻

本論文做出了三項主要貢獻（可參考圖4）：

1. 為代理人式人工智慧中的世界建模，描繪以能力為基礎的路線圖（L1→L2→L3）。我們提出了一個具有可測試邊界條件的三級能力階層：L1 預測世界（單步預測），L2 模擬世界（長時程、受動作制約的推演，並滿足約束條件），以及L3 修改世界（透過自主資料收集和動態修正，實現由證據驅動的模型成長）。這些是能力的階段，而非模型的類型。

2. 透過治理定律達成跨領域的綜合分析。我們將電腦視覺、語言模型、基於模型的強化學習與機器人學，以及科學人工智慧，統合在單一的能力座標系統中。不同的治理定律（第2節）定義了世界模型的類型或劃分，這與L1→L2→L3的能力軸線是部分獨立的。這種二維的組織方式（能力等級 × 定律範疇）揭示了那些各自孤立發展的社群間的共通原則，同時也釐清了使直接移植變得並非易事的、特定領域的挑戰。

3. 將L3確立為一個獨特的能力等級。由證據驅動的模型成長——即系統自主地收集新證據並修正其自身的動態模型——在科學發現（Lu等人， 2024a）、自主實驗和線上適應等領域中，已經以零散的形式出現。我們主張，這種能力在本質上與L2的推演不同，並將其正式化為一個獨特的等級，同時也點明了為了在大規模上實現這項能力，必須解決的待解問題。

定位。我們將這篇論文定位為一篇提出世界建模能力分類法的、以立場驅動的綜述。它推動了一個特定的概念性框架，也就是L1/L2/L3能力階層與治理定律範疇分類法的配對，並倡議整個世界建模社群採用它。與純粹的綜述不同，它提出了可測試的邊界條件，並以此重新檢視現有系統該如何被分類。與純粹的立場論文不同，它用一個橫跨電腦視覺、強化學習、機器人學、自然語言處理和科學人工智慧的全面文獻回顧，來佐證每一個論點。本論文並未引入新的基準或排行榜；相反地，它提供了一個統一的、概念性的框架，用以詮釋和比較現有的系統及其評估。

架構大綱。第2節建立概念性和符號性的基礎：它從認識論的直覺出發，闡述三個能力階段的動機，對每個階段都給出了一個正式的定義及可測試的邊界條件，並釐清了世界建模與泛泛的預測之間、世界模型和規劃器之間，以及世界建模與常識之間的區別。第3節至第5節將詳細介紹這三種能力等級，並輔以代表性的方法和跨領域的分析。第6節討論評估方法學，第7節探討架構和計算上的考量，第8節則點出新興的趨勢和待解問題。最後由第9節做總結。我們必須指出，L3並非一個最終階段；第8節將引入後設世界建模的概念，在該概念中，治理定律本身也變得可學習，此章節也將點明隨之而來的待解問題。

2 預備知識

本章節建立貫穿全文的概念性和符號性基礎。（一）從認識論到能力階層：借鑒哲學傳統，提出一個世界建模能力的三層級拆解（L1預測者、L2模擬器、L3演化者），並闡述為何要把界線劃在這些地方。（二）符號與正式定義：建立一套統一的符號系統，並用它來給每個階段（L1， L2， L3）一個精確的、帶有可測試邊界條件的定義。（三）概念界線：釐清世界建模與泛泛預測之間的區別、世界模型與規劃器之間的區別，並將世界建模與更廣泛的「常識推理」概念聯繫起來，這種常識推理是代理人在狹隘的預測任務之外，還必須展現的可靠日常行動的基礎。

2.1 哲學動機

對任何一篇世界建模綜述來說，一個很自然的問題是：一個系統在從機械式模式匹配，邁向真正建模的過程中，會經歷哪些理解的階段？認識論——也就是研究什麼可算作知識，以及知識如何增長的學問——提供了一個有用的視角。不同的哲學傳統指向了不同性質的認識成就；我們借鑒這些傳統，為世界模型提出一個三級能力階層。這些哲學類比是啟發性的，而非歷史性的或一比一的對應。我們並不宣稱機器學習系統實現了什麼哲學方案，但我們認為，哲學上的區分能幫助我們看清為什麼某些能力的界線會跨領域地反覆出現，以及每個階段突顯了哪些設計上的問題（可參考圖5）。

圖5展現了從局部預測到由證據驅動的修正：世界建模的階層式觀點。第一級為預測而對經驗規律進行建模，第二級支援可能世界語意和反事實模擬，第三級則引介了透過與環境持續互動，來進行的、由證據驅動的修正。這個階層，將世界建模描繪為一個從模式識別，到時間推演，再到在真實世界實作中適應性模型演化的晉升過程。

L1 預測者：從模式到單步預測。最簡單的認識成就，就是從資料中學習模式：給定過去的觀察，預測下一個觀察。在哲學上，這是休謨的恆常連結（Hume， 1739）的領域；一個主體記錄下統計上的共現關係，卻無從確知這些關係為何能成立。當一個模型從軌跡中學習單步潛在轉移時，它就恰好佔據了這個認識位置：它從連續發生的事件中萃取出規律，並下賭注說這個模式會持續下去。這個觀點與認知科學中的預測編碼框架（Rao和Ballard， 1999；Friston， 2010）和「貝氏大腦」假說——即感知是一種機率性推理（Clark， 2015）——互相契合，這為單步潛在預測作為一種運算上的基本單元提供了動機（Lake等人， 2017）。我們將這個階段稱為L1（預測者）。這種休謨式的立場帶有與生俱來的脆弱性。現代機器學習大多數仰賴的獨立同分佈假設，實際上就是休謨的齊一性原則（也就是「未來將會和過去相似」的前提），因此，當資料分佈發生偏移時，依賴學習到的規律性的L1模型就無法概括。儘管如此，這提供了最基礎的歸納偏誤，也是建立模型的根基。

L2 模擬器：推演與反事實。光是模式匹配，無法回答「如果我們採取不同的行動，會發生什麼事？」這個問題。下一個階段加入了干預和反事實推理：也就是有能力根據所選擇的動作或假設性的初始條件，推演出連貫的未來，並運用結果來做決策。大衛·路易斯的最接近的可能世界理論（Lewis， 1973）捕捉了這個跳躍：有效的反事實推理，會去探索那些與我們自身世界極度相似、僅僅在最小干預點上才有所區分的可能世界，這就為思考「如果代理人在決策點採取了不同行動，結果會怎樣」提供了一個原則性的基礎。我們將這個階段稱為L2（模擬器）。由於L2的推演是相對於模型本身的，其可靠性取決於習得模型自身的轉移結構，而非直接取用地面真相動態的管道。它們冒著認識上偏離的風險，這會產生在訓練流形中看似內部一致、其實失真的軌跡。柏拉圖的洞穴寓言（Plato， 1992）提供了一個生動的比喻：一個擅長預測牆上影子的模擬器，其能力可能從根本上受制於那面牆的尺寸，而無法觸及投射出那些影子的火光。

L3 演化者：根據證據修正模型。即便是功能強大的模擬器，最終也會遭遇到系統性預測失敗的情況，其失敗原因不是參數誤差，而是模型類別本身太過狹隘。認識論為這種轉變提供了豐富的詞彙。拉卡托斯對硬核（架構、歸納偏誤）和保護帶（習得的參數）的區分（Lakatos， 1978），提供了一個有用的對照。梯度下降步驟多半只能調整保護帶，而持續出現的結構性錯誤，則可能需要對硬核進行修改，例如加入新的模組、語法解析器、約束條件或模擬器接口。我們將這個階段稱為L3（演化者）：當證據要求時，有能力重建整座實驗室。這延伸出一個完整的「設計－執行－觀察－反思」迴路：該系統不僅進行模擬，還會主動設計實驗、執行它們、觀察結果，並進行反思以修正其模型堆疊。杜恩－蒯因的整體論（Duhem， 1954；Quine， 1951）解釋了為何錯誤歸責並非易事。錯誤會在各模組之間重新分佈，直到透過診斷，分離出那個脆弱的元件。所提出的修正方案，應該要在保留的驗證樣本、回歸測試套件或實驗結果上，產生可衡量的改進，而非只是在與來自環境的相反證據相悖的情況下，仍試圖保存既有模型的、事後修補式的調整。

圖 7：L1-L3 的統一 POMDP 圖形化模型。虛線圓表示隱藏的環境狀態

x

；雙線圓表示學習到的潛在狀態

z

；陰影圓表示觀察

o

；方塊表示行動

a

。藍色實線箭頭表示學習到的模型（推論

q_{ϕ}

與動態

p_{θ}

）；灰色虛線箭頭表示環境轉移

T

與觀察發射。上方區塊顯示代理者在當前環境

ℰ \sim 𝒳

下，搭配模型

ℳ_{t}

的 POMDP；下方區塊則顯示在修正後的環境

ℰ^{'} \sim 𝒳^{'}

下，透過紅色反思箭頭所獲得的、搭配模型

ℳ_{t + 1}

的相同結構。不同顏色的虛線框標示出每個等級的範疇：L1 涵蓋單步潛在轉移

p_{θ} ​ (z_{t} ∣ z_{t - 1}, a_{t - 1})

；L2 涵蓋在固定模型下的完整軌跡推演

\hat{p} ​ (τ ∣ z_{0}, a_{1 : H}, c)

；L3 涵蓋證據驅動的模型修正

ℳ_{t} \to ℳ_{t + 1}

，這對應著在當前模型系統性地失敗時，從

𝒳

移動到一個修正過的環境

𝒳^{'}

。

在科學發現中，模型的更新發生在多種尺度上：微小的異常會觸發局部的修改，而持續性的不一致，像是 19 世紀末物理學中的「兩朵烏雲」(Kelvin, 1901)，則暴露出了知識論上的鴻溝，迫使我們去修正理論的不變性結構。舉例來說，從牛頓力學轉換到相對論力學，就是以勞倫茲不變性取代了伽利略不變性。現代的機器學習系統也編碼了不變性，例如卷積中的平移等變性和基於注意力機制模型中的形狀偏好(Geirhos et al., 2018)，但它們是透過架構和訓練隱式地進行，而非作為可以明確修改的結構。這對於在固定模型下的 L1 預測和 L2 模擬來說很合適，但在 L3 層級（其任務是修正模型結構本身），這就變成了一種負擔。相比之下，符號表徵則將主導法則暴露為第一級物件，可以被直接檢視和修改。

因此，我們認為表徵是一個關於世界模型是什麼的根本性問題，而非僅僅是在可互換的設計之間做選擇。潛在動態作為 L1 和 L2 的鷹架是不可或缺的，但 L3 的終點，也就是治理法則的真正修正，則需要一個符號性的基底。從這個觀點來看， L1 $\to$ L2 $\to$ L3 的進程，不僅僅是推演深度的增加，更是法則如何被發現、組合與修正的進展。在不同制度下的實際案例或實作，將在第 7 節中進行探討。在接下來的第 2.4 節中，我們將介紹一個與實例無關的基礎形式化體系。

表 1：本文所使用的符號總覽。

符號	定義
環境
$ℰ = (𝒳, 𝒜, Ω, T, O, R, γ)$	部分可觀察馬可夫決策過程（POMDP）環境元組
$x_{t}$	在時間 $t$ 時的隱藏環境狀態
$o_{t}$	在時間 $t$ 時的觀察（像素、符元、音訊等）
$a_{t}$	在時間 $t$ 時的行動
$T (x_{t + 1} ∣ x_{t}, a_{t})$	環境的轉移核
$O (o_{t} ∣ x_{t})$	環境的觀察（發射）模型
$R, γ$	獎勵函數與折扣因子
學習到的世界模型組件
$z_{t}$	學習到的潛在/內部狀態
$q_{ϕ} (z_{t} ∣ o_{\leq t}, a_{\leq t - 1})$	狀態推論（編碼器/濾波器）；參數 $ϕ$
$p_{θ} (z_{t} ∣ z_{t - 1}, a_{t})$	前向動態（單步潛在轉移）；參數 $θ$
$p_{ψ} (o_{t} ∣ z_{t})$	觀察解碼器；參數 $ψ$
$π_{η} (a_{t} ∣ z_{t - 1}, z_{t})$	反向動態模型；參數 $η$
$\hat{p} (\cdot)$	軌跡層級（或組合）的分布；帽子符號標記的是近似物件
軌跡與規劃
$a_{1 : H} = (a_{1}, \dots, a_{H})$	長度為 $H$ 的行動序列
$τ = (z_{1}, \dots, z_{H})$	未來潛在段落（以 $z_{0}$ 為錨點）
$\hat{p} (τ ∣ z_{0}, a_{1 : H}, c)$	L2 推演查詢：以錨點、行動與約束 $c$ 為條件的軌跡分布
$b_{t}; Bel (b_{t}, a_{t}, o_{t + 1})$	古典信念狀態與貝氏信念更新
$π$	策略（取用世界模型的查詢；不屬於世界模型的分解式）
L3 模型修正
$ℳ_{t}$	在修正步驟 $t$ 時的世界建模堆疊
$d_{t}$	部署證據（軌跡、誤差、測試）
$ℋ$	用於模型修正的假設空間

2.3 符號標記

前一節從認識論的直覺出發，提出了三個能力階段。現在，我們要建立一套統一的符號系統，並將在第2.4 節中使用它，來為每個階段提供精確的定義。為了涵蓋基於模型的強化學習、預測性表徵學習、影片/世界模擬以及生成式建模，我們將符號標記奠基於一個部分可觀察馬可夫決策過程（POMDP）(Kaelbling et al., 1998; Puterman, 1994)。圖7 將這個 POMDP 結構置於三層級分類法的核心：每一個能力階段都在同一個圖形化模型上被視覺化為一段被凸顯的範圍。環境由以下元組來表示：

ℰ = (𝒳, 𝒜, Ω, T, O, R, γ),

其中 $𝒳$ 是（無法觀察到的）狀態空間， $𝒜$ 是行動空間，而 $Ω$ 則是觀察空間（像素、符元、音訊等）。轉移與觀察遵循以下規則：

x_{t + 1} \sim T ​ (x_{t + 1} ∣ x_{t}, a_{t}), o_{t} \sim O ​ (o_{t} ∣ x_{t}) .

在部分可觀察的條件下，代理者會維持一個信念 $b_{t}$ 或一個學到的潛在狀態 $z_{t}$ 。古典的信念更新寫作 $b_{t + 1} = Bel (b_{t}, a_{t}, o_{t + 1})$ ；我們將符號 $τ$ 保留下來，用於表示下方的潛在軌跡。學習到的系統會從歷史中推論出潛在狀態：

z_{t} = f_{ϕ} ​ (o_{\leq t}, a_{\leq t - 1}) 或 q_{ϕ} ​ (z_{t} ∣ o_{\leq t}, a_{\leq t - 1}) .

•

$T, O$ ：環境的轉移與觀察機制。
•

$q_{ϕ} (\cdot)$ ：推論（從歷史 $\to$ 到潛在狀態）。
•

$p_{θ} (\cdot)$ ：學習到的局部預測或生成因子（例如單步動態、解碼器等），參數為 $θ$ （推論和渲染的參數則類似地表示為 $ϕ, ψ$ ）。
•

$\hat{p} (\cdot)$ ：軌跡層級（或其他組合）的分布；帽子符號標記的是一個明確的近似物件，例如透過反覆應用 $p_{θ}$ 所歸納出的推演邊際分布。
•

$π, R, γ$ ：規劃器/策略、獎勵與折扣。它們會取用世界模型的查詢，但並不屬於世界模型分解式 $(q_{ϕ}, p_{θ}, p_{ψ})$ 的一部分；這個概念上的區隔將在第B.2 節中討論。

慣例： $\hat{p}$ 被保留下來用於組合物件，例如 $\hat{p} (τ ∣ z_{0}, a_{1 : H}, c)$ ；普通的單步動態則總是寫作 $p_{θ} (z_{t} ∣ z_{t - 1}, a_{t})$ 。表1 提供了本文中所使用符號的簡明參考。

$a_{1 : H} = (a_{1}, \dots, a_{H})$ 表示一個長度為 $H$ 的行動序列，該序列緊接在一個錨點狀態 $z_{0}$ 之後開始執行。未來的段落為

τ = (z_{1}, z_{2}, \dots, z_{H}),

如此一來， $\hat{p} (τ ∣ z_{0}, a_{1 : H}, c)$ 就與第 4 節中的L2形式化定義吻合了。從任意時間索引 $t$ 來看，同樣的慣例在進行一次簡單的平移後依然適用：以 $z_{t}$ 為錨點，並以 $a_{t + 1 : t + H}$ 為條件。

2.4 能力的定義

藉由第 2.3 節建立起的符號系統，我們現在為每個能力階段提供精確的定義，並附上可測試的邊界條件。

L1 預測器

一個L1世界模型提供的區域預測運算子，可分解為最多四個元件：

推論／過濾： $q_{ϕ} (z_{t} ∣ o_{\leq t}, a_{\leq t - 1}),$ (1)

前向動態： $p_{θ} (z_{t} ∣ z_{t - 1}, a_{t}) 或者，沒有行動時， p_{θ} (z_{t} ∣ z_{t - 1}),$ (2)

觀測解碼器： $p_{ψ} (o_{t} ∣ z_{t}),$ (3)

逆向動態： $π_{η} (a_{t} ∣ z_{t - 1}, z_{t}) .$ (4)

這些運算子追求的是在訓練分佈下，單步（或短時域）的準確性；對於多步組合的連貫性，則不提供任何保證。第 3 節將詳細介紹具代表性的方法。

L2 模擬器

一個L2世界模型將L1從區域運算子擴展到可支援決策的多步模擬。它必須能夠支援以下形式的軌跡層級查詢：

$\hat{p} (τ ∣ z_{0}, a_{1 : H}, c), τ = (z_{1}, \dots, z_{H}),$

並受到三個共同標誌著L1 $\to$ L2躍遷的邊界條件所約束：

1. 長時域連貫性： 在 $H$ 個步驟中，推演結果保持可用，而不是因誤差複合而迅速劣化。

2. 干預敏感性： 反事實編輯（行動或前提的改變）會引發穩定且方向上有意義的軌跡變化。

3. 約束一致性： 產生的未來軌跡遵守目標領域（物理、數位、社會或科學世界）的統治法則。

L1與L2的關鍵差異不在於單步品質，而在於組合下的推演保真度。

L2的三個邊界條件是互補而非冗餘的。長時域連貫性關注的是推演品質能否在時間上的組合中存續；干預敏感性關注的是行動或前提的改變，能否引發預測未來中穩定且方向上有意義的變化；而約束一致性關注的是最終產生的軌跡，在目標領域的統治法則下是否依然有效。一般來說，這些條件沒有一個能暗示其他條件：一個模型可能產生連貫但對行動不敏感的推演，或是對行動敏感但仍違反領域約束的推演。在實務上，它們之間也可能存在權衡取捨，例如，激進的約束強制執行可能會在降低對干預的回應性為代價下，穩定軌跡。

第四種能力，閉迴路使用（透過與建模環境的互動來支援規劃、行動和自我改進），則進一步將世界建模與通用預測區分開來，但它與L1/L2/L3是正交的：一個天氣模擬器可以是個沒有內嵌規劃器的L2世界模型（詳見附錄 B 的延伸討論）。我們將「閉迴路」保留給兩個不容混淆的不同概念：在控制或規劃迴路中使用世界模型是一個正交的部署屬性；而根據部署證據來修訂世界模型堆疊本身，則是L3的決定性標誌。

L3 進化器

一個L3世界模型將L2從在固定框架上的推演，擴展到證據驅動的模型修訂。除了模擬查詢之外，L3系統還維護一個對模型資產的明確更新迴路：

$(ℳ_{t}, d_{t}) \overset{診斷 + 提煉 + 驗證}{\to} ℳ_{t + 1},$

其中 $ℳ_{t}$ 是修訂步驟 $t$ 時的當前世界建模堆疊，而 $d_{t}$ 是新的部署證據（軌跡、錯誤、反例、測試）。三個邊界條件標誌著L2 $\to$ L3的躍遷：

1. 基於證據的診斷： 利用可重播的證據，將失敗歸因於可採取行動的原因。

2. 持久性資產更新： 修復被提升為可重複使用的資產（技能、規則、語法分析器、測試），而不僅僅是短暫的上下文內補丁。

3. 受監管的驗證： 更新在預設啟用之前，必須通過迴歸和穩健性關卡（包括回滾和金絲雀政策）。

L2與L3的關鍵差異在於，模型本身成了修訂的對象，而不僅僅是一個可供查詢的固定框架。回顧圖7 中的範疇：L1（預測器） 是單步轉移 $p_{θ} (z_{t} ∣ z_{t - 1}, a_{t - 1})$ ，及其輔助的推論和解碼運算子，在潛在鏈的一條邊上局部運作；L2（模擬器） 則將這些局部運算子組合成一個軌跡 $\hat{p} (τ ∣ z_{0}, a_{1 : H}, c)$ ，在一組固定的模型 $ℳ_{t}$ 和統治法則約束 $c$ 之下；而L3（進化器） 則從提煉的證據 $d_{t}$ 中，修訂模型堆疊 $ℳ_{t} \to ℳ_{t + 1}$ ，從而產生一個不同的潛在圖（即圖中的底部區塊），其有效環境 $ℰ^{'} \sim 𝒳^{'}$ 可能與原始環境不同，原因可能是世界本身已經發生變化，或是代理者發現了先前未被建模的結構，亦或是假設空間被擴展了。這三個層級構成了一個包含階層：L2在每一步都調用L1，而L3每次在提交模型更新之前，為了探測世界以收集證據時，也都會調用L2。

代理者中心的觀點：狀態、行動與任務。

上述的形式化元件描述的是一個代理者，其決策由三個要素決定：它認為世界所處的狀態、它能執行的行動，以及它必須滿足的任務（或稱約束 $c$ ）。這個三元組，而不是一個扁平的觀測到行動的映射，定義了世界模型與規劃器之間的介面。建立一個有用的 $z_{t}$ 涉及兩個正交的挑戰，它們構成了第 3 節的結構：（i）空間表徵：將一個高維度的觀測 $o_{t}$ 壓縮到一個能保留決策相關結構（幾何、語意、可負擔性）的緊湊潛在狀態中；（ii）時間融合：整合歷史 $(o_{\leq t}, a_{\leq t - 1})$ ，使得即使在部分可觀察的環境中， $z_{t}$ 也能近似於一個馬可夫信念。行動不是扁平的變數：它們可以從表徵學習中浮現，而不是預先被定義，其核心動態由潛在表徵捕捉，其餘一切則作為解碼器。真實的代理者行為會跨時間尺度和抽象層級進行分解，包括低層級的運動基元、中層級的技能和高層級的任務計畫。世界模型必須以與規劃器查詢時域相匹配的粒度來預測轉移。這個行動階層與L1 $\to$ L2的邊界直接互動：區域動態足以進行基元層級的預測，但技能和任務層級的推演就需要構成L2定義的多步連貫性。在L3層級，代理者不僅要預測跨時間尺度的轉移，還要決定其自身的轉移模型何時有所不足，並啟動模型修訂。L3將世界建模堆疊本身視為行動的對象。診斷探針、架構修改和迴歸測試成了「元行動」，它們作用於模型本身而非環境，重塑的是系統的學習方式，而不僅僅是其行動方式。

2.5 法則的範疇

正如第 1.2 節所介紹的，我們沿著兩個正交的軸線來組織這份綜述：能力層級（L1/L2/L3）和統治法則的領域。本小節將詳細闡述這四個領域，以及每個領域對學習到的轉移函數所施加的約束。我們區分出 物理世界的法則（管理在物理環境中感知和行動的代理者）、數位世界的法則（管理確定性的程式語意：程式碼、API和狀態機）、社群世界的法則（管理心智與制度的動態：信念、目標和規範），以及 科學世界的法則（管理獨立於人類設計而存在的系統，其動態必須從經驗觀察中發現）。這四個領域是代表性的，並非詳盡無遺。現實世界的系統往往同時在多個領域下運作。例如，自駕車既涉及物理動態，也涉及社群規範；而藥物設計則將自然機制與數位模擬流程結合在一起。

物理世界的法則 透過具身代理者必須遵守的物理動態來約束轉移：接觸力學、碰撞反應、重力加速度、摩擦力和運動學可行性。在機器人操作、自駕車和互動式3D模擬中，學習到的轉移 $p_{θ} (z_{t} ∣ z_{t - 1}, a_{t})$ 必須忠實地編碼這些物理互動。這個領域的特點是擁有可分析描述的統治方程式。一個物理引擎或分析模型可以驗證預測的轉移是否與剛體約束和牛頓力學一致。約束違規的表現形式是物體相互穿透、重力在推演途中逆轉，或是物理上不可能的形變。這些失敗是可以被立即偵測到的，因為真實的動態有封閉形式或數值上精確的參考解。

數位世界的法則 透過確定性的程式語意來約束轉移，包括API合約、UI狀態機、檔案系統邏輯和網路協定。在網頁導覽、程式碼生成和軟體測試中，轉移函數 $p_{θ} (z_{t} ∣ z_{t - 1}, a_{t})$ 在很大程度上是確定性的，但會透過錯誤代碼、權限檢查和邊緣案例產生大量分支。這個領域的特點是轉移既可被指定又可被驗證。程式可以被執行，其輸出可以與模型的預測進行比較。約束違規的表現形式是產生一個不存在的API呼叫、忽略回傳的錯誤代碼或違反型別約束。由於底層系統是一個形式化的工件，這些錯誤是可以被機械性地檢查出來的。

社群世界的法則 透過信念、目標、規範、社會契約和制度規則來約束轉移。在社群模擬、對話系統和多代理者互動中， $p_{θ} (z_{t} ∣ z_{t - 1}, a_{t})$ 將聯合行動與心智狀態映射到新的心智狀態和社群結果。有兩個特性將這個領域區分開來。轉移是反身性的，意味著代理者對狀態的信念會主動地改變狀態本身。它們也是規範性的，不僅受將要發生什麼的約束，也受根據共享慣例「應當」發生什麼的約束。約束違規的表現形式是無後果地打破承諾、遺忘先前的約定或無視既定的社群規範。這些失敗會破壞連貫性，因為社群結果取決於相互的期望。

科學世界的法則 透過潛在的因果機制來約束轉移，這些機制必須從經驗觀察中被發現，而不是先驗地被指定。在天氣預測、分子動力學、蛋白質折疊和藥物設計中， $p_{θ} (z_{t} ∣ z_{t - 1}, a_{t})$ 編碼了大氣動態、化學動力學或生物過程，這些過程的精確函數形式是未知的，或是過於複雜而無法用分析式寫出。這個領域的差異在於，其統治方程式無法以封閉形式取得。世界模型必須從資料中學習它們，並根據實驗測量進行驗證。約束違規的表現形式是預測出物理上不可能的分子構型、違反在經驗上成立的守恆定律，或忽略已知的因果依賴關係。偵測這些違規通常需要與實驗室或觀測數據進行比較，而非進行符號驗證。

在這些基礎打好之後，接下來的章節將依序實例化每個能力層級：第 3 節綜述L1方法，第 4 節探討L2模擬，而第 5 節則檢視L3模型修訂。附錄 B 釐清了世界建模與通用預測、世界模型與規劃器，以及世界建模與代理者在無腳本環境中所依賴的常識推理之間的區別。

3 L1 預測器：區域馬可夫預測

此階層結構始於 L1，它透過要求世界模型維持一個有意義的內部狀態，並使用區域性的預測機制來預測下一個狀態（包括潛在的觀測或行動），來評估其區域預測能力。在圖7 的統一圖形化模型中，L1的範疇是單一邊 $z_{t - 1} \to z_{t}$ 並以行動 $a_{t - 1}$ 為條件；本節中的所有內容都是在詳細闡述構成這一步轉移的運算子，並檢視它們在當代世界模型系統中是如何實現的。

3.1 定義

L1關心的是，對於一個為了完成任務或目標而在環境中行動的代理者來說，其世界模型的區域預測能力。更精確地說，一個代理者是一個系統，它根據觀測做出決策並採取行動，以滿足一個目標。在本文中，L1世界模型的角色因此不僅僅是預測下一個訊號，而是提供能夠支援此類決策的區域預測運算子，其粒度為單步（或一個短的固定時域）。這種認識論的立場與休謨的恆常連結一致：規律性是從觀察到的資料中提取出來的，而不宣稱因果必然性（第2.1 節）。

作為L1基礎的POMDP公式，源自於強化學習文獻，其中代理者必須在部分可觀察的條件下選擇行動，以最大化累積獎勵。在此設定下，代理者維持一個對隱藏狀態的內部信念，並制定一個將信念映射到行動的策略 $π (a_{t} ∣ b_{t})$ 。這個公式構成了典型的代理者－環境迴路。對於一個與環境互動以完成任務的代理者而言，POMDP可以分解為四個區域運算子：狀態推論、前向動態、觀測解碼和逆向動態。這些共同描述了L1層級世界模型的基礎學習問題。

遵循此公式（第 2 節），L1 的特徵是在一個學習到的內部狀態 $z_{t}$ （類似一個信念狀態）上運作的區域預測運算子，其核心建模概念圍繞著一個單步（或短的固定時域）轉移運算子。在實務上， $z_{t}$ 是由觀測和行動推論得出，並作為對潛在環境狀態和／或信念的一個學習到的近似。學習此類潛在動態的概念，可以追溯到用於控制的區域線性潛在模型和高斯過程動態，並已被當代深度學習架構所強化。 L1 中的「馬可夫」一詞，指的是學習到的內部狀態 $z_{t}$ 中的馬可夫性質，這表示 $z_{t}$ 足以（或近乎足以）預測後續的區域步驟，而不是指環境狀態可以直接被觀測到。

在模型層面，L1可以分解為四個在 $z_{t}$ 上的區域運算子（表2）。其中核心運算子是潛在動態（ $z_{t - 1} \to z_{t}$ ）；其他則是常見的輔助運算子：

• 狀態推論（觀測 $\to$ 狀態，式1）： $z_{t} = f_{ϕ} (o_{\leq t}, a_{\leq t - 1})$ 或 $q_{ϕ} (z_{t} ∣ o_{\leq t}, a_{\leq t - 1})$ 。這個學習到的類信念狀態，濃縮了用於預測的相關歷史。

• 前向動態（狀態 $\to$ 下一狀態；核心L1運算子，式2）： $z_{t} \sim p_{θ} (z_{t} ∣ z_{t - 1}, a_{t})$ （以行動為條件）或 $z_{t} \sim p_{θ} (z_{t} ∣ z_{t - 1})$ （無行動）。

• 觀測解碼（狀態 $\to$ 觀測，式3）： $p_{ψ} (o_{t} ∣ z_{t})$ ，將潛在狀態映射回觀測空間。

• 逆向動態（式4）： $π_{η} (a_{t} ∣ z_{t - 1}, z_{t})$ ，用作輔助目標或進行表徵塑造。

V-JEPA (Bardes 等人，2024) 則預測隱藏區域的嵌入，而不解碼回像素。這個方法鼓勵編碼器掌握語義和結構上的一致性，而不必拘泥於複雜的像素級重建。另一個方向，來自基礎模型領域的 DINOv2 (Oquab 等人，2024) 透過自蒸餾產生多功能視覺特徵，為後續任務建立了強健的狀態編碼器。一個補充性的方向是使推論出的狀態明確地以物件為中心且具程式化，而非純連續的。「用藍圖思考」(Thinking with Blueprints) 將影像轉換為 JSON 風格的藍圖，記錄與問題相關物體的位置、大小和屬性，然後基於這個結構化表徵進行推理來回答空間查詢 (Ma 等人，2026)。雖然此研究是針對 VLM 空間推理而非序列控制，但它對 L1 狀態推論極具參考價值，因為它顯示有用的內部狀態可以採用決策導向的場景描述形式，而不僅僅是密集的潛在嵌入。

第三類工作是透過控制導向的輔助目標來形塑內部狀態 zt，例如獎勵預測、逆向模型損失 (Pathak 等人，2017)，以及價值函數一致性，正如 DeepMDP (Gelada 等人，2019) 所形式化的。此框架闡明了潛在馬可夫鏈必須近似遵循貝爾曼方程的必要性。Embed to Control (E2C; Watter 等人，2015) 同時學習了局部線性潛在動態以及 VAE 編碼器-解碼器，以便在潛在空間中進行基於 LQR 的規劃。

當單一觀測不足時，模型必須將過往資訊聚合到 zt 中。Hafner 等人 (2019) 的循環狀態空間模型 (RSSM) 將潛在狀態拆分為確定性的循環路徑 ht = f(ht-1, zt-1, at-1) 和隨機成分 zt ~ qφ(zt | ht, ot)，在壓縮任意長度的歷史序列的同時，保留了隨機不確定性。這個循環信念狀態 (ht, zt) 作為 Dreamer 家族中所有下游預測和控制任務的內部狀態 (Hafner 等人，2020; 2021; 2025)。

科學應用說明了當原始觀測是高維度且科學上有意義的狀態是潛在時，相同的狀態推論原則如何運作。在結構生物學中，蛋白質結構預測可以被視為 L1 狀態推論：將胺基酸序列對映到主導的 3D 座標狀態。AlphaFold 系列從學習基於距離的勢能 (Senior 等人，2020) 進展到具有近乎實驗精確度的端到端 Evoformer 架構 (Jumper 等人，2021)，再到基於擴散的生物分子複合物結構聯合預測 (Abramson 等人，2024)。並行的努力顯示，透過三軌網路 (Baek 等人，2021) 和能實現單序列推論的蛋白質語言模型 (Lin 等人，2023)，也能實現強大的結構預測。在神經科學中，HMM (Baker 等人，2014)、RNN (Gohil 等人，2022) 和 Transformer (Khan 等人，2023) 被用來將電生理記錄對映到一組潛在網絡模態，遵循與 Ha 和 Schmidhuber (2018) 概念相似的狀態推論範式。對學習到的可解釋潛在表徵的分析揭示了各種發現：休息時的大腦皮質活動可以被描述為瞬時、間歇性重複出現的事件 (Vidaurre 等人，2018)，組織成時間尺度在 300–1,000 毫秒的週期 (van Es 等人，2025)。

表4 將三個 L2 邊界條件對應到每個治理法則體制中的具體實例。更精確地說，L2 系統支援軌跡層級的查詢，形式如下：

\hat{p}(\tau\mid z_{0},a_{1:H},c),\quad\tau=(z_{1},\ldots,z_{H}),

其中 $a_{1:H}$ 代表一個動作序列，$c$ 代表由治理法則體制所施加的選擇性限制條件。基於介入結構的推演符合珀爾因果階層中的介入層級（詳見第 2.1 節）。區分 L2 與 L1 的關鍵不僅僅是單步預測品質，而是在治理法則下的連貫多步推演。因此，L2 將每個邊緣的 L1 運算子拼接成一個完整的軌跡 $z_{0}\to z_{1}\to\cdots\to z_{H}$（對應圖 7 的上半部區塊）。

表4：按治理法則體制實例化的 L2 邊界條件。每個欄位具體說明該抽象條件在特定領域中的具體含義。

將 L1 的局部運算子在多個步驟上組合，並不會自動產生一個決策可用的模擬器：複合誤差、對動作不敏感的推演，以及違反領域不變量的情況，都可能使產生的軌跡誤導規劃。這與經典的框架問題相呼應（McCarthy 與 Hayes，1969； Shanahan，1997），尤其是，局部轉換規則本身並未指明哪些屬性在動作下應保持不變，儘管此處的關注重點是操作性而非邏輯性。規劃器與 L2 世界模型之間的介面是查詢；給定一個源自狀態 $z_{0}$ 的動作序列 $a_{1:H}$，並在限制條件 $c$ 下，模型會回傳推演結果，規劃器利用這些結果來比較候選方案，並選出能使目標最大化的方案。我們將閉迴路使用（在與環境互動中進行規劃、行動或控制）視為一種正交的部署屬性；層級邊界取決於世界模型查詢的深度和可靠性，而非系統是否在回饋迴圈中運作。我們使用三個邊界條件來標記從 L1 到 L2 的提升：

長時距連貫性： 推演在多個步驟內仍保持可用，而不會因複合誤差而迅速劣化。
介入敏感性： 反事實編輯，例如變更動作、前提或可控輸入，會引發穩定且在方向上有意義的軌跡變化。
限制條件一致性： 生成的未來狀態須遵守目標體制的治理法則限制，無論是物理、數位、社會或科學領域。

這些不僅僅是概念上的區分；它們共同構成了一個實用的測試，用以判斷一個系統是否能被稱為 L2 模擬器。評估一個候選系統時，不應僅看單步預測品質，還應檢視隨著推演長度增加，其效能是否仍維持決策可用性，反事實介入是否產生連貫且與策略相關的差異，以及生成的軌跡是否持續滿足特定體制的有效性限制。一個能準確預測下一步、卻在組合後崩潰、忽略動作編輯或違反領域規則的模型，仍應將其理解為具有強大局部預測能力的 L1，而非一個完整的 L2 模擬器。

從 L1 到 L2。 在 L1 中，組合單步運算子會產生一個軌跡分布，並分解為 $\hat{p}(\tau\mid z_{0},a_{1:H})=\prod_{t=1}^{H}p_{\theta}(z_{t}\mid z_{t-1},a_{t})$，每個步驟都獨立進行最佳化；軌跡只是一個不受規範的副產物。在 L2 中，治理法則限制 $c$ 將各個步驟耦合在一起；概念上為：

\hat{p}(\tau\mid z_{0},a_{1:H},c)\propto\prod_{t=1}^{H}p_{\theta}(z_{t}\mid z_{t-1},a_{t})\,\phi_{c}(\tau),

其中 $\phi_{c}(\tau)$ 是針對整個推演過程的治理法則相容性項目。硬性指示項特例 $\mathbf{1}[c(\tau)]$ 是當違規被視為絕對不可接受時，$\phi_{c}(\tau)$ 的一個特殊情況。由於 $\phi_{c}(\tau)$ 取決於整個軌跡，L2 分布並不會分解為獨立的逐項步驟。

每項要求都對應一個診斷信號和一個緩解策略。長時距真實度的診斷方式是觀察在特定長度 H 處出現的成功率斷崖，其主要緩解策略是任務分割並頻繁重新規劃。動作可控性的診斷方式是觀察推演中的動作不敏感性（變更 at 不會產生有意義的軌跡變化），其緩解方式需要明確的動作一致性評估。限制條件一致性則透過限制條件違規率來衡量，在這種情況下，緩解措施包括硬性限制層和驗證閘門。第四個屬性是校準，這要求信心度在分布轉移下與實際準確度保持一致；在此情況下，過度自信的錯誤預測即為失敗的信號，而主要的補救措施是分布轉移偵測。

殘餘的框架問題表現形式。 現代神經世界模型透過從資料中隱式學習什麼會持續、什麼會改變，來規避經典框架問題的表述負擔（Goodfellow 等人，2016； Hafner 等人，2025），從而實現可擴展的基於模型的強化學習（Hafner 等人，2020； Schrittwieser 等人，2020； Moerland 等人，2023）和影片預測（Babaeizadeh 等人，2018； Brooks 等人，2024），而無需明確的框架公理。然而，該問題在推演時又再次浮現：上下文視窗的限制和幻覺導致模型遺失相關的過往資訊，違反了長時距連貫性，而訓練資料中代表性不足的罕見前提條件則會削弱限制條件一致性（Ding 等人，2025a； Shanahan，1997）。這些失敗模式正是以下章節所探討技術的動機（詳見附錄 B）。

在本節中，我們將 L2 系統分為四個治理法則體制。表5 和表6 提供了跨體制比較的基準系統，並總結了各領域如何實例化邊界條件。

表5：代表性 L2 基準系統：分別為物理世界中的 MuZero (Schrittwieser 等人, 2020)、Plan2Explore (Sekar 等人, 2020)、PathDreamer (Koh 等人, 2021)、DreamerPro (Deng 等人, 2022)、DreamingV2 (Okada 和 Taniguchi, 2022)、Diffuser (Janner 等人, 2022)、DreamerV3 (Hafner 等人, 2025)、DayDreamer (Wu 等人, 2023a)、GAIA-1 (Hu 等人, 2023)、DIAMOND (Alonso 等人, 2024)、Sora (Brooks 等人, 2024)、Genie (Bruce 等人, 2024)、iVideoGPT (Wu 等人, 2024c)、OccWorld (Zheng 等人, 2024)、Vista (Gao 等人, 2024)、DriveDreamer (Wang 等人, 2024h)、Copilot4D (Zhang 等人, 2024a)、LWM (Liu 等人, 2025)、DreMa (Barcellona 等人, 2024)、Cosmos (Agarwal 等人, 2025)、Aether (Zhu 等人, 2025)、PIN-WM (Li 等人, 2025d)、Yume (Mao 等人, 2025)、GAIA-2 (Russell 等人, 2025)、RoboScape (Shang 等人, 2025)、BridgeV2W (Chen 等人, 2026) 和 HWM (Zhang 等人, 2026b)；以及數位世界中的 GameGAN (Kim 等人, 2020)。

表5（續）：代表性的 L2 基準系統，以及表6：社會與科學世界的代表性 L2 錨定系統。

WebDreamer (Gu 等人, 2025b) 論文程式碼長時距連貫性 ✔ 動作可控性 ✔ 限制條件一致性 ✗ 採用大型語言模型進行網頁狀態模擬。

CodeWM (Dainese 等人, 2024) 論文程式碼長時距連貫性 ✔ 動作可控性 ✔ 限制條件一致性 ✔ 結合大型語言模型與蒙地卡羅樹搜尋進行程式碼生成。

WorldCoder (Tang 等人, 2024) 論文程式碼長時距連貫性 ✔ 動作可控性 ✔ 限制條件一致性 ✔ 利用大型語言模型進行增量式程式碼合成。

GameNGen (Valevski 等人, 2025) 論文程式碼 — 長時距連貫性 ✔ 動作可控性 ✔ 限制條件一致性 ✗ 採用 U-Net 擴散模型。

WMA (Chae 等人, 2025) 論文程式碼長時距連貫性 ✔ 動作可控性 ✔ 限制條件一致性 ✗ 利用大型語言模型預測網頁狀態轉移。

WebSynthesis (Gao 等人, 2025) 論文程式碼長時距連貫性 ✔ 動作可控性 ✔ 限制條件一致性 ✗ 結合大型語言模型與蒙地卡羅樹搜尋進行規劃。

NeuralOS (Rivard 等人, 2025) 論文程式碼長時距連貫性 ✔ 動作可控性 ✔ 限制條件一致性 ✗ 採用循環神經網路與像素級擴散模型。

GameFactory (Yu 等人, 2025a) 論文程式碼長時距連貫性 ✔ 動作可控性 ✔ 限制條件一致性 ✗ 實現由動作控制的影片生成。

GameCraft (Li 等人, 2025b) 論文程式碼長時距連貫性 ✔ 動作可控性 ✔ 限制條件一致性 ✗ 利用擴散模型進行遊戲影片生成。

MobileDreamer (Cao 等人, 2026) 論文程式碼 — 長時距連貫性 ✔ 動作可控性 ✔ 限制條件一致性 ✗ 採用大型語言模型預測圖形使用者介面的草圖。

Word2World (Li 等人, 2025g) 論文程式碼長時距連貫性 ✔ 動作可控性 ✔ 限制條件一致性 ✗ 以大型語言模型為基礎的文字型世界模型。

Code2World (Zheng 等人, 2026) 論文程式碼長時距連貫性 ✔ 動作可控性 ✔ 限制條件一致性 ✔ 運用視覺語言模型進行程式碼渲染。

gWorld (Koh 等人, 2026) 論文程式碼長時距連貫性 ✔ 動作可控性 ✔ 限制條件一致性 ✔ 運用視覺語言模型進行程式碼渲染。

WebWorld (Xiao 等人, 2026) 論文程式碼 — 長時距連貫性 ✔ 動作可控性 ✔ 限制條件一致性 ✗ 採用微調過的視覺語言模型作為網頁模擬器。

RWML (Yu 等人, 2026) 論文程式碼 — 長時距連貫性 ✔ 動作可控性 ✔ 限制條件一致性 ✗ 結合大型語言模型與強化學習實現從模擬到真實世界的轉移。

表6列出了社會世界與科學世界中具有代表性的 L2 錨定系統。欄位同樣標示了長時距連貫性（LH）、動作可控性（IS）與限制條件一致性（CC）。連結在可用時提供；此表格是一個精簡的比較集合，並非本文討論的所有系統的詳盡清單。

在社會世界領域，早期的 Deal or No Deal (Lewis 等人, 2017) 論文程式碼展示了循環神經網路加上強化學習自我對弈的架構，在三項屬性上皆達成 ✔。隨後，Social Simulacra (Park 等人, 2022) 論文使用 GPT 提示鏈進行社群模擬，但在限制條件一致性上為 ✗。CICERO (Bakhtin 等人, 2022) 論文程式碼則結合同步的大型語言模型與策略規劃，實現了全 ✔的表現。

Generative Agents (Park 等人, 2023) 論文程式碼導入大型語言模型的反思性記憶，Sotopia (Zhou 等人, 2024c) 論文程式碼著重社會評估，AvalonBench (Light 等人, 2023) 論文程式碼與 Werewolf (Xu 等人, 2023) 論文程式碼則分別用於演繹推理與策略對弈，這些系統全數在三大屬性上獲得 ✔。

近期的大型專案如 ProjectSid (AL 等人, 2024) 論文程式碼實現了大型語言模型的多智能體文明模擬，OASIS (Yang 等人, 2024d) 論文程式碼進行社會模擬，兩者皆為全 ✔。MASim (Zhang 等人, 2025g) 論文為多語言智能體模擬，但在限制條件一致性上為 ✗。而 SWM-AP (Zhang 等人, 2025e) 論文專注於社會世界模型的機制設計、AIvilization (Fan 等人, 2026) 論文模擬沙盒經濟，以及 PolicySim (Huang 等人, 2026a) 論文程式碼作為平台政策沙盒，都進一步拓展了社會世界 L2 系統的邊界。

在科學世界領域，GNS (Sanchez-Gonzalez 等人, 2020) 論文程式碼透過圖神經網路的訊息傳遞，在長時距連貫性與限制條件一致性上獲得 ✔，但動作可控性為 ✗。ChemBO (Korovina 等人, 2020) 論文程式碼與 P3BO (Angermueller 等人, 2020) 論文分別採用高斯過程加上合成圖的貝氏最佳化，以及適應性族群最佳化，呈現出混合的屬性表現。FNO (Li 等人, 2021b) 論文程式碼的傅立葉神經算子具備強大的科學規律一致性，但同樣缺乏動作可控性。

在天氣預報方面，Pangu-Weather (Bi 等人, 2023) 論文程式碼基於三維地球轉換器、ClimaX (Nguyen 等人, 2023) 論文程式碼以視覺轉換器為氣候基礎模型、GraphCast (Lam 等人, 2023) 論文程式碼採用圖神經網路的自回歸模型、GenCast (Price 等人, 2024) 論文程式碼引入球形系綜擴散，以及 NeuralGCM (Kochkov 等人, 2024) 論文程式碼結合物理與神經網路核心，這些模型均展現出長時距連貫性與限制條件一致性，但受限於科學模擬的特質，普遍缺乏動作可控性。BAX (Chitturi 等人, 2024) 論文程式碼則透過高斯過程加上使用者導向的採集函數，成為少數在科學世界中達成全 ✔的系統。

Aurora (Bodnar 等人, 2025) 論文程式碼長時距連貫性 ✔ 動作可控性 ✗ 限制條件一致性 ✔ 三維 Swin 天氣基礎模型。

Lingshu-Cell (Zhang 等人, 2026a) 論文 — 長時距連貫性 ✔ 動作可控性 ✗ 限制條件一致性 ✔ 遮罩擴散細胞世界模型。

接下來的討論深入探究 L2 層級在不同領域的應用，這些領域各自受到特定統治法則的約束，決定了模擬器在面對規劃與決策時必須遵守的規則。

物理世界的法則

在物理領域，L2 模型必須尊重幾何、運動學和守恆定律。支配性的約束包括接觸、可達性、穩定性和能量守恆；任何一項的違反都會誤導規劃器，使其提出在真實執行中災難性失敗的動作。

物理模擬

剛體控制模擬器。 經典的物理模擬器仍然是嵌入式世界模型中實現可執行轉換有效性的基礎層。MuJoCo 提供了關節式的剛體動力學和富含接觸的控制，而 dm_control 則將這些功能打包成標準化的連續控制套件 (Todorov 等人, 2012; Tassa 等人, 2020)。Brax 將可微分的剛體模擬推向加速器規模的吞吐量 (Freeman 等人, 2021)，而 Isaac Gym 和 Isaac Lab 則強調大規模 GPU 並行的機器人模擬 (Makoviychuk 等人, 2021; Mittal 等人, 2025)。這些平台的共同目標是在確保物理法則被嚴格遵循的條件下，實現高速且可靠的狀態轉移預測。

可擴展與通用的模擬平台。 Genesis 將自身定位為生成式且通用的物理引擎 (Genesis Authors, 2024)，反映了朝向更高吞吐量模擬器的廣泛趨勢，這些模擬器能同時支援控制和大規模合成數據生成。這類系統不僅能執行物理計算，更能支援代理在複雜環境中進行長期規劃所需的模擬規模。

以互動為中心的嵌入式模擬器。 在圖形學與機器人學的交會處，SAPIEN 提供了具備零件感知、以互動為中心的模擬，而 ManiSkill3 則擴展了 GPU 平行渲染，以實現可泛化的嵌入式人工智慧 (Xiang 等人, 2020; Tao 等人, 2024)。這些系統並非學習型的模擬器；它們是明確的法則執行者，其價值在於精確的接觸處理、關節約束以及可重現的推演。在 L2 的框架下，這些特性對於確保計劃的可行性至關重要。

影片生成模型

以表觀為先的長時距影片生成。 通往物理世界模擬的一條可擴展路徑是影片介面：給定當前的觀察和可選的動作，模型回傳想像中的未來幀。這條路線始於以表觀為先的推演，其中 Sora、Lumiere 和 VideoPoet 等系統展示了在擴展時間範圍內的連貫視覺動態 (Brooks 等人, 2024; Bar-Tal 等人, 2024; Kondratyuk 等人, 2024)，並且越來越多地浮現出超越像素級真實感的幾何感知結構 (Li 等人, 2024d)。 FramePack (Zhang 等人, 2025c) 和 Self-Forcing (Huang 等人, 2025c) 則透過幀-上下文打包來減少長時距的漂移。這些方法雖然在視覺上令人印象深刻，但其內部對物理法則的遵守程度仍是個開放問題。

動作條件化與互動式影片世界。 第二個方向從被動的延續走向干預感知的生成。 Genie 從無標記網路影片中學習潛在的動作空間 (Bruce 等人, 2024)，而 GAIA-1 則基於明確的控制信號來進行反事實評估的未來生成 (Hu 等人, 2023)。更近期的系統將這條路線推向即時、長時距和流式互動： Oasis 在一個統一的 Transformer 世界中探索開放式互動生成 (Decart 等人, 2024)； WorldPlay 強調即時互動世界建模的長期幾何一致性 (Sun 等人, 2025b)； Matrix-Game 3.0 將互動生成擴展到具有明確長時距記憶的流式設定中 (Wang 等人, 2026b)； Yume-1.5 研究文字控制的互動世界生成 (Mao 等人, 2025)；而 LongLive 則目標即時互動長影片生成 (Yang 等人, 2025b)。綜合來看，這些系統標誌著從被動影片預測轉向可控、干預感知且時間上持續的影片世界的轉變。

決策導向的影片世界模型。 在基於模型的強化學習中，SimPLe (Kaiser 等人, 2020) 和 DIAMOND (Alonso 等人, 2024) 明確了影片世界模型的決策理論角色。在機器人學中，DreamZero (Ye 等人, 2026b) 和 DreamDojo (Gao 等人, 2026) 示範了透過影片世界模型進行的零樣本和通才策略學習，而 FutureVLA (Xu 等人, 2026a) 則將視覺運動預測與視覺-語言-動作策略直接耦合，以統一感知與控制。

評估與限制。 然而，在我們的 L2 框架中，視覺合理性不等於決策可用性。干預敏感性仍然脆弱，當僅透過感知品質來評判時，長時距連貫性容易被誇大 (Guo 等人, 2025)，且約束一致性難以從渲染幀中驗證。標準指標如 FVD (Unterthiner 等人, 2018) 捕捉分佈的真實感；VBench 風格的套件 (Huang 等人, 2024d; 2025e) 更好地分解了可控性；VBench-2.0 (Zheng 等人, 2025a) 將評估擴展到物理一致性和常識推理；而 VChain (Huang 等人, 2025d) 則引入了視覺鏈式思考以實現因果連貫性。影片介面是最可擴展的觀察層切入點，但規劃器關鍵的結構仍然隱含在像素中；附錄 C 則調查了使此類結構明確化的幾何載體替代方案。

機器人學與從模擬到真實世界的遷移

轉移到真實機器人的世界模型。 DayDreamer (Wu 等人, 2023a) 展示了 Dreamer 系列的世界模型可以從模擬轉移到物理機器人，同時處理感測器噪音、接觸動態和致動延遲。 DreamZero (Ye 等人, 2026b) 透過預測下一狀態和動作的世界-動作模型實現零樣本策略學習，而 FutureVLA (Xu 等人, 2026a) 則將視覺運動預測嵌入到視覺-語言-動作模型中，以改善動作接地。

用於從模擬到真實世界魯棒性的物理接地橋樑。 PIN-WM (Li 等人, 2025d) 將可微分物理與學習到的視覺世界建模整合起來，透過物理感知隨機化創建數位表親。

表徵要求。 在這些系統中，關鍵問題不在於更豐富的表徵是否可能，而在於什麼是仍能保留規劃器關鍵結構（例如物件持久性、自由空間、接觸開始、支撐關係以及在有用時距內動作條件的變化）的最弱表徵。關於三維結構化世界模型和自動駕駛的擴展細節請見附錄 C。

在數位世界中，法則的性質截然不同，它們是明確定義且可驗證的，這為世界模擬帶來獨特的挑戰與機會。

數位世界的法則

數位世界的法則支配著由正式規範定義的系統中的轉換，從有限自動機（使用者介面狀態機）、上下文無關文法（結構化數據格式）到圖靈完備程式（通用軟體）。不同於物理世界或社會世界的法則，這些約束是明確指定的且可機械驗證的：一個轉換要嘛滿足程式的語義，要嘛不滿足。由於軟體轉換近似於確定性狀態機，且失敗是可記錄的（錯誤代碼、彈出視窗、權限拒絕、超時），因此在程式碼世界中，模擬器的核心挑戰是結構化狀態預測（文件物件模型樹、程式狀態、遊戲狀態），而非視覺保真度。

程式碼代理

一個新興的範式將世界模型表示為可執行的程式，而非神經網路。 CodeWM (Dainese 等人, 2024) 使用由蒙地卡羅樹搜尋引導的大型語言模型來生成 Python 程式，這些程式在 18 個環境中作為強化學習的明確、可解釋的世界模型。 WorldCoder (Tang 等人, 2024) 則採取互補方法，透過一個大型語言模型代理與環境互動，逐步構建 Python 世界模型，以實現樣本高效的遷移。 WKM (Qiao 等人, 2024) 提供全域任務知識和動態狀態知識來指導大型語言模型代理規劃，而 CWM (Copet 等人, 2025)，一個專為程式碼世界模型研究訓練的 320 億參數開源權重模型，在 SWE-bench Verified 上達到 65.8%。一個概念上不同的變體更進一步：不是使用大型語言模型來生成程式碼世界模型，而是世界模型本身就是一個正在運行的軟體系統。 Web World Models (Feng 等人, 2025a) 將世界狀態實作為普通的網路程式碼（TypeScript 模組、HTTP 處理器、資料庫架構），將邏輯一致性委派給網路堆疊的確定性執行，而大型語言模型則生成上下文和高層級決策。這些基於程式碼的方法產生了可解釋、可組合且可驗證的世界模型，這是神經動力學只能近似達成的。

網路代理

網路代理通常瀏覽網站；因此，對網站內的狀態轉換進行建模和模擬對於構建有效的網路世界模型至關重要。 WebDreamer (Gu 等人, 2025b) 引入了使用大型語言模型作為網路隱式世界模型的想法，但後續工作顯示，現成的大型語言模型是不夠的：需要專注於轉換的抽象化進行專門訓練 (Chae 等人, 2025)。越來越多的研究在處理代理與世界模型的共同演化。 WebEvolver (Fang 等人, 2025) 在相互改進的迴圈中將兩者緊密連結，而 DreamGym (Chen 等人, 2025f) 則構建了具有鏈式思考推理的經驗模型，在 WebArena 上實現了超過 30% 的改善。在更大規模上，WebSynthesis (Gao 等人, 2025) 將世界模型與基於蒙地卡羅樹搜尋的規劃結合，使用完全合成的數據，而 WebWorld (Xiao 等人, 2026) 則在超過一百萬條支援 30 步以上模擬的軌跡上訓練了一個開放式網路模擬器。 AUI (Lin 等人, 2025a) 採取不同的方法，運用一個編碼器來透過利用來自電腦使用代理的反饋來最佳化網站，在一個迭代協作迴圈中進行。正交的設計選擇包括僅從工具規範生成軌跡 (Simia; Li 等人, 2025f)，添加一個後設認知層，在每一步決定是否諮詢世界模型 (WAC; Shen 等人, 2026)，以及使用代理收集的數據來處理分佈外行為。

圖形使用者介面代理

圖形使用者介面代理 (Qin 等人, 2025; Lin 等人, 2025b; Xu 等人, 2024b) 通常在真實環境中執行動作。然而，在動作可能很危險或導致不想要的結果的場景中，事先評估它們是有益的。一個圖形使用者介面世界模型可以模擬和評估這些動作，從而提供更可靠的評估。因此，MobileDreamer (Cao 等人, 2026) 將圖形使用者介面影像轉換為任務相關的草圖以進行結構化狀態預測，而 MobileWorldBench (Li 等人, 2025c) 則提供了具有 140 萬個 (狀態, 動作, 未來狀態) 三元組的系統性評估。與明確的圖形使用者介面世界模型互補的是，UI-AGILE 顯示，有效的強化學習和精確的推論時接地對於強大的下游圖形使用者介面代理效能同樣重要 (Lian 等人, 2025)。一個核心的設計問題是輸出的表徵：ViMo (Luo 等人, 2025) 使用符號文字表徵將未來觀察生成為影像，而 gWorld (Koh 等人, 2026) 則將可渲染的網路程式碼生成為預測的下一個狀態，這表示生成渲染圖形使用者介面的程式碼可能比直接生成像素更為忠實。在作業系統層級，NeuralOS (Rivard 等人, 2025) 透過從使用者輸入預測螢幕幀來模擬桌面圖形使用者介面，而 CUWM (Guan 等人, 2026) 則針對必須在長時距工作流程中保留持久文件狀態的桌面軟體。 Code2World (Zheng 等人, 2026) 進一步延伸這條路線，將程式碼視為一個可渲染的世界，生成的程式在執行時直接產生視覺狀態（例如 HTML）。這使得可以將環境動態建模為可執行代碼的生成，在圖形使用者介面等互動領域中，緊密結合感知、動作和狀態轉換。

數位世界的約束是明確且可驗證的，這與充滿模糊性與互動複雜性的社會世界形成強烈對比，後者需要更細膩的模擬方法。

社會世界的法則

社會世界模型將 L2 擴展到人類互動，其治理法則是信念、欲望、意圖、規範和制度，而非物理。社會世界展現出三個獨特屬性，特別是不透明性（代理無法直接觀察彼此的心理狀態）、反身性（對社會狀態的信念會產生反饋迴圈）和規範性（轉換部分由共享規範所治理）。這類特質使得轉換函數部分由集體共識構成，而非自然法則 (Zheng 等人, 2025c)。一個可用的社會模擬器將表面語言與潛在的社會狀態分離：對話可以變化，但核心狀態（目標、信念、關係、規範）必須保持一致，並產出可解釋的轉換，正如理性言語行為框架所形式化的那樣 (Goodman 與 Frank, 2016; Degen, 2023)。具體來說，一個社會相容性術語可以編碼承諾一致性：如果代理 i 在時間 t 承諾了動作 b，那麼當 i 在沒有解釋、重新談判或制裁的情況下違反 b 時，後續狀態將獲得低相容性。類似的術語可以在整個軌跡上對規範遵守、角色一致性或信念狀態連貫性進行評分。

作為社會狀態的心智理論

計算基礎由貝氏心智理論奠定，它將心理狀態推論形式化為對理性代理的機率性逆向規劃 (Baker 等人, 2011)。神經方法始於 ToMnet (Rabinowitz 等人, 2018)，其角色、心理狀態和預測網路共同推斷特質和信念，而近期的研究如 LaBToM (Ying 等人, 2025) 則將貝氏逆向規劃與正式的認識論語言連接起來。然而，目前的模型缺乏穩健的心理狀態推理：FANToM (Kim 等人, 2023) 揭示了所有最先進大型語言模型中普遍存在的虛幻心智理論，而 ExploreToM (Sclar 等人, 2024) 對於 GPT-4o 的準確率低至 9% (Chen 等人, 2025c)。一個互補的挑戰是雙重結構問題：一個社會代理必須同時模擬他人的心理狀態（心智理論），並在長時間的互動中維持其自身的持久內部狀態，特別是目標、人格、記憶和知識。語言代理的認知架構 (Sumers 等人, 2024) 將此雙重結構形式化為必須相互保持一致的獨立記憶和動作空間，並提供一個原則性框架來理解當前的大型語言模型代理如何達成以及未達成穩定的自我表徵。

策略互動

CICERO (Bakhtin 等人, 2022) 將一個語言模型與用於 Diplomacy 的 piKL 規劃整合起來，共同最佳化遊戲動作和對話，同時對二階信念進行建模，達成了人類平均分數兩倍以上的成績。 Deal or No Deal (Lewis 等人, 2017) 開創了用於談判動態順向模擬的對話推演。 Werewolf 和 Avalon 遊戲作為欺騙、信任和信念操縱的集中測試平台 (Xu 等人, 2023; Light 等人, 2023)，揭示了欺騙者透過利用認知限制持續佔上風。

沙盒模擬

生成式代理展示了新興的社會動態：一個 25 代理的模擬 (Park 等人, 2023) 使用了基於記憶的狀態追蹤和定期反思，而 Sotopia (Zhou 等人, 2024c) 則在七個維度上正式化了社會模擬的評估。規模已急劇增加：Project Sid (AL 等人, 2024) 部署了 1000 個表現出專業化和治理新興現象的代理，而 OASIS (Yang 等人, 2024d) 則擴展到一百萬個代理，重現了資訊傳播和群體極化。在個體層面，Argyle 等人 (2023) 展示了矽採樣，它將大型語言模型條件化到特定的人口統計檔案上，以模擬來自目標子群體的調查回應，並顯示出與美國國家選舉研究數據的高度一致性，開啟了一條通往個體社會世界建模的路徑。生成式社會選擇 (Fish 等人, 2024) 將其擴展到民主聚合，使用大型語言模型從多樣的合成參與者中生成代表性陳述，從而實現審議。

挑戰與設計原則

社會模擬仍不成熟：大型語言模型的推理能力在二階信念推理之外急劇退化 (Wu 等人, 2023b)，代理會遭受角色漂移和目標遺忘 (Park 等人, 2023; Zhou 等人, 2024c)，而正式的承諾追蹤 (Telang 等人, 2021) 仍未整合到任何大型語言模型架構中。一個實用的設計模式將一個緊湊的社會狀態表徵（承諾、約束、關係）、一個對話生成器和一個強制一致性並使狀態轉換可記錄和可重播的轉換更新器分開。靈活的人格生成對於用多樣、可控的代理來填充社會模擬器至關重要；PersonaGym (Samuel 等人, 2025) 提供了一個基準，用於評估大型語言模型在複雜社會任務中執行指定人格的忠實度，揭示了在對抗性探測下維持人格一致性的系統性失敗。對於個體層級的個人化，LaMP (Salemi 等人, 2024) 引入了一個包含七個任務的基準，要求大型語言模型生成與特定使用者歷史一致的輸出，並顯示出檢索增強方法顯著縮小了差距。關於心智理論提示、沙盒架構、新興現象、數位雙生和制度方法的擴展細節請見附錄 C。

社會世界的複雜性根源於人類的意圖與信念，而科學世界則致力於揭示客觀規律，其 L2 模擬側重於系統動態及研究過程本身。

科學世界的法則

在科學人工智慧中，從 L1 到 L2 的過渡將重點從對局部狀態或結構的建模轉移到對多步驟動態的模擬。這些動態沿著兩個軸線出現。第一個涉及系統的時間演化，模型預測自然系統在給定條件或干預下隨時間如何展開。第二個涉及科學研究本身，模型模擬假設、實驗和結果的序列，以支援推理和行動。這兩種形式定義了科學世界模型中對應的模擬形式：系統動態的順向模擬，以及基於對候選實驗的代理評估的決策模擬。

順向模擬

世界模型透過用學習到的轉換算子取代昂貴的數值求解器來近似科學系統的演化。 GNS (Sanchez-Gonzalez 等人, 2020) 顯示，在粒子圖上進行訊息傳遞可以模擬具有可泛化動態的流體、剛體和可變形材料。傅立葉神經算子 (Li 等人, 2021b) 透過頻譜卷積建立了解析度不變的算子學習，實現了比傳統求解器快 1000 倍的加速，並支撐了後續的天氣和流體代理模型。在行星尺度上，Pangu-Weather (Bi 等人, 2023) 和 GraphCast (Lam 等人, 2023) 在 90% 的驗證目標上優於歐洲中期天氣預報中心的業務系統。 GenCast (Price 等人, 2024) 透過擴散架構將這些擴展到機率預報，在 97.2% 的目標上優於系集系統。 NeuralGCM (Kochkov 等人, 2024) 在一個可微分的大氣環流模型中整合了學習到的參數化，產生了如熱帶氣旋等新興現象，並說明了將機制結構與學習組件耦合的價值。 Aurora (Bodnar 等人, 2025) 進一步將此範式擴展為地球系統的基礎模型，以大幅降低的計算成本，在多個預報任務上達到強勁效能。在分子科學中，由 Behler 與 Parrinello (2007) 開創的神經網路勢能使得分子動力學模擬比密度泛函理論快上好幾個數量級，為所有後續機器學習領域奠定了基礎。

決策模擬

世界模型透過在電腦中模擬實驗決策迴圈來降低科學發現的成本。代表性系統涵蓋分子設計 (ChemBO; Korovina 等人, 2020)、生物序列最佳化搭配基於族群的模型系集和後設層級搜尋重新分配 (P3BO; Angermueller 等人, 2020)，以及由使用者定義的演算法目標引導的材料發現 (BAX; Chitturi 等人, 2024)。在這些系統中，模型不僅模擬個別結果，還模擬實驗選擇的順序過程，在最佳化過程中維持並更新對候選物的信念，同時識別不一致之處。然而，這些能力仍然局限於固定的數據範疇：模型無法主動設計和執行實驗來獲取挑戰其當前假設的新資訊。結果，雖然此類系統可以修正最佳化錯誤，但它們無法解決源自不完整知識的不確定性，導致在長時距中累積偏差。L3 世界模型（第 5 節）透過主動收集證據來修正模型，克服了這一點。

我們已在不同領域中審視了 L2 的應用，現在，整合性的跨領域比較能揭示出各領域間共通的設計哲學與獨特的挑戰。

跨領域分析

四個治理法則體系的診斷圖，橫軸反映轉換規則的正式可規範性和可機械驗證性，縱軸反映相關狀態和約束的可觀察性。

前述的邊界條件可以被統一為一個原則：世界模型在部署期間究竟是保持固定，還是變得具有可塑性。從 L2 到 L3 的轉變體現在三個層面：模型在部署後是否能更新其參數與結構、它如何隨著時間累積新的能力，以及它是被動地消費資料，還是透過實驗主動地生成資料。

固定 vs. 適應性。一個 L2 模擬器在訓練後通常是固定的。它可以根據其訓練資料生成無限的推演，但其核心轉換函數 p_{\theta}(z_{t}\mid z_{t-1},a_{t}) 並不會演化；它只是在探索其凍結知識的內涵。相對地，一個 L3 系統在部署後是具有適應性的：它將自身的參數或結構視為一個可以被更新的假設，即 \mathcal{M}_{t+1}\leftarrow\mathcal{M}_{t}+\text{證據}。

成長的模式。L3 的成長超越了單純的資料緩衝，涵蓋了三種不同的模式：

參數更新：透過梯度下降或基於新證據的貝氏更新來修改權重，例如：線上學習、持續性強化學習微調，以及貝氏模型更新。
架構更新：動態地新增模組、專家或容量來處理複雜性，例如：擴展上下文視窗或分配新的記憶體插槽。
假設空間擴展：擴展模型類別以表示先前無法表達的解釋。這對應到引入新的變數、機制或抽象概念，從「我不知道這 k 個選項中哪一個是正確的」轉變為「正確的解釋並不在當前的 k 個選項之中」。這是最具挑戰性的模式，並且與溯因推理和真正的科學發現緊密相關。

被動 vs. 主動。雖然 L2 系統可能支援被動的線上學習（在傳入的資料串流上更新權重）或決策模擬（第 4.2.4 節），L3 的特徵在於主動的試錯迴圈。它不只是等待資料；它會採取行動來生成能最大化關於特定假設或不確定性區域之資訊增益的資料。這種主動的姿態將代理從經驗的消費者轉變為實驗的設計者，這是一種質的轉變，直接連結到溯因推理和科學方法的哲學（第 2.1 節）。L3 不應該被定義為通用規劃意義上的閉環使用；相反地，它是透過閉合「證據到修正」的迴圈來定義的，以便部署的結果被用來在連續的迭代使用中診斷、更新和驗證世界模型堆疊本身。

5.3 案例與應用

L3 在高度儀器化、能提供快速回饋並具備明確定義評估標準的領域中最為可行。L3 的實證支援在各領域之間並不均衡：自主科學和其他高度儀器化的設置提供了最清晰的示範，而社會、程式碼和具體化環境仍然處於部分實證、部分前瞻性設計空間的狀態。我們在圖 10 中，透過四個治理法則體制，描繪了這片景象，以及每個體制中特有的證據訊號和失敗模式。

**圖 10：L3 在四個治理法則體制中的演化。**每個面板說明了代表性領域中的設計-執行-觀察-反思迴圈：(a) 物理智慧——適應性探測修正接觸動力學；(b) 社會智慧——規範漂移觸發社會模型修正；(c) 數位智慧——帶有回歸門檻的評估器驅動程式搜索；(d) 科學智慧——在同步加速器光束線上進行的閉環自主實驗。

物理智慧。在具體化的設置中，L3 表現為適應性探測，以推斷和更新動力學模型。當機器人遇到非預期的接觸動力學，例如光滑的表面或可變形的物體時，系統可以主動執行診斷動作（旨在釐清關於接觸模型假設的小幅度擾動），並使用產生的證據來更新其動力學模型。此體制中的異常訊號本質上是物理性的：力／力矩偏差、非預期的接觸事件，以及預測與觀察到的末端執行器軌跡之間的差異，為模型更新提供了量化證據。近期研究顯示，機器人可以自主檢測物理損壞並重新訓練持續的自我模型：Hu 等人 (2025b) 證明了以自我為中心的視覺自我模型透過預測與觀察的不匹配來檢測形態變化，並重新訓練以恢復運動能力。AdaptSim (Ren 等人, 2023) 透過元學習產生一個適應策略，該策略從少量的真實世界任務表現數據中迭代地修正模擬參數，透過證據驅動的模擬修正而非固定的領域隨機化來閉合從模擬到現實的差距，每一次真實世界部署都為下一輪的模擬更新提供資訊（物理智慧範例的演練詳見附錄 D）。

數位智慧。軟體和網頁環境天生適合 L3，因為狀態是完全可觀察的，動作是可確定性重播的，且回歸測試提供了一個內建的驗證門檻。評估器驅動的發現迴圈例證了此種體制。Romera-Paredes 等人 (2024) 在一個演化迴圈中將預訓練的大型語言模型與自動評估器配對：大型語言模型生成候選程式，評估器根據正式規格對其評分，高分解決方案則被回饋以供進一步精煉。此迴圈為帽子集問題（組合數學中一個長期存在的開放問題）發現了新的構造，以及優於已知基線的新裝箱啟發法。雖然該系統僅實現了設計和觀察組件（程式生成和自動評分），而沒有主動資訊擴展或持續的模型修正，但評估器扮演了自動化回歸門檻的角色，這是一項關鍵的 L3 屬性。Novikov 等人 (2025) 擴展了這種演化編碼範式：透過將大型語言模型生成的程式突變與自動化正確性評估器配對，該系統在 56 年後改進了 Strassen 的矩陣乘法演算法，並解決了 20% 超越先前最高水準的開放數學問題，說明了形式驗證在演算法領域中作為 L3 把關者的力量。CodeIt (Butt 等人, 2024) 閉合了更緊密的迴圈：大型語言模型透過優先化的後見重播從自身的搜索軌跡中微調，使得生成模型本身（作為程式空間的隱式世界模型）能夠跨任務持續改進。AI Scientist-v2 (Yamada 等人, 2025) 透過採用代理樹搜索進行實驗選擇，更進一步深入計算實驗：系統自主地形成假設、設計和執行實驗、分析結果，並撰寫完整的手稿。一個視覺語言模型回饋迴圈則迭代地精煉圖表和內容。在 2025 年，此系統生成了一篇完全由人工智慧撰寫的論文，並在 ICLR 工作坊通過了同儕審查。然而，該系統的實驗是計算性的（執行機器學習訓練工作），且其修正迴圈是在論文品質上運作，而非機制理解上，這說明了在高度儀器化的計算領域中的 L3 與真正科學發現的艱鉅挑戰之間的差距。在 AUI (Lin 等人, 2025a) 中，一個「編碼器-電腦使用代理」迴圈在網站領域中實例化了此原則：編碼器迭代地修正網站實作，而電腦使用代理則透過執行任務軌跡並驗證功能正確性（例如：導航成功與任務完成）來扮演自動評估器。由此產生的回饋——基於可執行的互動而非靜態檢查——作為引導後續程式碼更新的回歸訊號，形成一個符合 L3 屬性的閉環最佳化過程。

社會智慧。社會領域中的 L3 要求在對其他代理的行為預測偏離觀察到的行為時——例如：當心智理論預測系統性地失敗，或者當社會規範隨時間漂移時——修正代理的社會模型。這是目前 L3 最艱難的體制，因為歸因本質上是模糊的（一個失敗的社會預測可能反映了對其他代理目標的錯誤信念、一個過時的規範模型，或隨機行為），而且社會實驗受到倫理約束。關於多代理群體中規範出現和慣例形成的早期研究（第 4.2.3 節）代表了邁向社會 L3 的初步步驟，但從部署證據中持續、經驗證的社會世界模型修正，在很大程度上仍是開放的。邁向社會 L3 的一個初步步驟是多代理治理規則的演化合成：Kumar 等人 (2026) 使用由大型語言模型驅動的基因規劃，根據社會穩定性分數演化出可解釋的章程，其表現超越了人類設計的規則達 123%。

科學智慧。當前最完整的 L3 案例來自自主科學，其中透過儀器化閉合了完整的設計-執行-觀察-反思迴圈。自主閉環科學發現的範式是由機器人科學家亞當 (Sparkes 等人, 2010) 所建立，它是第一台能自主設計關於基因功能的實驗、執行實驗、觀察結果並修正其模型的機器。其後繼系統展示了在酵母菌系統生物學中，實驗設計、執行和模型修正的閉環週期，加速了生物模型開發 (Coutant 等人, 2019)。CAMEO (Kusne 等人, 2020) 在同步加速器光束線上，透過貝氏主動學習實現了閉環材料發現：系統預測候選成分會形成哪種相，合成它，透過 X 光衍射表徵產物，更新其貝氏信念模型，並主動選擇下一個實驗以最大化資訊增益。每個實驗週期僅需數秒至數分鐘，該系統在無需額外人類訓練的情況下發現了一種新型相變化記憶體材料。A-Lab (Szymanski 等人, 2023) 將此擴展到全自主合成：三支機械手臂自動化粉末劑量、加熱和 X 光衍射表徵，並以主動學習演算法在目標失敗時生成改進的配方。在 17 天的閉環操作中，A-Lab 執行了 353 次實驗，並從 57 個目標中實現了 36 種化合物。至關重要的是，對失敗合成的分析提供了結構化證據，用以精煉未來的合成策略；失敗的案例沒有被丟棄，而是被提煉成持續性的知識。Strieth-Kalthoff 等人 (2024) 將自動駕駛實驗室範式擴展到分散式、多場域操作：一個去在地化的自動駕駛實驗室透過在地理上分散的設施中，從合成和表徵數據迭代更新貝氏代理，自主發現了新型有機雷射發射材料。BacterAI (Dama 等人, 2023) 證明了 L3 可以在零先驗生物學知識的情況下運作：系統迭代地設計和執行實驗，以繪製微生物的胺基酸需求，純粹從實驗證據中修正其代謝模型。在計算化學領域，MOOSE-Chem (Yang 等人, 2025e) 證明了基於大型語言模型的框架可以僅使用 2024 年之前的文獻，重新發現 2024 年發表在《自然》和《科學》期刊上的化學假設，提供了證據表明 L3 迴圈中的假設生成組件對於自然科學領域已是可行的。其後繼者 MOOSE-Chem2 (Yang 等人, 2025d) 則引入了對細粒度假設組件的階層式搜索，以提升生成發現的精確度和新穎性。附錄 D 提供了涵蓋全部四種體制的演練範例。更廣泛的代理系統正將 L3 迴圈推進到生物醫學領域。Biomni (Huang 等人, 2025a) 提供了一個通用型生物醫學人工智慧代理，整合了超過 100 種工具和 59 個資料庫，橫跨 25 個子領域，能夠自主執行從因果基因優先排序到藥物再利用等任務。BioLab (Jin 等人, 2025) 則透過建立在生物基礎模型上的多代理系統，將此擴展到端到端的自主生命科學研究。OriGene (Zhang 等人, 2025i) 展示了一個能自我演化的虛擬疾病生物學家，其透過迭代假設精煉能自主發現治療標靶。AI 共同科學家系統 (Gottweis 等人, 2025) 採用了一種生成-辯論-演化方法來進行假設生成，並搭配多代理競賽流程，該流程已在藥物再利用和表觀遺傳標靶發現中獲得驗證。與這些系統互補的是，Yang 等人 (2026) 引入了一個動態基準，揭示當前的大型語言模型在真正的生物學知識推導上仍有不足，凸顯了文獻檢索與能真正更新底層模型的真實 L3 修正之間的持續差距。

代表性 L3 系統總覽。

表 8：依治理法則體制劃分的代表性 L3 系統。迴圈步驟指出每個系統實現了設計、執行、觀察、反思週期中的哪些階段。

系統	連結		設計	執行	觀察	反思
物理世界
AdaptSim (Ren et al., 2023)	論文	程式碼	✔	✔	✔	✗
Self-Modeling (Hu et al., 2025b)	論文	程式碼	✔	✔	✔	✔
數位世界
FunSearch (Romera-Paredes et al., 2024)	論文	程式碼	✔	✔	✔	✗
CodeIt (Butt et al., 2024)	論文	程式碼	✔	✔	✔	✔
SWE-agent (Yang et al., 2024a)	論文	程式碼	✔	✔	✔	✗
AUI (Lin et al., 2025a)	論文	程式碼	✔	✔	✔	✗
AlphaEvolve (Novikov et al., 2025)	論文	程式碼	✔	✔	✔	✗
社會世界
Evolving Const. (Kumar et al., 2026)	論文	—	✔	✔	✔	✔
AgentSociety (Piao et al., 2025)	論文	程式碼	✔	✔	✔	✗
科學世界
Robot Scientist (Sparkes et al., 2010)	論文	—	✔	✔	✔	✔
CAMEO (Kusne et al., 2020)	論文	程式碼	✔	✔	✔	✔
Yeast Cycles (Coutant et al., 2019)	論文	—	✔	✔	✔	✔
BacterAI (Dama et al., 2023)	論文	程式碼	✔	✔	✔	✔
A-Lab (Szymanski et al., 2023)	論文	—	✔	✔	✔	✔
SDL Lasers (Strieth-Kalthoff et al., 2024)	論文	程式碼	✔	✔	✔	✔
AI Scientist (Lu et al., 2024a)	論文	程式碼	✔	✔	✔	✔
Biomni (Huang et al., 2025a)	論文	程式碼	✔	✔	✔	✗
BioLab (Jin et al., 2025)	論文	—	✔	✔	✔	✔
OriGene (Zhang et al., 2025i)	論文	程式碼	✔	✔	✔	✔
Co-Scientist (Gottweis et al., 2025)	論文	—	✔	✔	✔	✔
AI Scientist v2 (Yamada et al., 2025)	論文	程式碼	✔	✔	✔	✔

證據品質與可否證性。演化的品質取決於證據的品質。表 9 整理了觸發各治理法則體制中 L3 模型更新的修正訊號：代理偵測到什麼、它為何顯示當前的模型是錯誤的，以及該訊號的可否證性有多高。

表 9：依治理法則體制劃分的 L3 演化修正訊號。列顏色編碼代表領域內的可否證性（跨領域不具可比性）：高，中，低。

修正訊號	觸發條件
物理世界
運動學不可行性 (Ren et al., 2023)	軌跡違反關節限制或碰撞邊界
接觸動力學不匹配 (Hu et al., 2025b)	力／力矩偏離預測的接觸模型
形態變化 (Hu et al., 2025b)	視覺自我模型偏離觀察到的身體狀態
社會世界
介入不一致性 (Piao et al., 2025)	政策變更未能引發相稱的行為轉變
全局行為漂移 (Kumar et al., 2026)	參數擾動產生了不一致的總體反應
個體忠實度違反 (Taubenfeld et al., 2024)	代理行為偏離了人口統計先驗
數位世界
回歸偵測 (Romera-Paredes et al., 2024)	先前通過的測試在更新後失敗
執行結果不匹配 (Lin et al., 2025a)	預測狀態與實際執行結果不同
任務完成失敗 (Butt et al., 2024)	動作序列未能達成指定目標
科學世界
假設被否證 (Szymanski et al., 2023)	實驗與預測結果矛盾
預測-測量差距 (Kusne et al., 2020)	代理輸出偏離了測量值

認知差距偵測 (Dama et al., 2023)觀察結果落在模型的表徵範圍之外

分類學的價值不在於為了分類而分類，而在於能夠引導系統設計。本節將沿著三個架構軸線，拆解世界模型的實作，這三個軸線分別是表徵、動態與控制介面（第7.1節），並探討治理法則的體制如何在實務上限制哪些組合是可行的（第7.2節）。部署這些系統會引發跨領域的工程挑戰：端到端與模組化訓練之間的選擇、延遲與運算的權衡、模擬到真實世界的轉移，以及在模型不確定性下的優雅降級。一個學習型的世界模型能將模擬成本攤銷為推論期間的固定運算圖，而顯式模擬的規模則通常與實體數量、互動次數、求解器步驟或時間範圍長度更直接相關。這並不表示神經推論在每個相關變數上都是字面上的 O(1)：其成本仍取決於模型大小、輸入解析度、序列長度與推演深度。實際的優勢在於，學習到的動態可以針對系統複雜度的某些面向，提供接近固定成本的近似解，否則就需要越來越昂貴的顯式模擬。在這裡，效率技術之所以重要，並非只是一般的部署技巧，而是因為它們與三個能力層級的互動方式各不相同。對於 L1 系統，壓縮主要與單步預測準確度進行權衡。對於 L2 系統，記憶體與推演效率直接影響可達到的時間範圍、反事實分支，進而影響長時域的一致性。對於 L3 系統，相同的效率選擇會影響以回歸閘控的更新迴路，是否足夠便宜到能在部署中持續執行。要進一步擴展，則需要效率技術：用於即時規劃的少步驟蒸餾、在累積誤差會放大即使是微小的每一步退化之限制下的量化與剪枝，以及用於長時域自回歸動態的 KV 快取壓縮。關於這些部署與效率主題的更深入探討，以及具體的運算與延遲量測數據，請參見附錄F。

7.1 架構構建模塊：表徵、動態與控制

建構一個世界模型系統，需要沿著三個軸線選擇元件（表11）。每個選擇都帶有獨特的權衡，決定了最終系統能夠達到哪個能力層級（L1/L2/L3），以及在這些三個軸線的每一個上，哪個治理法則體制下的設計會最有效。

表徵。 在一個極端，符號或程式化狀態（例如，VirtualHome）提供可解釋性，並能實現嚴格的約束執行，但需要大量的人工工程，且僅涵蓋預先指定的狀態空間；它們最適合用成功率與錯誤分支覆蓋率來評估。在另一個極端，潛在連續表徵，例如 DreamerV3 與 V-JEPA2 中的 RSSM，能以相對較少的人工設計結構來處理高維度多模態輸入。其弱點在於，在長時間範圍內，它們更容易受到語義漂移與狀態混疊的影響，這使得長時域一致性與故障歸因對評估而言特別重要。VL-JEPA 開發了一種聯合嵌入預測架構，用於預測目標文字的連續嵌入。VLog 使用一個可學習的令牌來擷取旁白，然後在長影片理解中作為以影片為中心的詞彙。在這兩個極端之間是結構化 3D 表徵，包括佔據模型如 RoboOccWorld，以及點流模型如 PointWorld。它們很有吸引力，因為它們能更自然地符合物理約束，但這個優勢通常伴隨著重建與運算上的瓶頸。因此，可達性與穩定性在評估中變得特別重要。最後，離散令牌表徵（例如，在 IRIS 中的 VQ-VAE 碼書）強制了組合性，並能透過交叉熵進行精確的似然性訓練，從而連接起連續感知與自回歸動態。

動態。 以 DreamerV3 為代表的隨機潛在動態，透過有原則的 ELBO 訓練與不確定性感知的推演，來表達不確定性與多模態性，但可能在長時間範圍內退化或變得校準不良。在不確定性建模較不關鍵的地方，確定性價值感知動態（MuZero、TD-MPC2）直接針對下游價值預測來優化轉移函數，犧牲生成靈活性以換取與控制目標更緊密的整合。自回歸令牌動態（iVideoGPT、LWM）提供了一個統一的、可擴展的介面，透過共享詞彙來處理多種模態，儘管長時域邏輯一致性仍然是個弱點。基於擴散的動態（Sora 技術路線、DIAMOND，以及如 Genie 等互動環境）提供了照片般逼真的觀察層級轉換，但它們在推論時所需的多步驟去噪過程，通常伴隨著薄弱的動作可控性。

控制介面。 線上的模型預測控制（MPC）風格方法（TD-MPC2、PETS）在每一步都使用短時域推演重新規劃，以運算與延遲壓力為代價提供快速修正。樹搜索與擴展（MuZero、EfficientZero）能實現反事實分支與系統性的前瞻，儘管它們會放大模型錯誤，並可能利用基準測試的漏洞。想像推演策略優化（Dreamer 家族）完全不是在其環境中規劃，而是完全在模型生成的軌跡上訓練策略，在學習期間避免了真實互動，但需要極其準確的動態。在部署端，離線策略蒸餾（GR-1）能實現廉價的推論，但在分佈轉移下很脆弱，這促使了對分佈外壓力測試的需求。一種截然不同的策略是可重放環境介面（OSWorld、SWE-agent），它完全繞過學習到的動態，將真實環境本身當作自己的模擬器，並依賴於回應解析與狀態指紋識別。更廣泛地說，控制問題的一部分是決定何時應該叫用外部計算，而不是將工具使用視為強制性或完全不存在；自適應工具整合的工作提供了一個關於此區別的、有用的規劃器端範例。

表 11：世界模型的架構構建模塊。 三個設計軸線（表徵、動態、控制介面）與具體選項、代表性系統、優勢及主要失敗模式交叉對照。

設計軸線	選項、系統、優勢與失敗模式
表徵
表徵	□ 符號 / 程式化： VirtualHome。可解釋；嚴格的約束執行。失敗：繁重的人工工程；有限的狀態空間。
	□ 潛在連續： DreamerV3 (RSSM)；V-JEPA 2。可擴展；吸收高維多模態輸入。失敗：語義漂移；長時間範圍內的狀態混疊。
	□ 結構化 3D： RoboOccWorld；PointWorld。自然的物理約束對齊。失敗：重建瓶頸；高運算成本。
	□ 離散令牌： IRIS (VQ-VAE 碼書)。組合性；精確的交叉熵訓練。失敗：碼書崩潰；有損量化。
動態
動態	□ 隨機潛在： DreamerV3。透過 ELBO 進行的有原則不確定性；多模態。失敗：長時間範圍內的校準不良。
	□ 確定性價值感知： MuZero；TD-MPC2。緊密的價值整合；規劃優化。失敗：無顯式不確定性；在新奇事物下脆弱。
	□ 自回歸令牌： iVideoGPT；LWM。統一的多模態介面；可擴展。失敗：薄弱的長時域邏輯一致性。
	□ 基於擴散： Sora；DIAMOND；Genie 2。照片般逼真的觀察層級轉換。失敗：多步驟去噪延遲；薄弱的動作控制。
控制介面
控制介面	□ 線上 MPC： TD-MPC2；PETS。快速的閉迴路修正；反應靈敏。失敗：高每步運算；延遲壓力。
	□ 樹搜索： MuZero；EfficientZero。反事實分支；系統性的前瞻。失敗：放大模型錯誤；基準測試利用。
	□ 想像推演策略： Dreamer 家族。訓練期間無真實互動。失敗：需要極其準確的動態。
	□ 離線蒸餾： GR-1。廉價且快速的部署。失敗：分佈轉移。
	□ 可重放環境： OSWorld；SWE-agent。以真實環境作為模擬器；可歸因的失敗。失敗：在 UI/API 變更下接地性崩潰。

7.2 跨治理法則體制的設計權衡

上述的構建模塊並非可以隨意互換；治理法則體制決定了哪些組合是可行的，以及哪些失敗模式會佔主導地位。表12總結了部署體制的延遲預算，如何限制可行的動態模型類別及其控制介面。

物理世界系統。 一切都圍繞著連續動作下的接觸、可達性與穩定性。表徵必須保留幾何形狀與接觸關係；動態必須在短到中等時間範圍內保持穩定；而控制介面必須足夠快速以進行閉迴路修正。潛在或結構化 3D 表徵與 MPC 或想像推演策略的搭配，在此體制中佔主導地位。短時域的推演減少了累積誤差，而 MPC 提供了一個線上修正機制。主要的陷阱是預先假設了實際存在的 3D 場景、降級的 3D 重建能力、潛在空間中的語義漂移、在學習到的表徵中仍然看似合理的約束違規，以及對於接觸密集型互動的模擬到真實世界間的鴻溝。在實務上，區分至少三種轉移曲線是有用的：跨輸入模態的轉移、跨感測器套件的轉移，以及跨環境的轉移，因為每一種都暴露了學習到的動態中一個獨特的失敗模式，並需要其自身的診斷工具。

數位世界系統。 狀態機與分支一致性，而非學習到的動態，是主要的瓶頸。符號化或基於 DOM 的狀態，與可重放環境的搭配，是此情境下的主導設計。因為它們暴露了顯式的狀態機，並支援強大的證據記錄，使得失敗更容易追溯，從而支援了演化器式的資產蒸餾。然而，這種透明度是有代價的：接地性可能在 UI 變更下崩潰，載入變異性與競爭條件引入了非確定性雜訊，而基準測試的偽影仍然容易受到獎勵博弈以及底層軟體堆疊中微妙轉變的影響。

社會世界系統。 主要的瓶頸是在擴展的互動中，維持連貫的代理身份與關係狀態。人格狀態必須在數百輪中持續存在而不發生漂移，然而心智理論（ToM）推論，它會更新對其他代理的目標、知識與意圖的信念，施加了隨被建模代理數量成長而增加的每步成本。多代理通訊加劇了這個問題：n-代理互動在每一步產生 O(n²) 的成對信念更新，使得對文獻中現在出現的 10,000+ 代理模擬來說，樸素的擴展變得不切實際。規範一致性檢查則增加了進一步的限制：有效的社會推演必須尊重演變中的規範（禮貌慣例、談判協議、制度規則），且違規行為必須能夠在推演時被檢測到，而非事後回顧。總體挑戰在於，代理身份不是一個固定的狀態向量，而是互動歷史的湧現屬性；在多輪動態下維持穩定的身份，同時仍允許真正的信念修正，這仍然是一個開放的架構問題，當前基於大型語言模型的代理只能透過系統提示詞制約來膚淺地處理它。

生成式模擬系統。 核心的張力存在於視覺保真度與動作可控性之間。高保真度的擴散或自回歸模型擅長產出照片般逼真的輸出，對於演示與合成數據生成很有用，但動作制約通常不穩定，且長時域一致性難以達成。一個系統可能被錯誤地視為已準備好進行規劃，但實際上並非決策可用；評估應優先考慮動作-回應一致性與長時域穩定性，而非原始的感知真實感。

科學世界系統。 在此體制中，證據鏈的有效性與可否證性比感知品質更為重要（參照第2.1節中的波普爾式解讀）。表徵必須是可解釋的，並可追溯至實驗證據；動態必須尊重已知的機制邊界；控制介面應支援實驗選擇與信念更新，而非動作執行。獨特的風險是看似合理但缺乏根據的幻覺機制、相關性被誤認為因果關係，以及被悄悄丟棄而非透過模型傳播的負面結果。

VLA 與原生世界模型。 一個跨領域的架構問題是，要將世界模型的能力嵌入到視覺-語言-動作（VLA）模型內部，還是建構一個專門的世界模型模組。VLA 繼承了大型語言模型的擴展基礎設施與預訓練數據，但其世界建模能力是隱含的，難以隔離或評估。最近讓這種能力變得更明確的努力，包括空間引導訓練，將幾何結構注入到 VLA 策略學習中，旨在彌合隱含的視覺知識與世界模型所需的明確物理狀態意識之間的差距。相關研究則將這種隱含能力變得更具程序性而非幾何性：Pixel Reasoner 賦予 VLMs 明確的視覺操作，如放大與選擇幀，用於好奇心驅動的證據收集，而 Visual Rationale Learning 則將此類視覺行動視為核心的推理原語，而非可選工具，這共同凸顯了在類似 VLM 的代理內部，一個朝向明確感知控制的更廣泛轉變，即使沒有獨立的轉移模型被暴露出來。原生世界模型則暴露了一個明確的轉移函數，可以獨立地被查詢、組合與壓力測試。這些範式之間的競爭，一部分是個社會技術問題：對 LLM 基礎設施的大量投資創造了路徑依賴，有利於 VLA 風格的整合，即使專門的模組在技術上可能更優越。從評估的角度來看，試金石在於系統的預測能否與其語言生成解耦，並針對三個邊界（第4.1節）進行測試。某些架構選擇也是社會技術性的，而非純粹演算法的：該領域最終會收斂於原生世界模型還是 VLA 風格的替代品，可能部分取決於工具生態系統、可用的數據集，以及除了內在的建模能力之外的硬體相容性。

這些體制並非互斥的。在實務上，成熟的系統通常堆疊了多種設計模式：頂層是符號或工作流程規劃，用於高階任務分解；中間層是可重放環境，用於回執驗證與故障歸因；底層則是短時域連續控制，用於即時修正。這顯示了相關的分析單元是組合後的系統，而非任何單一的隔離模組。因此，表徵、動態與控制應該結合在一起進行評估，並考量它們所施加的限制以及它們所提供出的證據。文獻中許多表面上的分歧，與其說是關於世界模型是否有效的基本爭論，不如說更像是系統在這些設計軸線上落點的不同。

表 12：各體制的部署延遲預算與工程瓶頸。 推論延遲預算範圍從即時機器人的低於 100 毫秒，到離線科學規劃的數分鐘；該表格為每個體制對應了可行的動態模型類別與主要的工程瓶頸。這些是部署預算範圍，而非量測到的基準測試結果；實際的吞吐量取決於模型大小、硬體、批次處理、模擬器實作與驗證開銷。

體制	延遲、動態類別與瓶頸
物理世界
即時機器人	□ 延遲： <100 毫秒。
	□ 動態：潛在動態 + MPC；輕量級 RSSM；神經常微分方程。
	□ 瓶頸：每步推論延遲；控制迴路內的累積誤差。
自動駕駛	□ 延遲： <200 毫秒。
	□ 動態：佔據流；潛在擴散；鳥瞰圖預測。
	□ 瓶頸：感測器融合延遲；安全關鍵約束驗證。
具身導航	□ 延遲： 100–500 毫秒。
	□ 動態： RSSM；以物件為中心的圖神經網路；點雲動態。
	□ 瓶頸： 3D 重建成本；用於大規模地圖的記憶體。
數位世界
Web / GUI 代理	□ 延遲： ∼1–5 秒。
	□ 動態：以 LLM 作為世界模型；基於 DOM 的預測；狀態機推演。
	□ 瓶頸： LLM 推論成本；UI 非確定性與競爭條件。
軟體工程	□ 延遲： ∼5–30 秒。
	□ 動態： LLM + MCTS 推演；程式碼圖遍歷。
	□ 瓶頸：上下文視窗限制；跨檔案依賴性解析。
遊戲 AI（即時）	□ 延遲： <50 毫秒。
	□ 動態：樹搜索 (MCTS)；價值感知潛在動態；EfficientZero。
	□ 瓶頸：分支因子；搜索深度與延遲的權衡。
社會世界
社會 / 多代理	□ 延遲： ∼1–10 秒。
	□ 動態： ToM 網絡；多代理推演；承諾圖更新。
	□ 瓶頸： O(n²) 的成對信念更新；人格狀態漂移。
科學世界
科學規劃	□ 延遲：分鐘到小時。
	□ 動態：完整擴散集成；貝氏代理模型；物理資訊神經網路；主動學習。
	□ 瓶頸：實驗預算；代理模型校準；數據稀缺。

7.3 實作藍圖

表13將前面章節的架構指引，濃縮成一個按照能力層級與治理法則體制組織的簡明藍圖。對於每個單元格，我們列出了最能保留該體制中對規劃者至關重要結構的表徵格式、在該能力層級最易於處理的動態模型類別，以及為達到下一層級所必須解決的、最重要的單一工程瓶頸。

表 13：跨治理法則體制的設計藍圖。 對於每個體制，我們總結了 L1–L3 的表徵、動態與瓶頸。

	表徵	動態	瓶頸
物理
L1	潛在狀態，點雲輸入	RSSM，潛在轉移	長時域預測誤差
L2	3D，以物件為中心的狀態	潛在基於模型的強化學習，神經 ODE 推演	接觸不穩定性，約束
L3	物理先驗，殘差模型	混合式模擬到真實世界適應	跨模組的故障歸因
數位
L1	DOM 樹，UI 狀態	基於 LLM 的狀態預測	在未見過的佈局上接地
L2	狀態機抽象	LLM 推演，MCTS 規劃	利用漏洞，競爭條件
L3	版本化測試，執行追蹤	回歸閘控更新	安全部署，回滾
社會
L1	信念狀態，對話歷史	心智理論，遞歸更新	隱藏的心理狀態
L2	承諾圖，規範狀態	多代理推演	角色漂移，遺忘
L3	社會模型，更新閘	貝氏修正	歸因模糊性，倫理
科學
L1	分子圖，場狀態	圖神經網路替代模型，傅立葉神經算子動態	分佈外泛化
L2	假說-證據鏈	貝氏替代模型，物理資訊神經網路推演	幻覺的校準
L3	協議，替代模型	主動貝氏學習	數據預算，儀器

三個跨領域的工程原則適用於所有單元格。第一，將學習到的與被強制的分開：硬約束層（碰撞檢查器、狀態機驗證器、回歸閘）應在推論時施加，而不是隱含地學習，因為透過訓練損失的軟性強制無法保證零違規的推演。第二，在迭代之前先進行檢測：記錄、重放與故障歸因的基礎設施應從一開始就內建於系統中；沒有重放，L3 的修正就會變得軼事化且無法治理。第三，將表徵與規劃者的查詢匹配：一個看起來很真實但未暴露規劃者所需變數（自由空間、權限狀態、反應速率）的表徵，比一個能提供這些變數但低保真度的表徵來得更差。

8 趨勢與開放式問題

前面的章節已將 L1–L3 確立為世界模型的能力階梯。我們現在將此階梯置於歷史脈絡中（圖6），綜覽推動每一級台階向前發展的研究前沿，並分類那些開放式問題，這些問題的解決將決定世界模型是會從令人印象深刻的展示成熟為可靠的科學與工程工具，抑或不會。

8.1 歷史發展

數學原理（–1956年）。 建構現實預測模型的衝動，遠早於人工智慧。牛頓的《原理》提供了第一個統一的數學世界模型：給定初始位置與速度，他的運動定律與重力，原則上可以預測一個機械系統任意的未來狀態。拉普拉斯將這個野心蒸餾成現在被稱為「拉普拉斯惡魔」的思想實驗，一個智慧體，只要完全了解現在，就能計算出宇宙的整個未來。接著，圖靈提出了機器是否能思考的問題，建立了從數學建模到人工智慧的概念橋樑。這些發展確立了持續至今的核心張力：模型保真度與可處理的時間範圍之間的權衡。這個發展進程的哲學基礎，從休謨的經驗主義，經過康德的結構性先驗，到拉卡托斯的受控修正，都在第2.1節中討論過。

符號智慧（1956–1986年）。

在深入探討各領域的世界模型設計藍圖後，我們現在將視野拉回更根本的層次，審視這份研究文獻本身。接下來的內容是支撐這整篇論述的學術基礎，一份詳盡的參考文獻列表。它橫跨了從物理模擬、自主駕駛、數位代理人，到社會科學與科學發現等多個前沿領域，記錄了世界模型研究從數學原理、符號智慧，一路發展到深度學習時代的脈絡。這些文獻不僅是知識的索引，更反映了整個社群如何逐步建構出能推理、預測並與世界互動的智慧型系統。

對於想深入研究特定技術的讀者，這份列表可以作為一份按圖索驥的導覽。例如，你可以找到關於 Dreamer 系列模型如何從像素中學習潛在動力學的經典論文，也能發現如 PhysX-Anything 這類從單張圖片生成可模擬 3D 資產的前沿研究。從 GAIA-1 這樣用於自動駕駛的生成式世界模型，到 CodeIt 這類能自我精進的語言模型，再到應用在社會模擬上的 S3 系統，每篇文獻都代表著一個突破性的節點。透過回顧這些基石，我們能更清晰地看見，這場建構世界模型的大業，是如何一步一腳印地堆疊出如今的成果，並為未來的開放性問題鋪路。

在本節中，我們持續梳理構成世界模型研究光譜的關鍵文獻。以下條目橫跨了機器人自我建模、賽局理論代理人、因果發現、生醫研發、以及物理模擬等多元主題，具體展現出世界模型概念的廣泛適用性。

Hu 等人（2025b）提出一種以自我中心視覺為基礎的自我建模方法，讓機器人能自主預測自身動力學並適應環境變化，這項研究發表於《NPJ Robotics》。Hua 等人（2024）則將大型語言模型應用於談判賽局，設計出一套賽局理論驅動的代理人工作流程，該論文以預印本形式公開。在因果推論領域，Huang 等人（2020）在《機器學習研究期刊》上發表了從異質性與非平穩數據中進行因果發現的方法，為世界模型中的因果推理提供了重要基礎。

生醫領域方面，Huang 等人（2025a）開發了通用型的生醫 AI 代理人 Biomni，相關結果發表於 bioRxiv 預印本平台；而 Huang 等人（2026a）則推出了 PolicySim，一個基於 LLM 的社會模擬沙盒，旨在進行前瞻性的政策優化。在機器人操作上，Huang 等人（2025b）發表了 ParticleFormer，一個專為多物體、多材質場景設計的 3D 點雲世界模型。

此外，學界也持續關注大型模型的效率問題。Huang 等人（2024a, 2024b）分別提出了針對混合專家（MoE）語言模型的混合壓縮技術以及 BiLLM 低位元量化方法，旨在突破後訓練量化的極限。Huang 等人（2026b）則透過 PointWorld 計畫，試圖擴展 3D 世界模型至開放環境中的機器人操作。同一團隊（Huang 等人 2026c）也在《IEEE 模式分析與機器智慧彙刊》上發表了 Mc# 架構，將前述的混合壓縮概念延伸到更廣泛的大型模型上。

這段文獻回顧不僅觸及了自駕車世界的評估套件 WorldLens（Liang 等人 2026a）與 LiDAR 序列的動態建模（Liang 等人 2026b），還包含了對 GUI 代理人進行強化學習訓練的 UI-AGILE（Lian 等人 2025），以及用於評估多模態模型人文社會科學能力的 HSSBench 基準測試（Kang 等人 2025b）。從這些豐富的交叉引用中，我們不難看出世界模型已成為連接感知、推理、規劃與科學發現的核心框架。

在本節中，我們接續前一部分，繼續梳理引用文獻。這部分的條目橫跨了代理人的評估基準、模型壓縮技術、蛋白質結構預測以及生成式模型的快速採樣等多元領域，進一步展現了世界模型相關研究的跨學科特性。

Lin 等人（2025c）提出了 VCode，一個以 SVG 作為符號化視覺表徵的多模態程式碼基準測試。同年，Lin 等人（2025d）為了實現一步到位的影片生成，設計了一種稱為「擴散對抗性後訓練」的方法，旨在顯著提升影片生成的速度。回顧更基礎的科學應用，Lin 等人（2023）在《Science》期刊上展示了如何利用語言模型進行演化尺度的原子級蛋白質結構預測，這項工作為 AI 在結構生物學中的應用立下了新的標竿。

在生成模型的理論與方法上，Lipman 等人（2023）在 ICLR 會議上提出了流匹配技術，為生成式模型提供了一種新的訓練範式。在將世界模型應用於超長序列方面，Liu 等人（2025）同樣在 ICLR 上發表了一種利用分塊環形注意力機制，在百萬長度的影片與語言上訓練世界模型的方法，突破了上下文長度的限制。為了在邊緣裝置上部署這些大型模型，模型壓縮技術至關重要。例如，Liu 等人（2021）在 ICML 上提出的群體費雪剪枝法，就是一種實用的網路壓縮技術。而 Liu 等人（2024b）則在 ICML 上發表了 KIVI，這是一種免微調的非對稱 2 位元量化方法，專門用於壓縮 KV 快取，有效降低了推論成本。

針對代理人的評測，Liu 等人（2024a）在 ICLR 上提出的 AgentBench，已成為評估大型語言模型代理人能力的標準化基準測試之一。Lu 與 Song（2025）則在 ICLR 上發表了關於簡化、穩定及擴展連續時間一致性模型的研究，旨在讓生成式模型更快、更穩定地產生樣本。Lu 等人（2022）先前已在 NeurIPS 上提出著名的 DPM-Solver，這是一種能在約 10 步內完成擴散機率模型採樣的快速 ODE 求解器，其改良版本 DPM-Solver++ 也於 2025 年發表在《Machine Intelligence Research》。

在科學發現的前沿，Lu 等人（2024a）提出了「AI 科學家」的概念，目標是邁向全自動化的開放式科學探索。而在具體的物理環境模擬中，Lu 等人（2025b）在 ICCV 上發表了 GWM，旨在為機器人操作任務構建可擴展的高斯世界模型。針對模型量化，Lu 等人（2024b）提出了 TerDiT，將三元化技術引入基於 Transformer 的擴散模型中，以追求極致的運算效率。

Luo 等人（2025）則關注於應用層面的代理人，提出了 ViMo，一個為 APP 代理人設計的生成式視覺 GUI 世界模型。為了增強視覺語言模型的空間推理能力，Ma 等人（2026）提出了一種使用結構化物體表徵的輔助方法。在遊戲代理人領域，Magne 等人（2026）發表了 NitroGen，一個開放式的基礎模型，專門用於通用遊戲代理人。Majumder 等人（2025）則在 ICLR 上提出 DiscoveryBench，旨在推動大型語言模型在數據驅動式科學發現上的進展。

談到世界模型的互動環境，Makoviychuk 等人（2021）在 NeurIPS 上發表的 Isaac Gym 提供了一個高效能的 GPU 物理模擬平台，而後續的 Isaac Lab（Mittal 等人，2025）進一步將其擴展為支援多模態機器人學習的框架。在互動式世界生成方面，Mao 等人（2025）提出了 Yume-1.5，這是一個可由文字控制的互動式世界生成模型。Mao 等人（2026a, 2026b）也在《IEEE 模式分析與機器智慧彙刊》上分別發表了 RealCustom++ 與動態生成式影像 Transformer，持續推進影像生成的真實度與準確性。

學界對於深度學習的反思也未曾停歇，Marcus（2018）在其預印本中對深度學習提出了批判性的評估。Marra 等人（2024）在《Artificial Intelligence》期刊上對從統計關係到神經符號人工智慧進行了全面綜述。而 McCarthy 與 Hayes（1969）早在 1969 年就從人工智慧的觀點探討了哲學問題，為後續的世界模型研究奠定了哲學基礎。Mees 等人（2022）提出的 CALVIN 基準測試，則為長時間機器人操作任務提供了語言條件下的策略學習測試場。

Micheli 等人（2023, 2024）的研究指出 Transformer 本身俱有樣本效率的世界模型特性，並進一步透過上下文感知的標記化技術來提升其效率。在自動駕駛領域，Min 等人（2024）開發了 DriveWorld，這是一個基於世界模型的 4D 預訓練場景理解系統。Minami 等人（2025）則在《NPJ Computational Materials》上探討了在擴充計算材料資料庫時，模擬到真實轉換學習的擴展規律，證明了世界模型在材料科學中的潛力。Moerland 等人（2023）提供了關於基於模型的強化學習的全面綜述，這是世界模型的核心應用之一。

Nagabandi 等人（2018）展示了如何利用神經網路動力學進行基於模型的深度強化學習，並結合無模型微調。在模擬環境的規模化上，Nasiriany 等人（2024）開發了 RoboCasa，用於通用機器人的日常任務大規模模擬，並在 2026 年推出了其擴展版本 RoboCasa365（Nasiriany 等人，2026）。最後，本節文獻甚至觸及了科學哲學的經典，引用了牛頓（Newton，1687）的《自然哲學的數學原理》，以及 Peirce（1932）、Pearl（2009）、Popper（1959）等人的著作，這顯示了世界模型的研究不僅是技術問題，更是一場關於知識表徵與因果推理的典範轉移。

Senior 等人（2020）A. W. Senior, R. Evans, J. Jumper, J. Kirkpatrick, L. Sifre, T. Green, C. Qin, A. Žídek, A. W. R. Nelson, A. Bridgland, H. Penedones, S. Petersen, K. Simonyan, S. Crossan, P. Kohli, D. T. Jones, D. Silver, K. Kavukcuoglu, 與 D. Hassabis。使用深度學習的勢能來改善蛋白質結構預測。《自然》，577:706–710，2020。

Shaj 等人（2023）V. Shaj, S. G. Zadeh, O. Demir, L. R. Douat, 與 G. Neumann。多時間尺度的世界模型。《神經資訊處理系統進展》，第 36 卷，頁碼 26764–26775，2023。

Shanahan（1997）M. Shanahan。《解決框架問題：常識慣性定律的數學研究》。MIT 出版社，1997。

Shanahan 等人（2023）M. Shanahan, K. McDonell, 與 L. Reynolds。與大型語言模型進行角色扮演。《自然》，623:493–498，2023。

Shang 等人（2023）Y. Shang, Z. Yuan, B. Xie, B. Wu, 與 Y. Yan。擴散模型的訓練後量化。載於《IEEE/CVF 電腦視覺與模式識別會議》，頁碼 1972–1981，2023。

Shang 等人（2025）Y. Shang, X. Zhang, Y. Tang, L. Jin, C. Gao, W. Wu, 與 Y. Li。 RoboScape：物理資訊驅動的具身世界模型。《arXiv 預印本 arXiv:2506.23135》，2025。

Shao 等人（2023）Y. Shao, L. Li, J. Dai, 與 X. Qiu。 Character-LLM：一個可訓練的角色扮演代理人。載於《自然語言處理實證方法會議》，頁碼 13153–13187，2023。

Shen 等人（2026）Z. Shen, X. Hu, X. Li, T. Fang, J. Li, 與 S. Zhang。具備行動校正的世界模型增強型網路代理人。《arXiv 預印本 arXiv:2602.15384》，2026。

Shi 等人（2017）T. Shi, A. Karpathy, L. Fan, J. Hernandez, 與 P. Liang。位元世界：一個為網路型代理人設計的開放領域平台。載於《國際機器學習會議》，頁碼 3135–3144，2017。

Singh 等人（2024）P. K. Singh, K. A. Farrell-Maupin, 與 D. Faghihi。一個在不確定性下策略性發現可信神經網路代理模型的框架。《應用力學與工程中的電腦方法》，427:117061，2024。

Song 等人（2023a）X. Song, W. Yao, Y. Fan, X. Dong, G. Chen, J. C. Niebles, E. Xing, 與 K. Zhang。在未知的非平穩狀態下的時間解耦表徵學習。載於《神經資訊處理系統進展》，第 36 卷，頁碼 8092–8113，2023a。

Song 與 Dhariwal（2024）Y. Song 與 P. Dhariwal。訓練一致性模型的改良技術。載於《國際學習表徵會議》，2024。

Song 等人（2023b）Y. Song, P. Dhariwal, M. Chen, 與 I. Sutskever。一致性模型。載於《國際機器學習會議》，第 202 卷，頁碼 32211–32252。PMLR，2023b。

Sparkes 等人（2010）A. Sparkes, W. Aubrey, E. Byrne, A. Clare, M. N. Khan, M. Liakata, M. Markham, J. Rowland, L. N. Soldatova, K. E. Whelan, M. Young, 與 R. D. King。邁向自主科學發現的機器人科學家。《自動化實驗》，2(1):1，2010。

Stalnaker（1968）R. C. Stalnaker。條件句的理論。載於《邏輯理論研究》，《美國哲學季刊專題系列》第 2 卷，頁碼 98–112。Blackwell，1968。

Stanić 等人（2023）A. Stanić, Y. Tang, D. Ha, 與 J. Schmidhuber。透過開放世界生存遊戲 Crafter 中的物體中心代理人學習泛化能力。《IEEE 遊戲匯刊》，16(2):384–395，2023。

Strieth-Kalthoff 等人（2024）F. Strieth-Kalthoff, H. Hao, V. Rathore, J. Derasp, T. Gaudin, N. H. Angello, M. Seifrid, E. Trushina, M. Guy, J. Liu, X. Tang, M. Mamada, 等人。去中心化、非同步、閉環的有機雷射發射體發現。《科學》，384(6697):eadk9227，2024。

Su 等人（2025a）A. Su, H. Wang, W. Ren, F. Lin, 與 W. Chen。像素推理者：用好奇心驅動的強化學習激勵像素空間推理。《arXiv 預印本 arXiv:2505.15966》，2025a。

Su 等人（2025b）Z. Su, Z. Chen, W. Shen, H. Wei, L. Li, H. Yu, 與 K. Yuan。 RotateKV：透過離群值感知自適應旋轉為大型語言模型提供精確且穩健的 2 位元 KV 快取量化。《arXiv 預印本 arXiv:2501.16383》，2025b。

Sumers 等人（2024）T. R. Sumers, S. Yao, K. Narasimhan, 與 T. L. Griffiths。語言代理人的認知架構。《機器學習研究彙刊》，2024。

Sun 等人（2025a）Q. Sun, L. Yang, W. Tang, W. Huang, K. Xu, Y. Chen, M. Liu, J. Yang, H. Zhu, Y. Wang, T. He, Y. Chen, X. Dai, N. Ye, 與 Q. Gu。學習原始的具身世界模型：邁向可擴展的機器人學習。《arXiv 預印本 arXiv:2508.20840》，2025a。

Sun 等人（2025b）W. Sun, H. Zhang, H. Wang, J. Wu, Z. Wang, Z. Wang, Y. Wang, J. Zhang, T. Wang, 與 C. Guo。 WorldPlay：朝向即時互動式世界建模的長期幾何一致性。《arXiv 預印本 arXiv:2512.14614》，2025b。

Sutton（1991）R. S. Sutton。 Dyna，一個整合學習、規劃與反應的架構。《ACM SIGART 公報》，2(4):160–163，1991。

Szot 等人（2021）A. Szot, A. Clegg, E. Undersander, E. Wijmans, Y. Zhao, J. Turner, N. Maestre, M. Mukadam, D. Chaplot, O. Maksymets, A. Gokaslan, V. Vondrus, S. Dharur, F. Meier, W. Galuba, A. Chang, Z. Kira, V. Koltun, J. Malik, M. Savva, 與 D. Batra。 Habitat 2.0：訓練居家助理重新整理他們的居住環境。載於《神經資訊處理系統進展》，第 34 卷，頁碼 251–266，2021。

Szymanski 等人（2023）N. J. Szymanski, B. Rendy, Y. Fei, R. E. Kumar, T. He, D. Milsted, M. J. McDermott, M. Gallant, E. D. Cubuk, A. Merchant, H. Kim, A. Jain, C. J. Bartel, K. Persson, Y. Zeng, 與 G. Ceder。一個用於無機材料加速合成的自主實驗室。《自然》，624:86–91，2023。

Tang 等人（2024）H. Tang, D. Key, 與 K. Ellis。 WorldCoder，一個基於模型的大型語言模型代理人：透過編寫程式碼並與環境互動來構建世界模型。載於《神經資訊處理系統進展》，第 37 卷，頁碼 70148–70212，2024。

Tao 等人（2024）S. Tao, F. Xiang, A. Shukla, Y. Qin, X. Hinrichsen, X. Yuan, C. Bao, X. Lin, Y. Liu, T. kai Chan, Y. Gao, X. Li, T. Mu, N. Xiao, A. Gurha, V. N. Rajesh, Y. W. Choi, Y.-R. Chen, Z. Huang, R. Calandra, R. Chen, S. Luo, 與 H. Su。 ManiSkill3：為可泛化的具身人工智慧設計的 GPU 平行化機器人模擬與渲染。《arXiv 預印本 arXiv:2410.00425》，2024。

Tassa 等人（2020）Y. Tassa, S. Tunyasuvunakool, A. Muldal, Y. Doron, P. Trochim, S. Liu, S. Bohez, J. Merel, T. Erez, T. Lillicrap, 與 N. Heess。 dm_control：用於連續控制的軟體與任務。《軟體影響》，6:100022，2020。

Taubenfeld 等人（2024）A. Taubenfeld, Y. Dover, R. Reichart, 與 A. Goldstein。大型語言模型辯論模擬中的系統性偏差。載於《自然語言處理實證方法會議》，頁碼 251–267，2024。

Telang 等人（2021）P. R. Telang, M. P. Singh, 與 N. Yorke-Smith。多代理人系統中的社會承諾維護。載於《AAAI 人工智慧會議》，第 35 卷，頁碼 11369–11377，2021。

Tobin 等人（2017）J. Tobin, R. Fong, A. Ray, J. Schneider, W. Zaremba, 與 P. Abbeel。將深度神經網路從模擬轉移到真實世界的領域隨機化。載於《IEEE/RSJ 智慧型機器人與系統國際會議》，2017。

Todorov 等人（2012）E. Todorov, T. Erez, 與 Y. Tassa。 MuJoCo：一個用於基於模型控制的物理引擎。載於《IEEE/RSJ 智慧型機器人與系統國際會議》，頁碼 5026–5033，2012。

Tu 等人（2025）S. Tu, X. Zhou, D. Liang, X. Jiang, Y. Zhang, X. Li, 與 X. Bai。世界模型在形塑自動駕駛中的角色：一個全面性的回顧。《arXiv 預印本 arXiv:2502.10498》，2025。

Turing（1950）A. M. Turing。計算機器與智慧。《心靈》，59(236):433–460，1950。

Unterthiner 等人（2018）T. Unterthiner, S. van Steenkiste, K. Kurach, R. Marinier, M. Michalski, 與 S. Gelly。邁向精確的影片生成模型：一個新的指標與挑戰。《arXiv 預印本 arXiv:1812.01717》，2018。

Vafa 等人（2024）K. Vafa, J. Y. Chen, A. Rambachan, J. Kleinberg, 與 S. Mullainathan。評估隱含在生成模型中的世界模型。載於《神經資訊處理系統進展》，第 37 卷，頁碼 26941–26975，2024。

Valevski 等人（2025）D. Valevski, Y. Leviathan, M. Arar, 與 S. Fruchter。擴散模型是即時的遊戲引擎。載於《國際學習表徵會議》，2025。

Vallinder 與 Hughes（2025）A. Vallinder 與 E. Hughes。大型語言模型代理人之間合作的演化文化。載於《自主代理人與多代理人系統國際會議》，頁碼 2771–2773，2025。

van de Ven 等人（2024）G. M. van de Ven, N. Soures, 與 D. Kudithipudi。持續學習與災難性遺忘。《arXiv 預印本 arXiv:2403.05175》，2024。

van den Oord 等人（2017）A. van den Oord, O. Vinyals, 與 K. Kavukcuoglu。神經離散表徵學習。載於《神經資訊處理系統進展》，2017。

van Es 等人（2025）M. W. van Es, C. Higgins, C. Gohil, A. J. Quinn, D. Vidaurre, 與 M. W. Woolrich。大規模皮質功能網絡以結構化的循環組織而成。《自然神經科學》，28(10):2118–2128，2025。

Vaswani 等人（2017）A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, 與 I. Polosukhin。注意力就是你所需要的一切。載於《神經資訊處理系統進展》，2017。

Vidaurre 等人（2018）D. Vidaurre, L. T. Hunt, A. J. Quinn, B. A. Hunt, M. J. Brookes, A. C. Nobre, 與 M. W. Woolrich。自發性皮質活動會短暫地組織成特定頻率的相位耦合網絡。《自然通訊》，9(1):2987，2018。

Wang 等人（2025a）C. Wang, H. Wang, X. Chen, J. Liu, T. Xue, C. Peng, D. Qi, F. Lin, 與 Y. Yan。從幻覺到意圖：為視覺語言推理而生的視覺理由學習。《arXiv 預印本 arXiv:2511.23031》，2025a。

Wang 等人（2024a）F.-Y. Wang, Z. Huang, A. W. Bergman, D. Shen, P. Gao, M. Lingelbach, K. Sun, W. Bian, G. Song, Y. Liu, X. Wang, 與 H. Li。階段一致性模型。載於《神經資訊處理系統進展》，第 37 卷，頁碼 83951–84009，2024a。

Wang 等人（2024b）G. Wang, Y. Xie, Y. Jiang, A. Mandlekar, C. Xiao, Y. Zhu, L. Fan, 與 A. Anandkumar。 Voyager：一個具備開放式學習的具身代理人，整合了大型語言模型。《機器學習研究彙刊》，2024b。

Wang 等人（2025b）H. Wang, L. Li, C. Qu, W. Xu, F. Zhu, W. Chu, 與 F. Lin。該不該編碼？透過期望最大化為數學語言模型進行自適應工具整合。載於《計算語言學協會年會》，頁碼 3060–3075，2025b。

Wang 等人（2025c）H. Wang, C. Qu, Z. Huang, W. Chu, F. Lin, 與 W. Chen。 VL-Rethinker：用強化學習激勵視覺語言模型的自我反思。《arXiv 預印本 arXiv:2504.08837》，2025c。

Wang 等人（2025d）H. Wang, X. Ye, F. Tao, C. Pan, A. Mallik, B. Yaman, L. Ren, 與 J. Zhang。 AdaWM：基於自適應世界模型的自動駕駛規劃。載於《國際學習表徵會議》，2025d。

Wang 等人（2026a）J. Wang, Y. Jiang, T. He, J. Sun, Q. Zhang, J. He, J. Cao, Z. Gan, M. Sun, Q. Shao, 與 X. Yue。 MVISTA-4D：用於機器人操作任務的視角一致性四維世界模型，搭配測試時動作推論。《arXiv 預印本 arXiv:2602.09878》，2026a。

Wang 等人（2024c）Q. Wang, J. Yang, Y. Wang, X. Jin, W. Zeng, 與 X. Yang。讓離線強化學習轉線上：為離線視覺強化學習設計的協作式世界模型。載於《神經資訊處理系統進展》，第 37 卷，頁碼 97203–97230，2024c。

Wang 等人（2022）R. Wang, P. Jansen, M.-A. Côté, 與 P. Ammanabrolu。 ScienceWorld：你的代理人比小學五年級生聰明嗎？載於《自然語言處理實證方法會議》，頁碼 11279–11298，2022。

Wang 等人（2024d）R. Wang, G. Todd, Z. Xiao, X. Yuan, M.-A. Côté, P. Clark, 與 P. Jansen。語言模型能作為基於文本的世界模擬器嗎？載於《計算語言學協會年會》，2024d。

Wang 等人（2024e）R. Wang, H. Yu, W. Zhang, Z. Qi, M. Sap, Y. Bisk, G. Neubig, 與 H. Zhu。 Sotopia-π：互動式學習具備社交智慧的語言代理人。載於《計算語言學協會年會》，頁碼 12912–12940，2024e。

Wang 等人（2024f）S. Wang, C. Liu, Z. Zheng, S. Qi, S. Chen, Q. Yang, A. Zhao, C. Wang, S. Song, 與 G. Huang。用遞歸沉思來增強大型語言模型代理人，以有效處理欺騙行為。載於《計算語言學協會年會》，頁碼 9909–9953，2024f。

Wang 等人（2024g）T. Wang, H. Dong, Y. Jiang, D. C. Parkes, 與 M. Tambe。論用於多代理人部分可觀察性的擴散模型：共享吸引子、誤差界限與複合流。《arXiv 預印本 arXiv:2410.13953》，2024g。

Wang 等人（2019）X. Wang, W. Shi, R. Kim, Y. Oh, S. Yang, J. Zhang, 與 Z. Yu。用於善意的說服：邁向為社會公益設計的個人化說服對話系統。載於《計算語言學協會年會》，頁碼 5635–5649，2019。

Wang 等人（2024h）X. Wang, Z. Zhu, G. Huang, X. Chen, J. Zhu, 與 J. Lu。 DriveDreamer：邁向由真實世界驅動的自動駕駛世界模型。載於《歐洲電腦視覺會議》，頁碼 55–72。Springer，2024h。

Wang 等人（2025e）Y. Wang, W. Luo, J. Bai, Y. Cao, T. Che, K. Chen, Y. Chen, J. Diamond, Y. Ding, W. Ding, L. Feng, G. Heinrich, J. Huang, P. Karkus, B. Li, P. Li, T.-Y. Lin, D. Liu, M.-Y. Liu, L. Liu, Z. Liu, J. Lu, Y. Mao, P. Molchanov, L. Pavao, Z. Peng, M. Ranzinger, E. Schmerling, S. Shen, Y. Shi, S. Tariq, R. Tian, T. Wekel, X. Weng, T. Xiao, E. Yang, X. Yang, Y. You, X. Zeng, W. Zhang, B. Ivanovic, 與 M. Pavone。 Alpamayo-R1：為長尾場景中的可泛化自動駕駛搭建推理與動作預測的橋樑。《arXiv 預印本 arXiv:2511.00088》，2025e。

Wang 等人（2025f）Z. Wang, Y. Zhang, X. Yue, X. Yue, Y. Li, W. Ouyang, 與 L. Bai。轉換模型：重新思考生成式學習的目標。《arXiv 預印本 arXiv:2509.04394》，2025f。

Wang 等人（2026b）Z. Wang, Z. Liu, J. Li, K. Huang, B. Xu, F. Kang, M. An, P. Wang, B. Jiang, Y. Wei, Y. Xietian, J. Pei, L. Hu, B. Jiang, H. Xue, Z. Wang, H. Sun, W. Li, W. Ouyang, X. He, Y. Liu, Y. Li, 與 Y. Zhou。 Matrix-Game 3.0：具備長時記憶的即時串流互動式世界模型。《arXiv 預印本 arXiv:2604.08995》，2026b。

Wang 等人（2024i）Z. M. Wang, Z. Peng, H. Que, J. Liu, W. Zhou, Y. Wu, H. Guo, R. Gan, Z. Ni, J. Yang, M. Zhang, Z. Zhang, W. Ouyang, K. Xu, S. W. Huang, J. Fu, 與 J. Peng。 RoleLLM：針對大型語言模型角色扮演能力的基準評測、誘發與增強。載於《計算語言學協會年會》，頁碼 14743–14777，2024i。

Watter 等人（2015）M. Watter, J. T. Springenberg, J. Boedecker, 與 M. Riedmiller。嵌入後控制：一個用於從原始影像進行控制的局部線性潛在動力學模型。載於《神經資訊處理系統進展》，第 28 卷，頁碼 2746–2754，2015。

Wei 等人（2025a）H. Wei, Z. Zhang, S. He, T. Xia, S. Pan, 與 F. Liu。 PlanGenLLMs：大型語言模型規劃能力的現代綜述。《arXiv 預印本 arXiv:2502.11221》，2025a。

Wei 等人（2025b）J. Wei, Y. Yang, X. Zhang, Y. Chen, X. Zhuang, Z. Gao, D. Zhou, G. Wang, Z. Gao, J. Cao, Z. Qiu, M. Hu, C. Ma, S. Tang, J. He, C. Song, X. He, Q. Zhang, C. You, S. Zheng, N. Ding, W. Ouyang, N. Dong, Y. Cheng, S. Sun, L. Bai, 與 B. Zhou。從科學用的 AI 到代理科學：自主科學發現的綜述。《arXiv 預印本 arXiv:2508.14111》，2025b。

Wilf 等人（2024）A. Wilf, S. Lee, P. P. Liang, 與 L.-P. Morency。三思而後行：換位思考改善了大型語言模型的心智理論能力。載於《計算語言學協會年會》，頁碼 8292–8308，2024。

Wolpert（1996）D. H. Wolpert。在學習演算法之間缺乏先驗的區別。《神經計算》，8(7):1341–1390，1996。

World Labs 團隊（2025a）World Labs 團隊。 Marble：一個多模態世界模型。World Labs 技術文章，2025a。網址：https://www.worldlabs.ai/blog/marble-world-model。

World Labs 團隊（2025b）World Labs 團隊。 RTFM：一個即時畫格模型。World Labs 研究預覽，2025b。網址：https://www.worldlabs.ai/blog/rtfm。

Wu 等人（2024a）H. Wu, Y. Jing, C. Cheang, G. Chen, J. Xu, X. Li, M. Liu, H. Li, 與 T. Kong。釋放大規模影片生成預訓練的潛力，用於視覺機器人操作。載於《國際學習表徵會議》，2024a。

Wu 等人（2024b）J. Wu, H. Wang, Y. Shang, M. Shah, 與 Y. Yan。 PTQ4DiT：針對擴散 Transformer 的訓練後量化。載於《神經資訊處理系統進展》，第 37 卷，頁碼 62732–62755，2024b。

Wu 等人（2024c）J. Wu, S. Yin, N. Feng, X. He, D. Li, J. Hao, 與 M. Long。 iVideoGPT：可互動的 VideoGPT 是可擴展的世界模型。載於《神經資訊處理系統進展》，第 37 卷，頁碼 68082–68119，2024c。

Wu 等人（2023a）P. Wu, A. Escontrela, D. Hafner, K. Goldberg, 與 P. Abbeel。 DayDreamer：用於物理機器人學習的世界模型。載於《機器人學習會議》。PMLR，2023a。

Wu 等人（2023b）Y. Wu, Y. He, Y. Jia, R. Mihalcea, Y. Chen, 與 N. Deng。 Hi-ToM：一個用於評估大型語言模型高階心智理論推理能力的基準。載於《自然語言處理實證方法會議》，頁碼 10691–10706，2023b。

Xia 等人（2024）H. Xia, Z.-H. Lin, W.-C. Ma, 與 S. Wang。 Video2Game：從單一影片建立即時、互動式、寫實且相容於瀏覽器的環境。載於《IEEE/CVF 電腦視覺與模式識別會議》，頁碼 4578–4588，2024。

Xiang 等人（2020）F. Xiang, Y. Qin, K. Mo, Y. Xia, H. Zhu, F. Liu, M. Liu, H. Jiang, Y. Yuan, H. Wang, L. Yi, A. X. Chang, L. J. Guibas, 與 H. Su。 SAPIEN：一個模擬的基於零件的互動式環境。載於《IEEE/CVF 電腦視覺與模式識別會議》，頁碼 11097–11107，2020。

Xiao 等人（2024）G. Xiao, Y. Tian, B. Chen, S. Han, 與 M. Lewis。具備注意力槽的高效串流語言模型。載於《國際學習表徵會議》，2024。

Xiao 等人（2026）Z. Xiao, J. Tu, C. Zou, Y. Zuo, Z. Li, P. Wang, B. Yu, F. Huang, J. Lin, 與 Z. Liu。 WebWorld：一個用於網路代理人訓練的大規模世界模型。《arXiv 預印本 arXiv:2602.14721》，2026。

Xie 等人（2024）T. Xie, D. Zhang, J. Chen, X. Li, S. Zhao, R. Cao, T. J. Hua, Z. Cheng, D. Shin, F. Lei, Y. Liu, Y. Xu, S. Zhou, S. Savarese, C. Xiong, V. Zhong, 與 T. Yu。 OSWorld：為真實電腦環境中的開放式任務進行多模態代理人基準測試。載於《神經資訊處理系統進展》，第 37 卷，頁碼 52040–52094，2024。

Xing 等人（2024）J. Xing, M. Xia, Y. Zhang, H. Chen, W. Yu, H. Liu, X. Wang, T.-T. Wong, 與 Y. Shan。 DynamiCrafter：使用影片擴散先驗來驅動開放領域的影像動畫。載於《歐洲電腦視覺會議》，頁碼 399–417。Springer，2024。

Xu 等人（2024a）H. Xu, R. Zhao, L. Zhu, J. Du, 與 Y. He。 OpenToM：一個用於評估大型語言模型心智理論推理能力的全面基準。載於《計算語言學協會年會》，頁碼 8593–8623，2024a。

Xu 等人（2026a）X. Xu, H. Li, J. Ye, Y. Chen, J. Zeng, X. Chen, L. Xu, D. Lin, W. Li, 與 J. Pang。 FutureVLA：為視覺-語言-行動模型而生的聯合視覺運動預測。《arXiv 預印本 arXiv:2603.10712》，2026a。

Xu 等人（2026b）X. Xu, A. Liang, Y. Liu, L. Li, L. Kong, Z. Liu, 與 Q. Liu。 U4D：從 LiDAR 序列進行不確定性感知的四維世界建模。載於《IEEE/CVF 電腦視覺與模式識別會議》，2026b。

Xu 等人（2024b）Y. Xu, Z. Wang, J. Wang, D. Lu, T. Xie, A. Saha, D. Sahoo, T. Yu, 與 C. Xiong。 Aguvis：用於自主圖形使用者介面互動的統一純視覺代理人。《arXiv 預印本 arXiv:2412.04454》，2024b。

Xu 等人（2023）Z. Xu, C. Yu, F. Fang, Y. Wang, 與 Y. Wu。在狼人殺遊戲中運用強化學習進行策略性玩法的語言代理人。《arXiv 預印本 arXiv:2310.18940》，2023。

Yamada 等人（2025）Y. Yamada, R. T. Lange, C. Lu, S. Hu, C. Lu, J. Foerster, J. Clune, 與 D. Ha。 AI 科學家-v2：透過代理人式的樹狀搜尋達到工作坊等級的自動化科學發現。《arXiv 預印本 arXiv:2504.08066》，2025。

Yan 等人（2026）T. Yan, T. Tang, X. Gui, Y. Li, J. Zhesng, W. Huang, L. Kong, W. Han, X. Zhou, X. Zhang, Y. Zhan, K. Zhan, C. zhong Xu, 與 J. Shen。 Ad-r1：搭配公正世界模型，用於端到端自動駕駛的閉環強化學習。載於《IEEE/CVF 電腦視覺與模式識別會議》，2026。

Yang 等人（2026）C. Yang, X. Lin, S. Li, W. Wang, R. Guo, F. Feng, 與 T.-S. Chua。大型語言模型能否推導出新知識？一個用於生物知識發現的動態基準。《arXiv 預印本 arXiv:2603.03322》，2026。

Yang 等人（2024a）J. Yang, C. E. Jimenez, A. Wettig, K. Lieret, S. Yao, K. Narasimhan, 與 O. Press。 SWE-Agent：代理人電腦介面實現了自動化軟體工程。載於《神經資訊處理系統進展》，第 37 卷，頁碼 50528–50652，2024a。

Yang 等人（2025a）P. Yang, H. Ci, 與 M. Z. Shou。 macOSWorld：一個用於圖形使用者介面代理人的多語言互動基準。《arXiv 預印本 arXiv:2506.04135》，2025a。

Yang 等人（2024b）S. Yang, Y. Du, S. K. S. Ghasemipour, J. Tompson, L. P. Kaelbling, D. Schuurmans, 與 P. Abbeel。學習互動式真實世界模擬器。載於《國際學習表徵會議》，2024b。

Yang 等人（2025b）S. Yang, W. Huang, R. Chu, Y. Xiao, Y. Zhao, X. Wang, M. Li, E. Xie, Y. Chen, Y. Lu, S. Han, 與 Y. Chen。 LongLive：即時互動式長影片生成。《arXiv 預印本 arXiv:2509.22622》，2025b。

Yang 等人（2025c）S. Yang, H. Xi, Y. Zhao, M. Li, J. Zhang, H. Cai, Y. Lin, X. Li, C. Xu, K. Peng, J. Chen, S. Han, K. Keutzer, 與 I. Stoica。 Sparse VideoGen2：透過語意感知排列，用稀疏注意力加速影片生成。《arXiv 預印本 arXiv:2505.18875》，2025c。

Yang 等人（2024c）Z. Yang, X. Du, J. Li, J. Zheng, S. Poria, 與 E. Cambria。用於自動化開放領域科學假說發現的大型語言模型。載於《計算語言學協會年會》，頁碼 13545–13565，2024c。

Yang 等人（2024d）Z. Yang, Z. Zhang, Z. Zheng, Y. Jiang, Z. Gan, Z. Wang, Z. Ling, J. Chen, M. Ma, B. Dong, P. Gupta, S. Hu, Z. Yin, G. Li, X. Jia, L. Wang, B. Ghanem, H. Lu, C. Lu, W. Ouyang, Y. Qiao, P. Torr, 與 J. Shao。 Oasis：搭載一百萬個代理人的開放社群互動模擬。《arXiv 預印本 arXiv:2411.11581》，2024d。

Yang 等人（2025d）Z. Yang, W. Liu, B. Gao, Y. Liu, W. Li, T. Xie, L. Bing, W. Ouyang, E. Cambria, 與 D. Zhou。 MOOSE-chem2：透過階層式搜尋探索大型語言模型在細粒度科學假說發現中的極限。發表於《第三十九屆神經資訊處理系統年會》，2025d。

Yang 等人（2025e）Z. Yang, W. Liu, B. Gao, T. Xie, Y. Li, W. Ouyang, S. Poria, E. Cambria, 與 D. Zhou。 MOOSE-Chem：用於重新發現未見化學科學假說的大型語言模型。發表於《國際學習表徵會議》，2025e。

Yao 等人（2022）S. Yao, H. Chen, J. Yang, 與 K. Narasimhan。 WebShop：透過情境化語言代理人邁向可擴展的真實世界網路互動。發表於《神經資訊處理系統進展》，第 35 卷，頁碼 20744–20757，2022。

Ye 等人（2025）J. Ye, Z. Wang, H. Sun, K. Chandrasegaran, Z. Durante, C. Eyzaguirre, Y. Bisk, J. C. Niebles, E. Adeli, L. Fei-Fei, J. Wu, 與 M. Li。重新思考長篇影片理解的時間搜尋。發表於《IEEE/CVF 電腦視覺與模式識別會議》，頁碼 8579–8591，2025。

Ye 等人（2026a）J. Ye, F. Wang, N. Gao, J. Yu, Y. Zhu, B. Wang, J. Zhang, W. Jin, Y. Fu, F. Zheng, Y. Chen, 與 J. Pang。 ST4VLA：視覺-語言-動作模型的空間引導訓練。《arXiv 預印本 arXiv:2602.10109》，2026a。

Ye 等人（2026b）S. Ye, Y. Ge, K. Zheng, S. Gao, S. Yu, G. Kurian, S. Indupuru, Y. L. Tan, C. Zhu, J. Xiang, A. Malik, K. Lee, W. Liang, N. Ranawaka, J. Gu, Y. Xu, G. Wang, F. Hu, A. Narayan, J. Bjorck, J. Wang, G. Kim, D. Niu, R. Zheng, Y. Xie, J. Wu, Q. Wang, R. Julian, D. Xu, Y. Du, Y. Chebotar, S. Reed, J. Kautz, Y. Zhu, L. Fan, 與 J. Jang。世界動作模型即為零樣本策略。《arXiv 預印本 arXiv:2602.15922》，2026b。

Ye 等人（2021）W. Ye, S. Liu, T. Kurutach, P. Abbeel, 與 Y. Gao。使用有限資料掌握 Atari 遊戲。發表於《神經資訊處理系統進展》，第 34 卷，2021。

Yin 等人（2026）S. Yin, J. Ge, Z. Z. Wang, X. Li, M. J. Black, T. Darrell, A. Kanazawa, 與 H. Feng。透過交錯式多模態推理實現視覺即反向圖形代理人。《arXiv 預印本 arXiv:2601.11109》，2026。

Yin 等人（2024a）T. Yin, M. Gharbi, T. Park, R. Zhang, E. Shechtman, F. Durand, 與 W. T. Freeman。用於快速圖像合成的改良分佈匹配蒸餾。發表於《神經資訊處理系統進展》，第 37 卷，頁碼 47455–47487，2024a。

Yin 等人（2024b）T. Yin, Q. Zhang, R. Zhang, W. T. Freeman, F. Durand, E. Shechtman, 與 X. Huang。從慢速雙向到快速自迴歸影片擴散模型。《arXiv 預印本 arXiv:2412.07772》，2024b。

Ying 等人（2025）L. Ying, T. Zhi-Xuan, L. Wong, V. Mansinghka, 與 J. B. Tenenbaum。用語言增強的貝氏心智理論理解認識模態語言。《計算語言學協會彙刊》，13:613–637，2025。

Yokoyama 等人（2024）N. Yokoyama, R. Ramrakhya, A. Das, D. Batra, 與 S. Ha。 HM3D-OVON：用於開放詞彙物件目標導航的資料集與基準。發表於《IEEE/RSJ 智慧型機器人與系統國際會議》，頁碼 5543–5550，2024。

Yu 等人（2025a）J. Yu, Y. Qin, X. Wang, P. Wan, D. Zhang, 與 X. Liu。 GameFactory：用生成式互動影片創造新遊戲。發表於《IEEE/CVF 國際電腦視覺會議》，頁碼 11590–11599，2025a。

Yu 等人（2020）T. Yu, D. Quillen, Z. He, R. Julian, K. Hausman, C. Finn, 與 S. Levine。 Meta-World：用於多任務與元強化學習的基準與評估。發表於《機器人學習會議》，頁碼 1094–1100，2020。

Yu 等人（2025b）X. Yu, X. Qi, Z. Li, K. Zhang, R. Zhang, Z. Lin, E. Shechtman, T. Wang, 與 Y. Nitzan。自我評估解鎖任意步驟的文字到圖像生成。《arXiv 預印本 arXiv:2512.22374》，2025b。

Yu 等人（2026）X. Yu, B. Peng, R. Xu, Y. Shen, P. He, S. Nath, N. Singh, J. Gao, 與 Z. Yu。針對基於大型語言模型代理人的強化世界模型學習。《arXiv 預印本 arXiv:2602.05842》，2026。

Yue 等人（2025）J. Yue, Z. Huang, Z. Chen, X. Wang, P. Wan, 與 Z. Liu。用人工智慧模擬視覺世界：一份路線圖。《arXiv 預印本 arXiv:2511.08585》，2025。

Zeng 等人（2025）Z. Zeng, J. Liu, S. Chen, T. He, Y. Liao, Y. Tian, J. Wang, Z. Wang, Y. Yang, L. Yin, M. Yin, Z. Zhu, T. Cai, Z. Chen, J. Chen, Y. Du, X. Gao, J. Guo, L. Hu, J. Jiao, X. Li, J. Liu, S. Ni, Z. Wen, G. Zhang, K. Zhang, X. Zhou, J. Blanchet, X. Qiu, M. Wang, 與 W. Huang。 FutureX：用於未來預測中大型語言模型代理人的進階即時基準。《arXiv 預印本 arXiv:2508.11987》，2025。

Zhang 等人（2025a）C. Zhang, Z. Yang, J. Liu, Y. Han, X. Chen, Z. Huang, B. Fu, 與 G. Yu。 AppAgent：作為智慧型手機使用者的多模態代理人。發表於《CHI 人機互動會議》，2025a。

Zhang 等人（2025b）D. Zhang, J. Lei, J. Li, X. Wang, Y. Liu, Z. Yang, J. Li, W. Wang, S. Yang, J. Wu, P. Ye, W. Ouyang, 與 D. Zhou。 Critic-V：視覺語言模型批評家有助於捕捉多模態推理中的錯誤。發表於《IEEE/CVF 電腦視覺與模式識別會議》，頁碼 9050–9061，2025b。

Zhang 等人（2026a）H. Zhang, G.-H. Yuan, C. Yuan, T. Xu, T. Bian, H. Cheng, W. Huang, D. Zhao, 與 Y. Rong。 Lingshu-Cell：一個面向虛擬細胞的轉錄組建模生成式細胞世界模型。《arXiv 預印本 arXiv:2603.25240》，2026a。

Zhang 等人（2024a）L. Zhang, Y. Xiong, Z. Yang, S. Casas, R. Hu, 與 R. Urtasun。 Copilot4D：透過離散擴散學習用於自動駕駛的無監督世界模型。發表於《國際學習表徵會議》，2024a。

Zhang 等人（2025c）L. Zhang, S. Cai, M. Li, G. Wetzstein, 與 M. Agrawala。下一影格預測影片擴散模型中的影格上下文打包與漂移預防。《arXiv 預印本 arXiv:2504.12626》，2025c。

Zhang 等人（2025d）P.-F. Zhang, Y. Cheng, X. Sun, S. Wang, F. Li, L. Zhu, 與 H. T. Shen。邁向世界模型的一步：機器人操作綜述。《arXiv 預印本 arXiv:2511.02097》，2025d。

Zhang 與 Chen（2023）Q. Zhang 與 Y. Chen。使用指數積分器快速取樣擴散模型。發表於《國際學習表徵會議》，2023。

Zhang 等人（2023a）W. Zhang, G. Wang, J. Sun, Y. Yuan, 與 G. Huang。 STORM：基於效率隨機變壓器的強化學習世界模型。發表於《神經資訊處理系統進展》，第 36 卷，2023a。

Zhang 等人（2026b）W. Zhang, B. Terver, A. Zholus, S. Chitnis, H. Sutaria, M. Assran, A. Bar, R. Balestriero, A. Bardes, Y. LeCun, 與 N. Ballas。使用潛在世界模型進行階層式規劃。《arXiv 預印本 arXiv:2604.03208》，2026b。

Zhang 等人（2025e）X. Zhang, Y. Huang, C. Ma, Z. Chen, L. Ma, Y. Du, S.-C. Zhu, Y. Yang, 與 X. Feng。社會世界模型增強的機制設計策略學習。《arXiv 預印本 arXiv:2510.19270》，2025e。

Zhang 等人（2025f）X. Zhang, J. Lin, X. Mou, S. Yang, X. Liu, L. Sun, H. Lyu, Y. Yang, W. Qi, Y. Chen, G. Li, L. Yan, Y. Hu, S. Chen, Y. Wang, X. Huang, J. Luo, S. Tang, L. Wu, B. Zhou, 與 Z. Wei。 SocioVerse：由大型語言模型代理人與一千萬真實世界使用者池驅動的社會模擬世界模型。《arXiv 預印本 arXiv:2504.10157》，2025f。

Zhang 等人（2025g）X. Zhang, W. Zhang, A. Wang, S.-K. Ng, 與 Y. Deng。 MASim：用於社會科學的多語言代理人基模擬。《arXiv 預印本 arXiv:2512.07195》，2025g。

Zhang 等人（2026c）X. Zhang, Z. He, Y. Zhu, S. Wu, S. Yu, M. Chu, W. Zhang, H. Tan, 與 J. Jia。 SearchGym：透過具成本效益且高保真的環境模擬引導真實世界搜尋代理人。《arXiv 預印本 arXiv:2601.14615》，2026c。

Zhang 等人（2026d）X. Zhang, S. Wu, Y. Zhu, H. Tan, S. Yu, Z. He, 與 J. Jia。 Scaf-GRPO：用於增強大型語言模型推理的鷹架式群體相對策略最佳化。發表於《國際學習表徵會議》，2026d。

Zhang 等人（2025h）Y. Zhang, S. Mao, T. Ge, X. Wang, Y. Xia, M. Lan, 與 F. Wei。 K 級推理：在大型語言模型中為策略推理建立高階信念。發表於《計算語言學協會發現：NAACL》，頁碼 7212–7234，2025h。

Zhang 等人（2023b）Z. Zhang, Y. Sheng, T. Zhou, T. Chen, L. Zheng, R. Cai, Z. Song, Y. Tian, C. Ré, C. Barrett, Z. Wang, 與 B. Chen。 H2O：用於大型語言模型高效生成推理的重點命中預言機。發表於《神經資訊處理系統進展》，第 36 卷，頁碼 34661–34710，2023b。

Zhang 等人（2024b）Z. Zhang, Y. Li, Y. Wu, Y. Xu, A. Kag, I. Skorokhodov, W. Menapace, A. Siarohin, J. Cao, D. Metaxas, S. Tulyakov, 與 J. Ren。 SF-V：單步前饋影片生成模型。發表於《神經資訊處理系統進展》，第 37 卷，頁碼 103599–103618，2024b。

Zhang 等人（2025i）Z. Zhang, Z. Qiu, Y. Wu, S. Li, D. Wang, Z. Zhou, D. An, Y. Chen, Y. Li, Y. Wang, C. Ou, Z. Wang, J. X. Chen, B. Zhang, Y. Hu, W. Zhang, Z. Wei, R. Ma, Q. Liu, B. Dong, Y. He, Q. Feng, L. Bai, Q. Gao, S. Sun, 與 S. Zheng。 OriGene：一個自我進化的虛擬疾病生物學家，自動化治療標靶發現。bioRxiv 2025.06.03.657658，2025i。

Zhang 等人（2025j）Z. Zhang, Q. Zhang, W. Cui, S. Shi, Y. Guo, G. Han, W. Zhao, J. Sun, J. Cao, J. Wang, H. Cheng, X. Ju, Z. Che, R. Xu, 與 J. Tang。機器人的佔據世界模型。《arXiv 預印本 arXiv:2505.05512》，2025j。

Zhao 等人（2025）B. Zhao, L. G. Foo, P. Hu, C. Theobalt, H. Rahmani, 與 J. Liu。基於大型語言模型的代理推理框架：從方法到場景的綜述。《arXiv 預印本 arXiv:2508.17692》，2025。

Zhao 等人（2026）H. Zhao, S. Zhou, H. Yang, Z. Qin, 與 T. Zhou。用於互動式世界建模的神經符號協同作用。《arXiv 預印本 arXiv:2602.10480》，2026。

Zhao 等人（2024）T. Zhao, T. Fang, H. Huang, E. Liu, R. Wan, W. Soedarmadji, S. Li, Z. Lin, G. Dai, S. Yan, H. Yang, X. Ning, 與 Y. Wang。 ViDiT-Q：用於圖像與影片生成的擴散變壓器高效準確量化。《arXiv 預印本 arXiv:2406.02540》，2024。

Zhen 等人（2025）H. Zhen, Q. Sun, H. Zhang, J. Li, S. Zhou, Y. Du, 與 C. Gan。 TesserAct：學習 4D 具身世界模型。《arXiv 預印本 arXiv:2504.20995》，2025。

Zheng 等人（2025a）D. Zheng, Z. Huang, H. Liu, K. Zou, Y. He, F. Zhang, Y. Zhang, J. He, W.-S. Zheng, Y. Qiao, 與 Z. Liu。 VBench-2.0：推進影片生成基準套件以實現內在忠實度。《arXiv 預印本 arXiv:2503.21755》，2025a。

Zheng 等人（2023）K. Zheng, C. Lu, J. Chen, 與 J. Zhu。 DPM-Solver-v3：用經驗模型統計改良的擴散 ODE 求解器。發表於《神經資訊處理系統進展》，第 36 卷，頁碼 55502–55542，2023。

Zheng 等人（2025b）K. Zheng, Y. Wang, Q. Ma, H. Chen, J. Zhang, Y. Balaji, J. Chen, M.-Y. Liu, J. Zhu, 與 Q. Zhang。透過分數正則化連續時間一致性實現大規模擴散蒸餾。《arXiv 預印本 arXiv:2510.08431》，2025b。

Zheng 等人（2024）W. Zheng, W. Chen, Y. Huang, B. Zhang, Y. Duan, 與 J. Lu。 OccWorld：學習用於自動駕駛的 3D 佔據世界模型。發表於《歐洲電腦視覺會議》，頁碼 55–72。Springer，2024。

Zheng 等人（2025c）X. Zheng, H. Lin, K. He, Z. Wang, Q. Fu, H. Fu, Z. Zheng, 與 Y. Liang。 MCU：開放式遊戲代理人的評估框架。發表於《國際機器學習會議》，頁碼 78221–78259。PMLR，2025c。

Zheng 等人（2026）Y. Zheng, L. Zhong, Y. Wang, R. Dai, K. Liu, X. Chu, L. Lv, P. Torr, 與 K. Q. Lin。 Code2World：透過可渲染程式碼生成實現的 GUI 世界模型。《arXiv 預印本 arXiv:2602.09856》，2026。

Zhou 等人（2024a）M. Zhou, H. Zheng, Z. Wang, M. Yin, 與 H. Huang。分數恆等蒸餾：用於單步生成的預訓練擴散模型指數級快速蒸餾。發表於《國際機器學習會議》，頁碼 62307–62331。PMLR，2024a。

Zhou 等人（2024b）S. Zhou, F. F. Xu, H. Zhu, X. Zhou, R. Lo, A. Sridhar, X. Cheng, T. Ou, Y. Bisk, D. Fried, U. Alon, 與 G. Neubig。 WebArena：用於建構自主代理人的真實網路環境。發表於《國際學習表徵會議》，2024b。

Zhou 等人（2024c）X. Zhou, H. Zhu, L. Mathur, R. Zhang, H. Yu, Z. Qi, L.-P. Morency, Y. Bisk, D. Fried, G. Neubig, 與 M. Sap。 SOTOPIA：語言代理人中社會智慧的互動式評估。發表於《國際學習表徵會議》，2024c。

Zhou 等人（2025a）X. Zhou, D. Liang, S. Tu, X. Chen, Y. Ding, D. Zhang, F. Tan, H. Zhao, 與 X. Bai。 HERMES：用於同時 3D 場景理解與生成的統一自動駕駛世界模型。發表於《IEEE/CVF 國際電腦視覺會議》，頁碼 27817–27827，2025a。

Zhou 等人（2025b）X. Zhou, J. Liu, A. Yerukola, H. Kim, 與 M. Sap。社會世界模型。《arXiv 預印本 arXiv:2509.00559》，2025b。

Zhu 等人（2025）H. Zhu, Y. Wang, J. Zhou, W. Chang, Y. Zhou, Z. Li, J. Chen, C. Shen, J. Pang, 與 T. He。 Aether：幾何感知統一世界建模。發表於《IEEE/CVF 國際電腦視覺會議》，頁碼 8535–8546，2025。

Zhu 等人（2024）Z. Zhu, X. Wang, W. Zhao, C. Min, B. Li, N. Deng, M. Dou, Y. Wang, B. Shi, K. Wang, C. Zhang, Y. You, Z. Zhang, D. Zhao, L. Xiao, J. Zhao, J. Lu, 與 G. Huang。 Sora 是世界模擬器嗎？關於通用世界模型及其延伸的全方位調查。《arXiv 預印本 arXiv:2405.03520》，2024。

本附錄擴展了第 2.1 節中 L1/L2/L3 階層架構背後的哲學動機。監督學習中的 i.i.d. 前提反映了休謨的自然齊一性假設：沒有它，歸納就沒有邏輯根據。Wolpert（1996）形式化了一個互補的觀點：缺乏結構性約束，沒有學習者普遍優於任何其他學習者。因此，架構和訓練課程作為「歸納先驗」，類似於康德（1781）所稱的「先天綜合」結構。在實踐中，像是卷積、等變性、注意力模式以及 JEPA 風格的預測目標這類機制，限制了哪些規律性是可表達的。LeCun 以 JEPA 為中心的架構（感知、世界模型、行動者、成本、短期記憶）可被視為這類先驗的一種特定選擇；我們的分類法對這些設計選擇所促成的「能力」進行分類，而不論模組數量或命名慣例。這種觀點得到了認知科學的支持。認知科學中的預測編碼框架假定大腦持續產生對傳入感官訊號的由上而下預測，並透過最小化預測誤差來更新其內部模型。Friston 的主動推論框架在變分自由能下統一了感知、規劃和探索，模糊了預測與行動之間的界線。「貝氏大腦」假說認為，感知本身就是對感官輸入潛在原因的一種機率推論形式，這表明單步潛在預測是產生更豐富世界建模能力的原始基礎。體現 L1 休謨經驗論的當代系統包括 Dreamer 風格的潛在預測和大規模序列模型用於短時程預測。這些系統從軌跡中提取時間規律並假設持續性，以單步準確性為賭注。

模態語意學（「可能世界」、「最接近的」反事實）提供了有用的詞彙（潛在狀態索引替代未來；行動劃分出可導航的分支），但其核心工程內容是干預性的，而非純粹模態性的。Lewis 的「最接近的可能世界」理論提供了反事實推理的操作核心：有效的推理不涉及探索任意可能性，而是分析與我們自己的世界最大程度相似的世界，在其中，最小干預產生一條連貫的軌跡。這種「近事實」啟發法使得 L2 模擬器在支援干預結構化想像的同時，保持可處理性。MuZero 在學習到的動態上進行搜尋，就是一個具體實例：它使用蒙地卡羅樹搜尋在學習模型中探索動作序列，展示了 Lewis 的「最接近的可能世界」理論如何轉化為實際的 AI 系統，從而實現用於決策的反事實推理。柏拉圖的洞穴提供了一個診斷意象（從一個不完整的生成器投射出的影子），提醒我們視覺流暢度並不保證保真度。一個擅長預測牆上影子的 L2 模擬器，可能從根本上受到牆壁尺寸的限制，無法接觸到投射那些影子的火焰。這個比喻捕捉到了「認識漂移」的概念：內部連貫的軌跡離開了訓練流形。當用於訓練模擬器的資料分佈與真實的「火焰」不一致時，L2 代理就會被困在自己模擬的陰影中。因此，它的「模態穩定性」成了它最大的負債：模型越依賴其內部假設來填補缺失資料的空白，當它面對真實世界不可化約的複雜性時，就變得越脆弱。Friston 的主動推論框架從相反方向解決了類似的擔憂：透過在變分自由能下統一感知、規劃和探索，它將 L1/L2 的邊界模糊成一個連續體。即使在理論上是連續的，我們的階段邊界作為一種工程診斷仍然有用：問題在於推演結果在下游是否足夠可靠。

波普爾對「冒險的、可證偽的預測」的強調，與受控的 L3 迴路產生共鳴：提議的修訂應該在留置探針、回歸測試套件或實驗結果上產生可衡量的改進，而不僅僅是事後調適。孔恩的「典範轉移」提供了一個有用的對比：孔恩強調非累積性的革命性斷裂，而當今大多數工程化的 L3 系統執行的是「漸進式」的鷹架更新，更接近拉卡托斯的進步式問題轉移，而非孔恩式的革命。皮爾士的「溯因」（最佳解釋推論）鬆散地驅動了當監視器標記異常時的假說生成步驟，但這個類比不應過度引申：當代系統通常在「結構化」空間內搜尋（程式草稿、模擬器掛鉤、實驗範本），而不是發明全新的本體論。拉卡托斯的科學研究綱領方法論提供了一個用於理解模型修訂的精確框架。系統有一個基本原則的「硬核」（模型的架構和歸納偏誤）和一個輔助假說的「保護帶」（學習到的參數）。在傳統訓練（L1 和 L2）中，誤差通過梯度下降被保護帶吸收。然而，當出現持續的結構性誤差時，L3 系統會識別出危機存在於硬核本身之中，並執行孔恩所謂的「典範轉移」，重組其內部本體論。Duhem-Quine 的確認整體論命題解釋了為何責任歸屬並非易事：誤差在模組間重新分配，直到診斷工具隔離出脆弱的組件。這種整體論使得從參數調整到結構性修訂的過渡變得複雜，從而使透過留置探針和針對性消融進行的證據驅動診斷成為 L3 系統的核心能力。Moerland 等人的基於模型的強化學習分類法沿著如動態如何與策略最佳化整合等軸線來組織方法；這些軸線是我們分類法的正交補充；兩個具有相同整合策略的演算法，可以根據模擬深度以及模型結構本身是否根據證據而改變，處於不同的能力水準。

與標準機器學習預測（例如分類、推薦）不同，世界模型針對的是「有狀態的動態」：環境在動作或干預下如何隨時間演變。上述定義的三個 L2 邊界條件（長時程一致性、干預敏感性和約束一致性）已經在模擬層面上捕捉到了這一區別的核心。第四種能力進一步將世界模型區分開來，但它與 L1/L2/L3 階層是「正交」的：閉環使用，即透過與被建模環境的互動來支援規劃、行動和自我改進。這項能力對具身代理至關重要，但「不」屬於 L1/L2/L3 定義的一部分：一個天氣模擬器或影片生成器可以是沒有嵌入式規劃器的 L2 世界模型。反之，強大的閉環效能還需要探索、獎勵規範、安全性和搜尋；這些故障模式並不總能單獨追溯至動態誤差。一個有用的實務區別是，世界模型是圍繞動作條件轉移查詢來組織的：透過以動作為條件，它們將模擬問題壓縮進與決策相關的未來，而非試圖不加區別地對所有可觀察到的變化進行建模。「世界模型」是描述性的：它近似狀態和觀察如何在動作或干預下演變。「規劃器」是規範性的：它根據這些預測選擇動作以最佳化目標。混淆這兩者會掩蓋失敗的根源（錯誤的動態 vs. 錯誤的目標或搜尋），並阻礙一個模型與多個規劃器的重複使用。世界模型對應於 T、O 和學習到的 (q_φ, p_θ, p_ψ)；規劃器是 π、一個價值函數，或一個消耗推演結果的搜尋程序（MCTS、想像的軌跡等）。不同的規劃器可以置於相同的動態之上；不同的動態可以被換入同一個規劃器進行消融研究。預測模擬器和影片模型說明了沒有規劃器的世界模型；基於模型的強化學習通常「共同訓練」動態和策略（Dreamer 風格），然而角色仍然是截然不同的。規劃器發出查詢（單步向前、多步推演、反事實編輯）；世界模型回答它們。L1/L2/L3 分類的是「查詢深度和可靠性」，而非規劃器的存在與否。世界模型針對的是狀態「如何」演變；常識提供的是「什麼通常持續存在、什麼是相關的，以及什麼在轉換中絕不能破壞」。然而，單獨任何一個都不足以對真實世界進行全面建模：流暢的推演可能違反不變量，而沒有動態的靜態「事實」則無法支援控制。例如，一個世界模型可能生成一個杯子掉落的視覺上平滑的推演，但如果沒有常識或物理不變量，它可能讓杯子穿過一張實心桌子；反過來說，知道固體物體不會相互穿透，本身並不能預測被推之後的精確軌跡。世界模型支援預測 z_{t-1}→z_t，(z_{t-1}, a_t)→z_t，和 z_t→o_t，包括 L1 運算元和 L2 軌跡。常識編碼了持續性、預設不變量和規範性結構，古典上與「框架問題」（指定什麼「不會」改變）相關。在 L2 中，約束一致性操作化了一個可測試的常識子集：違反行為可以針對明確的規則或領域模擬器進行衡量，即使完整的常識仍舊是開放式的。

我們的 L1/L2/L3 階層並非智慧系統唯一的能力分解方式。我們在下方將其與四個有影響力的框架進行對比。對應關係是「部分的和類比的」，而非一對一的：每個比較框架都是為了不同的範疇和計算承諾而設計的，這些層級在每種情況下並不能完全對應到 L1/L2/L3。關鍵區別在於，我們的分類法是「架構無關的」和「跨領域的」：它統一適用於物理、數位、社會和科學體制。1. Pearl 的因果階層：L1 ≈ 關聯；L2 ≈ 干預。反事實層級在一個固定模型內進行推理，而 L3 修訂模型本身。2. LeCun 的自主機器架構：L1 ≈ 反應式；L2 ≈ 透過世界模型規劃。這個框架缺乏一個與 L3 相當的明確模型修訂階段。3. Friston 的主動推論：L1 ≈ 感知；L2 ≈ 規劃。提供了一個統一的貝氏原理，但不包含與 L3 相當的離散修訂階段。4. Moerland 等人的基於模型的強化學習綜述：L1 ≈ 模型學習；L2 ≈ 使用學習到的模型進行規劃。以整合策略而非能力水準來組織，且是強化學習專用的。

本附錄提供了第 4 節中總結的方法的擴展細節。有兩個反覆出現的維度有助於比較這些系統：表徵載體（佔據、點／粒子、高斯或基於資產的場景狀態）和動作耦合程度，範圍從被動延續到以動作為條件的預測和支援模擬器就緒的規劃。在學習物理世界模型中，一個顯而易見的趨勢是從以外觀為先的延續轉向承載幾何的模擬。這些系統越來越多地維護明確或半明確的 3D 場景結構，而非僅僅逐幀擴展像素，從而能夠支援以動作為條件的預測、碰撞推理和規劃。作為說明性的產業訊號而非同儕審查的系統，World Labs 2025 年的預覽指向了這個方向：RTFM 強調持續的即時互動，而 Marble 則將文字、圖像和粗略的 3D 佈局提升為可探索的 3D 世界。在學術系統中，Aether 在一個幾何感知框架中耦合了重建、動作條件預測和視覺規劃，而 TesserAct 則將具身預測表述為學習具有空間和時間一致性的 4D 場景。RoboOccWorld 藉由直接在佔據的 3D 空間中預測場景演變，在體積層面上明確了幾何承諾，使得一個結構是否被佔據成為碰撞檢查、運動規劃和多步空間推理的一級輸出。其他研究則朝向更詳細的模擬基底發展。GAF 用 4D 高斯場表示機器人互動，ParticleFormer 為多材料操作建模點雲動態，而 GWM 則將高斯原語傳播視為神經模擬器和表徵學習基底。LiDARCrafter、DynamicCity 和 U4D 從原生 3D 表徵（如點雲和佔據網格）模擬 4D 世界。PointWorld 進一步將狀態和動作統一為 3D 點流，目標是跨具身操作。綜合來看，這些方法表明了一種從通用影片延續轉向為接觸豐富、動作敏感的動態暴露更精細操作結構的表徵的轉變。一個相關的方向較少專注於預測本身，而更多關注於產生能直接支援下游互動的資產和視圖。PhysX-Anything 從單張自然圖像生成關節式的物理 3D 資產，以便直接在模擬中使用，而 MVISTA-4D 則擴展到從單視角到任意視角的 RGBD 想像，並具備測試時動作最佳化。在這些系統中，世界模型變得更像是一個空間上可查詢的潛在場景機器，而非被動的渲染器。廣義而言，基於佔據的方法有利於全域自由空間推理和碰撞檢查，但仍相對粗略；基於點和粒子的方法能更好地捕捉接觸豐富的局部動態，但難以擴展；高斯風格的表徵改進了視覺和空間保真度，但對於嚴格的物理互動，通常需要額外的結構。

自動駕駛是一個特別明確的 L2 設定，因為有用的推演必須同時保留幾何精度（車道結構、自由空間）、動態一致性（車輛運動學、車流），以及反事實敏感性：假如自車提早煞車或變換車道，周遭的軌跡和佔據狀態也應該相應地協同更新，而非僅是延續同一場景（Hu 等人，2025a；Wang 等人，2025e；Liang 等人，2026a）。先前的系統如 GAIA-1（Hu 等人，2023）和 DriveWorld（Min 等人，2024）已初步建立以控制訊號為條件的場景生成。

後續的研究主要沿著兩個軸線發展。在「表徵」軸線上，Copilot4D（Zhang 等人，2024a）透過在光學雷達點雲上進行離散擴散，引入了無監督的 4D 建模；OccWorld（Zheng 等人，2024）則轉向使用類似 GPT 的時空轉換器來處理 3D 佔據狀態；而 Hermes（Zhou 等人，2025a）統合了鳥瞰視角（BEV）場景理解與未來生成。在「保真度－可控性」軸線上，VISTA（Gao 等人，2024）展示了 576x1024 解析度、10Hz 更新率下長達 15 秒的連貫推演；DriveDreamer（Wang 等人，2024h）則完全以自然駕駛資料為基礎，利用擴散骨幹建構世界模型。AD-R1（Yan 等人，2026）透過結合公正的世界建模與包含合理碰撞及偏離道路事件的豐富課程，建構出第一個閉迴路模擬器。

另一條研究路線則關注「微調下的策略校準」，而非僅止於基礎表徵本身：AdaWM（Wang 等人，2025d）透過低秩校準來因應強化學習微調期間的表徵退化問題，該校準方法能在保留預訓練結構的同時適應新的駕駛策略。這項進展也標誌著從開迴路場景生成轉向閉迴路控制支援的轉變，在閉迴路情境中，行動不僅是條件變數，而是候選的干預方案，必須在執行前比較其後果。

C.2 軟體、網頁與遊戲系統

遊戲世界模型。遊戲世界在物理智慧與數位智慧的交會處佔據了一個獨特的位置：視覺動態遵循類似物理的規則（渲染、物件運動、碰撞），但狀態轉移最終仍由確定性的遊戲邏輯（分數更新、關卡觸發器、物品欄變更）所支配。這種重疊使得遊戲成為世界模型的天然測試平台，因為此類模型必須整合感知預測與基於規則的推理。NitroGen（Magne 等人，2026）是 NVIDIA 的開源視覺行動基礎模型，在超過 1000 款遊戲中經過 4 萬小時的遊玩資料訓練，透過大規模行為複製在未見過的遊戲上獲得 52% 的提升。在 L1 階段的前期研究，包括 DIAMOND（Alonso 等人，2024）和 Genie（Bruce 等人，2024）（第 3 節），已建立了逐幀預測的基礎；而 L2 層級的挑戰在於長時域、以動作為條件的模擬，且必須同時尊重視覺動態與底層的遊戲規則。GameNGen（Valevski 等人，2025）證明了在 DOOM 遊戲上訓練的擴散模型可以作為一個 20 FPS 的即時神經遊戲引擎，生成與原始引擎難以區分的互動畫面。Video2Game（Xia 等人，2024）將單一影片轉換為具有即時物理和渲染的互動式 3D 遊戲環境，在理解被動影片與互動式世界模擬之間搭起橋樑。在這些領域中，狀態包含了 DOM 結構、焦點、檔案系統和應用程式狀態機；可評估的任務涵蓋了作業系統（Xie 等人，2024；Yang 等人，2025a）、網頁（Zhou 等人，2024b；Deng 等人，2023；Yao 等人，2022），以及軟體除錯工作流程（Jimenez 等人，2024；Yang 等人，2024a；Shi 等人，2017）。

C.3 社會模擬與多代理人系統

心智理論提示與推理。結構化的提示策略顯示，社會推理的瓶頸在於推理的結構，而非知識本身。SymbolicToM（Sclar 等人，2023）在每個故事事件後為角色建構顯式的信念圖譜，並透過圖譜走訪支援高達三階的信念推理（ACL 2023 傑出論文獎）。SimToM（Wilf 等人，2024）將觀點取替實作為一個兩階段流程，其靈感源自認知科學中的「模擬理論」：首先將脈絡過濾至目標角色所知的範圍，再從該過濾後的視角來回答問題。K 階推理（Zhang 等人，2025h）在大型語言模型中遞迴地實作行為經濟學中的 Level-K 架構以進行協商。思維追蹤（Kim 等人，2025）則透過類似循序蒙地卡羅法的方式產生假設，來實作近似貝氏推論，其表現顯著優於 o3-mini 等推理模型，這暗示社會推理可能需要與數學演繹根本不同的計算機制。

沙盒架構與規模。Project Sid（AL 等人，2024）採用 PIANO 架構（透過神經協調的並行資訊聚合）在《Minecraft》中的六個城鎮部署了多達 1000 個代理人，該架構是一種受大腦啟發的模組化設計，具備獨立且並行的認知、規劃、運動執行和語音模組。衍生的現象包括自發的專業分工、由性格驅動的社交網絡形成、民主治理，以及包含自發性宗教傳播在內的文化傳承。Sotopia 的衍生版本包含 Sotopia-π（Wang 等人，2024e，用於社交技能的互動式自我強化學習）和 Lifelong-Sotopia（多回合長期一致性評估）。AgentSociety（Piao 等人，2025）在一個整合了都市、社會與經濟的環境中，模擬了一萬多名代理人，產生五百萬次互動，並包含了受馬斯洛需求層次理論啟發的情緒與認知模型。已部署的平台如 Moltbook¹¹1https://www.moltbook.com/ 提供了持續的社交環境，讓 AI 代理人能自主發文、討論並形成社群規範，填補了模擬環境與真實世界代理人社群之間的鴻溝。

衍生的社會現象。在 15 個大型語言模型中，只有 2 個能在公共資源困境的情境中達成可持續的合作（Piatti 等人，2024），而且大型語言模型代理人跨世代的合作演化被證明是高度依賴模型本身的（Vallinder 與 Hughes，2025）。然而，規範與慣例確實會浮現：Ren 等人（2024）記錄了大型語言模型社會中的規範形成，而 Ashery 等人（2025）則發現社會慣例存在著臨界數量的引爆點，在群體層次出現了個體代理人所沒有的集體偏見。Melting Pot（Leibo 等人，2021）提供了超過 50 種涵蓋合作、競爭、欺騙和協調的基板，以系統性地評估這類動態。角色扮演系統如 RoleLLM（Wang 等人，2024i）、CharacterLLM（Shao 等人，2023）和 ChatHaruhi（Li 等人，2023a），則透過角色個性微調和基於記憶的維護來探測角色的一致性。Shanahan 等人（2023）主張，大型語言模型透過分佈式表徵來維護角色情境的隱性世界模型。《狼人殺》和《阿瓦隆》則作為欺騙與信任的濃縮測試平台：一項全面的《阿瓦隆》調查研究（Lan 等人，2024）記錄了衍生的領導力和偽裝策略；ReCon（Wang 等人，2024f）引入了遞迴視角轉換來處理欺騙行為；而《The Traitors》（Curvo，2025）則發現，欺騙者總是能藉由利用誠實參與者的認知限制來獲取最終勝利。

數位孿生社會。S³（Gao 等人，2023）模擬了社群媒體平台上的資訊傳播、情緒感染和態度極化現象；其擴展版本成功預測了 2024 年美國總統大選的結果，展示出對真實世界現象的預測效度。SocioVerse（Zhang 等人，2025f）則將社會模擬對照了一個包含上千萬真實世界用戶的群體進行驗證，實現了前所未有規模下的選舉預測、突發新聞回應和經濟調查複製。PersuasionForGood（Wang 等人，2019）將說服過程模型化為一種社會狀態轉移過程，追蹤了十種不同策略如何轉變態度，從而確立了社會動態是因人而異而非普遍適用的。

體制化與形式化方法。正如 Dignum 與 Dignum（2025）所論證的，當前基於大型語言模型的代理人展現出行為自主性，卻缺乏明確的推理結構。BDI（信念－慾望－意圖）架構（Rao 與 Georgeff，1995）、規範式多代理人系統（Boella 與 van der Torre，2007）、電子機構（Esteva 等人，2001），以及形式化的承諾模型（Telang 等人，2021）提供了缺失的機制：對於心智狀態、社會義務和體制角色的顯式、可被檢視的表徵。MetaGPT（Hong 等人，2024）透過標準作業程序來編碼組織知識，而 ChatDev（Qian 等人，2024）則實作了具備溝通式去幻覺的聊天鏈架構，兩者都顯示出明確的體制約束在組織一致性上優於個別代理人的提示方法。策略對話系統進一步測試了社會動態：CraigslistBargain（He 等人，2018）將策略與生成解耦；NegotiationArena（Bianchi 等人，2024）量化了非理性行為；共識賽局（Jacob 等人，2024）將語言模型的解碼過程形式化為均衡搜尋；而賽局理論大型語言模型框架（Hua 等人，2024）則將逆向歸納法納入代理人的工作流程中。

C.4 科學人工智慧系統

神經動力學與可解釋性。DyNeMo（Gohil 等人，2022；Khan 等人，2023）結合了一個能將觀測值映射到潛在網路模式的編碼器，以及一個捕獲其時間演化的記憶模型，從而形成一個生成式動力系統。有了這個結構，DyNeMo 便能支援未來潛在狀態的前向模擬，並透過電腦模擬而非直接實驗的方式來預測神經對於外部介入的反應（Helfrich 等人，2014；Ngo 等人，2013）。然而，不同於物理系統中支配規律已很明確，大規模神經活動的動力學在很大程度上仍是未知的，這使得科學研究的主要目標轉向可解釋的機制發現。DyNeMo 透過學習結構化且可解釋的潛在表徵來促進此一目標，這些表徵捕捉了功能性大腦網路的空間模式，其時間統計數據則揭示了更高層次的組織原則，包括網路活化中的結構化循環（van Es 等人，2025）。這突顯了科學世界模型的一個獨特角色：不僅是模擬已知的動力學，更是透過可解釋的表徵及其統計規律性，來自行發現狀態空間和轉移結構。

算子學習與分子替代模型。神經算子框架（Kovachki 等人，2023）為學習無窮維函數空間之間的映射提供了統一的理論基礎，確立了支撐 FNO、DeepONet 及後續架構的近似理論和誤差界線。PINO（Li 等人，2024e）將神經算子架構與物理資訊偏微分方程殘差損失結合起來，實現了零樣本超解析度，並在稀疏資料下獲得更好的泛化能力。PI-DeepONet（Goswami 等人，2023）則以物理資訊訓練來擴展 DeepONet 框架，將支配性的偏微分方程殘差直接嵌入到算子學習的目標中。SchNet（Schütt 等人，2017）為分子圖引入了連續濾波器卷積，實現了無需人工設計特徵的端到端量子化學性質學習，並成為等變圖神經網路位能的前身架構。關於分子模擬的機器學習方法（包括神經位能、粗粒化模型和生成式採樣）的全面處理，請參閱 Noé 等人（2020）。玻爾茲曼生成器（Noé 等人，2019）開創了用於採樣分子系統熱力學平衡狀態的深度生成模型，繞過了傳統分子動力學中的序列瓶頸。ClimaX（Nguyen 等人，2023）則將基礎模型典範引入了天氣與氣候領域，在 CMIP6 再分析資料上進行自監督式學習的預訓練，並微調應用於預報和氣候推估任務。

F.4 記憶體與KV快取壓縮

在長時程推演中，自回歸令牌動態受到嚴重的記憶體瓶頸限制，因為KV快取會線性增長。關鍵的壓縮策略包括：

令牌驅逐：重擊保留（Zhang等人，2023b）與注意力槽保存（Xiao等人，2024）會捨棄低顯著性的條目，以限制快取大小。
塊級自回歸生成：現代的影片模型以塊為單位進行生成（Yin等人，2024b；Huang等人，2025c；Feng等人，2025b），儘管硬體限制通常將輸出長度限制在大約60秒。
KV量化：諸如KIVI（Liu等人，2024b）、KVQuant（Hooper等人，2024）、QuaRot（Ashkboos等人，2024）和RotateKV（Su等人，2025b）等方案，在大型語言模型服務中已相當成熟，但由於活化統計的差異，將它們移植到影片擴散模型時會導致嚴重的品質損失。
時空感知壓縮：有效的影片KV壓縮需要明確利用影片特有之時空冗餘的框架（Yang等人，2025c）。