DeepMind世界模型研究員：Transformer架構是否不重要，AGI的瓶頸在別處

DeepMind共同創辦人兼執行長 Demis Hassabis 在 CNBC 的開年專訪中給出了一個判斷：AGI 還差一塊拼圖，可能是世界模型。

他維持「5-10 年實現 AGI」的預測。2010 年創立 DeepMind 時，他預計這是一項為期 20 年的任務，現在看來進度符合預期。但他也承認，雖然 Scaling Laws 仍在有效，但回報卻在遞減。他說：「「遞減回報」和「零回報」是兩回事，我們仍然處於「非常好的回報值得繼續投入」的階段。」關鍵不在於 scaling laws 是否觸頂，而在於它能否單獨帶我們到達 AGI。Hassabis 的判斷是：可能不行。

他用「jagged intelligences」（參差不齊的智能）來形容當前的大模型：某些維度表現驚人，但換個提問方式就露餡。真正的通用智能不應該有這種不一致性。當前 LLM 缺失的關鍵能力包括：無法持續學習新事物、無法真正創造原創內容、無法提出新的科學假設。

所以，世界模型可能是那塊缺失的拼圖。它與 LLM 的區別在於：LLM 主要處理文本和靜態內容，但理解物理世界的因果關係、進行長期規劃，這些能力是缺失的。「如果你想解釋世界上以前不為人知的東西——這正是科學理論做的事——你必須有一個關於世界如何運作的準確模型。」

DeepMind 在世界模型方向上有多條並行的研究路線。Hassabis 提到的 Genie（互動式世界模型）側重於從文本或圖像生成可互動的 3D 環境，最新的 Genie 3 可以即時生成 720p、24fps 的互動世界，用於訓練 embodied agent。VEO（視訊生成模型）側重於高品質視訊生成，展示了對物理的深度理解，Genie 3 就建立在 VEO 3 的物理理解基礎上。

但 Hassabis 的訪問畢竟是 CEO 視角，戰略層面講得多，技術細節講得少。世界模型用於訓練 agent 的具體機制是什麼？當前的瓶頸在哪裡？這些問題我沒找到好的答案。

然後就刷到了 Danijar Hafner 的播客訪問（BuzzRobot 頻道）。他是 Google DeepMind Staff Research Scientist，也是 Dreamer 系列的作者。Dreamer 是 DeepMind 世界模型的另一條研究路線，和 Genie/VEO 側重點不同——後面會詳細解釋。Hafner 既做前沿研究，又親手把模型 scale 到前沿視訊模型的規模。他的視角兼具理論深度和工程務實。

說起來，AI 實驗室的研究員公開講內部進展，風險不小。xAI 研究員 Sulaiman Khan Ghori 上週剛做了一期播客，聊了不少內部細節：公司的扁平結構、每天在「Macrohard」專案上調整模型、用閒置 Tesla 車輛做「人類模擬器」agent 的計畫、要 scale 到一百萬個這樣的 AI worker。播客 1 月 15 日上線，週一他就離職了，個人簡介改成了「MACROHARD @xAI prev.」。外界猜測是洩露太多被請走。

相比之下，Google 這邊開放得多。Hafner 在播客裡講了很多 DeepMind 世界模型的進展，包括一些沒發表的 scaling 實驗結果。

世界模型：在想像中學習

先把概念講清楚。

世界模型的核心思想是：與其讓機器人在真實世界裡摔一萬次來學走路（昂貴、危險、慢），不如先學一個能預測物理世界變化的模型，然後在這個「想像」中大量訓練。想像中摔一萬次，成本幾乎為零。

這和傳統強化學習的區別在於：傳統方法讓 agent 直接和環境互動試錯，每一次試錯都有成本；世界模型的思路是先學會預測「如果我做 X，環境會變成什麼樣」，然後 agent 在這個預測出來的世界裡大量練習，最後再到真實環境驗證。

Dreamer 的定位和 Genie 不同。Genie 側重於「環境生成」——從文本或圖像 prompt 生成多樣化的可互動 3D 環境，讓使用者可以在裡面導航和探索。Dreamer 側重於「agent 訓練」——在準確的世界模型裡，用強化學習訓練 agent 完成具體的控制任務。

兩者的技術差異很明顯。Hafner 在 Dreamer 4 論文中指出，Genie 3 只支援攝影機動作和一個通用「interact」按鈕，而 Minecraft 需要完整的滑鼠鍵盤動作空間。Genie 能生成多樣場景，但「在學習物體互動和遊戲機制的精確物理方面仍有困難」。Dreamer 的優勢是準確物理預測——它真的學會了打破方塊、使用工具、和工作台互動這些遊戲機制——以及單 GPU 即時推理。

這也是為什麼 Hafner 的研究和視訊預測緊密相關。視訊預測本質上就是在學世界模型。如果一個模型能準確預測視訊的下一幀，它某種程度上就「理解」了那部分物理世界的運作規律。要預測一個物體怎麼移動，你必須知道它的質量、摩擦力、另一面長什麼樣（因為它可能會旋轉）、物體之間怎麼相互作用、人怎麼和物體互動。這些資訊，都可以從視訊預測中提取出來。

Dreamer 系列已經迭代到第四代了，每一代解決不同的問題。

前三代專注在線學習——從頭開始透過與環境互動學習，追求資料效率和最終性能。到 Dreamer 2 為止，model-based 演算法學得很快但會 max out；model-free 方法需要更多資料但天花板更高。Dreamer 3 終於做到了既快又強，而且不用調超參數。他們用 Minecraft 鑽石挑戰驗證——只從稀疏獎勵從頭學會獲取鑽石，這被廣泛認為是 AI 的一個里程碑。

Dreamer 4 則完全反過來，專注離線學習。Hafner 的原話是：「等等，我們已經知道怎麼在線學習了，那離線學習呢？」有時候和環境互動是危險的，你只有一個固定的人類資料集，能從中提取多強的策略？同樣用 Minecraft 鑽石任務驗證，但這次只用人類資料——而且用的資料量只有 OpenAI 的 VPT 離線 agent 的 1/100。

兩者都不是完美解決方案，只是在隔離的實驗設定中解決特定問題。未來自然會把這些融合在一起。

架構不重要，這四件事才重要

Hafner 有一個判斷很反直覺：幾乎任何架構都能帶我們到 AGI。

Transformer 能到 AGI，RNN 也能，差別只是計算效率和當前硬體的適配程度。RNN 訓練慢一點、推理快一點、可能需要更大模型來彌補架構瓶頸，但最終都能到。所以，關於 Transformer vs Mamba vs SSM 之類的架構之爭，在 Hafner 看來更多是效率問題，而非根本性問題。

那什麼才重要？Hafner 列了四件事：compute、objective functions（目標函數）、data、以及 RL 演算法細節。比如長期信用分配（long-term credit assignment）比基礎 RL 需要做更好。架構只是承載這些的容器。

另一個相關判斷：「LLM 能否帶我們到 AGI」這個問題本身已經過時了。為什麼？因為當下部署的前沿模型已經不是純 LLM 了——有圖像理解、圖像生成、視訊理解，視訊生成也快合進來了。討論「LLM 的局限」有點像討論「汽車能不能上天」——汽車不能，但加上翅膀的汽車能。

那 AGI 還缺什麼？Hafner 點了幾個具體的能力缺口。

長上下文理解。現在的模型號稱百萬 token 上下文，但對視訊來說遠遠不夠，視訊的 token 量太大。而且即使有了長上下文，模型真正基於全部上下文來檢索和推理的能力還沒到位。可能的方向包括：混合 retrieval 模型、學習狀態表示同時做注意力、類似 Transformer 但不需要回溯的關聯記憶。Hafner 提到，Transformer 之前有很多酷想法，只是當時太早了——「當時重要的不是長期記憶或花俏的尋址機制，而是 scale up 和計算效率。」

超越人類的推理。從人類學推理很容易，但這樣就被人類能力上限鎖死了。AI 系統應該能自己發現推理方式。這意味著要從原始的高維數據（視訊、音頻、人類生活數據、機器人數據）中提取抽象概念，然後在這些概念上做規劃。Hafner 坦言：「我認為我們還沒很好地掌握如何做到這一點。」

In-context learning 的根本局限

這是播客中一個重要但容易被忽視的討論。

訓練神經網路時，你用目標函數優化它，訓練越多就越好。但 in-context learning 是完全不同的機制。Hafner 說：「你只是希望模型學會了以看起來像學習的方式泛化。但系統裡沒有任何東西會讓它真正 aggressive 地優化任何目標。它並沒有真正努力去記住，沒有真正努力去理解上下文中的模式。」

我們可以透過構造巧妙的訓練樣本（強迫模型解謎題、記東西）來把這些能力訓進權重裡，但那終究是學習來的演算法，可能不如真正做優化那麼 goal-directed。

一種可能的方向是 nested learning（嵌套學習）：讓模型的一部分在推理時快速學習上下文，而不是像現在的 GPT 那樣上下文通過後就丟棄。Hafner 指出一個根本性問題：「你沒辦法在推理時優化，所以再多的預訓練也無法預見推理時會輸入什麼。」

他還提到可能需要多個學習時間尺度。快的時間尺度訓練效率更高，慢的時間尺度學習更深度的東西。他能想像一種通用演算法，你可以说「我要 k=5 個學習時間尺度」。目前還沒有在這個空間裡真正 work 的演算法，但這是個很有意思的方向。

有一種方式是：如果你有百萬用戶，也許可以把 1 萬個使用者互動 batch 在一起做一次更新，模型就真正深度學習了。現在 GPT-4 發布後和使用者互動產生的資料要等 1-2 年才能影響 GPT-5。能不能把這個週期縮到幾天，甚至幾秒？理論上能，但挑戰巨大：大模型訓練太貴、線上更新時保持安全性很難、靜態模型更容易研究和修補 quirks。

這些想法——nested learning、多時間尺度學習、持續學習——很多都受神經科學啟發。Hafner 提到一個有意思的觀點：Hassabis 的導師 Thomas Poggio 說，2015 年 Demis 認為構建通用智能是 80% 神經科學、20% 工程；最近更新成了 90% 工程。但 Hafner 認為，「既然我們最近把工程推得這麼遠，回去從神經科學獲取直覺的價值反而越來越大了。」

Scaling 的發現：視訊模型的天花板遠得很

Hafner 透露了一些沒發表的結果：他們把世界模型 scale 到了前沿視訊模型的規模，效果很好。

更重要的是他的判斷：視訊模型的 scaling 天花板，比文本模型高至少一個數量級。

為什麼？因為視訊蘊含的資訊量遠超文本。即使是頂級視訊模型，「基本上也是欠擬合的」。現在的視訊模型為了生成漂亮的電影片段做了 collapse，但如果目標是真正理解物理世界（而不只是生成漂亮視訊），scaling 的空間巨大。

Hafner 說，模型越大，各方面都會變得更銳利。比如庫存預測（在 Minecraft 中），如果模型太小就不準確。你可以專門收集這方面的資料來改進，但另一種方式是把模型做大 8 倍，它自然就會在庫存動態上變得很好。他們還做了完整的 YouTube 預訓練實驗——抓取大資料集、過濾品質、在上面訓練——那時候才真正看到強泛化收益。

這和 Hassabis 的判斷呼應。Hassabis 說 world model 可能是通向 AGI 缺失的那塊拼圖，Hafner 則從工程視角告訴你：這塊拼圖的潛力，我們才挖掘了一小部分。

不過 Hafner 也提到了世界模型的局限。Dreamer 4 只用人類資料訓練時，遇到了反事實問題：人類玩家從不嘗試用錯誤材料做鎬子（比如用鑽石做木鎬），所以世界模型不知道那些配方不存在，RL agent 會 exploit 這些漏洞——它看起來像是在做鎬子，世界模型就「好吧，給你一個鎬子」，儘管那個配方根本不存在。

解決方案是 2-3 輪環境互動的校正資料，問題就消失了。這裡有個重要的動態：RL agent 會找到世界模型的所有潛在漏洞，然後在真實環境部署獲得反饋，形成對抗博弈。最終世界模型會變得 robust，策略也會變強。

換句話說，純離線資料在真實世界不可能完美，必須與環境互動才能學到真正的因果模型。

目標函數：被低估的設計空間

Hafner 認為目標函數是一個被低估的改進方向。

他把目標函數分成兩類。一類是偏好型（reward、inductive bias）：由人類指定，沒有數學公式能描述，必須從人類回饋中學習。另一類是資訊型（預測、重構、好奇心）：讓模型理解資料本身。兩邊都有很大改進空間。

對於文本，next token prediction 可以走很遠，但也有更多可以做的——比如同時預測多個 token，可以讓模型更有遠見。

對於多模態，現在基本上是各種 loss 的縫合怪：視覺 encoder 用對比 loss、文本用 next token、圖像生成用 diffusion，還要平衡所有這些 loss。Hafner 認為可能有辦法把一切統一起來，「讓我們的生活更簡單，最終也能獲得更好的性能」。不同 loss 對不同模態有好處，但他認為這不是根本性的 trade-off，如果能抽象出來，好處可以跨模態共享。

對於 agent，短期 RL（1000 步以內）現在很穩定了，但端到端優化長 horizon 任務還不行，誤差在每個時間步累積。探索目標、goal-reaching 目標、通用的 robust reward model——這些都缺好的目標函數設計。

Hafner 的判斷是：「唯一缺的基本上就是目標函數。你可以说我們沒有資料，但說實話資料就在那兒，人工收集也不難，真正缺的是如何構建這樣系統的 idea。我們做了那麼多 scaling 和資料工程，已經很擅長這些了，不應該停下來。但這些現在不那麼難了，我們又回到了搞演算法的階段。」

預訓練和強化學習的分工

預訓練從樣本學知識，高效，適合吸收資訊。強化學習從 reward 學策略，適合優化。

Hafner 解釋了為什麼 RL 比預訓練更難學知識：用 reward 學習，你必須先猜一個知識點，然後模型才被告知猜得對不對。這比直接從樣本中吸收資訊低效得多。

但 RL 在優化策略上無可替代。關鍵問題是：取得最優控制資料幾乎不可能。人類資料不是 optimal 的，你讓 contractor 收集資料，可能要扔掉 99%，而且 optimal 還依賴於 horizon 長度——理想情況下你要對很長的 horizon 最優。這就是 RL 的價值——你不需要 optimal 資料，只需要讓模型自己試錯找到更好的策略。

人類也是這樣：透過觀察學知識（預測接下來會發生什麼），透過試錯學技能（強化學習）。觀察也能學到一些粗略但不精確的技能，因為我們預測別人會做什麼時用的心理表徵和我們自己的表徵差不多，所以能泛化到想像自己做那些事。

對機器人的意義：兩波衝擊

世界模型對機器人的影響，Hafner 認為會有兩波。

第一波是表徵。 從視訊預測模型學到的表徵，對物理世界的理解遠超現在的 VLM。精確物體位置、物理屬性（這個盤子有多滑？這個杯子要握多緊茶才不會灑？如果我從把手拿起這個杯子，要握多緊它才不會從手裡滑出去？）——這些對控制至關重要的資訊，是視訊預測的副產品。

從頭訓練策略需要大量資料，得到的策略窄而脆弱，只能在特定場景下工作；用預訓練 VLM 好一點，但那些表徵還不是為物理層面的世界理解設計的。用視訊預測模型的表徵做 imitation learning，效果已經 massively better。

第二波是虛擬訓練。 足夠多樣的預訓練加上少量機器人資料微調，世界模型就能模擬機器人在任意場景中的表現。Hafner 的原話是：「你可以在資料中心裡，讓機器人在一百萬個廚房、做一百萬種餐食，全部並行訓練。不用真的租一百萬間 Airbnb、造一百萬台機器人、把它們運到城市各處。」

大規模做這件事還有挑戰，但 Hafner 認為這是機器人領域的第二個 step change。Dreamer 4 的論文展示了完整的 recipe：添加 agent token 訓練 BC 策略，然後訓練 reward model，然後 RL 微調。

關於時間表，Hafner 給了一個預估：機器人可能在三到五年內，朝著實用的通用機器人產品的第一個版本取得很好的進展。複雜的長期推理可能要 5-10 年才能 crack，但實用的通用機器人不需要等那麼久。

這和 Hassabis 的判斷吻合。Hassabis 在訪問中說，2026 年機器人領域會有非常有趣的進展，DeepMind 正在用 Gemini Robotics 做一些雄心勃勃的專案。CNBC 主持人對此持懷疑態度——很多機器人其實是「提線木偶」，由控制室的人遠端操控（比如 Tesla 的 Optimus 機器人）。但正因如此，世界模型才重要：機器人要真正自主運作，需要理解物理世界。

LLM 為什麼在邊緣情況產生幻覺

Hafner 有個有趣的解釋，涉及到 agent 和環境的關係。

Agent 會收斂到一個 distribution，在那裡它能合理地達成目標，也能合理地預測會發生什麼。系統在那個資料上練得多，分配的模型容量也都在那個相關分布上，所以不太會失敗。但也會開始遺忘其他東西。

另一種構建更強系統的方式是做大、用更多資料訓練，擴大這個 niche。但分佈邊緣總會有模型出錯、泛化失敗、產生幻覺的地方。

Hafner 說：「我認為這就是我們現在在 LLM 上看到的——它們在大部分分佈內的東西上都相當通用、相當好，但在邊緣地帶會被絆倒、錯誤泛化、產生幻覺。」

做一些線上 RL 會幫助精煉系統：如果它產生幻覺，使用者不滿意，就會得到負 reward，然後要麼學會正確答案，要麼學會說「我不知道」，最終落在一個非常穩固的分佈上。

小結

把 Hafner 和 Hassabis 的觀點放在一起看，有幾個交叉驗證的判斷：

世界模型是重要方向。Hassabis 說這可能是 AGI 缺失的拼圖，Hafner 則在一線做這件事，而且透露 scale 到前沿規模效果很好。

視訊模型的潛力還沒充分釋放。Scaling 空間至少比文本大一個數量級，頂級模型還在欠擬合。

架構不是瓶頸。Transformer、RNN 都能到 AGI，真正重要的是 compute、目標函數、資料、演算法細節。當前模型已經不是純 LLM 了。

In-context learning 有根本性局限。沒有真正的目標優化，可能需要推理時學習和多時間尺度學習來突破。

機器人會在 3-5 年內有實質進展。不需要等到長期推理問題完全解決。世界模型會從表徵和虛擬訓練兩個方向推動這件事。

Hafner 最後說，這個領域太 interconnected 了，不太可能真正分化。隨著訓練大模型的開銷，只做一次訓練、得到一個能跨領域受益的模型才合理。Agent 已經在成為前沿模型的一部分，視訊生成雖然現在還分開，但可能一年內就會有用同一套權重的強大 omni 模型。

學習推理看起來概念上很有挑戰，可能需要5-10年。但實用的東西，會比我們想像的更快出現。

DeepMind世界模型研究員：Transformer架構是否不重要，AGI的瓶頸在別處

相關文章推薦

分享網址