圖靈獎得主Yann LeCun押注10億美元做空LLM！新一代AI架構究竟是什麼？

這篇文章我們將討論另一條同樣重要、但理論重心與工程路徑明顯不同的路線——由LeCun所倡導，以世界模型、聯合嵌入預測與表徵學習為核心的新AI架構。

Yann LeCun 照片

圖靈獎得主Yann LeCun作為聯合創始人與執行主席深度參與、由華人科學家謝賽寧（DiT 共同作者）共同創立的 AMI Labs，已成功完成高達 10.3 億美元的種子輪融資。以如此驚人的融資規模，AMI Labs 幾乎是以資本市場罕見的姿態，正式在技術路線上向當前的 LLM 範式發起正面挑戰。

AMI Labs 融資資訊

單純依賴「堆算力、堆數據」的擴展路徑，是否真能抵達可規劃、可理解、可行動的通用智慧？

LeCun 對 LLM 的質疑

當前的生成式人工智慧幾乎被「大型語言模型等於通用智慧」的敘事所主導。但以 LeCun 為代表的另一條路線始終在質疑：光靠在詞元層面做自我回歸預測，是否足以獲得真正理解世界、能夠長期規劃、能夠在現實環境中行動的智慧體？

新的AI架構構想圖

圍繞這個問題，一種新的技術構想逐漸成形：不再把「生成下一個像素、下一幀、下一個詞」當作智慧的核心，而是讓系統在抽象表徵空間中學習世界的穩定結構、可預測約束與行動後果，再把語言、規劃與控制建立在這一層之上。這條路線當前最具代表性的實現，就是 Joint-Embedding Predictive Architecture（JEPA）及其向影片世界模型發展的分支。

JEPA 架構示意圖

一、為什麼大型語言模型還不夠好

這套新架構的出發點並非否認大型語言模型的工程價值，而是指出：語言預測擅長壓縮人類已經寫出來的知識，但並不自動等同於對物理世界、因果結構、身體行動與長期目標的真正掌握。根據《A Path Towards Autonomous Machine Intelligence》這篇立場論文，如果機器要像動物或人類那樣學習，它至少需要同時具備三類能力：對世界狀態形成階層化表徵、在多個時間尺度上做預測與規劃、以及在不完全可觀測、不完全可預測的環境中選擇行動。這個定義本身已經把問題從「生成語言」轉向了「學習世界模型」。

從這個角度來看，當前主流生成式模型有兩個根本上的局限。

第一，它們通常在數據空間直接建模，也就是在像素、聲波或詞元上逼近條件分布；

第二，它們往往把訓練目標與最終智慧目標混為一談。然而現實世界不是靜態語料庫，而是一個高度多模態、部分可觀測、充滿分岔的動力系統。給定同一時刻的世界狀態，下一時刻可能出現多個同樣合理的結果。若模型被迫在原始像素上給出一個確定答案，它最容易學到的不是「未來為什麼會這樣」，而是「把多種可能平均起來」。這正是早期影片預測模型經常輸出模糊結果的重要原因。

二、核心判斷

這條路線並不否認生成本身，而是否定「在最低層數據細節上窮舉生成」應當成為通向智慧的主要路線。其核心判斷是：智慧系統首先應學會預測那些真正可預測、真正與任務相關的抽象結構，而把高頻細節、偶然噪聲、不可約隨機性留給潛變量、下游解碼器或專門的生成模組去處理。I-JEPA 論文對此說得非常明確：它是一種「非生成式（non-generative）」的自我監督方法，其做法不是重建圖像像素，而是從圖像的一部分上下文去預測同一圖像中其他區域的表徵；為了讓模型學到語義級資訊，目標塊必須夠大、上下文必須夠分散式。換句話說，模型並不是去記住每一個像素，而是逼自己抓住「這個區域大致是什麼、和周圍結構的關係是什麼、下一步哪些變化值得預測」。

I-JEPA 預測示意圖

到了影片版本，這一點更加被放大。V-JEPA 的官方介紹把它定義為一種「非生成式模型」，它在抽象表徵空間中預測被遮蔽的影片片段，而不是直接補像素；這樣做的目的，是讓模型把運算資源集中到高層概念資訊，而不是耗費在對下游任務不重要的細枝末節上。官方解釋中用了個非常直觀的例子：如果影片裡出現一棵樹，系統真正需要掌握的是「場景中有樹、樹在怎樣運動、樹與其他物件的關係如何」，而不是預測每一片葉子的微小抖動。

V-JEPA 影片預測示範

三、從孿生網路到反塌縮

要理解 JEPA，必須先理解它所繼承的表徵學習傳統。其關鍵問題不是「如何生成」，而是「如何獲得不塌縮、可遷移、有語義的表示」。孿生網路思路在這裡非常重要：給同一物件的兩個視角，要求兩個編碼器產生一致但不過度冗餘的表徵。真正的難點在於表徵塌縮（representation collapse）——也就是模型把不同輸入都映射到幾乎相同的向量，表面上損失很低，實際上什麼也沒學到。Barlow Twins 論文把這一點說得非常清楚：自我監督表徵學習反覆出現的問題就是平凡常數解（trivial constant solutions）；其解決辦法是測量兩個分支輸出之間的互相關矩陣，並把它逼近單位矩陣，從而既保持不同視角的一致性，又壓低不同維度之間的冗餘。

Barlow Twins 架構圖

這個思想後來在一系列非對比自我監督方法中繼續發展。DINO 論文進一步顯示，教師—學生式的自蒸餾在視覺 Transformer 上可以產生相當強的語義結構，甚至使無監督特徵中顯式出現語義分割資訊，而這種性質在有監督 ViT 或卷積網路中並不那麼自然。這一步很關鍵，因為它說明：不依賴人工標籤，模型也可能透過「預測另一個視角下的自己」而學到高度結構化的語義表徵。JEPA 正是在這條路上更進一步——不再只追求兩個視角的一致，而是直接在抽象表示層面對被遮蔽區域做條件預測。

DINO 視覺化結果

四、JEPA 到底是什麼：在表示空間預測世界

JEPA 的要點可以用一句話概括：給定上下文表徵，預測目標區域的潛在表徵。I-JEPA 的做法是：先用編碼器把可見上下文映射到表示空間，再讓預測器去估計被遮蔽目標塊的表徵；目標表徵來自另一條編碼支路，但訓練目標不是像素重建，而是兩種表示之間的一致。這種設計背後有兩個深層好處。其一，模型天然更偏向語義層、關係層與結構層，因為只有這些資訊才可能在缺失細節的條件下被穩定預測。其二，它把「不確定性」從表面細節裡分離了出去：那些無法由當前上下文推出的因素，不必硬塞進主預測裡，可以交給潛變量、後續採樣或者更專門的生成組件。

在更完整的世界模型構想中，這種「抽象表徵預測」還會與潛變量結合。立場論文明確提出：世界模型必須能表達多個合理未來，而潛變量正是用來表示那些無法從當前觀測中確定、卻會影響未來演化的隱藏因素。如果前方車輛在岔路口即將轉向，那麼「向左」與「向右」都可能是合理預測；優秀的世界模型不該輸出模糊的中間影像，而應把這種分岔作為可採樣、可規劃、可搜尋的潛在結構來表達。

五、從 I-JEPA 到 V-JEPA 2：這條路線如何走向世界模型與規劃

如果說 I-JEPA 主要證明了這種方法在圖像表徵學習上可行，那麼 V-JEPA 與 V-JEPA 2 則是試圖把它推進到時序理解、未來預測與機器人規劃。V-JEPA 的官方說明強調，它在學習到的潛在空間中預測被遮蔽的時空區域，而不是預測原始影片幀，因此能夠把重心放在運動、互動與事件結構上。到了 2025 年的 V-JEPA 2，目標進一步擴大：論文提出先在超過一百萬小時的網路影片和圖像上進行動作無關的預訓練，再結合少量機器人軌跡資料，形成能夠「理解、預測和規劃」的自我監督影片世界模型。

從結果來看，V-JEPA 2 已經不只是「表徵學習器」。論文報告它在 Something-Something v2 上達到 77.3 的 top-1，在 Epic-Kitchens-100 的動作預判上達到 39.7 的 recall@5；當與大型語言模型對齊時，它在若干影片問答任務上達到當時 8B 參數規模的 SOTA；在機器人部分，作者又在不足 62 小時無標籤機器人影片基礎上，訓練了一個動作條件世界模型 V-JEPA 2-AC，並在兩個新實驗室的 Franka 機械手臂上實現零樣本的抓取、放置與圖像目標規劃。

但這個結果必須被謹慎理解。

第一，V-JEPA 2 當前最強證據仍然集中在視覺世界建模、動作預判與受控機器人場景中，它並未證明自己已經可以替代大型語言模型完成開放域知識推理。

第二，論文中「影片問答表現很強」這一點本身也說明：當任務需要自然語言介面時，這條路線仍然需要與語言模型耦合。

因此，更準確的判斷是：它為下一代智慧系統提供了一個可能位於 LLM 之下、旁邊或之前的世界建模底座。語言模型可以成為介面層、解釋層或知識調度層，但未必再是整個系統的核心學習機制。

六、真正的新架構是「世界模型＋成本模組＋行動者＋記憶」的整套系統

如果只把這條路線理解成一種新的自我監督演算法，就低估了它的野心。那篇立場論文其實提出的是一整套自主智慧體結構：感知模組負責從感測器中提取與任務相關的狀態表示；世界模型模組負責補全不可見狀態並預測未來的可能世界狀態；成本模組由「內在成本」和「可訓練評論家」構成，用來衡量系統在當前或未來狀態下的能量/不適；行動者模組則提出動作序列並透過世界模型與成本模組進行最佳化；短期記憶負責保存過去、當前與想像未來的狀態；配置器則像執行控制系統一樣，根據具體任務線上重新配置感知、世界模型、成本與行動者。

自主智慧體架構圖

這套結構把「看見世界」「想像未來」「評估後果」「選擇動作」分成了可分工、可接口化的模組，而不是把一切都壓進一個統一的下一個詞預測器中。特別值得注意的是，論文把 actor 明確表述為一個利用世界模型和成本梯度進行最佳化與搜尋的模組，類似模型預測控制；它甚至強調 actor 不僅要搜尋動作，也要搜尋潛變量配置，以便在不確定條件下做規劃。這使得該架構與經典控制、規劃、價值學習、世界模型學習之間形成了一個統一的閉環。JEPA 在這裡扮演的角色，主要是讓「世界模型」這一環不再從像素層出發，而是建立在穩定抽象表徵之上。

七、這套路線真正解決了什麼，又還沒有解決什麼

它目前真正解決的，是「如何讓模型在沒有大量人工標籤的情況下學到更語義化、更可遷移、更適合預測與規劃的視覺表徵」。I-JEPA 證明，非生成式的表示預測可以高效擴展，並在圖像任務上產出高品質語義特徵；V-JEPA 與 V-JEPA 2 則顯示，這個思想可以進入影片理解、動作預判乃至一定程度的機器人規劃。在這個意義上，這條路線確實提供了一個比「全靠像素重建或文本生成」更接近世界建模的技術通道。

但它尚未解決的同樣重要。

首先，開放世界中的長期因果推理、跨模態統ㄧ表示、複雜語言組合泛化、階層式任務分解與終身記憶仍是未完成問題。

其次，JEPA 類方法雖然強調不確定性與多重未來，但在現階段的主流實現中，不確定性往往更多體現在潛變量設計或後續規劃結構上，而不是像某些貝氏架構那樣從頭到尾都維持顯式機率信念。

再次，這條路線在機器人上的成功還處於「少量動作資料＋受控任務＋較短時程規劃」階段，距離開放環境中的通用具身智慧仍有顯著距離。

八、它與 Karl Friston 的主動推斷式新 AI 架構到底有什麼不同？

如果把 Yann LeCun 的 JEPA——世界模型路線與 Karl Friston 的主動推斷（active inference）路線並置比較，會發現兩者表面上都在反對「純自我回歸生成等於智慧」，也都強調世界模型、預測、行動、具身性與不確定性。但它們的底層哲學與工程重心並不相同。主動推斷來自變分自由能框架，其核心主張是：智慧體透過最小化變分自由能與期望自由能來同時完成感知、學習和行動；在這一過程中，顯式信念、貝氏更新、風險與資訊增益是統一的。而 JEPA 路線更像一種面向可擴展學習系統的工程藍圖：它強調先學到高品質的世界表徵，再把行動、代價、記憶與規劃掛接到這個表徵系統上。

兩條路線的核心差異

比較維度	JEPA／世界模型路線	主動推斷路線
理論出發點	以自我監督表徵學習與世界模型工程為核心，目標是構造可擴展的感知—預測—規劃底座。	以自由能原理與貝氏推斷為核心，目標是統一解釋感知、學習、行動與探索。
主訓練對象	預測被遮蔽區域或未來狀態的抽象表徵，而非直接生成像素/詞元。	維持並更新對隱變量、狀態與策略的機率信念。
不確定性處理	通常透過潛變量、多重未來或後續規劃機制表達，工程上可強可弱。	不確定性是第一等公民，風險與資訊增益被顯式寫進目標函數。
行動選擇	透過世界模型+成本模組+actor 進行最佳化，接近模型預測控制。	透過最小化期望自由能統一處理利用與探索。
與 LLM 的關係	更像為 LLM 提供下層世界模型；語言模型可作為介面層或上層模組。	可與 LLM 結合，但重點通常放在顯式信念更新與訊息傳遞，而非大型自我回歸語言建模。
系統風格	偏可擴展深度學習與表示學習工程。	偏規範性理論、機率圖模型與信念傳播。
當前強證據	圖像/影片表徵、影片理解、動作預判、受控機器人規劃。	認知建模、規劃、導航、探索與部分主動推斷智慧體原型。

可以把兩者的差異概括為一句話：JEPA 路線是在問「怎樣構造一個不會被數據細節拖垮、能夠學到世界穩定結構的表徵—預測系統」；主動推斷路線則是在問「一個智慧體怎樣在顯式不確定性下，透過統一的貝氏目標函數把知覺、行動、探索和偏好整合起來」。前者更像一套通向工程可擴展性的學習典範，後者更像一套通向統一智慧理論的規範性框架。兩者並非互斥：完全可以想像一種未來系統，底層用 JEPA 類世界模型學習抽象狀態，上層再用主動推斷式信念更新與策略選擇來處理不確定決策。

結語

智慧究竟首先來自語言生成，還是首先來自世界建模？如果智慧體必須生活在一個部分可觀測、充滿分岔、需要行動才能驗證預測的現實世界裡，那麼答案很可能是後者。

未來更強的智慧系統，極可能不再由單一的自我回歸語言模型獨佔核心位置。它們也許會由世界模型、記憶、成本/價值、行動最佳化與語言介面共同構成；其中，JEPA 路線提供的是關於「世界如何被表徵和預測」的新底座，而主動推斷路線提供的則是關於「信念如何更新、行動如何在不確定性下被選擇」的規範性原則。從這個意義上說，這些新的 AI 架構是在押注：理解世界，終究比複述世界更接近智慧。

圖靈獎得主Yann LeCun押注10億美元做空LLM！新一代AI架構究竟是什麼？

相關文章推薦

分享網址