NUS、復旦、清華聯手：首份大模型潛在空間（Latent Space）系統性綜述出爐

從人類可讀的離散符號空間，轉向機器原生的連續潛在空間，大模型設計正迎來顛覆性重構。

近日，新加坡國立大學、復旦大學、清華大學、浙江大學等海內外頂尖學術機構，聯合發布大模型潛在空間領域首份系統性全景綜述。該研究嘗試透過「基礎—演進—機制—能力—展望」五大遞進視角，完整拆解潛在空間範式（被視為LLM 真正的大腦）的底層邏輯、技術路徑與未來前景，填補了該領域碎片化研究的空白。

NUS、復旦、清華等機構聯合發布大模型潛在空間綜述

論文標題：The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook
論文連結：https://arxiv.org/pdf/2604.02029
GitHub 倉庫：https://github.com/YU-deep/Awesome-Latent-Space

大模型潛在空間研究架構圖

潛在空間與顯式空間對比示意圖

1. 基礎：大模型的「潛在空間」是什麼？

大模型潛在空間，是模型內部透過學習形成的連續非離散表徵空間。它編碼了文字、多模態資訊背後的隱含語意、語法、上下文關聯等未被顯式 token 表達的資訊，是機器原生的計算空間。當前大模型主流依賴顯式空間（語言符號空間）運算，存在語言冗餘、離散瓶頸、序列低效、語意損失等結構性缺陷。

1.1 潛空間 vs 顯式空間：核心差異對比

潛空間與顯式空間核心差異對比圖

四大表徵屬性：

可讀性：顯式空間是人類可讀的離散符號；潛空間是模型原生高維向量，人類無法直接解讀但表徵更豐富。

存在形式：顯式空間離散固定、冗餘資訊多；潛空間連續靈活，僅保留核心語意。

計算效率：顯式空間逐詞生成、反覆轉碼，算力浪費嚴重；潛空間直接進行向量運算，無額外轉換開銷。

語意保留：顯式空間轉碼易丟失細粒度語意；潛空間可高保真保留完整資訊。

四大功能能力：

可操作性：顯式空間非連續不可微分；潛空間連續可微分，支援精準語意操控。

表達能力：顯式空間僅限語言可描述內容；潛空間突破詞彙語法限制，可處理高維非語言資訊。

可擴展性：顯式空間受序列長度嚴格限制；潛空間易適配長推理、多互動場景。

泛化能力：顯式空間受語言形式束縛；潛空間捕捉抽象規律，跨領域泛化性大幅提升。

2. 演進：大模型的「潛在空間」是如何不斷進化的？

大模型潛空間的研究發展，隨著技術迭代分為四個遞進階段，從理論想法走向全場景落地：原型階段、形成階段、拓展階段和爆發階段。

大模型潛在空間演進四階段圖

2.1 原型階段

首次驗證推理可脫離自然語言，用連續向量完成；初代潛在推理框架誕生，僅停留在概念驗證階段。

2.2 形成階段

搭建理論根基，用數學證明潛空間的計算優勢；初步試水多模態，仍以文本推理為主。

2.3 拓展階段

從純文本全面拓展至視覺、多智慧體、機器人具身等領域，技術開始走向成熟。

2.4 爆發階段

潛空間成為大模型的獨立計算空間和範式，專屬架構、優化策略批量湧現，文本/視覺/具身/多智慧體領域的應用開始爆發。

3. 機制：大模型的「潛在空間」是如何作用的？

潛空間透過架構、表徵、計算、優化四大協同維度，構建起全流程運作邏輯，解決「嵌入模型、資訊承載、運算處理、效果調優」四大核心問題。

潛在空間運作機制全流程圖

3.1 架構：潛空間的模型集成方式

主幹內置：直接改造模型主幹，讓模型原生支援潛計算；插件組件：不改動模型主幹，加裝投影、對齊、儲存等插件擴展潛功能；輔助模型：外部獨立模型提供監督訊號，輔助主模型生成潛空間。

潛空間模型集成架構圖

3.2 表徵：潛空間的資訊承載載體

內部表徵：複用模型隱狀態、KV 快取等內部啟動，無額外參數；外部表徵：凍結外部預訓練模型，生成潛資訊注入主模型；可學習表徵：可訓練模組生成潛資訊，與主模型端到端優化；混合表徵：結合可學習與外部注入，兼顾靈活性與穩定性。

潛空間內部與外部表徵對比圖

潛空間混合表徵架構圖

3.3 計算：潛空間的資訊處理模式

壓縮計算：壓縮推理軌跡、快取，降低算力消耗；擴展計算：透過循環、並行拓展算力，提升表達能力；自適應計算：按輸入難度動態分配算力，平衡效率與效能；交錯計算：顯式 token 與潛資訊、多模態交錯運算，融合雙方優勢。

潛空間壓縮與擴展計算模式圖

潛空間自適應與交錯計算圖

3.4 優化：全生命週期調優

預訓練：讓模型從訓練初期就具備潛計算能力；後訓練：在預訓練模型基礎上，精調潛空間適配下游客任務；推理：實時修正潛狀態，直接優化輸出效果。

潛空間全生命週期優化流程圖

4. 能力：大模型的「潛在空間」實現什麼能力？

大模型潛在空間七大核心能力圖

潛空間徹底突破離散 token 的表達與計算瓶頸，解鎖推理、規劃、建模、感知、記憶、協作、具身七大核心智慧能力：

4.1 推理能力

實現隱式推理、緊湊軌跡、連續迭代修正、分支路徑探索、跨模態泛化更強。

4.2 規劃能力

支援可控路徑探索、高效解空間搜尋、自適應分配算力、優化決策軌跡。

4.3 建模能力

可豐富表達複雜計算、自我檢視內部狀態、實現模型行為的魯棒控制、提升拓展能力。

4.4 感知能力

保留視覺精細結構資訊、實現啟發式想像、忠實定位。

4.5 記憶能力

打造工作記憶儲存、持久化記憶、多模態記憶召回。

4.6 協作能力

實現智慧體間無損語意傳輸、共享智慧體間認識、支援異構模型跨模態互通。

4.7 具身能力

無監督動作落地、內隱思考規劃、場景預測、空間認知、賦能機器人跨硬體泛化遷移。

5. 展望

5.1 現存挑戰

難評估：中間計算過程不可見，無法驗證推理合理性；難控制：無法精準操控內部連續表徵；難解釋：高維向量無直觀語意，模型行為不可追溯。

5.2 未來發展方向

搭建統一理論：明確潛空間計算原理、與顯式空間的協作規則，建立標準評估體系；深耕多模態：打造文本、視覺、動作統一的原生潛計算空間；落地下游客任務：用潛空間支撐推理、機器人控制等實際場景落地；實現可控治理：讓潛空間可觀測、可管控，解決可信性與安全性問題。

相關延伸閱讀：

動手設計 AI Agents：（編排、記憶、插件、workflow、協作）

分享兩篇 Claude Skills 最新論文，有 3 個核心結論

會學習的龍蝦，才是好龍蝦：OpenClaw-RL

2026，做 Agentic AI，繞不開這兩篇開年綜述

人工智慧大語言模型技術綜述深度學習潛在空間

相關文章推薦

何愷明團隊「擴散模型」新作：在「最後一公里」進行離散解碼人工智慧

10M參數也能跑ARC與數獨，Bengio團隊押注「多軌跡推理」人工智慧

楊立昆團隊最新研究：讓世界模型學會「自適應」，在行動中持續進化人工智慧

何愷明團隊首個語言模型亮相！105M參數、45B訓練token，連續擴散路線正面擊敗主流離散DLM人工智慧

多語言 RAG 的上下文被卡在 512 太久了：嵌入模型 32K 上下文時代從 Granite R2 開始人工智慧

分享網址

原始網址：https://mp.weixin.qq.com/s/SPyvm2ZIWJvwMO7mEluWNA