NUS、復旦、清華聯手:首份大模型潛在空間(Latent Space)系統性綜述出爐

從人類可讀的離散符號空間,轉向機器原生的連續潛在空間,大模型設計正迎來顛覆性重構。

近日,新加坡國立大學、復旦大學、清華大學、浙江大學等海內外頂尖學術機構,聯合發布大模型潛在空間領域首份系統性全景綜述。該研究嘗試透過「基礎—演進—機制—能力—展望」五大遞進視角,完整拆解潛在空間範式(被視為LLM 真正的大腦)的底層邏輯、技術路徑與未來前景,填補了該領域碎片化研究的空白。

NUS、復旦、清華等機構聯合發布大模型潛在空間綜述
論文標題:The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook
論文連結:https://arxiv.org/pdf/2604.02029
GitHub 倉庫:https://github.com/YU-deep/Awesome-Latent-Space
大模型潛在空間研究架構圖
潛在空間與顯式空間對比示意圖

1. 基礎:大模型的「潛在空間」是什麼?

大模型潛在空間,是模型內部透過學習形成的連續非離散表徵空間。它編碼了文字、多模態資訊背後的隱含語意、語法、上下文關聯等未被顯式 token 表達的資訊,是機器原生的計算空間。當前大模型主流依賴顯式空間(語言符號空間)運算,存在語言冗餘、離散瓶頸、序列低效、語意損失等結構性缺陷。

1.1 潛空間 vs 顯式空間:核心差異對比

潛空間與顯式空間核心差異對比圖

四大表徵屬性:

可讀性:顯式空間是人類可讀的離散符號;潛空間是模型原生高維向量,人類無法直接解讀但表徵更豐富。

存在形式:顯式空間離散固定、冗餘資訊多;潛空間連續靈活,僅保留核心語意。

計算效率:顯式空間逐詞生成、反覆轉碼,算力浪費嚴重;潛空間直接進行向量運算,無額外轉換開銷。

語意保留:顯式空間轉碼易丟失細粒度語意;潛空間可高保真保留完整資訊。

四大功能能力:

可操作性:顯式空間非連續不可微分;潛空間連續可微分,支援精準語意操控。

表達能力:顯式空間僅限語言可描述內容;潛空間突破詞彙語法限制,可處理高維非語言資訊。

可擴展性:顯式空間受序列長度嚴格限制;潛空間易適配長推理、多互動場景。

泛化能力:顯式空間受語言形式束縛;潛空間捕捉抽象規律,跨領域泛化性大幅提升。

2. 演進:大模型的「潛在空間」是如何不斷進化的?

大模型潛空間的研究發展,隨著技術迭代分為四個遞進階段,從理論想法走向全場景落地:原型階段、形成階段、拓展階段和爆發階段。

大模型潛在空間演進四階段圖

2.1 原型階段

首次驗證推理可脫離自然語言,用連續向量完成;初代潛在推理框架誕生,僅停留在概念驗證階段。

2.2 形成階段

搭建理論根基,用數學證明潛空間的計算優勢;初步試水多模態,仍以文本推理為主。

2.3 拓展階段

從純文本全面拓展至視覺、多智慧體、機器人具身等領域,技術開始走向成熟。

2.4 爆發階段

潛空間成為大模型的獨立計算空間和範式,專屬架構、優化策略批量湧現,文本/視覺/具身/多智慧體領域的應用開始爆發。

3. 機制:大模型的「潛在空間」是如何作用的?

潛空間透過架構、表徵、計算、優化四大協同維度,構建起全流程運作邏輯,解決「嵌入模型、資訊承載、運算處理、效果調優」四大核心問題。

潛在空間運作機制全流程圖

3.1 架構:潛空間的模型集成方式

主幹內置:直接改造模型主幹,讓模型原生支援潛計算;插件組件:不改動模型主幹,加裝投影、對齊、儲存等插件擴展潛功能;輔助模型:外部獨立模型提供監督訊號,輔助主模型生成潛空間。

潛空間模型集成架構圖

3.2 表徵:潛空間的資訊承載載體

內部表徵:複用模型隱狀態、KV 快取等內部啟動,無額外參數;外部表徵:凍結外部預訓練模型,生成潛資訊注入主模型;可學習表徵:可訓練模組生成潛資訊,與主模型端到端優化;混合表徵:結合可學習與外部注入,兼顾靈活性與穩定性。

潛空間內部與外部表徵對比圖
潛空間混合表徵架構圖

3.3 計算:潛空間的資訊處理模式

壓縮計算:壓縮推理軌跡、快取,降低算力消耗;擴展計算:透過循環、並行拓展算力,提升表達能力;自適應計算:按輸入難度動態分配算力,平衡效率與效能;交錯計算:顯式 token 與潛資訊、多模態交錯運算,融合雙方優勢。

潛空間壓縮與擴展計算模式圖
潛空間自適應與交錯計算圖

3.4 優化:全生命週期調優

預訓練:讓模型從訓練初期就具備潛計算能力;後訓練:在預訓練模型基礎上,精調潛空間適配下游客任務;推理:實時修正潛狀態,直接優化輸出效果。

潛空間全生命週期優化流程圖

4. 能力:大模型的「潛在空間」實現什麼能力?

大模型潛在空間七大核心能力圖

潛空間徹底突破離散 token 的表達與計算瓶頸,解鎖推理、規劃、建模、感知、記憶、協作、具身七大核心智慧能力:

4.1 推理能力

實現隱式推理、緊湊軌跡、連續迭代修正、分支路徑探索、跨模態泛化更強。

4.2 規劃能力

支援可控路徑探索、高效解空間搜尋、自適應分配算力、優化決策軌跡。

4.3 建模能力

可豐富表達複雜計算、自我檢視內部狀態、實現模型行為的魯棒控制、提升拓展能力。

4.4 感知能力

保留視覺精細結構資訊、實現啟發式想像、忠實定位。

4.5 記憶能力

打造工作記憶儲存、持久化記憶、多模態記憶召回。

4.6 協作能力

實現智慧體間無損語意傳輸、共享智慧體間認識、支援異構模型跨模態互通。

4.7 具身能力

無監督動作落地、內隱思考規劃、場景預測、空間認知、賦能機器人跨硬體泛化遷移。

5. 展望

5.1 現存挑戰

難評估:中間計算過程不可見,無法驗證推理合理性;難控制:無法精準操控內部連續表徵;難解釋:高維向量無直觀語意,模型行為不可追溯。

5.2 未來發展方向

搭建統一理論:明確潛空間計算原理、與顯式空間的協作規則,建立標準評估體系;深耕多模態:打造文本、視覺、動作統一的原生潛計算空間;落地下游客任務:用潛空間支撐推理、機器人控制等實際場景落地;實現可控治理:讓潛空間可觀測、可管控,解決可信性與安全性問題。

相關延伸閱讀:

動手設計 AI Agents:(編排、記憶、插件、workflow、協作)

分享兩篇 Claude Skills 最新論文,有 3 個核心結論

會學習的龍蝦,才是好龍蝦:OpenClaw-RL

2026,做 Agentic AI,繞不開這兩篇開年綜述

相關文章推薦

分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.