從人類可讀的離散符號空間,轉向機器原生的連續潛在空間,大模型設計正迎來顛覆性重構。
近日,新加坡國立大學、復旦大學、清華大學、浙江大學等海內外頂尖學術機構,聯合發布大模型潛在空間領域首份系統性全景綜述。該研究嘗試透過「基礎—演進—機制—能力—展望」五大遞進視角,完整拆解潛在空間範式(被視為LLM 真正的大腦)的底層邏輯、技術路徑與未來前景,填補了該領域碎片化研究的空白。
論文標題:The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook
論文連結:https://arxiv.org/pdf/2604.02029
GitHub 倉庫:https://github.com/YU-deep/Awesome-Latent-Space1. 基礎:大模型的「潛在空間」是什麼?
大模型潛在空間,是模型內部透過學習形成的連續非離散表徵空間。它編碼了文字、多模態資訊背後的隱含語意、語法、上下文關聯等未被顯式 token 表達的資訊,是機器原生的計算空間。當前大模型主流依賴顯式空間(語言符號空間)運算,存在語言冗餘、離散瓶頸、序列低效、語意損失等結構性缺陷。
1.1 潛空間 vs 顯式空間:核心差異對比
四大表徵屬性:
可讀性:顯式空間是人類可讀的離散符號;潛空間是模型原生高維向量,人類無法直接解讀但表徵更豐富。
存在形式:顯式空間離散固定、冗餘資訊多;潛空間連續靈活,僅保留核心語意。
計算效率:顯式空間逐詞生成、反覆轉碼,算力浪費嚴重;潛空間直接進行向量運算,無額外轉換開銷。
語意保留:顯式空間轉碼易丟失細粒度語意;潛空間可高保真保留完整資訊。
四大功能能力:
可操作性:顯式空間非連續不可微分;潛空間連續可微分,支援精準語意操控。
表達能力:顯式空間僅限語言可描述內容;潛空間突破詞彙語法限制,可處理高維非語言資訊。
可擴展性:顯式空間受序列長度嚴格限制;潛空間易適配長推理、多互動場景。
泛化能力:顯式空間受語言形式束縛;潛空間捕捉抽象規律,跨領域泛化性大幅提升。
2. 演進:大模型的「潛在空間」是如何不斷進化的?
大模型潛空間的研究發展,隨著技術迭代分為四個遞進階段,從理論想法走向全場景落地:原型階段、形成階段、拓展階段和爆發階段。
2.1 原型階段
首次驗證推理可脫離自然語言,用連續向量完成;初代潛在推理框架誕生,僅停留在概念驗證階段。
2.2 形成階段
搭建理論根基,用數學證明潛空間的計算優勢;初步試水多模態,仍以文本推理為主。
2.3 拓展階段
從純文本全面拓展至視覺、多智慧體、機器人具身等領域,技術開始走向成熟。
2.4 爆發階段
潛空間成為大模型的獨立計算空間和範式,專屬架構、優化策略批量湧現,文本/視覺/具身/多智慧體領域的應用開始爆發。
3. 機制:大模型的「潛在空間」是如何作用的?
潛空間透過架構、表徵、計算、優化四大協同維度,構建起全流程運作邏輯,解決「嵌入模型、資訊承載、運算處理、效果調優」四大核心問題。
3.1 架構:潛空間的模型集成方式
主幹內置:直接改造模型主幹,讓模型原生支援潛計算;插件組件:不改動模型主幹,加裝投影、對齊、儲存等插件擴展潛功能;輔助模型:外部獨立模型提供監督訊號,輔助主模型生成潛空間。
3.2 表徵:潛空間的資訊承載載體
內部表徵:複用模型隱狀態、KV 快取等內部啟動,無額外參數;外部表徵:凍結外部預訓練模型,生成潛資訊注入主模型;可學習表徵:可訓練模組生成潛資訊,與主模型端到端優化;混合表徵:結合可學習與外部注入,兼顾靈活性與穩定性。
3.3 計算:潛空間的資訊處理模式
壓縮計算:壓縮推理軌跡、快取,降低算力消耗;擴展計算:透過循環、並行拓展算力,提升表達能力;自適應計算:按輸入難度動態分配算力,平衡效率與效能;交錯計算:顯式 token 與潛資訊、多模態交錯運算,融合雙方優勢。
3.4 優化:全生命週期調優
預訓練:讓模型從訓練初期就具備潛計算能力;後訓練:在預訓練模型基礎上,精調潛空間適配下游客任務;推理:實時修正潛狀態,直接優化輸出效果。
4. 能力:大模型的「潛在空間」實現什麼能力?
潛空間徹底突破離散 token 的表達與計算瓶頸,解鎖推理、規劃、建模、感知、記憶、協作、具身七大核心智慧能力:
4.1 推理能力
實現隱式推理、緊湊軌跡、連續迭代修正、分支路徑探索、跨模態泛化更強。
4.2 規劃能力
支援可控路徑探索、高效解空間搜尋、自適應分配算力、優化決策軌跡。
4.3 建模能力
可豐富表達複雜計算、自我檢視內部狀態、實現模型行為的魯棒控制、提升拓展能力。
4.4 感知能力
保留視覺精細結構資訊、實現啟發式想像、忠實定位。
4.5 記憶能力
打造工作記憶儲存、持久化記憶、多模態記憶召回。
4.6 協作能力
實現智慧體間無損語意傳輸、共享智慧體間認識、支援異構模型跨模態互通。
4.7 具身能力
無監督動作落地、內隱思考規劃、場景預測、空間認知、賦能機器人跨硬體泛化遷移。
5. 展望
5.1 現存挑戰
難評估:中間計算過程不可見,無法驗證推理合理性;難控制:無法精準操控內部連續表徵;難解釋:高維向量無直觀語意,模型行為不可追溯。
5.2 未來發展方向
搭建統一理論:明確潛空間計算原理、與顯式空間的協作規則,建立標準評估體系;深耕多模態:打造文本、視覺、動作統一的原生潛計算空間;落地下游客任務:用潛空間支撐推理、機器人控制等實際場景落地;實現可控治理:讓潛空間可觀測、可管控,解決可信性與安全性問題。
相關延伸閱讀:
動手設計 AI Agents:(編排、記憶、插件、workflow、協作)