最佳化即是幾何,幾何即是推理:用數學終結Transformer的黑盒時代

圖片

不是設計,而是進化。當交叉熵遇見 SGD,貝氏推論成了唯一的數學必然。

長期以來,LLM 的推論能力被視為一種難以解釋的「湧現」。我們目睹了 Loss 的下降,卻難以透視參數空間內部發生了什麼。

近日,來自哥倫比亞大學和 Dream Sports 的研究團隊發布了一組三部曲論文

這項工作並未止步於實驗觀察,而是建立了一個連接最佳化目標 (Loss)內部幾何 (Geometry) 與推論功能 (Inference) 的完整物理圖景。

它講述了一個關於 LLM 如何運作的完整故事。其核心野心正如標題所言——試圖用數學終結 Transformer 的黑盒時代。

他們證明了Attention 機制並非某種近似的特徵提取器,而是在梯度下降的驅動下,自發演化出的一套精確的貝氏推論機。

圖片

理論錨點:交叉熵的貝氏終局

Transformer 的訓練通常基於最小化交叉熵損失。Paper I 首先澄清了這一最佳化過程的數學終局。

圖片

論文標題:

The Bayesian Geometry of Transformer Attention

論文連結:

https://arxiv.org/abs/2512.22471

在無限數據與容量的極限下,最小化交叉熵 

圖片

其最優解  在數學上嚴格等價於解析貝氏後驗預測分佈 (Bayesian Posterior Predictive Distribution):

圖片

為了驗證有限容量的 Transformer 是否真正逼近了這一極限,作者構建了貝氏風洞 (Bayesian Wind Tunnels) 

這是一個完全受控的數學環境,其中每一步的解析後驗都是精確已知的。

圖片
 圖1. 「貝氏風洞」概念圖。在缺乏 Ground Truth 的自然語言之外,作者構建了一個可精確測量的受控環境。

實驗結果表明,在雙射學習與 HMM 狀態追蹤任務中,Transformer 展現了極高的精度。

圖片
 圖2. Transformer 的預測熵精確貼合理論貝氏後驗,平均絕對誤差(MAE)低至 10^{-3} 比特;相比之下,MLP 無法有效利用上下文進行假設消除。

更微觀的證據來自單序列分析,這是證明模型真理解而非平均記憶的鐵證:

圖片
 圖3. 針對每一個具體序列,Transformer 的熵值(實線)能夠精確追蹤理論後驗(虛線)的鋸齒狀變化,證明模型在進行逐 Token 的即時推論。

而在 HMM 任務中,模型甚至展現出了完美的長度外推 (Length Generalization) 能力,證明其學會了通用的遞迴演算法:

圖片
 圖4.模型在訓練長度 K=20 內完美擬合。在測試長度 K=30 和 K=50 時,誤差平滑增長,未出現斷崖式下跌,證明模型並未死記硬背。
圖片

幾何表徵:推論的三階段演化

探針實驗進一步揭示了 Transformer 內部如何實現這一推論過程。作者將其描述為一個三階段的幾何演化機制。

1. 假設框架構建 (Layer 0)

推論始於坐標系的建立。第 0 層的 Key 向量形成了一個 近似正交的基底 (Orthogonal Basis),將所有可能的假設映射到獨立的幾何子空間中。

圖片
 圖5.Layer 0 的 Key 向量餘弦相似度矩陣。非對角元素接近 0,表明模型構建了正交的假設空間框架。

2. 漸進式假設消除 (Middle Layers)

隨著層數加深,Attention 的路由 (Routing) 功能逐漸顯現。Query 和 Key 的對齊程度呈現顯著的銳化 (Sharpening) 趨勢。

這一過程在數學上等價於貝氏更新中似然函數的乘法操作,逐層抑制與當前證據不符的假設。

圖片
 圖6.從 Layer 0(左)的發散關注到 Layer 5(右)的高度聚焦,展示了模型對錯誤假設的逐步剔除。

3. 熵有序流形 (Late Layers)

當路由結構穩定後,Value 向量 () 在表示空間中並未坍縮為離散點,而是展開成一條光滑的一維流形 (1D Manifold)

該流形的參數化坐標精確對應於後驗熵 (Posterior Entropy)

圖片
 圖7.訓練後期,Value 向量的 PCA 投影形成了一條平滑曲線,低熵(高置信度)狀態與高熵狀態在幾何上有序排列。
圖片

動力學溯源:梯度下降的誘導機制

為何標準的梯度下降能夠自發產生上述幾何結構?

Paper II 透過全套一階梯度動力學推導,發現交叉熵損失誘導了一套精妙的正回饋機制

圖片

論文標題:

Gradient Dynamics of Attention: How Cross-Entropy Sculpts Bayesian Manifolds

論文連結:

https://arxiv.org/abs/2512.22473

1. 優勢路由法則 (E-step)

Attention Score () 的梯度遵循以下公式:

圖片

其中 。定義 Advantage

物理含義:這裡  代表誤差梯度方向。當  與誤差方向相反(即  越負,有助於減少 Loss)時,Advantage 為正。

結論:梯度下降會增加那些能有效減少 Loss 的位置的注意力權重。

2. 責任加權更新法則 (M-step)

Value () 的更新遵循以下公式:

圖片

物理含義:Value 向量會被拉向所有關注它的 Query 的上游誤差信號 () 的加權平均方向,逐步演化為該簇 Query 的「原型」 (Prototype)。

圖片
 圖8.動力學幾何解釋

Value  向誤差信號  移動,優化 Context ,進而增加相容性 (使其更負),形成路由與內容的協同演化閉環。

這一動力學過程在結構上等價於隱式的 EM 演算法 (Expectation-Maximization)。Attention 權重充當 E 步的「軟責任」,而 Value 向量充當 M 步的「原型」。

這也解釋了框架-精度解離 (Frame-Precision Dissociation) 現象。Attention 結構通常在訓練早期快速穩定,而 Value 內容則在剩餘訓練中持續在流形上精修。

    圖片

    現實映射:從疊加態到思維鏈

    雖然上述結論基於受控環境,但作者在博客 [3] 中指出,在 PythiaLlamaMistral 等生產級模型中,同樣觀察到了類似的幾何特徵。

    關鍵在於疊加態 (Superposition):在混合任務中,流形結構往往被高維雜訊掩蓋;但透過領域限制 (Domain Restriction)(如僅關注數學任務),高維表徵會坍縮為清晰的熵有序流形 。

    圖片
     圖8.概念圖展示了 Pythia、Llama 和 Mistral 內部在特定領域任務下湧現出的相似流形結構。

    這一發現為 思維鏈 (Chain-of-Thought, CoT) 提供了清晰的幾何解釋。

    對於複雜推論任務,Transformer 面臨層數耗盡 (Run out of layers) 的風險,無法在有限的計算步數內完成所有必要的假設消除。

    CoT 本質上起到了幾何延展器 (Geometric Extender) 的作用。

    透過生成中間推論步驟,模型實際上獲得了更多的計算輪次,使其能夠沿著高置信度的「熵有序流形」進行一系列短距離、穩健的狀態轉移,從而避免了在低置信度區域進行長距離跳躍所引發的幻覺。

    圖片
    結語

    這項研究提供了一個統一的視角來理解 Transformer 的智慧本質。最佳化產生幾何,幾何產生推論 (Optimization gives rise to geometry. Geometry gives rise to inference.) 。

    參數矩陣並非隨機的統計近似,而是梯度流在交叉熵勢能面上「雕刻」出的貝氏推論機。

    Attention 機制從幾何動力學的角度來看,正是這一推論過程的物理載體。

    圖片

    參考文獻

    圖片
    [1] Naman Aggarwal, Siddhartha R. Dalal, Vishal Misra. The Bayesian Geometry of Transformer Attention. arXiv preprint arXiv:2512.22471 (2025). 
    [2] Naman Aggarwal, Siddhartha R. Dalal, Vishal Misra. Gradient Dynamics of Attention: How Cross-Entropy Sculpts Bayesian Manifolds. arXiv preprint arXiv:2512.22473 (2025).  
    [3] Vishal Misra. Attention Is Bayesian Inference. Medium (Dec 2025). https://medium.com/@vishalmisra/attention-is-bayesian-inference-578c25db4501

    更多閱讀

    圖片
    圖片
    圖片
    圖片

    #投 稿 通 道#

     讓你的文字被更多人看到 

    如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。

    總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 

    PaperWeekly 鼓勵高校實驗室或個人,在我們的平台上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。

    📝 稿件基本要求:

    • 文章確系個人原創作品,未曾在公開管道發表,如為其他平台已發表或待發表的文章,請明確標註 

    • 稿件建議以 markdown 格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題

    • PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業界具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算

    📬 投稿通道:

    • 投稿信箱:hr@paperweekly.site 

    • 來稿請備註即時聯繫方式(微信),以便我們在稿件選用的第一時間聯繫作者

    • 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

    圖片

    △長按新增PaperWeekly小編

    🔍

    現在,在「知乎」也能找到我們了

    進入知乎首頁搜尋「PaperWeekly」

    點擊「關注」訂閱我們的專欄吧

    ·

    圖片


    分享網址
    AINews·AI 新聞聚合平台
    © 2026 AINews. All rights reserved.