不是設計,而是進化。當交叉熵遇見 SGD,貝氏推論成了唯一的數學必然。
不是設計,而是進化。當交叉熵遇見 SGD,貝氏推論成了唯一的數學必然。
長期以來,LLM 的推論能力被視為一種難以解釋的「湧現」。我們目睹了 Loss 的下降,卻難以透視參數空間內部發生了什麼。
近日,來自哥倫比亞大學和 Dream Sports 的研究團隊發布了一組三部曲論文。
這項工作並未止步於實驗觀察,而是建立了一個連接最佳化目標 (Loss)、內部幾何 (Geometry) 與推論功能 (Inference) 的完整物理圖景。
它講述了一個關於 LLM 如何運作的完整故事。其核心野心正如標題所言——試圖用數學終結 Transformer 的黑盒時代。
他們證明了:Attention 機制並非某種近似的特徵提取器,而是在梯度下降的驅動下,自發演化出的一套精確的貝氏推論機。
理論錨點:交叉熵的貝氏終局
Transformer 的訓練通常基於最小化交叉熵損失。Paper I 首先澄清了這一最佳化過程的數學終局。
論文標題:
The Bayesian Geometry of Transformer Attention
論文連結:
https://arxiv.org/abs/2512.22471
在無限數據與容量的極限下,最小化交叉熵 :
其最優解 在數學上嚴格等價於解析貝氏後驗預測分佈 (Bayesian Posterior Predictive Distribution):
為了驗證有限容量的 Transformer 是否真正逼近了這一極限,作者構建了貝氏風洞 (Bayesian Wind Tunnels) 。
這是一個完全受控的數學環境,其中每一步的解析後驗都是精確已知的。
實驗結果表明,在雙射學習與 HMM 狀態追蹤任務中,Transformer 展現了極高的精度。
更微觀的證據來自單序列分析,這是證明模型真理解而非平均記憶的鐵證:
而在 HMM 任務中,模型甚至展現出了完美的長度外推 (Length Generalization) 能力,證明其學會了通用的遞迴演算法:
幾何表徵:推論的三階段演化
探針實驗進一步揭示了 Transformer 內部如何實現這一推論過程。作者將其描述為一個三階段的幾何演化機制。
1. 假設框架構建 (Layer 0)
推論始於坐標系的建立。第 0 層的 Key 向量形成了一個 近似正交的基底 (Orthogonal Basis),將所有可能的假設映射到獨立的幾何子空間中。
2. 漸進式假設消除 (Middle Layers)
隨著層數加深,Attention 的路由 (Routing) 功能逐漸顯現。Query 和 Key 的對齊程度呈現顯著的銳化 (Sharpening) 趨勢。
這一過程在數學上等價於貝氏更新中似然函數的乘法操作,逐層抑制與當前證據不符的假設。
3. 熵有序流形 (Late Layers)
當路由結構穩定後,Value 向量 () 在表示空間中並未坍縮為離散點,而是展開成一條光滑的一維流形 (1D Manifold)。
該流形的參數化坐標精確對應於後驗熵 (Posterior Entropy)。
動力學溯源:梯度下降的誘導機制
為何標準的梯度下降能夠自發產生上述幾何結構?
Paper II 透過全套一階梯度動力學推導,發現交叉熵損失誘導了一套精妙的正回饋機制。
論文標題:
Gradient Dynamics of Attention: How Cross-Entropy Sculpts Bayesian Manifolds
論文連結:
https://arxiv.org/abs/2512.22473
1. 優勢路由法則 (E-step)
Attention Score () 的梯度遵循以下公式:
其中 。定義 Advantage。
物理含義:這裡 代表誤差梯度方向。當 與誤差方向相反(即 越負,有助於減少 Loss)時,Advantage 為正。
結論:梯度下降會增加那些能有效減少 Loss 的位置的注意力權重。
2. 責任加權更新法則 (M-step)
Value () 的更新遵循以下公式:
物理含義:Value 向量會被拉向所有關注它的 Query 的上游誤差信號 () 的加權平均方向,逐步演化為該簇 Query 的「原型」 (Prototype)。
Value 向誤差信號 移動,優化 Context ,進而增加相容性 (使其更負),形成路由與內容的協同演化閉環。
這一動力學過程在結構上等價於隱式的 EM 演算法 (Expectation-Maximization)。Attention 權重充當 E 步的「軟責任」,而 Value 向量充當 M 步的「原型」。
這也解釋了框架-精度解離 (Frame-Precision Dissociation) 現象。Attention 結構通常在訓練早期快速穩定,而 Value 內容則在剩餘訓練中持續在流形上精修。
現實映射:從疊加態到思維鏈
雖然上述結論基於受控環境,但作者在博客 [3] 中指出,在 Pythia, Llama, Mistral 等生產級模型中,同樣觀察到了類似的幾何特徵。
關鍵在於疊加態 (Superposition):在混合任務中,流形結構往往被高維雜訊掩蓋;但透過領域限制 (Domain Restriction)(如僅關注數學任務),高維表徵會坍縮為清晰的熵有序流形 。
這一發現為 思維鏈 (Chain-of-Thought, CoT) 提供了清晰的幾何解釋。
對於複雜推論任務,Transformer 面臨層數耗盡 (Run out of layers) 的風險,無法在有限的計算步數內完成所有必要的假設消除。
CoT 本質上起到了幾何延展器 (Geometric Extender) 的作用。
透過生成中間推論步驟,模型實際上獲得了更多的計算輪次,使其能夠沿著高置信度的「熵有序流形」進行一系列短距離、穩健的狀態轉移,從而避免了在低置信度區域進行長距離跳躍所引發的幻覺。
這項研究提供了一個統一的視角來理解 Transformer 的智慧本質。最佳化產生幾何,幾何產生推論 (Optimization gives rise to geometry. Geometry gives rise to inference.) 。
參數矩陣並非隨機的統計近似,而是梯度流在交叉熵勢能面上「雕刻」出的貝氏推論機。
Attention 機制從幾何動力學的角度來看,正是這一推論過程的物理載體。
參考文獻
更多閱讀
#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平台上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確系個人原創作品,未曾在公開管道發表,如為其他平台已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業界具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿信箱:hr@paperweekly.site
• 來稿請備註即時聯繫方式(微信),以便我們在稿件選用的第一時間聯繫作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點擊「關注」訂閱我們的專欄吧