MLNLP 社區是國內外知名的機器學習與自然語言處理社區,受眾覆蓋國內外 NLP 碩博生、高校老師以及企業研究人員。
社區的願景是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流和進步,特別是初學者同學們的進步。
來源 | PaperWeekly
在 Transformer 的訓練過程中,只要稍微留心觀察權重或激活值的分布,你就會發現殘差流裡的那個怪象:無論輸入何種 token,某些固定維度的激活值始終顯著高於其他維度。
與此同時,Attention Map 中的首個 token(通常是 <BOS>)也往往佔據著極高的注意力權重(Attention Sink)。
在工程實踐中,為了搞定數值穩定性或量化溢出,常見的處理方式往往是嘗試截斷(Clip)或通過正則化手段壓制它們。
阿里 Qwen 團隊發布的最新論文指出,這些異常值並非訓練不穩定的產物,而是模型在歸一化約束下自發演化出的重縮放機制。
這項工作不僅統一解釋了 DeepSeek-V3、Qwen、GPT-OSS 等模型中普遍存在的 Sink 現象,更從數學底層證明了,強制去除這些異常值等同於破壞了模型的特徵調節能力。
基於此,Qwen 提出了一種參數高效的架構改進——GatedNorm,用顯式的門控機制替代了不穩定的異常值,從而在架構層面有效解決了低比特量化的精度難題。
論文標題:
A Unified View of Attention and Residual Sinks: Outlier-Driven Rescaling is Essential for Transformer Training
論文連結:
https://arxiv.org/pdf/2601.22966
普遍存在的「異常值」
Qwen 團隊對 Qwen3、GPT-OSS 進行了跨架構的對比分析,結果表明這種異常是 Transformer 的一種共性特徵。
〓 圖1. Qwen3 與 GPT-OSS 的 Attention Sink 與 Residual Sink 可視化
如上圖所示:
Attention Sink:首個 Token 吸收了絕大部分注意力 Logits,導致其他 Token 的權重被相對壓制。
Residual Sink:在 Qwen3-235B 等模型中,特定維度(如第 1806、1423 維)的激活值呈現出輸入無關的持續高值。
這種現象在 DeepSeek-V3 中尤為極端。
如下圖統計所示,其殘差流中的最大激活值達到了驚人的 264192.0 ,而常規維度的數值通常僅在 量級。
〓 圖2. DeepSeek-V3 的 Attention Sink 與 Residual Sink 統計
在 FP16/BF16 訓練中,這種數值尚可被容忍。
但在 INT4 或 FP4 量化場景下,巨大的動態範圍會迫使量化參數為了遷就最大值而劇烈膨脹,導致承載核心語義的微小數值在量化過程中丟失精度。
統一視角:異常值驅動的重縮放
模型為何要花費巨大的能量去維護這些看似無用的異常值?Qwen 團隊認為,這是模型為了對抗或利用歸一化層特性而產生的一種適應性行為。
1. RMSNorm 的數學本質
回到 RMSNorm 的定義。在論文附錄中,作者給出了歸一化層的形式化表達:
當輸入向量 中存在一個極大的異常值 時,分母上的範數 會被該值主導而顯著增大。
這實際上構成了一個全局縮放槓桿。模型只需推高某幾個特定維度的數值,就能通過 RMSNorm 的除法性質,全局性地壓縮其他所有特徵維度的幅度。
論文進一步給出了嚴格的數學證明:LayerNorm 輸出的特徵範數上界,隨著異常值幅度的增加而單調遞減。
2. 統一視角
在此理論框架下,Attention Sink 和 Residual Sink 本質上是同構的:
Attention Sink:利用 Softmax 的歸一化特性。通過推高首 Token 的 Logits(分母增大),壓制其他 Token 的 Attention Weight,實現對無效資訊的過濾。
Residual Sink:利用 RMSNorm 的歸一化特性。通過推高特定維度的激活值(分母增大),調整層間殘差連接的貢獻比例。
模型並非出現錯誤,而是利用歸一化層的數學特性,演化出了一種高效的全局縮放策略。
為何 Clipping 策略失效?
理解了這一機制,就能解釋為何工程上常見的 Clipping 策略往往會導致模型崩潰。
如果我們強行截斷殘差流中的異常值(例如 Clip 到 1000),RMSNorm 的分母會瞬間變小,導致原本被壓縮的特徵幅度異常膨脹。
這破壞了模型內部已學習到的特徵分佈,進而引發訓練發散。
論文中的消融實驗進一步證實:即使移除了歸一化層,模型性能也會顯著下降。
這說明,「重縮放」並非歸一化層的副作用,而是 Transformer 訓練穩定的必要條件。
〓 表1. 數據顯示移除 Norm 或暴力 Clip 異常值(Row 12)均導致 Loss 不降反升,證明異常值是維持模型性能的必要條件。
這也從側面解釋了架構設計中的一個長期爭論:為何 SwiGLU 通常優於 GLU?
SwiGLU 使用的 Swish 激活函數在正半軸無上界,允許模型輕鬆生成巨大的異常值來觸發 Rescaling。而標準 GLU 使用 Sigmoid,值域受限於 (0, 1),限制了這種自適應縮放的能力。
解決方案:GatedNorm
既然 Rescaling 是剛需,與其讓模型依賴不穩定的異常值來實現,不如在架構層面提供顯式的控制路徑。
Qwen 團隊提出了 GatedNorm。其核心思想是在 RMSNorm 後引入一個可學習的門控機制。
其中 是 RMSNorm 的輸出。 和 構成了輕量級的 Bottleneck 結構(Rank=16),參數量增加僅約 2%,計算開銷極低。
引入 GatedNorm 後,模型擁有了合法的縮放手段,不再需要生成極端的異常值。
熱力圖對比顯示,在 GatedNorm 模型中,殘差流中的深色豎條紋幾乎完全消失,特徵分佈回歸平滑。
〓 圖3. Baseline、PreAffine 與 GatedNorm 的殘差流熱力圖對比
更值得注意的是,當 GatedNorm 補齊了縮放能力後,GLU 的表現反超了 SwiGLU。
如下圖所示,GLU + GA + GatedNorm 在 Loss 上達到最低,且不再產生劇烈的波動。這表明 SwiGLU 此前的優勢很大程度上源於其更易於產生異常值以輔助縮放。
〓 圖4. SwiGLU 與 GLU 在訓練過程中的 Loss 及異常值對比
關鍵應用
對於工業界而言,GatedNorm 的最大價值在於掃清了低比特量化的障礙。
由於 GatedNorm 從根源上消除了 Massive Activations,激活值的分佈變得緊湊且消除了長尾效應,極大降低了量化難度。
在激進的 FP4(W4A4)測試中:
〓 表2. 7B 和 24B MoE 模型在 FP4 量化下的性能對比
PreAffine(前沿對照組):在 MGSM 等數學任務上,準確率下降顯著(58.46 -> 49.58),說明僅靠參數吸收異常值無法解決量化損失。
GatedNorm:表現魯棒。MGSM 僅下降不到 2 個點(55.47 -> 53.70),在 Code 任務上甚至略高於量化前的 Baseline。
這說明使用 GatedNorm 訓練的模型,天然具備對 W4A4 推理架構的親和性,無需複雜的後訓練量化調整。
結語
這項研究揭示了 Transformer 架構中一個被長期忽視的機理:Attention Sink 和 Residual Sink 並非設計缺陷,而是模型在歸一化約束下為實現「特徵重縮放」而湧現的功能性特徵。
下表總結了論文的核心洞察。與其在訓練後嘗試裁剪這些異常值,不如在設計階段通過 GatedNorm 提供顯式的縮放通道。
〓 表2. 統一視角下 Attention Sink 與 Residual Sink 的對比總結
對於致力於小參數模型訓練、MoE 架構優化,或對 W4A4 推理效率有明確需求的團隊,GatedNorm 提供了一個理論完備且極其易用的架構升級方向。
△長按添加小助手
掃描二維碼添加小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch 等技術交流群
關於我們
MLNLP 社區是由國內外機器學習與自然語言處理學者聯合構建的民間學術社區,目前已經發展為國內外知名的機器學習與自然語言處理社區,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社區可以為相關從業者的深造、就業及研究等方面提供開放交流平台。歡迎大家關注和加入我們。