將注意力旋轉 90 度!今天,Kimi 的「注意力殘差」火了

圖片

編輯|冷貓

只要接觸過深度學習神經網路的讀者們,對「殘差連接(Residual Connection)」一定不會陌生。

自從 2015 年 ResNet 誕生以來,這種「將輸入直接加到輸出上」的簡單邏輯,統治了幾乎所有的神經網路架構。

但就在剛剛,沿用了十年的殘差機制「升級」了。取代它的方法,竟然是「注意力機制」。

圖片

就連 OpenAI「推理模型之父」,主導了 o1/o3 系列、Codex 編程模型及 GPT-4 的 STEM 能力開發的 Jerry Tworek 都深受這一論文啟發,認為應當重新思考之前的一切,「深度學習 2.0」的時代即將到來。

圖片

這篇顛覆傳統殘差連接機制的工作來自 Kimi 團隊,發布了一項重磅技術報告:Attention Residuals。該方法旨在透過對前序層進行學習到的、依賴輸入的注意力機制,來取代標準的深度遞迴。

圖片
  • 論文標題:Attention Residuals

時間與深度的對偶

要理解 Attention Residuals 是在做什麼,我們得先看傳統的殘差連接 y = x + f (x) 出了什麼問題。

在大模型向更深、更強演進的過程中,這種殘差的加法機制帶來了兩個副作用:

1. 資訊稀釋:殘差連接採用固定單位權重的均勻聚合,導致淺層特徵在向深層傳遞時,其相對貢獻度隨深度線性衰減。這種「資訊稀釋」現象限制了深层網路對底層原始表示的直接利用能力。隨著層數增加,第一層的資訊傳到第一百層時,已經被後面九十九層的資訊層層沖淡。

2. 隱藏狀態爆炸:為了在不斷累加的殘差流中維持訊號強度,深層模組往往需要輸出模長更大的啟動值。這種隱狀態的無序擴張不僅破壞了數值穩定性,還導致梯度分布不均,增加了超大規模模型訓練收斂的難度,直接導致了訓練的不穩定性。

本文的天才之處在於,發現模型的「深度」其實就是另一種形式的「時間」。

圖片

論文作者之一的 Yulun Du 老師道出了該論文的核心思想:將注意力旋轉 90°。

Attention Residuals (AttnRes) 由此誕生:為每一層配備了一個「智慧篩選器」。每一層都會發出一個 Query,去之前的所有層裡尋找最相關的特徵,並按需分配權重進行聚合。

正如 RNN 在時間維度上的表現,殘差連接在深度維度上也將所有先驗資訊壓縮到了單一狀態 圖片 中。在序列建模領域,Transformer 透過將遞迴替換為注意力機制,超越了 RNN,使每個位置都能透過資料依賴的權重,選擇性地存取之前的所有位置。研究團隊針對「深度」提出了同樣的方法:

圖片

其中 圖片 是層特定的注意力權重,且滿足 圖片。與動輒達到數百萬 Token 的序列長度不同,網路的深度通常較淺(L<1000),這使得深度方向上 O (L2) 複雜度的注意力機制在計算上具有可行性。

注意力殘差

理論重構:完整的注意力殘差

傳統的殘差連接(ResNet)本質上是深度遞迴:它像 RNN 一樣,把過去所有層的資訊死板地「壓縮」進一個求和狀態中。

注意力權重可以表示為 圖片。本文採用了帶有歸一化的指數核函數,即在深度維度上執行 Softmax 注意力:

圖片
  • 核心創新:既然 Transformer 用注意力機制取代了 RNN,解決了長序列的遺忘問題;那麼 AttnRes 就在深度上取代了殘差累加。

  • 數學實現:每一層不再是簡單地加上前一層,而是發出一個可學習的 Query,去和之前所有層產生的 Key 做匹配。

  • Softmax 權重:透過 Softmax 歸一化,模型可以「挑選」出對自己最有用的某幾層。比如第 50 層可以直接提取第 2 層的特徵,權重佔比可以高達 0.8,而不用擔心中間的 48 層稀釋。

工程落地:Block AttnRes 的分塊策略

全量注意力(Full AttnRes)雖然完美,但在超深模型裡會導致記憶體和通訊量爆炸(O(L²) 複雜度)。為了讓模型跑得通,研究團隊設計了塊結構。

區域性求和(Intra-Block):把模型分成 N 個塊。在塊內部,各層輸出依然進行簡單的累加,縮減為一個「塊代表」(Representation):

圖片

全域調度(Inter-Block):每一層在進行殘差聚合時,不再盯著「每一層」看,而是盯著「每一個塊」看。對於第 n 塊中的第 i 層,其 Value 矩陣定義為:

圖片

在這種設計下,網路的第一層接收 Token 嵌入;每個塊的第一層接收之前所有的塊表示及 Token 嵌入;塊內的後續層則額外關注當前塊內已產生的累加結果。最終的輸出層聚合所有 N 個塊表示。

  • 效率奇蹟:實驗發現,即便模型有上百層,只要劃分成 N ≈ 8 個塊,就能獲得絕大部分性能增益。

  • 複雜度驟降:記憶體開銷從隨層數 L 增長,降到了隨塊數增長。這意味著你可以用極小的代價(推理延遲增加 < 2%),獲得一個「更聰明」的深層網路。

圖片

圖 1:Attention Residuals 概覽:(a) 標準殘差(Standard Residuals):採用均勻加法累加的傳統殘差連接方式。(b) 全量注意力殘差(Full AttnRes):每一層都透過學習到的注意力權重,有選擇地聚合之前所有層的輸出。(c) 塊注意力殘差(Block AttnRes):將各層劃分為若干個「塊」,將記憶體開銷從 O (Ld) 降低至 O (Nd)。

戰果:1.25 倍的「計算槓桿」

根據論文資訊,實驗架構與 Kimi Linear 完全一致,這是一種遵循 Moonlight / DeepSeek-V3 設計的混合專家模型(MoE)Transformer。唯一的修改是在殘差連接中加入了 AttnRes;模型深度、隱藏維度、專家路由和 MLP 結構等其他元件均保持不變。

研究團隊測試了五種模型規模,並為每種規模訓練了三個變體:PreNorm 基準模型、全量 AttnRes 以及約 8 個塊的 Block AttnRes。

圖片

下圖展示了擬合後的規模化曲線。

圖片

三個變體的斜率相似,但 AttnRes 在整個計算範圍內一致實現了更低的損耗(Loss)。基於擬合曲線,在 5.6 PFLOP/s-days 的計算量下,Block AttnRes 的損耗為 1.692,而基準模型為 1.714,這相當於 1.25 倍的計算優勢(Compute Advantage)。隨著模型規模增大,Full 與 Block 變體之間的差距在縮小。

研究團隊的最大模型基於 Kimi Linear 48B 配置:27 個 Transformer 塊(共 54 層),在 256 個路由專家中啟動 8 個,外加 1 個共享專家,總參數 48B,啟動參數 3B。該模型採用 Block AttnRes,每塊 6 層,共產生 9 個塊外加 1 個 Token 嵌入,形成 10 個深度方向的來源。

圖片

上圖展示了模型在 1T token 訓練過程中的動態變化:

  • 驗證損耗:AttnRes 在整個訓練過程中始終保持較低的驗證損耗,尤其在衰減(Decay)階段差距進一步拉大。

  • 輸出量級:基準模型遭受 PreNorm 稀釋問題:隨著隱狀態量級隨深度單調增長,深層網路被迫從固定縮放的歸一化輸入中學習越來越大的輸出,以維持影響力。而 Block AttnRes 將這種增長限制在每個塊內,透過塊邊界的選擇性聚合重置了累加過程,呈現出有界的週期性模式。

  • 梯度量級:在所有殘差權重固定為 1 的基準模型中,梯度流在深度上的分布極不均勻,導致早期層梯度過大。Block AttnRes 的可學習 Softmax 權重引入了來源之間的競爭,從而實現了顯著更均勻的梯度分布。

圖片

下游性能表現:如上表所示,Block AttnRes 在所有評測任務中均達到或超過了基準模型。

  • 提升顯著的任務:在多步推理任務中提升尤為突出,如 GPQA-Diamond (+7.5)、Minerva Math (+3.6) 以及程式碼生成 HumanEval (+3.1)。

  • 知識類任務:MMLU (+1.1) 和 TriviaQA (+1.9) 也展現了穩健的提升。

資料給出了最有力的證明:

  • 計算效率:達到同樣的性能,AttnRes 相比傳統殘差節省了約 20% 的計算量(1.25x 優勢)。

  • 邏輯推理:在數學、程式碼等硬核任務上提升顯著。例如,在極難的 GPQA-Diamond 測試中,性能提升了 7.5 分。

  • 穩定性:成功抑制了隱藏狀態的數值爆炸,讓深層網路依然能保持「冷靜」和「高效」。

總結:Rethink & Imagine

用更高維的視角看基礎架構的研究,時間和空間都是相通的。

這篇論文「將注意力旋轉 90°」的思想,似乎帶給 Karpathy 一些啟示和思考。

圖片

ResNet 的殘差流是資訊在不同空間深度上的傳遞。SGD(隨機梯度下降)的權重流是資訊在不同時間維度上的傳遞。

研究團隊覺得 ResNet 的加法太朴素了,所以提議用 Attention 來篩選過去每一層的輸出。既然 SGD 也是 ResNet,「Attention is All You Need」,那我們為什麼不能在最佳化器裡也加上 Attention?

架構的生命力,往往來自於對慣性的反思。

當我們回過頭去審視那些基礎架構,或許就能在過去的故紙堆中,發現更多通往未來的巧妙結合。

更多資訊,請參閱原論文。

© THE END

轉載請聯繫本公眾號獲得授權

投稿或尋求報導:liyazhou@jiqizhixin.com


分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.