將注意力旋轉 90 度！今天，Kimi 的「注意力殘差」火了

編輯｜冷貓

只要接觸過深度學習神經網路的讀者們，對「殘差連接（Residual Connection）」一定不會陌生。

自從 2015 年 ResNet 誕生以來，這種「將輸入直接加到輸出上」的簡單邏輯，統治了幾乎所有的神經網路架構。

但就在剛剛，沿用了十年的殘差機制「升級」了。取代它的方法，竟然是「注意力機制」。

就連 OpenAI「推理模型之父」，主導了 o1/o3 系列、Codex 編程模型及 GPT-4 的 STEM 能力開發的 Jerry Tworek 都深受這一論文啟發，認為應當重新思考之前的一切，「深度學習 2.0」的時代即將到來。

這篇顛覆傳統殘差連接機制的工作來自 Kimi 團隊，發布了一項重磅技術報告：Attention Residuals。該方法旨在透過對前序層進行學習到的、依賴輸入的注意力機制，來取代標準的深度遞迴。

論文標題：Attention Residuals

論文連結：https://github.com/MoonshotAI/Attention-Residuals/blob/master/Attention_Residuals.pdf

專案連結：https://github.com/MoonshotAI/Attention-Residuals

時間與深度的對偶

要理解 Attention Residuals 是在做什麼，我們得先看傳統的殘差連接 y = x + f (x) 出了什麼問題。

在大模型向更深、更強演進的過程中，這種殘差的加法機制帶來了兩個副作用：

1. 資訊稀釋：殘差連接採用固定單位權重的均勻聚合，導致淺層特徵在向深層傳遞時，其相對貢獻度隨深度線性衰減。這種「資訊稀釋」現象限制了深层網路對底層原始表示的直接利用能力。隨著層數增加，第一層的資訊傳到第一百層時，已經被後面九十九層的資訊層層沖淡。

2. 隱藏狀態爆炸：為了在不斷累加的殘差流中維持訊號強度，深層模組往往需要輸出模長更大的啟動值。這種隱狀態的無序擴張不僅破壞了數值穩定性，還導致梯度分布不均，增加了超大規模模型訓練收斂的難度，直接導致了訓練的不穩定性。

本文的天才之處在於，發現模型的「深度」其實就是另一種形式的「時間」。

論文作者之一的 Yulun Du 老師道出了該論文的核心思想：將注意力旋轉 90°。

Attention Residuals (AttnRes) 由此誕生：為每一層配備了一個「智慧篩選器」。每一層都會發出一個 Query，去之前的所有層裡尋找最相關的特徵，並按需分配權重進行聚合。

正如 RNN 在時間維度上的表現，殘差連接在深度維度上也將所有先驗資訊壓縮到了單一狀態中。在序列建模領域，Transformer 透過將遞迴替換為注意力機制，超越了 RNN，使每個位置都能透過資料依賴的權重，選擇性地存取之前的所有位置。研究團隊針對「深度」提出了同樣的方法：

其中是層特定的注意力權重，且滿足。與動輒達到數百萬 Token 的序列長度不同，網路的深度通常較淺（L<1000），這使得深度方向上 O (L2) 複雜度的注意力機制在計算上具有可行性。

注意力殘差

理論重構：完整的注意力殘差

傳統的殘差連接（ResNet）本質上是深度遞迴：它像 RNN 一樣，把過去所有層的資訊死板地「壓縮」進一個求和狀態中。

注意力權重可以表示為。本文採用了帶有歸一化的指數核函數，即在深度維度上執行 Softmax 注意力：

核心創新：既然 Transformer 用注意力機制取代了 RNN，解決了長序列的遺忘問題；那麼 AttnRes 就在深度上取代了殘差累加。
數學實現：每一層不再是簡單地加上前一層，而是發出一個可學習的 Query，去和之前所有層產生的 Key 做匹配。
Softmax 權重：透過 Softmax 歸一化，模型可以「挑選」出對自己最有用的某幾層。比如第 50 層可以直接提取第 2 層的特徵，權重佔比可以高達 0.8，而不用擔心中間的 48 層稀釋。

工程落地：Block AttnRes 的分塊策略

全量注意力（Full AttnRes）雖然完美，但在超深模型裡會導致記憶體和通訊量爆炸（O(L²) 複雜度）。為了讓模型跑得通，研究團隊設計了塊結構。

區域性求和（Intra-Block）：把模型分成 N 個塊。在塊內部，各層輸出依然進行簡單的累加，縮減為一個「塊代表」（Representation）：

全域調度（Inter-Block）：每一層在進行殘差聚合時，不再盯著「每一層」看，而是盯著「每一個塊」看。對於第 n 塊中的第 i 層，其 Value 矩陣定義為：

在這種設計下，網路的第一層接收 Token 嵌入；每個塊的第一層接收之前所有的塊表示及 Token 嵌入；塊內的後續層則額外關注當前塊內已產生的累加結果。最終的輸出層聚合所有 N 個塊表示。

效率奇蹟：實驗發現，即便模型有上百層，只要劃分成 N ≈ 8 個塊，就能獲得絕大部分性能增益。
複雜度驟降：記憶體開銷從隨層數 L 增長，降到了隨塊數增長。這意味著你可以用極小的代價（推理延遲增加 < 2%），獲得一個「更聰明」的深層網路。

圖 1：Attention Residuals 概覽：(a) 標準殘差（Standard Residuals）：採用均勻加法累加的傳統殘差連接方式。(b) 全量注意力殘差（Full AttnRes）：每一層都透過學習到的注意力權重，有選擇地聚合之前所有層的輸出。(c) 塊注意力殘差（Block AttnRes）：將各層劃分為若干個「塊」，將記憶體開銷從 O (Ld) 降低至 O (Nd)。

戰果：1.25 倍的「計算槓桿」

根據論文資訊，實驗架構與 Kimi Linear 完全一致，這是一種遵循 Moonlight / DeepSeek-V3 設計的混合專家模型（MoE）Transformer。唯一的修改是在殘差連接中加入了 AttnRes；模型深度、隱藏維度、專家路由和 MLP 結構等其他元件均保持不變。

研究團隊測試了五種模型規模，並為每種規模訓練了三個變體：PreNorm 基準模型、全量 AttnRes 以及約 8 個塊的 Block AttnRes。

下圖展示了擬合後的規模化曲線。

三個變體的斜率相似，但 AttnRes 在整個計算範圍內一致實現了更低的損耗（Loss）。基於擬合曲線，在 5.6 PFLOP/s-days 的計算量下，Block AttnRes 的損耗為 1.692，而基準模型為 1.714，這相當於 1.25 倍的計算優勢（Compute Advantage）。隨著模型規模增大，Full 與 Block 變體之間的差距在縮小。

研究團隊的最大模型基於 Kimi Linear 48B 配置：27 個 Transformer 塊（共 54 層），在 256 個路由專家中啟動 8 個，外加 1 個共享專家，總參數 48B，啟動參數 3B。該模型採用 Block AttnRes，每塊 6 層，共產生 9 個塊外加 1 個 Token 嵌入，形成 10 個深度方向的來源。

上圖展示了模型在 1T token 訓練過程中的動態變化：

驗證損耗：AttnRes 在整個訓練過程中始終保持較低的驗證損耗，尤其在衰減（Decay）階段差距進一步拉大。
輸出量級：基準模型遭受 PreNorm 稀釋問題：隨著隱狀態量級隨深度單調增長，深層網路被迫從固定縮放的歸一化輸入中學習越來越大的輸出，以維持影響力。而 Block AttnRes 將這種增長限制在每個塊內，透過塊邊界的選擇性聚合重置了累加過程，呈現出有界的週期性模式。
梯度量級：在所有殘差權重固定為 1 的基準模型中，梯度流在深度上的分布極不均勻，導致早期層梯度過大。Block AttnRes 的可學習 Softmax 權重引入了來源之間的競爭，從而實現了顯著更均勻的梯度分布。

下游性能表現：如上表所示，Block AttnRes 在所有評測任務中均達到或超過了基準模型。

提升顯著的任務：在多步推理任務中提升尤為突出，如 GPQA-Diamond (+7.5)、Minerva Math (+3.6) 以及程式碼生成 HumanEval (+3.1)。
知識類任務：MMLU (+1.1) 和 TriviaQA (+1.9) 也展現了穩健的提升。

資料給出了最有力的證明：

計算效率：達到同樣的性能，AttnRes 相比傳統殘差節省了約 20% 的計算量（1.25x 優勢）。
邏輯推理：在數學、程式碼等硬核任務上提升顯著。例如，在極難的 GPQA-Diamond 測試中，性能提升了 7.5 分。
穩定性：成功抑制了隱藏狀態的數值爆炸，讓深層網路依然能保持「冷靜」和「高效」。

總結：Rethink & Imagine

用更高維的視角看基礎架構的研究，時間和空間都是相通的。

這篇論文「將注意力旋轉 90°」的思想，似乎帶給 Karpathy 一些啟示和思考。

ResNet 的殘差流是資訊在不同空間深度上的傳遞。SGD（隨機梯度下降）的權重流是資訊在不同時間維度上的傳遞。

研究團隊覺得 ResNet 的加法太朴素了，所以提議用 Attention 來篩選過去每一層的輸出。既然 SGD 也是 ResNet，「Attention is All You Need」，那我們為什麼不能在最佳化器裡也加上 Attention？

架構的生命力，往往來自於對慣性的反思。

當我們回過頭去審視那些基礎架構，或許就能在過去的故紙堆中，發現更多通往未來的巧妙結合。

更多資訊，請參閱原論文。

轉載請聯繫本公眾號獲得授權

投稿或尋求報導：liyazhou@jiqizhixin.com

將注意力旋轉 90 度！今天，Kimi 的「注意力殘差」火了

相關文章推薦

分享網址