《Attention Is All You Need》作者再出手:Transformer 99% 稀疏,還能更快?

《Attention Is All You Need》原作者之一 Llion Jones 參與新作,用 L1 正則與 CUDA Kernel 把 FFN 的 99% 稀疏變成真實提速。

2017 年,《Attention Is All You Need》將 Transformer 推上深度學習主舞台。如今,幾乎所有主流大模型都站在這套架構之上,推論、訓練、記憶體和能耗成本也隨模型規模一路上漲。

大模型運轉時,Transformer 內部並不是所有 FFN 隱藏層激活都同樣重要。對當前 token 來說,真正產生貢獻的往往只佔很小一部分,大量激活接近於零。

加入輕量級 L1 正則後,這種稀疏度甚至可以達到 99% 以上。

既然非零激活已經很少,為什麼模型運行速度依然受限?直接跳過這些零激活來節省算力,為什麼在 GPU 上反而可能遭遇負優化?

這項發表於 ICML 2026 的工作來自 Sakana AI 與 NVIDIA,作者之一 Llion Jones 正是《Attention Is All You Need》原作者之一。

論文沒有引入複雜架構改造,而是圍繞 FFN 激活稀疏做文章。用簡單的 L1 正則誘導高稀疏激活,再配合新的稀疏打包格式和 CUDA Kernel,把大量零激活真正跳過去。

研究概覽圖

論文標題:Sparser, Faster, Lighter Transformer Language Models

論文連結:http://arxiv.org/abs/2603.23198

程式碼連結:https://github.com/SakanaAI/sparser-faster-llms

在下游任務表現基本不受影響的前提下,該方案在十億參數級模型上實現了最高 20.5% 的前向計算提速和 21.9% 的訓練步驟提速,推論能耗同步下降,訓練稀疏度實驗中峰值記憶體也明顯降低。

這也讓原本停留在理論 FLOPs 上的稀疏性,轉化為現代 GPU 上可測的實際收益。

不同稀疏度下的加速與下游表現

稀疏不等於提速

在更大規模的現代大型語言模型(LLM)中,FFN 往往佔據超過三分之二的參數,並貢獻超過 80% 的總 FLOPs。

Gated FFN 的 up、gate 與 down projection

標準 Gated FFN 的計算流程通常表示為:

標準 Gated FFN 計算公式

ReLU 作為激活函數 σ,可以自然產生非結構化稀疏。但現代 GPU 的軟硬體棧長期圍繞規則、連續的密集計算優化。

傳統 ELLPACK 依賴整行打包和填充(padding),和現代 GPU 常用的 tiled matmul 並不相配。

傳統 ELLPACK 的整行對齊存儲

若先生成完整 gate activation 再轉換為稀疏格式,就會引入額外的 kernel launch、全局記憶體讀寫和同步開銷。理論計算量少了,但格式轉換、索引管理和記憶體存取開銷很容易抵消收益。

TwELL 減掉轉換開銷

針對推論階段,研究團隊設計了 TwELL(Tile-wise ELLPACK)格式。該格式放棄全局行對齊,將矩陣列切分為與密集計算貼合的局部 1D 數據塊(Tile)。

TwELL 將列方向切成 tile,更適合與矩陣乘法 kernel 融合

在計算門控激活時,TwELL 格式能直接在算子尾聲(Epilogue)生成,避免單獨啟動格式轉換 kernel,也減少額外的全局記憶體讀寫。

帶 TwELL 存儲生成的門控投影核心邏輯

在後續計算中,定制的 CUDA 核心單次走訪即可同步完成升維(Up)和降維(Down)投影。

其核心邏輯在於將兩次乘法融合,避免了中間狀態 h 的記憶體存取開銷:

融合後的 FFN 輸出計算公式

這種融合減少了中間激活的全局記憶體讀寫,也讓稀疏帶來的理論收益更容易落到實際速度上。

Hybrid 應對非均勻稀疏

到訓練階段,記憶體容量成為關鍵瓶頸。不同 token 的非零激活數量差異很大,單一緊湊格式很容易被少數高非零行拖累。

團隊開發了混合路由機制,大多數低激活 token 進入高壓縮比的 ELL 矩陣,而偶發的高活躍 token 被動態分流至密集的備用通道,交由 Tensor Core 處理。

基於混合格式的稀疏矩陣算子路由計算邏輯

這種設計減少了訓練中的密集運算和中間激活儲存開銷,也降低了稀疏訓練對峰值記憶體的壓力。

百億級 Tokens 實測收益概覽

百億級 Tokens 實測收益

在規模對比實驗中,作者訓練了從 0.5B 到 2B 的模型,對應 10B 到 40B tokens。稀疏訓練使用的核心正則項如下:

核心 L1 正則項公式

實驗顯示,適度 L1 正則可以把平均非零激活數量壓低幾個數量級。在較保守設置下,下游任務表現仍與稠密基線基本持平。

不同 L1 正則化係數下的任務精度與非零激活數

下游多項評測顯示,在實際運行中,推論速度提升高達 30%,記憶體需求下降超 24%。

推理前向加速比與能耗節省統計

訓練步加速比與記憶體峰值降低統計

實驗數據進一步證實,模型規模越大,這套稀疏加速機制帶來的吞吐量提升和記憶體紅利越明顯。

不同參數規模下的執行效率與記憶體消耗對比

稀疏視角下的算力分配

稀疏激活還提供了一個觀察模型計算分配的窗口。從網路深度來看,前兩層相對靜默,而網路中段最為活躍,承擔了核心的推理與知識檢索任務。

網路不同層級的非零激活數量分佈

從 token 特徵來看,低活躍 token 多是常見網頁連結片段或高度可預測的詞形片段。高活躍 token 則包含更強上下文資訊的動詞、名詞、地點和物質名稱。

特定詞元及其在序列不同位置的非零激活數統計

這項工作沒有試圖替換 Transformer,也沒有依賴複雜架構改造。

它的價值在於把 FFN 激活稀疏接進真實 GPU 執行流程,用稀疏格式和 CUDA kernels 把一部分理論計算節省轉化成可測的速度、能耗和記憶體收益。

相關文章推薦

分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.