《Attention Is All You Need》作者再出手：Transformer 99% 稀疏，還能更快？

《Attention Is All You Need》原作者之一 Llion Jones 參與新作，用 L1 正則與 CUDA Kernel 把 FFN 的 99% 稀疏變成真實提速。

2017 年，《Attention Is All You Need》將 Transformer 推上深度學習主舞台。如今，幾乎所有主流大模型都站在這套架構之上，推論、訓練、記憶體和能耗成本也隨模型規模一路上漲。

大模型運轉時，Transformer 內部並不是所有 FFN 隱藏層激活都同樣重要。對當前 token 來說，真正產生貢獻的往往只佔很小一部分，大量激活接近於零。

加入輕量級 L1 正則後，這種稀疏度甚至可以達到 99% 以上。

既然非零激活已經很少，為什麼模型運行速度依然受限？直接跳過這些零激活來節省算力，為什麼在 GPU 上反而可能遭遇負優化？

這項發表於 ICML 2026 的工作來自 Sakana AI 與 NVIDIA，作者之一 Llion Jones 正是《Attention Is All You Need》原作者之一。

論文沒有引入複雜架構改造，而是圍繞 FFN 激活稀疏做文章。用簡單的 L1 正則誘導高稀疏激活，再配合新的稀疏打包格式和 CUDA Kernel，把大量零激活真正跳過去。

研究概覽圖

論文標題：Sparser, Faster, Lighter Transformer Language Models

論文連結：http://arxiv.org/abs/2603.23198

程式碼連結：https://github.com/SakanaAI/sparser-faster-llms

在下游任務表現基本不受影響的前提下，該方案在十億參數級模型上實現了最高 20.5% 的前向計算提速和 21.9% 的訓練步驟提速，推論能耗同步下降，訓練稀疏度實驗中峰值記憶體也明顯降低。

這也讓原本停留在理論 FLOPs 上的稀疏性，轉化為現代 GPU 上可測的實際收益。

不同稀疏度下的加速與下游表現

稀疏不等於提速

在更大規模的現代大型語言模型（LLM）中，FFN 往往佔據超過三分之二的參數，並貢獻超過 80% 的總 FLOPs。

Gated FFN 的 up、gate 與 down projection

標準 Gated FFN 的計算流程通常表示為：

標準 Gated FFN 計算公式

ReLU 作為激活函數 σ，可以自然產生非結構化稀疏。但現代 GPU 的軟硬體棧長期圍繞規則、連續的密集計算優化。

傳統 ELLPACK 依賴整行打包和填充（padding），和現代 GPU 常用的 tiled matmul 並不相配。

傳統 ELLPACK 的整行對齊存儲

若先生成完整 gate activation 再轉換為稀疏格式，就會引入額外的 kernel launch、全局記憶體讀寫和同步開銷。理論計算量少了，但格式轉換、索引管理和記憶體存取開銷很容易抵消收益。

TwELL 減掉轉換開銷

針對推論階段，研究團隊設計了 TwELL（Tile-wise ELLPACK）格式。該格式放棄全局行對齊，將矩陣列切分為與密集計算貼合的局部 1D 數據塊（Tile）。

TwELL 將列方向切成 tile，更適合與矩陣乘法 kernel 融合

在計算門控激活時，TwELL 格式能直接在算子尾聲（Epilogue）生成，避免單獨啟動格式轉換 kernel，也減少額外的全局記憶體讀寫。

帶 TwELL 存儲生成的門控投影核心邏輯

在後續計算中，定制的 CUDA 核心單次走訪即可同步完成升維（Up）和降維（Down）投影。

其核心邏輯在於將兩次乘法融合，避免了中間狀態 h 的記憶體存取開銷：

融合後的 FFN 輸出計算公式

這種融合減少了中間激活的全局記憶體讀寫，也讓稀疏帶來的理論收益更容易落到實際速度上。

Hybrid 應對非均勻稀疏

到訓練階段，記憶體容量成為關鍵瓶頸。不同 token 的非零激活數量差異很大，單一緊湊格式很容易被少數高非零行拖累。

團隊開發了混合路由機制，大多數低激活 token 進入高壓縮比的 ELL 矩陣，而偶發的高活躍 token 被動態分流至密集的備用通道，交由 Tensor Core 處理。

基於混合格式的稀疏矩陣算子路由計算邏輯

這種設計減少了訓練中的密集運算和中間激活儲存開銷，也降低了稀疏訓練對峰值記憶體的壓力。

百億級 Tokens 實測收益概覽

百億級 Tokens 實測收益

在規模對比實驗中，作者訓練了從 0.5B 到 2B 的模型，對應 10B 到 40B tokens。稀疏訓練使用的核心正則項如下：

核心 L1 正則項公式

實驗顯示，適度 L1 正則可以把平均非零激活數量壓低幾個數量級。在較保守設置下，下游任務表現仍與稠密基線基本持平。

不同 L1 正則化係數下的任務精度與非零激活數

下游多項評測顯示，在實際運行中，推論速度提升高達 30%，記憶體需求下降超 24%。

推理前向加速比與能耗節省統計

訓練步加速比與記憶體峰值降低統計

實驗數據進一步證實，模型規模越大，這套稀疏加速機制帶來的吞吐量提升和記憶體紅利越明顯。

不同參數規模下的執行效率與記憶體消耗對比

稀疏視角下的算力分配

稀疏激活還提供了一個觀察模型計算分配的窗口。從網路深度來看，前兩層相對靜默，而網路中段最為活躍，承擔了核心的推理與知識檢索任務。

網路不同層級的非零激活數量分佈

從 token 特徵來看，低活躍 token 多是常見網頁連結片段或高度可預測的詞形片段。高活躍 token 則包含更強上下文資訊的動詞、名詞、地點和物質名稱。

特定詞元及其在序列不同位置的非零激活數統計

這項工作沒有試圖替換 Transformer，也沒有依賴複雜架構改造。

它的價值在於把 FFN 激活稀疏接進真實 GPU 執行流程，用稀疏格式和 CUDA kernels 把一部分理論計算節省轉化成可測的速度、能耗和記憶體收益。

《Attention Is All You Need》作者再出手：Transformer 99% 稀疏，還能更快？

相關文章推薦

分享網址