《Attention Is All You Need》原作者之一 Llion Jones 參與新作,用 L1 正則與 CUDA Kernel 把 FFN 的 99% 稀疏變成真實提速。
2017 年,《Attention Is All You Need》將 Transformer 推上深度學習主舞台。如今,幾乎所有主流大模型都站在這套架構之上,推論、訓練、記憶體和能耗成本也隨模型規模一路上漲。
大模型運轉時,Transformer 內部並不是所有 FFN 隱藏層激活都同樣重要。對當前 token 來說,真正產生貢獻的往往只佔很小一部分,大量激活接近於零。
加入輕量級 L1 正則後,這種稀疏度甚至可以達到 99% 以上。
既然非零激活已經很少,為什麼模型運行速度依然受限?直接跳過這些零激活來節省算力,為什麼在 GPU 上反而可能遭遇負優化?
這項發表於 ICML 2026 的工作來自 Sakana AI 與 NVIDIA,作者之一 Llion Jones 正是《Attention Is All You Need》原作者之一。
論文沒有引入複雜架構改造,而是圍繞 FFN 激活稀疏做文章。用簡單的 L1 正則誘導高稀疏激活,再配合新的稀疏打包格式和 CUDA Kernel,把大量零激活真正跳過去。
論文標題:Sparser, Faster, Lighter Transformer Language Models
論文連結:http://arxiv.org/abs/2603.23198
程式碼連結:https://github.com/SakanaAI/sparser-faster-llms
在下游任務表現基本不受影響的前提下,該方案在十億參數級模型上實現了最高 20.5% 的前向計算提速和 21.9% 的訓練步驟提速,推論能耗同步下降,訓練稀疏度實驗中峰值記憶體也明顯降低。
這也讓原本停留在理論 FLOPs 上的稀疏性,轉化為現代 GPU 上可測的實際收益。
稀疏不等於提速
在更大規模的現代大型語言模型(LLM)中,FFN 往往佔據超過三分之二的參數,並貢獻超過 80% 的總 FLOPs。
標準 Gated FFN 的計算流程通常表示為:
ReLU 作為激活函數 σ,可以自然產生非結構化稀疏。但現代 GPU 的軟硬體棧長期圍繞規則、連續的密集計算優化。
傳統 ELLPACK 依賴整行打包和填充(padding),和現代 GPU 常用的 tiled matmul 並不相配。
若先生成完整 gate activation 再轉換為稀疏格式,就會引入額外的 kernel launch、全局記憶體讀寫和同步開銷。理論計算量少了,但格式轉換、索引管理和記憶體存取開銷很容易抵消收益。
TwELL 減掉轉換開銷
針對推論階段,研究團隊設計了 TwELL(Tile-wise ELLPACK)格式。該格式放棄全局行對齊,將矩陣列切分為與密集計算貼合的局部 1D 數據塊(Tile)。
在計算門控激活時,TwELL 格式能直接在算子尾聲(Epilogue)生成,避免單獨啟動格式轉換 kernel,也減少額外的全局記憶體讀寫。
在後續計算中,定制的 CUDA 核心單次走訪即可同步完成升維(Up)和降維(Down)投影。
其核心邏輯在於將兩次乘法融合,避免了中間狀態 h 的記憶體存取開銷:
這種融合減少了中間激活的全局記憶體讀寫,也讓稀疏帶來的理論收益更容易落到實際速度上。
Hybrid 應對非均勻稀疏
到訓練階段,記憶體容量成為關鍵瓶頸。不同 token 的非零激活數量差異很大,單一緊湊格式很容易被少數高非零行拖累。
團隊開發了混合路由機制,大多數低激活 token 進入高壓縮比的 ELL 矩陣,而偶發的高活躍 token 被動態分流至密集的備用通道,交由 Tensor Core 處理。
這種設計減少了訓練中的密集運算和中間激活儲存開銷,也降低了稀疏訓練對峰值記憶體的壓力。
百億級 Tokens 實測收益
在規模對比實驗中,作者訓練了從 0.5B 到 2B 的模型,對應 10B 到 40B tokens。稀疏訓練使用的核心正則項如下:
實驗顯示,適度 L1 正則可以把平均非零激活數量壓低幾個數量級。在較保守設置下,下游任務表現仍與稠密基線基本持平。
下游多項評測顯示,在實際運行中,推論速度提升高達 30%,記憶體需求下降超 24%。
實驗數據進一步證實,模型規模越大,這套稀疏加速機制帶來的吞吐量提升和記憶體紅利越明顯。
稀疏視角下的算力分配
稀疏激活還提供了一個觀察模型計算分配的窗口。從網路深度來看,前兩層相對靜默,而網路中段最為活躍,承擔了核心的推理與知識檢索任務。
從 token 特徵來看,低活躍 token 多是常見網頁連結片段或高度可預測的詞形片段。高活躍 token 則包含更強上下文資訊的動詞、名詞、地點和物質名稱。
這項工作沒有試圖替換 Transformer,也沒有依賴複雜架構改造。
它的價值在於把 FFN 激活稀疏接進真實 GPU 執行流程,用稀疏格式和 CUDA kernels 把一部分理論計算節省轉化成可測的速度、能耗和記憶體收益。