自2017年那篇「Attention Is All You Need」問世以來,Transformer架構以其平行化優勢、強大的序列建模能力和對全局上下文無偏見的結構性特徵捕獲機制,無可爭議地推動了以「連接主義學派·Deep Learning」為代表的人工智能快速發展。
Transformer的核心,即Self-Attention,以一種優雅的、自適應結構(以往大家都忽略了'結構'這一對模型學習訓練機制及正反向傳播效率優化起著關鍵且更高級抽象作用的核心要素)+數據驅動的方式模擬了信息的動態關聯與匯聚,可以說,其湧現出的上下文學習、指令遵循乃至初步的推理能力,標誌著AI從簡單模式識別向通用生成與認知推理系統邁進的關鍵轉折。
然而,伴隨著scaling law模型參數與能力的擴展演進,曾經「獨孤求敗」的Self-Attention似乎也不可避免的在負載與複雜性等問題上遇到瓶頸,且日益凸顯。這些困擾我想也源於其原生設計上的方法及架構局限,如包括:
二次方的計算與內存複雜度,即我們所熟知的計算複雜度O(L²),並導致處理超長序列無法逾越的物理屏障;
Softmax的歸一化約束問題,雖保證了權重之和為1,卻意外催生了「注意力匯聚」等病態分布,使模型的聚焦能力在長程信息中彌散;
前饋網路與注意力層構成的確定性前向傳播,使模型在預訓練後趨於靜態,難以實現真正的持續學習與動態自我優化;
更本質地,傳統Transformer作為一種「扁平化」的計算圖,所有參數以相近的頻率更新,缺乏對人腦多時間尺度學習與記憶鞏固機制的模擬,導致其知識固化、難以適應瞬息萬變的任務流。
面對這些根本性挑戰,近年來學術與產業界並未停止對「後Transformer時代」架構的探索。這些探索沿著幾條清晰而又相互交織的軸線展開,並嘗試共同探索出一幅超越經典範式的藍圖:
在模型訓練與推理效率維度上,以「Mamba」為代表的狀態空間模型和以「DSA ·DeepSeek Sparse Attention」為代表的動態稀疏注意力,分別從選擇性狀態機制和硬感知稀疏路由出發,旨在將核心序列建模的計算複雜度從O(L²)降至線性O(L×K),從而解鎖對百萬級甚至更長上下文的處理能力,我想這也是對Transformer物理架構的一種重新設計及突破。
在模型訓練與推理的動態性與自適應維度上,以「Titans」及其變體理論框架為代表的工作,探索了讓模型在推理階段學習修改自身權重(Meta-Attention Controller, MAC)或引入動態長短外部記憶過濾(如近期Titans+MIRAS)的可能性。這類研究旨在賦予模型一種「test-time memorization」的元學習動態適應能力,打破其靜態性,使其能夠根據即時上下文進行自我調整與持續適應。
在更進一步的模型架構體系與學習範式維度上,「Nested Learning」則提出了一個更為根本的反思 — 其嘗試將整個模型訓練過程,解構為一組具有不同更新頻率的「嵌套優化問題」,將優化器、注意力層等均視為不同層級的「關聯記憶·Associative Memory」。這一範式試圖為設計具備多時間尺度學習、自我演進能力的系統提供統一的白箱理論框架,並試圖為我們指向了構建更具生物合理性的智能系統的未來。上周寫了一些關於「Nested Learning」的分析,感興趣的大夥可以翻閱:
淺聊下Google Research近期一項最新成果「Nested Learning」:重构深度學習架構的理論範式
再探Google Research「Nested Learning」:不同於Transformer的優雅與暴力美學
在此背景下,決定為大家推薦一篇來自國內團隊於近期在NeurIPS 2025取得最佳論文《Gated Attention for Large Language Models》(來自阿里通義千問團隊),並嘗試著眼圍繞這篇論文中所嘗試的一小步但認為對未來有較大意義與價值的工作說起。
論文「Gated Attention」的核心探索與研究著眼點,並沒有直接選擇顛覆性的範式或架構創新,也沒有看起來像Titans+MIRAS那樣的徹底對動態長短外部記憶過濾,而是採取了一條聚焦於核心組件內在優化的單一技術路徑嘗試 —— 即對Transformer中最為成熟的Softmax注意力模塊進行了系統性的實證分析與定向增強,其核心發現是,在標準注意力輸出後施加一個由查詢向量生成的「頭特定門控·Sigmoid Gate」,這一極簡的修改能帶來多重顯著收益,包括有效緩解注意力匯聚現象、提升模型在各基準任務上的性能表現,並增強訓練過程的穩定性等。
同時,我想這項研究的意義在於,通過嚴謹的大規模實驗表明對現有模型成熟架構的核心運算單元進行深入分析與細微調整,是釋放其潛在性能、修正其已知欠缺的一條高效且實用的途徑。門控機制所引入的查詢依賴動態調制,本質上是為注意力輸出增加了一個靈活的非線性濾環節,這既增強了模塊的表達能力,也改善了信息流的動態特性。
因此,深入剖析這項關於門控注意力的工作,不僅有助於理解一個具體有效的技術改進,更能讓我們在宏觀的架構演進圖景中,認識到「對基礎組件的持續深化理解與精益優化」與「顛覆式的架構創新」同樣重要。在探索下一代人工智能基礎設施的進程中,此類兼具理論啟發性與工程實踐性的研究,是推動整個領域紮實向前邁進的關鍵組成部分。
下面讓我們一起看下這篇「Gated Attention」論文。
首先,門控機制大家應該都不陌生且在神經網路中歷史悠久,從LSTM到現代狀態空間模型和線性注意力均有應用。然而,其具體作用機制與貢獻常與其他架構改進相混淆。阿里研究團隊及其合作者發表的論文《Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free》通過大規模系統性實驗,對軟注意力中的門控變體進行了迄今為止非常全面的實證研究。
研究發現,在標準縮放點積注意力(Scaled Dot-Product Attention,SDPA)輸出後應用一個「Element-wise SDPA Gating」這極其簡單的修改帶來了顯著的性能提升、訓練穩定性改善,並能有效消除「Attention Sink」現象。接下來將嘗試從其系統性實驗設計、核心發現、機制歸因及對模型能力的影響等方面,對該研究進行簡單解讀。
核心方法與系統性探索
該研究沒有提出一個全新的複雜架構,而是採取了一種「解構與歸因」的科學方法,旨在剝離門控機制的定向效應。研究者在Transformer注意力層的五個關鍵位置引入了門控操作:查詢、鍵、值投影之後,SDPA輸出之後,以及最終輸出層之後。針對每個位置,他們進一步探索了:
① 門控的粒度(「元素級·Element-wise」 vs 「頭級·Head-wise」);
② 共享性(「頭特定·Head-Specific」 vs 「頭共享·Head-Shared 」);
③ 結合方式(「乘門控·Multiplicative」 vs 「加門控·Additive」);
④ 以及激活函數·Activation Function(Sigmoid vs SiLU)。
這種基於上述多維度對比的消融實驗設計,在15B MoE模型和1.7B密集模型上,基於高達3.5萬億token的數據集進行訓練與評估,確保了結論的穩健性和可擴展性。實驗的核心發現高度一致且引人注目:「在SDPA輸出後施加「乘門控·Multiplicative」+「頭特定·Head-Specific」+「元素級·Element-wise」Sigmoid門控,即「G1」 效果最為顯著,這種配置即被稱為"Element-wise SDPA Gating",如下圖所示:
關鍵發現:超越性能提升的複合收益
1. 一致的性能增益:在MoE和密集模型上,「G1·SDPA」能穩定降低測試困惑度(PPL)超過0.2,並在MMLU、GSM8K等多個基準任務上帶來顯著精度提升(見下表)。其效果甚至優於單純增加KV頭數或專家數量等參數擴展基線。
2. 增強的訓練穩定性:論文研究發現,引入門控能大幅減少訓練過程中的損失尖峰,允許使用更大的學習率(例如從4e-3提升至8e-3)和批量大小(見下表)。這種穩定性對於安全地擴展模型規模、提升訓練效率具有重要實踐價值。
3. 消除Attention Sink:論文驗證了門控能有效緩解兩大已知問題:
Attention Sink:在基線模型中,平均有46.7%的注意力分數流向序列的第一個token,而G1 SDPA門控將此比例降至4.8%,使注意力分布更健康,見下圖&表:
降低Massive Activation:門控同時顯著降低了隱藏狀態中的異常大激活值即「Massive Activation」,這可能直接貢獻了訓練穩定性的提升。
4. 改善長上下文外推能力:在將模型上下文長度從4K擴展到128K的實驗中,帶有門控的模型在超長上下文(64K、128K)評估中表現顯著優於基線(見下表)。這表明消除注意力匯聚有助於模型更好地泛化到訓練時未見過的更長序列。
機制歸因:非線性與稀疏性的雙重作用
論文並未止步於現象描述,而是深入分析了門控生效的內在原因,歸結為兩個核心機制:
1. 引入關鍵的非線性:在多頭注意力中,值投影矩陣<WV>和輸出投影矩陣<WO>的連續操作等效於一個低秩線性映射。在SDPA輸出到G1 Gate或值投影後引入G2 Gate,實質是在這兩個線性層之間插入了一個非線性函數,從而增強了該路徑的表達能力(見下兩個公式)。這也解釋了為何在最終輸出G5後加門控無效 —— 因為它沒有打破<WV>和 <WO>之間的線性性。
2. 引入查詢相關的稀疏性:分析發現,最有效的G1 Gate會產生高度稀疏的門控分數(均值約0.116),且這種稀疏性是依賴於當前查詢的(見下表&圖)。這種稀疏性像一個動態過濾器,能抑制與當前查詢無關的上下文信息,這是消除Attention Sink的直接原因。實驗表明,如果強制門控分數非稀疏(如使用值域在[0.5, 1]的NS-sigmoid)或在不同頭間共享,性能增益會大幅削弱。
學術與實踐價值
1. 提供了清晰的设计指南:本篇論文的研究通過嚴密的消融實驗,為社區提供了一個明確的最佳實踐,即在SDPA輸出後應用Head-Specific的乘性Sigmoid Gete。這一建議因其簡單性和有效性,也已被集成到Qwen3-Next等生產模型中。
2. 深化了对注意力机制的理解:研究揭示了Attention Sink与Massive Activation之间并非简单的因果关系(例如,G2 Gate能消除Massive Activation,但Attention Sink仍然存在)。其强调了基于查询的、Head-Specific的稀疏性对于形成健康注意力分布的重要性。
3. 连接了多种改进的共性:论文指出,诸如添加RMSNorm、Sandwich Norm等技术,其稳定模型的部分作用可能与门控类似,都通过某种方式约束或调制了注意力输出路径的激活值。这为理解一系列训练稳定技术提供了统一视角。
4. 为长上下文建模开辟了思路:证明消除Attention Sink能有益于上下文窗口扩展,这为改进长上下文模型的训练与推理提供了新的技术路径,而不仅仅是调整位置编码。
关于论文的简单总结与展望
可以说《Gated Attention for Large Language Models》是一篇「实证驱动、机制清晰」的典范研究。它通过对一个经典技术组件「Gate」的实证化、系统性重审,获得了一定的深度洞察和实用价值。其贡献不仅在于一个有效的技巧,更在于其以数据为尺,厘清了一个重要机制的生效条件与根本原因。
我想这项工作亦启发了我们,在追求复杂架构创新的同时,对现有核心组件(如注意力)进行精细化分析和「微创手术」式的增强,同样能带来性能、稳定性和可扩展性的全面突破。Gated Attention即门控注意力机制以其微小的计算开销(延迟增加<2%)和显著的复合收益,有望成为下一代大语言模型注意力层的标准配置之一。未来的研究可以进一步探索门控与模型缩放律的关系,以及其在多模态、推理等更复杂任务中的作用。
另外,我们知道,在感恩节当天DeepSeek发布了V3.2,其中的一项技术创新又被搬出→DSA(DeepSeek Sparse Attention,稀疏注意力)并成为大家讨论的焦点。不过看起来Gated Attention本身也是将核心优化方向某种程度上聚焦在了「稀疏性·Sparsity」上,那么Gated Attention与Sparse Attention两者之间在方法与思想上有什么不同、相同或各自优势吗?
因此,有关稀疏性再额外再补充一下有关「Gated Attention」与「DSA」的对比说明,同样我想对于「MoE」本身也是定位在某种结构尺度并实现不同层级维度的一种稀疏化。
在对比前,我的一个核心思考或洞见在于:这两种方法虽然都着眼于「注意力」,但我想其出发点与介入的「层级」有着本质不同。
为了更好说明,这里做一个比喻:
Gated Attention如同一位精益管理咨询师,他承认现有生产线(标准Softmax注意力)本身是有效的,但存在一些固有缺陷(如表达能力和Sink现象)。因此,他不改变生产线的骨干流程,而是在关键节点(如SDPA输出后)增加一个智能质检与调制工序(Gate),通过引入非线性与稀疏性来动态优化最终产品的质量、稳定性和一致性。
而DSA则如同一位技术架构师。他认为现有生产线O(L²)复杂度的full-attention在应对超长订单(长序列)时存在根本性的效率瓶颈。因此,他的目标是通过引入一个智能调度中心(如快速索引器),在原材料(历史上下文Token)进入核心生产线前,就动态筛选出最关键的部分,从而彻底重构生产流程,将复杂度从O(L²)降至线性或准线性O(L×N),实现数量级的效率提升。
下面,我将尝试分别从几个对比维度向大家展开两种方法的一些核心差异:
从底层方法原理上对比
Gated Attention实现了基于稠密计算后的动态网络自适应,其核心原理来自于对完整计算后的注意力输出进行再加工。它首先执行标准的、计算所有Token对之间关系的Softmax注意力,得到一个稠密的上下文向量;然后,通过一个由当前Query生成的、Head-Specific的Sigmoid Gate Vector,对该输出进行逐元素的Multiplicative调制。这个过程可以形象地理解为「先广撒网,再精准过滤」。
其稀疏性体现在特征/通道维度的软稀疏·Soft Sparse上:门控系数在0到1之间,数值接近0的维度特征被抑制,而注意力计算本身仍是稠密且二次方的,稀疏性体现在对输出特征的动态选择性保留上。
DeepSeek Sparse Attention (DSA)则基于动态路由的稀疏计算方法,其核心原理即在注意力计算发生前进行动态剪枝。DSA通过一个轻量级的Lightning Indexer快速评估所有历史Token与当前查询的相关性得分,然后,再通过Token Selector根据得分,仅筛选出最相关的Top-K个Token(例如,从128K上下文中选出2048个)。后续复杂的注意力计算(如MLA,多头潜在注意力)仅在这小部分选中的Token上进行。
其稀疏性体现在Token关系维度的硬稀疏·Hard Sparse上:通过构建一个动态的、二值化的注意力掩码,直接避免计算绝大部分不重要的Token对之间的注意力权重,从根本上改变了整个计算图。
从设计目标与达到效果差异性上对比
尽管两者都能带来性能增益,但我想其首要目标和主要成果领域还是截然不同的。
Gated Attention以优化提升标准Transformer架构的内在表达能力和训练动力学特性为初衷,其首要目标是提升标准Transformer的性能上限和训练稳定性,而非直接降低计算成本,即在解决标准注意力机制中存在的两个理论局限:
1) 值投影与输出投影构成的低秩线性映射;
2) Softmax归一化导致的注意力分数分布僵化问题(如Attention Sink);
Gated Attention的一些关键效果体现:
<1> 性能提升:通过在WV和WO两个线性投影之间引入非线性,增强了低秩注意力映射的表达能力,从而普遍提升模型在各基准测试上的表现。
<2> 消除Attention Sink:查询相关的稀疏门控能有效过滤与当前Token无关的上下文信息,从而显著缓解序列首Token过度吸引注意力的Attention Sink现象。
<3>训练稳定性:通过抑制异常大的激活值(Massive Activation),允许使用更大的学习率和批量大小进行训练,减少损失尖峰。
而DeepSeek Sparse Attention (DSA)则将重心放在突破Transformer模型处理超长序列时的计算与内存瓶颈上,其首要目标是实现超长上下文(如128K)的高效、低成本训练与推理。
DSA的一些关键效果体现:
<1> 复杂度降低:这是其最核心的贡献。通过将计算限制在Top-K个Token,DSA将核心注意力计算的复杂度从O(N²)降低至O(N·k),其中k是固定的小常数(如2048)。这使得处理极长序列时,单Token的计算成本几乎恒定,实现了近乎线性的扩展。
<2> 成本效益:效率的极大提升直接转化为真金白银的节省。基于DSA的DeepSeek-V3.2模型能够以远低于GPT-5等闭源模型的成本,提供可匹敌的推理性能,其API价格也因此得以大幅下调。
<3> 一定程度上促进了思维链的进一步精炼提纯:DSA使得模型能够以可承受的代价消耗海量的「推理Token」。例如,DeepSeek高性能变体版本Speciale在解决复杂数学问题时,会主动生成极其冗长的思维链(平均每解消耗约77K输出Token),通过增加「test-time compute」来换取更高的答案质量。—— 我想未来对于一些超级复杂的数学证明与科学探索性任务来说,DSA的这种Hard Sparse除了能对繁冗的历史上下文token进行过滤外,也能进一步推动在训练过程中捕捉并学习到更高级且抽象的全局最优。
为了让大伙能对两者的有个更直观地把握,我尝试将它们的关键对比维度进行一下整理(注:这里有一些自己不太成熟的主观理解和感性判断,也许不是很逻辑,请大家结合自身理解进行清晰判断,不要不误导,欢迎讨论):
核心思想与方法上的对比
Gated Attention:对现有成熟架构的内部增强与修复,它采取的是渐进式优化思路,旨在挖掘和解决标准注意力机制中未被充分利用或存在缺陷的部分。
DSA:对瓶颈的架构重构,它采取的是结构外的创新路径,旨在重新设计注意力机制以应对二次方复杂度这一根本性挑战。
稀疏性的本质对比
Gated Attention:后计算的、软性、特征级稀疏,发生在完整注意力计算之后,是对结果的精细化动态软调节。
DSA:预计算的、硬性、Token级稀疏,发生在核心注意力计算之前,是对计算过程的根本性简化。
设计初衷与目标的差异化对比
Gated Attention:追求更好的模型质量(更低困惑度、更高精度)、更鲁棒的训练过程和更健康的注意力分布。
DSA:追求更高的计算效率(极低的长上下文成本)、更优的扩展性(支持百K级上下文)和更高的性价比。
计算复杂度对比
Gated Attention:保持标准的 O(N²) 复杂度,并增加的乘门控操作实现小计算开销。
DSA:将核心计算降至 O(N·k)。虽然索引器本身也有计算成本,但其远低于节省下来的稠密注意力计算。
各自所面对的挑战性与创新维度对比
Gated Attention:挑战在于如何系统性验证一个针对原有transformer架构内部的极致修改的有效性,并将其作用归因于attention原生的「非线性」和「查询相关稀疏性」这两个可解释机制的重要作用。
DSA/NSA:挑战在于设计一个从训练到推理全阶段可用、适配友好、且不损失模型能力更加彻底的硬稀疏性方案。其前身NSA的创新点亦正是「原生可训练」和「全阶段加速」上。
如何选择与未来展望
通过对它们的对比,希望能够多少帮助大伙未来更好地判断其潜在适用场景和运用方法。
比如,考虑何时应用Gated Attention?
当训练或微调一个标准Transformer架构模型,主要任务序列长度在常规范围内(如≤32K),并且你的优化目标是进一步提升模型在各类任务上的性能、稳定性和长上下文泛化能力时,我觉得Gated Attention是一个简单、低风险、高回报的增强插件。
当然,从对Qwen3-Next等下一代基础模型的动作上来看,未来在Pre-Training阶段大规模应用Gated Attention也许也更能从基础底层语言结构基础泛化性能的角度上去进行更彻底的端到端优化。且我想不管是Pre-training阶段的网络重构还是在Post-training阶段的插件式应用,其内部对Attention层的稀疏性理论本质与黑盒机制我想仍是我们未来需要持续探索与发现的方向。
何时考虑DSA类稀疏注意力?
当你的核心任务是处理超长文档(如整本书、长代码库)、进行需要极长思维链的复杂推理、或在大规模服务中严格控制长文本交互的成本时,DSA这类方案我想是现有基模优先考虑的基础架构之一,即其定位作为效率为核心诉求场景下的关键架构改良技术。
两者可能的结合方向?
首先从直觉上,从具体的技术实现路径到最终的可能效果上我想两者并不互斥,未来可能也会出现融合方案。例如:在一个基于稀疏注意力的高效骨干网络上,于某些关键层引入门控机制,以进一步优化局部表达和稳定性,实现效率与质量的协同增益。当然,我想为了从严谨性上考虑,这里还需考虑做更多的消融实验,以及对两种稀疏化底层机制的理论探索。
总而言之,Gated Attention与DSA代表了当前大模型注意力机制优化的两个关键方向:一个向内深耕,致力于让经典架构发挥出「120%」的潜力;一个向外拓展,致力于打破物理限制,将模型的视野和思维成本推向新的边界。
虽然它们并没有像Google或其它研究机构那样尝试提出一个宏大且颠覆似的创新架构或范式(如「Titans+MIRAS」&「Nested Learning」),不过这种step by step的理论突破与实验验证亦能共同推动着大模型技术的持续演进。
By 吕明