MLNLPコミュニティは国内外で有名な機械学習と自然言語処理コミュニティで、国内外のNLP修士・博士課程学生、大学教員、企業研究者を含む多くの人々に読まれています。
コミュニティのビジョンは、国内外の自然言語処理、機械学習の学術界、産業界、そして広大な愛好家たちの間での交流と進歩、特に初心者たちの成長を促進することです。
出典 | PaperWeekly
Transformerの訓練过程中、权重や活性化値の分布に少し注意を払うと、残差流に奇妙な現象が見つかります:
どのようなトークンを入力しても、特定の次元の活性化値が常に他の次元よりも著しく高い値を示します。
同時に、Attention Mapの最初のトークン(通常は<BOS>)も、非常に高い注意力重み(Attention Sink)を占める傾向があります。
実際の工学的実践では、数値安定性や量子化オーバーフローを解決するために、一般的な処理方法は、それらを切断(Clip)するか、正則化手段を通じて抑制しようとすることです。
阿里Qwenチームが発表した最新論文は、これらの異常値が訓練不安定の産物ではなく、モデルが正則化の制約下で自発的に発達させた再スケーリングメカニズムであると指摘しています。
この研究は、DeepSeek-V3、Qwen、GPT-OSSなどのモデルに普遍存在するSink現象を統一的に説明し、数学的な基盤から、これらの異常値を強制的に除去することは、モデルの特徴調節能力を破壊することと同等であることを証明しています。
これに基づいて、Qwenは、パラメータ効率の高いアーキテクチャの改善であるGatedNormを提案しました。これは、不安定な異常値の代わりに明示的なゲートメカニズムを使用し、アーキテクチャのレベルで低ビット量子化の精度の問題を効果的に解決します。
論文タイトル:
A Unified View of Attention and Residual Sinks: Outlier-Driven Rescaling is Essential for Transformer Training
論文リンク:
https://arxiv.org/pdf/2601.22966
普遍的な「異常値」
Qwenチームは、Qwen3、GPT-OSSに対して、アーキテクチャをまたいだ比較分析を行い、この異常がTransformerの共通した特徴であることを示しました。
図1. Qwen3とGPT-OSSのAttention SinkとResidual Sinkの可視化
上記の図に示すように:
Attention Sink:最初のトークンが绝大部分のAttention Logitsを吸収し、他のトークンの重みが相対的に抑制されます。
Residual Sink:Qwen3-235Bなどのモデルでは、特定の次元(例えば第1806、1423次元)の活性化値が、入力に関係なく持続的に高い値を示します。
この現象はDeepSeek-V3において特に極端です。
下記の統計に示すように、その残差流における最大活性化値は驚異的な264192.0に達し、通常の次元の数値は通常10^0程度です。
図2. DeepSeek-V3のAttention SinkとResidual Sinkの統計
FP16/BF16訓練では、この数値はまだ許容可能です。
しかし、INT4またはFP4量子化のシナリオでは、巨大な動的範囲が、最大値に合わせて量子化パラメータを劇的に膨張させることを強制し、コアな意味を担う微小な数値が量子化过程中で精度を失う原因となります。
統一的な視点:異常値駆動の再スケーリング
モデルはなぜ、これらの無駄に見える異常値を維持するために莫大なエネルギーを費やすのでしょうか?Qwenチームは、これはモデルが正則化層の特性に対抗または利用するために生じる適応行動であると考えています。
1. RMSNormの数学的本質
RMSNormの定義に戻りましょう。論文の付録では、正則化層の形式的な表現が示されています。
入力ベクトル に巨大な異常値 が存在する場合、分母のノルム はその値によって支配され、著しく増加します。
これは実質的に、 というグローバルなスケーリングレバーを構成します。 モデルは特定の数個の次元の数値を押し上げるだけで、RMSNormの除算特性を通じて、他のすべての特徴次元の振幅をグローバルに圧縮できます。
論文はさらに厳密な数学的証明を示しています: LayerNorm出力の特徴ノルムの上界は、異常値の振幅の増加とともに単調に減少します。
2. 統一的な視点
この理論的枠組みの下で、Attention SinkとResidual Sinkは本質的に同形です:
Attention Sink: Softmax の正則化特性を利用します。 最初のトークンのLogitsを押し上げ(分母を増やし)、他のトークンのAttention Weightを抑制し、無効な情報のフィルタリングを実現します。
Residual Sink: RMSNorm の正則化特性を利用します。 特定の次元の活性化値を押し上げ(分母を増やし)、層間の残差接続の貢献比率を調整します。
モデルは誤りを犯しているのではなく、正則化層の数学的特性を利用して、効率的なグローバルなスケーリング戦略を発達させたのです。
なぜClipping戦略が失敗するのか?
このメカニズムを理解すれば、工学的に一般的なClipping戦略がなぜモデルを崩壊させるのかを説明できます。
もし残差流の異常値を強制的に切断する場合(例えば1000にClipする)、RMSNormの分母は瞬時に小さくなり、元々圧縮されていた特徴の振幅が異常に膨張します。
これは、モデル内部で学習された特徴分布を破壊し、訓練の発散を引き起こします。
論文の消融実験はさらに確認しています: 正則化層を除去しても、モデルの性能は著しく低下します。
これは、「再スケーリング」が正則化層の副作用ではなく、Transformerの訓練安定の必要条件であることを示しています。
表1. Normを除去または異常値を暴力的にClip(Row 12)すると、Lossが下がるどころか上昇するデータが、異常値がモデル性能を維持するための必要条件であることを証明しています。
これもまた、アーキテクチャ設計における長年の議論を側面から説明しています: なぜSwiGLUが通常GLUより優れているのか?
SwiGLUが使用するSwish活性化関数は正の半軸に上界がなく、モデルが巨大な異常値を簡単に生成してRescalingを引き起こすことを許可します。一方、標準のGLUはSigmoidを使用し、値域は(0, 1)に制限され、この適応的なスケーリング能力を制限します。
解決策:GatedNorm
Rescalingが必須であるならば、モデルに不安定な異常値に依存させるよりも、アーキテクチャのレベルで明示的な制御パスを提供する方が良いでしょう。
Qwenチームは GatedNorm を提案しました。その核心思想は、RMSNormの後に学習可能なゲートメカニズムを導入することです。
ここで はRMSNormの出力です。 と は軽量級のBottleneck構造(Rank=16)を構成し、パラメータ量は約2%増加し、計算オーバーヘッドは非常に低いです。
GatedNormを導入すると、モデルは合法的なスケーリング手段を持ち、極端な異常値を生成する必要がなくなります。
ヒートマップの比較では、GatedNormモデルでは、残差流の深い色の縦縞がほぼ完全に消え、特徴分布が滑らかに戻ることが示されています。
図3. Baseline、PreAffine、GatedNormの残差流ヒートマップの比較
さらに注目すべきは、GatedNormがスケーリング能力を補完した後、 GLUのパフォーマンスがSwiGLUを逆転したことです。
下記の図に示すように、 GLU + GA + GatedNorm はLossで最低値に達し、激しい変動も生じなくなりました。これは、SwiGLUの以前の優位性は、主にスケーリングを補助するために異常値をより簡単に生成できる点に起因していることを示しています。
図4. SwiGLUとGLUの訓練過程におけるLossと異常値の比較
重要な応用
産業界にとって、GatedNormの最大の価値は、低ビット量子化の障害を一掃することです。
GatedNormは根源からMassive Activationsを除去するため、活性化値の分布が密になり、ロングテイル効果がなくなり、量子化の難易度が大幅に低下します。
攻撃的な FP4(W4A4) テストでは:
表2. 7Bと24B MoEモデルのFP4量子化下的パフォーマンス比較
PreAffine(フロンティア対照群): MGSMなどの数学タスクでは、正確率が著しく低下しました(58.46 -> 49.58)。これは、異常値をパラメータで吸収するだけでは量子化損失を解決できないことを示しています。
GatedNorm: 堅牢なパフォーマンスを示しました。MGSMはわずか2ポイント未満しか低下せず(55.47 -> 53.70)、Codeタスクでは量子化前のBaselineをわずかに上回ることもあります。
これは、GatedNormを使用して訓練されたモデルは、複雑な後訓練量子化調整を必要とせず、W4A4推論アーキテクチャに天然的に親和性があることを示しています。
結論
この研究は、Transformerアーキテクチャにおいて長く無視されてきたメカニズムを明らかにしました: Attention SinkとResidual Sinkは設計上の欠陥ではなく、モデルが正則化の制約下で「特徴の再スケーリング」を実現するために出現した機能的特徴です。
下記の表は論文の核心的な洞察をまとめています。訓練後にこれらの異常値を切断するよりも、設計段階でGatedNormを通じて明示的なスケーリングチャネルを提供する方が良いでしょう。
表2. 統一的な視点下でのAttention SinkとResidual Sinkの比較まとめ
小パラメータモデルの訓練、MoEアーキテクチャの最適化、またはW4A4推論効率に明確なニーズがあるチームにとって、GatedNormは理論的に完備しており、非常に使いやすいアーキテクチャのアップグレード方向を提供します。