注意を 90 度回転させる！今日、Kimi の「注意残差」が話題に

編集｜冷猫

ディープラーニングのニューラルネットワークに触れたことのある読者なら、「残差（Residual）」という用語に馴染みがあるはずです。

2015 年に ResNet が登場して以来、「入力を出力に直接加算する」というこの単純なロジックは、ほぼすべてのニューラルネットワークアーキテクチャを支配してきました。

しかし、まさに今、10 年間使用され続けてきた残差メカニズムが「アップグレード」されました。橙想（Cheng Xiang）によれば、その代替手法は驚くべきことに「アテンションメカニズム」なのです。

OpenAI の「推論モデルの父」とも称され、o1/o3 シリーズや Codex プログラミングモデル、GPT-4 の STEM 能力開発を主導したジェリー・トロレク（Jerry Tworek）でさえも、この論文に深く感銘を受け、これまでのすべてを再考すべきであり、「ディープラーニング 2.0」の時代が近づいていると述べています。

この伝統的な残差接続メカニズムを覆す研究は、Kimiチームによるもので、画期的な技術報告書「Attention Residuals」を発表しました。この手法は、標準的なディープリカレンス（再帰）に代わり、入力に依存し、事前のレイヤーから学習されたアテンションメカニズムを通じて情報を統合することを目指しています。

論文タイトル：Attention Residuals

論文リンク：https://github.com/MoonshotAI/Attention-Residuals/blob/master/Attention_Residuals.pdf

プロジェクトリンク：https://github.com/MoonshotAI/Attention-Residuals

時間と深さの双対性

「Attention Residuals」が何を行っているのかを理解するには、まず従来の残差接続 y = x + f (x) が抱える問題点から見る必要があります。

大規模モデルがより深く、より強力へと進化する過程で、この残差の加算メカニズムは 2 つの副作用をもたらしました。

1. 情報の希薄化：残差接続は固定された単位重みによる均一な集約を採用しているため、浅いレイヤーの特徴が深いレイヤーへ伝達される際、その相対的な寄与度は深さに比例して線形に減衰します。この「情報の希薄化」現象は、深層ネットワークが下流の原始表現を直接利用する能力を制限します。レイヤー数が増えるにつれ、1 層目の情報は 100 層目に到達する頃には、その後の 99 層分の情報によって层层と薄められてしまいます。

2. 隠れ状態の爆発：絶え間なく加算される残差ストリームの中で信号強度を維持するため、深層モジュールはより大きなノルムを持つ活性化値を出力せざるを得なくなります。この隠れ状態の無秩序な拡大は数値的安定性を損なうだけでなく、勾配分布の偏りを引き起こし、超大規模モデルの学習収束を困難にし、学習の不安定性を直接招く結果となりました。

本論文の天才的な点は、モデルの「深さ」とは別の形での「時間」であることを見出したことです。

論文執筆者の一人であるユーロン・ドゥ（Yulun Du）氏は、この論文の中核思想をこう語っています。「注意を 90 度回転させる」ことだと。

こうしてAttention Residuals (AttnRes)が誕生しました。これは各レイヤーに「インテリジェントなフィルタ」を装備させるものです。各レイヤーはクエリを発行し、過去のすべてのレイヤーから最も関連性の高い特徴を探し出し、必要に応じて重みを割り当てて集約します。

RNN が時間軸上で見せる振る舞いと同様に、残差接続も深さの次元において、すべての事前情報を単一の状態に圧縮していました。時系列モデリングの分野では、Transformer が再帰をアテンションメカニズムに置き換えることで RNN を凌駕し、各位置がデータに依存する重みを通じて、過去のすべての位置を選択的にアクセスできるようにしました。研究チームはこれを「深さ」に対して同様に適用することを目指しました。

ここで、はレイヤー固有のアテンション重みであり、を満たします。数百万トークンに及ぶこともあるシーケンス長とは異なり、ネットワークの深さは通常浅く（L<1000）、深さ方向における O (L²) の計算量を持つアテンションメカニズムでも計算的に実行可能です。

注意残差

理論の再構築：完全な注意残差

従来の残差接続（ResNet）の本質はディープリカレンスです。RNN と同様に、過去のすべてのレイヤーの情報を機械的に 1 つの総和状態に「圧縮」してしまいます。

アテンション重みはと表せます。本論文では正規化された指数カーネル関数を採用し、深さの次元でSoftmax アテンションを実行します。

中核的な革新：Transformer が RNN をアテンションメカニズムに置き換えて長いシーケンスの忘却問題を解決したように、AttnRes は深さの次元で残差の加算を置き換えます。
数学的実装：各レイヤーは単に前のレイヤーを加算するのではなく、学習可能なクエリを発行し、それ以前のすべてのレイヤーが生成したキーとマッチングを取ります。
Softmax 重み：Softmax による正規化により、モデルは自身にとって最も有用な特定のレイヤーを「選択」できます。例えば、50 層目が 2 層目の特徴を直接抽出し、その重み比率を 0.8 とすることも可能で、間の 48 層によって希薄されることを心配する必要がありません。

エンジニアリングへの実装：Block AttnRes によるブロック分割戦略

完全なアテンション（Full AttnRes）は理想的ですが、超深層モデルではメモリや通信量が爆発的に増加（O(L²)の複雑さ）してしまいます。モデルを実行可能にするため、研究チームはブロック構造を設計しました。

局所的総和（Intra-Block）：モデルを N 個のブロックに分割します。ブロック内部では、各レイヤーの出力は依然として単純に加算され、1 つの「ブロック代表（表現）」に要約されます。

大域的スケジューリング（Inter-Block）：残差を集約する際、各レイヤーは「個々のレイヤー」ではなく「各ブロック」に注目します。n 番目のブロック内の i 番目のレイヤーについて、そのValue 行列は次のように定義されます。

この設計のもと、ネットワークの第 1 層はトークン埋め込みを受け取り、各ブロックの第 1 層はそれ以前のすべてのブロック表現およびトークン埋め込みを受け取ります。ブロック内の後続のレイヤーは、さらに現在のブロック内で生成された累積結果にも注目します。最終的な出力層は、すべての N 個のブロック表現を集約します。

効率の奇跡：実験により、モデルが数百層あっても、N≈8個程度のブロックに分割するだけで、性能向上の大部分が得られることが判明しました。
複雑さの劇的軽減：メモリ消費がレイヤー数 L に比例して増加していたのが、ブロック数に比例するようになりました。これにより、極めて小さな代償（推論遅延の増加は 2% 未満）で、「より賢い」深層ネットワークを構築できるようになります。

図 1：Attention Residuals の概要：(a) 標準残差（Standard Residuals）：均一加算による累積を行う従来の残差接続方式。(b) 完全注意残差（Full AttnRes）：各レイヤーが学習されたアテンション重みを通じて、それ以前の全レイヤーの出力を選択的に集約する。(c) ブロック注意残差（Block AttnRes）：レイヤーをいくつかの「ブロック」に分割し、メモリ消費を O (Ld) から O (Nd) へ削減する。

戦果：1.25 倍の「計算レバレッジ」

論文の情報によると、実験アーキテクチャは Kimi Linear と完全に同一です。これは Moonlight / DeepSeek-V3 の設計に準拠した専門化混合モデル（MoE）の Transformer です。唯一の変更点は残差接続に AttnRes を追加したことだけであり、モデルの深さ、隠れ次元、エキスパートルーティング、MLP 構造などの他の構成要素は変更されていません。

研究チームは 5 種類のモデル規模をテストし、それぞれについて 3 つの変種（PreNorm ベースライン、完全な AttnRes、約 8 ブロックの Block AttnRes）を学習しました。

下図はフィッティング後のスケーリング曲線を示しています。

3 つの変種は傾きが似ていますが、AttnRes は計算量全体を通じて一貫してより低い損失（Loss）を達成しました。フィッティング曲線に基づくと、5.6 PFLOP/s-days の計算量において、Block AttnRes の損失は 1.692 であり、ベースラインモデルは 1.714 でした。これは1.25 倍の計算優位性（Compute Advantage）に相当します。モデル規模が大きくなるにつれ、Full 変種と Block 変種の差は縮まっています。

研究チームの最大モデルは、Kimi Linear 48B 構成に基づいています。27 個の Transformer ブロック（計 54 レイヤー）で構成され、256 個のルーティング専門家のうち 8 個を活性化し、共有専門家を 1 個追加。総パラメータ数は 48B、活性化パラメータ数は 3B です。このモデルは Block AttnRes を採用し、1 ブロックあたり 6 レイヤーとし、合計 9 ブロックと 1 つのトークン埋め込みにより、深さ方向に 10 の情報源を形成しています。

上図は、1T トークンの学習プロセスにおけるモデルの動的変化を示しています。

検証損失：AttnRes は学習プロセス全体を通じて一貫して低い検証損失を維持しており、特に減衰（Decay）段階でその差がさらに広がっています。
出力の規模：ベースラインモデルはPreNorm 希薄化問題に悩まされています。隠れ状態の規模が深さとともに単調に増加するにつれ、深層ネットワークは固定スケールの正規化された入力から、影響力を維持するためにますます大きな出力を学習させられます。一方、Block AttnRes はこの増加を各ブロック内に制限し、ブロック境界での選択的集約によって累積プロセスをリセットすることで、有界な周期的パターンを示します。
勾配の規模：すべての残差重みが 1 に固定されたベースラインモデルでは、勾配の流れが深さ方向に極めて不均一に分布し、初期レイヤーで勾配が過大になる原因となっていました。Block AttnRes の学習可能な Softmax 重みは情報源間の競争を導入し、著しく均一な勾配分布を実現しました。

下流タスクのパフォーマンス：上記の表が示す通り、Block AttnRes はすべての評価タスクにおいてベースラインモデルと同等かそれ以上の性能を達成しました。

顕著な向上が見られたタスク：多段階推論タスクでの向上が特に顕著で、GPQA-Diamond (+7.5)、Minerva Math (+3.6)、コード生成のHumanEval (+3.1)などで成果を上げています。
知識系タスク：MMLU (+1.1)やTriviaQA (+1.9)においても着実な向上が見られました。

データが何よりの証明です。

計算効率：同等の性能を達成するにあたり、AttnRes は従来の残差に比べて約20% の計算量を節約しました（1.25 倍の優位性）。
論理推論：数学やコードなどの難易度の高いタスクで著しく向上しました。例えば、極めて困難な GPQA-Diamond テストでは、性能が7.5 ポイント向上しています。
安定性：隠れ状態の数値的爆発をうまく抑制し、深層ネットワークが「冷静」かつ「効率的」であり続けることを可能にしました。

まとめ：再考と想像

より高次元の視点から基盤アーキテクチャの研究を見れば、時間と空間は相互に通じ合っていることがわかります。

この論文の「注意を 90 度回転させる」という発想は、カパシー氏にもいくつかの示唆と考察をもたらしたようです。

ResNet の残差フローは、情報が異なる空間的深さを伝わっていくものです。一方、SGD（確率的勾配降下法）の重みフローは、情報が異なる時間的次元を伝わっていくものです。

研究チームは ResNet の加算があまりに素朴だと考え、過去の全レイヤーの出力をフィルタリングするためにAttentionを提案しました。SGD もまた ResNet の一種であり、「Attention is All You Need」であるならば、なぜオプティマイザ内にも Attention を追加してはいけないのでしょうか？

アーキテクチャの生命力は、往々にして慣性への反省から生まれます。

私たちが立ち戻って基盤アーキテクチャを再検証するとき、過去の古びた文書の中から、未来へとつながるさらなる巧妙な結合を発見できるかもしれません。

詳細は元の論文をご参照ください。

転載の際は当公衆号へのお問い合わせにより許可を得てください

投稿または取材依頼：liyazhou@jiqizhixin.com

注意を 90 度回転させる！今日、Kimi の「注意残差」が話題に

関連記事

分享網址