Attentionは必要ではない?グラスマン流形を用いたシーケンスモデル링の幾何学的美学の再構築

画像

MLNLP コミュニティは国内外で有名な機械学習と自然語言処理コミュニティであり、国内外のNLP博士課程学生、大学教員、企業研究者を含む多くの層に支持されています。

コミュニティのビジョンは、国内外の自然言語処理、機械学習の学術界、産業界、そして広大な愛好家の間での交流と進歩、特に初心者の進歩を促進することです。

出典 | PaperWeekly

2017年以来、Self-Attentionはほぼ現代シーケンスモデルリングの絶対的な基盤となっています。

私たちは早已、QK^Tを計算してシーケンスの隠れ状態を巨大なペアワイズ相互作用空間に引き上げるのに慣れています。このパラダイムは暴力的で効果的ですが、その代償は高価です。それは二次元の計算オーバーヘッドをもたらすだけでなく、高次元で稠密で解析の難しいテンソル雲(Tensor Cloud)も創り出します。

最近、「Attention Is Not What You Need」という論文がこの仮定に直接挑戦しました。

著者はMambaやRWKVの古い道(RNN/SSM時系列からのアプローチ)を歩まず、別々の道を切り開き、微分幾何学に基づいた全く新しい視点を提案しました。

推論を意味流形上での幾何学的進化と見なすなら、私たちが真に必要とするのはAttention重みではなく、局所的な幾何学的構造(例えば部分空間の変化)を捉える進化メカニズムです。

これがCausal Grassmann Transformerです。它是はグローバルAttentionを計算せず、トークン対をグラスマン流形 Gr(k, d) 上の点(つまり部分空間)に射影し、Plücker座標を用いて特徴符号化を行い、完全にAttentionを除去したシーケンスミキシングを実現します。

画像

論文タイトル:Attention Is Not What You Need: Grassmann Flows as an Attention-Free Alternative for Sequence Modeling

論文リンク:https://arxiv.org/pdf/2512.19428

研究背景

Grassmann Flowの革新性を理解するには、まずTransformerのコア演算子が数学的に何を意味するのかを理解する必要があります。

標準的なTransformerでは、マルチヘッドAttentionメカニズムが線形射影を通じてQ、K、Vを計算し、随后Attention行列を構築します:Attention(Q, K, V) = softmax(QK^T / sqrt(d)) V。著者はこの過程をTensor Lifting(テンソル昇格)と定義しました。これはN個の点間の関係を研究するために、モデルが暴力的にN^2 x d次元の相互作用テンソル空間へ遷移するようなものです。

画像

この昇格はモデルに極めて高い自由度を与えますが、致命的な欠点ももたらします:

解析のブラックボックス化:複数の層とヘッドを跨いだ後、モデルは实际上極めて複雑なテンソル雲を操作しています。自由度が高すぎるため、モデルの全局的挙動を説明する簡潔な数学的な不変量を全く見つけることができません。

二次複雑度の足かせ:O(N^2)の計算コストは長シーケンスでは持続不可能です。

著者は極めて哲学的な仮定を提案しました:大規模モデルの解釈不可能性は単なるパラメータ数によるものではなく、追跡不可能な高次元テンソル昇格に基づいてコア演算子を構築していることにも起因しています。もし混合メカニズムを構造が明確な有限次元流形に制限することができれば、表現力と解釈可能性を両立できるかもしれません。

グラスマン流形とPlücker埋め込み

Causal Grassmann Transformerの核心的な思想は非常に優雅です。部分空間の進化で重み付き和を置き換えます。モデルはグローバルなトークン類似度を計算せず、局所ウィンドウ内にトークンが構成する線形部分空間の幾何学的特徴を捉えます。

このアーキテクチャは主に以下の4つのステップで構成されています:

1. 線形次元削減

まず、計算量を制御し、コアな意味方向を抽出するために、モデルは高次元の隠れ状態 h_i を低次元空間 R^k (実験ではk=7) へ射影します:h_i^proj = W_down * h_i。

画像

このステップは後続の幾何学的計算のオーバーヘッドを削減するだけでなく、意味流形の局所接空間の近似も暗黙的に行います。

2. 局所ペアリングとグラスマン流形

これが本文の最も硬核な部分です。モデルは一連のマルチスケールウィンドウ W (例:[2, 3, 4]) を定義します。注意として、自己回帰性質を保証するために、ここでは厳密にCausal Pairing(因果的ペアリング)が使用されています。位置iに対して、未来のj(あるいは索引視点による過去のi)とのみペアリングし、未来を盗み見することはありません。

モデルは h_i^proj と h_j^proj が張る2次元線形部分空間を検証します。数学的には、R^d空間内の全ての2次元部分空間がグラスマン流形 Gr(2, d) を構成します。これはモデルが「トークン対」を2つの独立したベクトルではなく、流形上の1つの点として扱うことを意味します。

3. Plücker座標埋め込み

流形上の点をニューラルネットワークで処理するにはどうすればよいでしょうか?著者は代数幾何学におけるPlücker埋め込みを利用しました。ベクトルuとvのペアに対し、Plücker座標pは全ての可能な2x2部分行列式で構成されます:p_{kl} = u_k v_l - u_l v_k。

画像

このベクトルは(スカラー倍を除いて)その部分空間を一意に決定します。ここで直感的な幾何学的解釈は非常に美しいです:Plücker座標は本質的に、2つのベクトルが形成する平行四辺形の各基底平面上における投影面積を符号化しています。それは2つのベクトルがどれだけ離れているか(距離)ではなく、それらが張る「姿勢(相対的なポーズ)」に関心を持ちます。これはドット積よりも本質的な幾何学的特徴です。

4. 射影とゲーティング融合

最後に、抽出された幾何学的特徴はモデル次元dへと射影され、ゲーティングメカニズムを介して幹の流れに注入されます:h_i = h_i + Gating(W_up * Geom(h_i, h_j))。

画像

画像

5. 複雑度解析

全体のプロセスの計算複雑度は O(N * k^2 * |W|) です(|W|は定数と仮定)。シーケンス長さに比例します。

対照的に、標準Attentionの複雑度は O(N^2 * d) です。Plücker座標の次元 P(2, d) はdとともに急速に増加しますが、d=4096の時、特徴次元はわずか496であり、完全に許容範囲内です。

実験結果

著者はWikitext-2(言語モデル化)とSNLI(自然言語推論)データセットでモデルの性能を評価しました。実験設計は非常に誠実で、パラメータ数が類似しているTransformerベースラインと直接比較しました。

1. 言語モデル化 (Wikitext-2)

グローバルコンテキストに強く依存する言語モデル化というタスクでは、GrassmannLMは競争力がありますが、Transformerを越えることはできませんでした。

画像

表1-2. TransformerLMとGrassmannLMの異なる層数におけるPPLの比較。

結果は、GrassmannLMのPPL(Perplexity)がTransformerより約10-15%高いことを示しています。業界では、15%のPPL差は通常使用不可能を意味します。しかし、これはAttentionを完全に廃棄した最初のプロトタイプです。層数が深まるにつれて(6層から12層へ)、差はわずかに縮まり、幾何学的流形のスタックが複雑な全局的相互作用を近似できることを証明しています。

2. 自然言語推論 (SNLI)

しかし、論理的推論を必要とするSNLIタスクでは、逆転が起こりました。DistilBERTをバックボーンとして固定し、分類ヘッドのみを置き換えた場合:

画像

表3. Grassmann-Plückerヘッドが推論タスクでわずかに勝利。

Grassmann-Plückerヘッドは精度でTransformerヘッドをわずかに上回りました。これは、包含や矛盾などの論理関係を処理する際、明示的な部分空間の幾何学的特徴が、単なるAttention重みよりも豊かな意味構造情報を持っている可能性があることを示唆しています。

3. 実際の実行速度

理論的な複雑度は線形ですが、著者は現在の実装がPyTorchの基本演算に依存している(特にPlücker座標計算は多くのスライスと再構成を含む)、FlashAttentionのような極めて最適化されたCUDAカーネルが欠如しているため、最適化されたTransformerよりも実際の訓練速度が遅いことを認めています。これは、深層学習の分野では、システムエンジニアリングの最適化がアルゴリズムの理論的革新と同等に重要であることを再確認させるものです。

結論

この論文はTransformerの終焉を宣言するものではなく、啓発的な「脱中心化」の試みです。これは、モデルに十分に豊富な幾何学的進化法則を与えれば、注意力重みを完全に廃棄しても、競争力のあるシーケンスモデル化能力を実現できることを証明しています。

より深い示唆はInductive Bias(帰納偏向)にあります。Transformerは帰納偏向が非常に弱いアーキテクチャ(完全接続グラフ)であり、海量のデータと計算能力に依存して知能を咀嚼しています。一方、Grassmann Flowは逆の道を歩み、明示的な幾何学的帰納偏向を導入しています。パラメータ数やコンテキスト長を猛烈に巻き上げる一方で、知能の本質が暴力的な統計なのか、流形上での優雅な進化なのか停下来考えてみるべきでしょうか。

これはおそらく一つの信号です——数学そのものが持つ無限の可能性を忘れないでください。


分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.