MLNLP 社區是国内外知名的機器學習與自然語言處理社區，受眾覆蓋国内外 NLP 碩博生、高校老師以及企業研究人員。

社區的願景是促進国内外自然語言處理、機器學習學術界、產業界與廣大愛好者之間的交流與進步，特別是初學者同學們的進步。

來源 | PaperWeekly

自 2017 年以來，Self-Attention 幾乎成為了現代序列建模的絕對基石。

我們早已習慣透過計算 QK^T，將序列隱狀態提升到一個龐大的高維配對交互空間。這種範式雖然暴力且有效，但代價高昂。它不僅帶來了二次方增長的計算開銷，更創造了一個高維、稠密且難以解析的張量雲（Tensor Cloud）。

近日，一篇名為《Attention Is Not What You Need》的論文直接挑戰了這一假設。

作者並沒有走 Mamba 或 RWKV 的老路（即從 RNN/SSM 時序角度切入），而是另闢蹊徑，提出了一種基於微分幾何的全新視角。

如果我們將推理視為語義流形上的幾何演化，那麼我們真正需要的不是注意力權重，而是一個能夠捕捉局部幾何結構（如子空間變化）的演化機制。

這就是 Causal Grassmann Transformer。它不計算全局 Attention，而是將 Token 對映射為格拉斯曼流形 Gr(k, d) 上的點（即子空間），利用普吕克座標（Plücker coordinates）進行特徵編碼，實現了完全去注意力化的序列混合。

論文標題：Attention Is Not What You Need: Grassmann Flows as an Attention-Free Alternative for Sequence Modeling

論文連結：https://arxiv.org/pdf/2512.19428

研究背景

要看懂 Grassmann Flow 的創新，得先明白 Transformer 的核心算子在數學上到底意味著什麼。

在標準 Transformer 中，多頭注意力機制透過線性投影計算 Q、K、V，隨後構建注意力矩陣：Attention(Q, K, V) = softmax(QK^T / sqrt(d)) V。作者一針見血地將這一過程定義為張量提升 (Tensor Lifting)。這就好比為了研究 N 個點之間的關係，模型暴力地躍遷到了一個 N^2 x d 維度的交互張量空間。

這種提升雖然讓模型擁有了極高的自由度，但也帶來了兩個致命傷：

解析的黑盒化：跨越多個層和頭之後，模型實際上是在操縱一個極其複雜的張量雲。由於自由度過高，我們根本找不到一組簡潔的數學不變量來描述模型的全局行為。

二次複雜度的枷鎖：O(N^2) 的計算代價在長序列下是不可持續的。

作者提出了一個極具哲學意味的假設，大模型的不可解釋性並非僅僅源於參數量，而是源於我們將核心算子建立在了不可追蹤的高維張量提升之上。如果我們能將混合機制限制在一個結構明確的有限維流形上，或許能兼顧表達力與可解釋性。

格拉斯曼流與普吕克嵌入

Causal Grassmann Transformer 的核心思想非常優雅，用子空間演化替代加權求和。模型不再計算全局的 Token 相似度，而是捕捉局部窗口內 Token 構成的線性子空間的幾何特徵。

該架構主要包含以下四個步驟：

1. 線性降維

首先，為了控制計算量並提取核心語義方向，模型將高維隱狀態 h_i 投影到低維空間 R^k (實驗中 k=7)：h_i^proj = W_down * h_i。

這一步不僅減少了後續幾何計算的開銷，也隱含了對語義流形局部切空間的近似。

2. 局部配對與格拉斯曼流形

這是本文最硬核的部分。模型定義了一組多尺度窗口 W (如 [2, 3, 4])。注意，為了保證自回歸性質，這裡嚴格採用因果配對 (Causal Pairing)。對於位置 i，只與未來的 j（或者說歷史的 i，取決於索引視角）配對，絕不偷看未來。

模型考察由 h_i^proj 與 h_j^proj 張成的 2 維線性子空間。在數學上，所有 R^d 維空間中的 2 維子空間構成了格拉斯曼流形 Gr(2, d)。這意味著模型將「Token 對」視為流形上的一個點，而非兩個獨立的向量。

3. 普吕克座標嵌入

如何在神經網路中處理流形上的點？作者利用了代數幾何中的普吕克嵌入 (Plücker Embedding)。對於一對向量 u, v，其普吕克座標 p 由所有可能的 2x2 子行列式構成：p_{kl} = u_k v_l - u_l v_k。

這一向量唯一地確定了該子空間（直至標量乘法）。這裡的幾何直覺非常美妙，普吕克座標本質上編碼了兩個向量構成的平行四邊形在各個基底平面上的投影面積。它不再關注兩個向量離得有多遠（距離），而是關注它們張開的姿態（Relative Pose）。這是一種比點積更本質的幾何特徵。

4. 投影與門控融合

最後，提取出的幾何特徵被投影回模型維度 d，並透過門控機制注入到主幹流中：h_i = h_i + Gating(W_up * Geom(h_i, h_j))。

5. 複雜度分析

整個過程的計算複雜度為 O(N * k^2 * |W|)（假設 |W| 為常數），與序列長度呈線性關係。

相比之下，標準 Attention 的複雜度為 O(N^2 * d)。雖然普吕克座標的維度 P(2, d) 隨 d 增長較快，但在 d=4096 時，特徵維度僅為 496，完全在可接受範圍內。

實驗結果

作者在 Wikitext-2（語言建模）和 SNLI（自然語言推理）資料集上評估了模型表現。實驗設計非常誠實，直接對比了參數量相近的 Transformer 基線。

1. 語言建模 (Wikitext-2)

在語言建模這種強依賴全局上下文的任務上，GrassmannLM 表現出了競爭力，但未能超越 Transformer。

〓表1-2. 表格對比了 TransformerLM 與 GrassmannLM 在不同層數下的 PPL。

結果顯示，GrassmannLM 的困惑度（PPL）比 Transformer 高出約 10-15%。在工業界，15% 的 PPL 差距通常意味著不可用。但這畢竟是一個完全拋棄了 Attention 的初代原型，隨著層數加深（從 6 層到 12 層），差距略有縮小，證明了堆疊幾何流確實能近似複雜的全局交互。

2. 自然語言推理 (SNLI)

但在需要邏輯推理的 SNLI 任務上，反轉來了。當固定 DistilBERT 作為骨幹網，僅替換分類頭（Head）時：

〓表3. Grassmann-Plücker head 在推理任務上微弱反超。

Grassmann-Plücker 頭在準確率上微弱擊敗了 Transformer 頭。這說明在處理蘊含、矛盾等邏輯關係時，顯式的子空間幾何特徵可能比單純的注意力權重包含了更豐富的語義結構資訊。

3. 實際運行速度

儘管理論複雜度為線性，但作者坦承，由於當前實作依賴於 PyTorch 的基礎操作（尤其是普吕克座標計算涉及大量切片和重組），缺乏像 FlashAttention 那樣極致優化的 CUDA 核心，其實際訓練速度慢於優化的 Transformer。這再次印證了在深度學習領域，系統工程優化與演算法理論創新同等重要。

結語

這篇論文並非宣告了 Transformer 的終結，而是一次極具啟發性的去中心化嘗試。它證明了只要賦予模型足夠豐富的幾何演化規則，即使完全拋棄注意力權重，也能實現具備競爭力的序列建模能力。

更深層的啟示在於歸納偏置 (Inductive Bias)。Transformer 是一種歸納偏置極弱的架構（全連接圖），它依賴海量數據和算力來硬啃出智慧。而 Grassmann Flow 則反其道而行之，它引入了顯式的幾何歸納偏置。我們在狂卷參數量和上下文長度的同時，是否應該停下來思考一下，智慧的本質是暴力統計，還是流形上的優雅演化？

這或許是一個信號——別忘了數學本身蘊含的無限可能。

Attention 並非你所需的全部？以格拉斯曼流形重構序列建模的幾何美學

研究背景

5. 複雜度分析

相關文章推薦

分享網址