Transformer 作者領軍，Sakana AI 連發三篇論文：徹底重構長文本的記憶機制

後 Transformer 時代，從「丟掉位置編碼」到「外掛大腦」，Sakana AI 做對了什麼？

當 128K 甚至 1M 的長視窗成為大模型標配，大家似乎都想當然地以為，只要單純拉長上下文視窗，長文本理解能力就會自然湧現。

針對這一現狀，由 Transformer 原作者 Llion Jones 領銜的 Sakana AI 團隊近期連發三篇論文，直接將矛頭對準了模型架構本身。

這一組工作沒有繼續在現有架構上做簡單的增量修補，而是從位置編碼的移除（DroPE）、位置感知的重構（REPO）以及動態記憶機制的引入（FwPKM）三個維度，對 Transformer 處理長序列的方式提出了系統性的質疑與重構方案。

它們共同指向了一個核心觀點，模型處理長文本能力的瓶頸，不在於視窗開得不夠大，而在於現有的注意力機制和靜態參數無法有效適應推理時的動態需求。

RoPE 在長文本中的泛化困境

自 Llama 普及以來，旋轉位置編碼（RoPE）已成為大模型的標配。

RoPE 透過將絕對位置資訊編碼為向量的旋轉角度，讓模型有了相對位置的概念。其核心計算方式如下：

其中 θ 使得注意力分數僅取決於 Token 間的相對距離。

為了讓模型處理比預訓練時更長的文本，業界目前的主流做法（如 YaRN、PI 等）是對旋轉頻率進行縮放（Scaling）：

但在 Sakana AI 的研究中 [1]，研究人員透過熱力圖分析發現了一個關鍵問題，這種縮放策略並非無損的數學遊戲，而是實打實的數據有損壓縮。

圖1. 可視化顯示，YaRN 等方法在處理長文本時，實際上將注意力強制限制在了訓練長度的視窗內（類似一種軟截斷），導致模型無法有效檢索到視窗外的遠端資訊。

除了看不遠，更嚴重的問題是看錯。

圖2. 該圖直觀展示了 RoPE Scaling 對語義理解的副作用。

在 NIAH 測試中，當使用 YaRN 擴展上下文時，原本負責捕捉特定語義（如 Key-Value 對）的注意力頭（Semantic Head）出現了顯著的權重偏移（Attention Mass Shift）。

位置編碼的強行縮放干擾了模型對內容的語義匹配，導致模型指鹿為馬。

DroPE

論文標題：

Extending the Context of Pretrained LLMs by Dropping Their Positional Embeddings

論文連結：

https://arxiv.org/pdf/2512.12167

程式碼連結：

https://github.com/SakanaAI/DroPE

針對 RoPE 在外推時的局限性，Sakana AI 提出了一個反直覺的假設：位置編碼可能只在訓練階段是必要的，而在推理階段處理長文本時，它反而是一種阻礙。

這被稱為腳手架理論（Scaffolding），就像建造大樓時必須搭建腳手架一樣，位置編碼在預訓練初期為模型提供了必要的歸納偏置，幫助模型理解序列順序並加速收斂。

但當「大樓」（模型能力）建成後，繼續保留腳手架（位置編碼）反而會遮擋視線（限制外推能力）。

1. 為什麼不能直接去掉 PE？

論文首先驗證了完全不使用位置編碼（NoPE）的可行性。透過分析 Attention Positional Bias (APB)：

實驗數據顯示，在初始化階段，如果缺乏顯式位置編碼，Attention 矩陣的梯度範數極小，導致模型難以捕捉序列的因果結構，訓練收斂極其困難。

因此，預訓練階段必須保留 RoPE。

2. 推理時的移除與再校準

DroPE (Dropping Positional Embeddings) 的具體方案十分簡潔：

1. 正常使用 RoPE 完成預訓練；

2. 在預訓練結束後，完全移除所有位置編碼；

3. 使用原始上下文視窗（如 4K）的資料進行極短的再校準訓練，讓模型適應沒有位置編碼的推理模式。

3. 實驗效果

實驗結果表明，經過 DroPE 處理的模型，無需在長文本資料上進行微調，即可實現對超長文本的泛化。

圖3. 在 2 倍上下文長度（8K）的 Multi-Query NIAH（大海撈針）任務中，RoPE-Base 的準確率大幅下降至 0% 附近，而 DroPE 保持了近乎 100% 的檢索準確率。

下表的資料進一步量化了這種差異，在難度更高的 Multi-Key 檢索任務中，RoPE+YaRN 的準確率僅為 0.5%，而 DroPE 達到了 41.6%。

表1. DroPE 與 RoPE 變體在 2 倍長文外推下的性能對比。

這表明，當移除位置編碼的干擾後，Transformer 能夠更純粹地依賴語義相關性進行檢索，從而釋放了被壓抑的長距離捕捉能力。

REPO

論文標題：

REPO: Language Models with Context Re-Positioning

論文連結：

https://arxiv.org/pdf/2512.14391

程式碼連結：

https://github.com/SakanaAI/repo

DroPE 選擇了「做減法」來解決外推問題，REPO 則試圖「做加法」——重構位置感知。

Sakana AI 團隊在這篇論文中提出了一個核心質疑，為什麼 Token 的位置索引必須是 0, 1, 2, 3 這樣的固定整數？

1. 認知負荷理論的引入

論文引入了認知科學中的認知負荷理論（Cognitive Load Theory）。作者認為，在處理自然語言時，許多虛詞、填充詞並不承載關鍵資訊。

強制給這些無關 Token 分配線性增長的位置索引，實際上增加了模型的無關認知負荷。

2. 內容感知的位置生成模組

REPO 引入了一個輕量級的可微分模組，它不再依賴預定義的整數序列，而是根據 Token 的隱藏狀態動態生成位置值。

計算公式如下：

這裡，h_t 是當前 Token 的表示，經過門控機制處理後，映射為一個標量位置 p_t。

隨後，這個動態生成的 p_t 被代入 RoPE 公式中，替代原本的整數索引 t：

此時，注意力機制中的相對距離 Δp 變成了一個基於語義內容的動態變量。

3. 可視化：非線性的位置分佈

REPO 訓練後的位置分佈呈現出了非常有趣的特性。

圖4. 縱軸為 REPO 分配的動態位置，橫軸為原始的線性位置。可以看到，分配的位置並非一條直線，而是呈現出明顯的波動。模型學會了根據內容調整 Token 的邏輯位置，部分標點符號甚至被賦予了負值或相同的數值，實現了對無效資訊的摺疊。

在綜合能力的評估上，REPO 展現出了極強的針對性。

圖5. 雷達圖對比了 REPO 與 RoPE、NoPE 等基準模型在不同任務上的表現。

可以看出，REPO 在噪聲上下文（Noisy）、結構化資料（Structured）和長上下文（Long）三個維度上全面領先，而在通用短文（Short）任務上保持了與 RoPE 持平的性能。

FwPKM

論文標題：

Fast-weight Product Key Memory

論文連結：

https://arxiv.org/pdf/2601.00671

前兩篇論文主要針對 Attention 機制內部的位置感知進行優化，而第三篇論文 FwPKM 則試圖解決 Transformer 架構層面的一個根本性短板，它缺一個外部記憶模組——既要能即時讀寫，容量還得可擴展。

1. 從靜態 PKM 到動態 Fast Weights

傳統的 Product Key Memory (PKM) 利用鍵值對的大規模檢索來擴展模型容量，但它通常是慢權重（Slow Weights），即只在訓練階段更新，推理階段是凍結的。

Sakana AI 提出的 FwPKM 將其改造為快權重（Fast Weights）系統。其核心創新在於：在推理階段，模型會根據當前的輸入資料，即時更新記憶模組的參數。

圖6. FwPKM 架構示意圖。

2. 基於梯度的即時寫入

FwPKM 利用局部的重建誤差作為訊號，在前向傳播的過程中執行一步或多步梯度下降。

具體的參數更新規則如下：

當模型閱讀一段新文本時，它不僅僅是在計算 Attention，更是在將這段資訊透過梯度更新直接寫入到 FwPKM 的 Value 矩陣（Fast Weights）中，同時保持 Key 矩陣作為穩定的尋址基準。

為了防止記憶坍塌（即所有 Query 都指向同一個 Key），FwPKM 引入了最大化邊緣熵的 Addressing Loss：

3. Iterative Reading：複讀提升記憶品質

由於記憶是在推理時動態寫入的，FwPKM 驗證了一個類似人類認知的現象：複習（Iterative Reading）能顯著提升記憶效果。

圖6. 在 128K 長度的 NIAH 測試中，單次閱讀（1-iter）的模型表現一般，但一旦開啟 2-iter（讀兩遍）或 3-iter，準確率出現質的飛躍，達到 SOTA 水平。這證實了透過多次 Test-Time Training，模型能更牢固地掌握長下文資訊。

最後，我們可以透過下表清晰地看到 FwPKM 在記憶機制上的獨特生態位，它是唯一同時具備大儲存容量且支援推理時記憶的架構方案。

表2. FwPKM 與標準 Attention 及傳統 PKM 的特性對比

總結與展望

這三項工作並非孤立的優化，而是體現了一種明確的技術轉向，從預訓練的靜態擬合，走向推理時的動態適應。

DroPE 證明了對於長文推理，移除人工設計的靜態位置約束，反而能釋放模型捕捉深層語義的能力。

REPO 提出位置本身不應是固定的，而應根據內容即時生成，以降低模型的認知負荷。

FwPKM 則進一步引入了 Test-Time Training，讓記憶模組在推理過程中具備了即時更新與擴展的能力。

這種架構層面的探索表明，解決長文本難題，除了依賴硬體堆疊上下文長度外，更本質的解法或許在於賦予模型在推理階段即時調整自身狀態的能力。

這為下一代大模型的設計，提供了一個比單純擴大記憶體更具效率的演進方向。

參考文獻

[1] Gelberg, Y., Eguchi, K., Akiba, T., & Cetin, E. (2025). Extending the Context of Pretrained LLMs by Dropping Their Positional Embeddings. arXiv preprint arXiv:2512.12167.

[2] Li, H., Zhao, T., & Sproat, R. (2025). REPO: Language Models with Context Re-Positioning. arXiv preprint arXiv:2512.14391.

[3] Zhao, T., & Jones, L. (2026). Fast-weight Product Key Memory. arXiv preprint arXiv:2601.00671.

Transformer 作者領軍，Sakana AI 連發三篇論文：徹底重構長文本的記憶機制

相關文章推薦

分享網址