Transformerの著者が率いるSakana AI、3つの論文を連続発表：長文の記憶メカニズムを徹底的に再構築

後Transformer時代、位置エンコーディングを「捨て去る」ことから「外部脳」を設置することまで、Sakana AIは何を正しく行なったのか？

128K、さらには1Mの長文コンテキストウィンドウが大規模モデルの標準装備となる中、単純に文脈ウィンドウを延ばせば長文理解能力が自然に湧き出ると多くの人が思い込んでいる。

この現状に対し、Transformerの原作者であるLlion Jonesが率いるSakana AIチームは、最近3つの論文を連続発表し、モデルアーキテクチャそのものに直接矛先を向けた。

この一連の研究は、既存のアーキテクチャ上で単純な增量修正を続けるのではなく、位置エンコーディングの削除（DroPE）、位置知覚の再構築（REPO）、動的記憶メカニズムの導入（FwPKM）という3つの次元から、Transformerが長シーケンスを処理する方式に対し系統的な疑問と再構築案を提起した。

これらは共通して、モデルの長文処理能力のボトルネックはウィンドウを開くのが十分でないことではなく、既存の注意メカニズムと静的パラメータが推論時の動的ニーズに効果的に適応できないことにあるという核心的な観点を指している。

長文におけるRoPEの一般化の困難

Llamaが普及して以来、回転位置エンコーディング（RoPE）は大規模モデルの標準装備となっている。

RoPEは絶対位置情報をベクトルの回転角度としてエンコードすることで、モデルに相対位置の概念を与える。その核心的な計算方式は以下の通り：

ここで、 $θ i$ は、注意スコアがトークン間の相対距離のみに依存することを意味する。

モデルが事前学習時より長いテキストを処理できるようにするために、業界の主流な方法（YaRN、PIなど）は、回転周波数をスケーリングすることである：

しかし、Sakana AIの研究[1]では、研究者らは熱図分析を通じて、このスケーリング戦略が無損失の数学的ゲームではなく、実際のデータの有損圧縮であるという重要な問題を発見した。

図1. 可視化により、YaRNなどの方法が長文を処理する際、実際には注意を強制的に学習長のウィンドウ内に制限（一種のソフトな切り取り）し、モデルがウィンドウ外の遠端情報を効果的に検索できないことが示されている。

見渡せないだけでなく、より深刻な問題は間違って見ることである。

図2. この図は、RoPEスケーリングが意味理解に及ぼす副作用を直感的に示している。

NIAHテストでは、YaRNを使用して文脈を拡張すると、特定の意味（例えばKey-Valueペア）を捉えることを担当する注意ヘッド（意味ヘッド）が、顕著な重みのシフト（Attention Mass Shift）を示した。

位置エンコーディングの強制的なスケーリングは、モデルの内容の意味マッチングを干渉し、モデルが鹿を馬と指差す原因となった。

DroPE

論文タイトル：

Extending the Context of Pretrained LLMs by Dropping Their Positional Embeddings

論文リンク：

https://arxiv.org/pdf/2512.12167

コードリンク：

https://github.com/SakanaAI/DroPE

RoPEの外挿における限界に対し、Sakana AIは逆説的な仮説を提起した：位置エンコーディングは学習段階では必要だが、推論段階で長文を処理する際にはむしろ障害となる可能性がある。

これは「足場理論」と呼ばれ、ビルを建てる際に足場を設けなければならないように、位置エンコーディングは事前学習の初期段階でモデルに必要な帰納的バイアスを提供し、モデルがシーケンスの順序を理解し、収束を加速するのを助ける。

しかし、「ビル」（モデル能力）が完成した後も、足場（位置エンコーディング）を保持し続けると、視界（外挿能力）を遮ることになる。

1. なぜPEを直接削除できないのか？

論文はまず、位置エンコーディングを使用しない（NoPE）可能性を検証した。Attention Positional Bias (APB)の分析を通じて：

実験データは、初期化段階で明示的な位置エンコーディングが欠如している場合、Attention行列の勾配ノルムが極めて小さく、モデルがシーケンスの因果構造を捉えることが困難で、学習の収束が極めて困難になることを示している。

したがって、事前学習段階ではRoPEを保持する必要がある。

2. 推論時の削除と再校正

DroPE（Dropping Positional Embeddings）の具体的な方案は非常に簡潔である：

1. RoPEを使用して正常に事前学習を行う。

2. 事前学習終了後、すべての位置エンコーディングを完全に削除する。

3. 元の文脈ウィンドウ（例えば4K）のデータを使用し、極めて短い再校正学習を行い、モデルを位置エンコーディングのない推論モードに適応させる。

3. 実験効果

実験結果は、DroPE処理を経たモデルが、長文データでの微調整なしに、超長文への一般化を実現できることを示している。

図3. 2倍の文脈長（8K）のMulti-Query NIAH（大海捞针）タスクにおいて、RoPE-Baseの正確率は0%付近まで大幅に低下したのに対し、DroPEはほぼ100%の検索正確率を維持した。

下の表のデータは、より難易度の高いMulti-Key検索タスクにおいて、RoPE+YaRNの正確率が0.5%に過ぎないのに対し、DroPEが41.6%に達したことをさらに定量的に示している。

表1. DroPEとRoPE変種の2倍長文外挿における性能比較。

これは、位置エンコーディングの干渉を削除した後、Transformerが意味関連性のみに依存して検索し、抑圧されていた長距離捕捉能力を解放できることを示している。

REPO

論文タイトル：

REPO: Language Models with Context Re-Positioning

論文リンク：

https://arxiv.org/pdf/2512.14391

コードリンク：

https://github.com/SakanaAI/repo

DroPEは「減算」を選択して外挿問題を解決したが、REPOは「加算」を試みる——位置知覚を再構築する。

Sakana AIチームはこの論文で、コアな疑問を提起した：トークンの位置インデックスはなぜ0, 1, 2, 3のような固定整数でなければならないのか？

1. 認知負荷理論の導入

論文は認知科学における認知負荷理論を導入した。著者は、自然言語を処理する際、多くの虚詞や填充詞は重要な情報を担わないと考えている。

これらの無関係なトークンに線形的に増加する位置インデックスを強制的に割り当てることは、実際にはモデルの無関係な認知負荷を増加させる。

2. 内容知覚の位置生成モジュール

REPOは軽量の微分可能なモジュールを導入した。これは、事前定義された整数シーケンスに依存せず、トークンの隠れ状態に基づいて動的に位置値を生成する。

計算式は以下の通り：

ここで、 $h t$ は現在のトークンの表現であり、ゲートメカニズム処理を経て、スカラー位置 $p t$ にマッピングされる。

その後、この動的に生成された $p t$ がRoPE式に代入され、元の整数インデックス $i$ を置き換える：

この時、注意メカニズムにおける相対距離 $i - j$ は、意味内容に基づく動的変数となる。

3. 可視化：非線形な位置分布

REPO学習後の位置分布は非常に興味深い特性を示した。

図4. 縦軸はREPOが割り当てた動的位置、横軸は元の線形位置。割り当てられた位置は直線ではなく、明らかな波動を示していることがわかる。モデルは内容に応じてトークンの論理位置を調整することを学習し、一部の句読点には負値や同じ数値が割り当てられ、無効な情報の折りたたみを実現した。

総合能力の評価において、REPOは極めて強い针对性を示した。

図5. レーダーチャートはREPOとRoPE、NoPEなどのベースラインモデルの異なるタスクにおける性能を比較している。

可以看出、REPO在噪声上下文（Noisy）、结构化数据（Structured）和长上下文（Long）三个维度上全面领先，而在通用短文（Short）任务上保持了与RoPE持平的性能。

FwPKM

論文タイトル：

Fast-weight Product Key Memory

論文リンク：

https://arxiv.org/pdf/2601.00671

前2つの論文は主にAttentionメカニズム内部の位置知覚の最適化を対象としていたが、第3の論文FwPKMは、Transformerアーキテクチャレベルの根本的な欠点を解決しようとする：外部記憶モジュールが欠けている——リアルタイムで読み書き可能で、容量も拡張可能でなければならない。

1. 静的PKMから動的Fast Weightsへ

伝統的なProduct Key Memory (PKM)は、キー値ペアの大規模検索を利用してモデル容量を拡張するが、通常はスローウェイト（学習段階でのみ更新され、推論段階では凍結される）である。

Sakana AIが提案したFwPKMは、これをファストウェイトシステムに改造した。その核心的な革新は：推論段階で、モデルが現在の入力データに基づいて、記憶モジュールのパラメータをリアルタイムで更新することである。

図6. FwPKMアーキテクチャの模式図。

2. 勾配に基づくリアルタイム書き込み

FwPKMは局所的な再構築誤差をシグナルとして利用し、前向き伝播の过程中で1回または複数回の勾配降下を実行する。

具体的なパラメータ更新規則は以下の通り：

モデルが新しいテキストを読む際、単にAttentionを計算するだけでなく、この情報を勾配更新を通じてFwPKMのValue行列（Fast Weights）に直接書き込み、Key行列を安定したアドレッシング基準として保持する。

記憶の崩壊（すべてのクエリが同じキーを指す）を防ぐため、FwPKMは最大限のエントロピーを最大化するAddressing Lossを導入した：

3. Iterative Reading：復習による記憶品質の向上

記憶が推論時に動的に書き込まれるため、FwPKMは人間の認知に類似した現象を検証した：復習（Iterative Reading）は記憶効果を著しく向上させる。

図6. 128K長のNIAHテストにおいて、単回読書（1-iter）のモデル性能は一般的であったが、2-iter（2回読む）または3-iterを開始すると、正確率は質的な飛躍を示し、SOTAレベルに達した。これは、複数回のTest-Time Trainingを通じて、モデルが長文コンテキスト情報をより確実に掌握できることを実証した。

最後に、下の表を通じて、FwPKMが記憶メカニズムにおいて持つ独自の生態系の位置を明確に可以看到：これは、大容量の記憶容量と推論時記憶を同時に備える唯一のアーキテクチャ方案である。

表2. FwPKMと標準Attention、伝統的PKMの特性比較。

総結と展望

この3つの仕事は孤立した最適化ではなく、明確な技術的転向を体現している：事前学習の静的適合から、推論時の動的適応へ。

DroPEは、長文推論において、人間が設計した静的位置制約を削除することにより、モデルが深い意味を捕捉する能力を解放できることを証明した。

REPOは、位置自体は固定されるべきではなく、内容に応じてリアルタイムで生成されるべきであり、これによりモデルの認知負荷を低減できると提案した。

FwPKMはさらにTest-Time Trainingを導入し、記憶モジュールが推論过程中にリアルタイム更新と拡張の能力を備えるようにした。

このアーキテクチャレベルの探求は、長文問題を解決するためには、ハードウェアを積み上げて文脈長を拡大することに依存するだけでなく、より本質的な解法は、モデルに推論段階で自身の状態をリアルタイムで調整する能力を与えることにあることを示している。

これは、単純にメモリを拡大するよりも効率的な、次世代大規模モデル設計の発展方向を提供している。

参考文献

[1] Gelberg, Y., Eguchi, K., Akiba, T., & Cetin, E. (2025). Extending the Context of Pretrained LLMs by Dropping Their Positional Embeddings. arXiv preprint arXiv:2512.12167.

[2] Li, H., Zhao, T., & Sproat, R. (2025). REPO: Language Models with Context Re-Positioning. arXiv preprint arXiv:2512.14391.

[3] Zhao, T., & Jones, L. (2026). Fast-weight Product Key Memory. arXiv preprint arXiv:2601.00671.

Transformerの著者が率いるSakana AI、3つの論文を連続発表：長文の記憶メカニズムを徹底的に再構築

関連記事

分享網址