メモリキャッシング:メモリ容量が増大する RNN

メモリキャッシング:メモリ容量が増大する RNN

著者: Ali Behrouz1,2,†, Zeman Li1,3, Yuan Deng1, Peilin Zhong1, Meisam Razaviyayn1,3, Vahab Mirrokni1
1 Google Research ロゴ
2 Cornell University ロゴ
3 University of Southern California ロゴ
correspondence: alibehrouz@google.com

要旨

トランスフォーマーは、コンテキスト長に比例して増大するメモリ容量により、最近のシーケンスモデルにおける飛躍的進歩の事実上の基盤(バックボーン)として確立されました。この特性は検索タスクには有効ですが、計算量が 2 乗オーダー(二次的複雑度)になるという代償を伴い、より効率的な部分 2 乗オーダーの再帰的代替案を探る研究動機となっています。これらの再帰的アーキテクチャは多様な分野で有望な予備結果を示しているものの、固定サイズメモリに起因するとされる_recall_(想起)集約型タスクにおいてはトランスフォーマーに性能が劣ります。本論文では、メモリ状態(隠れ状態)のチェックポイントをキャッシュすることで再帰モデルを強化する、シンプルかつ効果的な手法である「メモリキャッシング(MC)」を導入します。MC を用いることで、RNN の実効メモリ容量をシーケンス長に応じて増大させることが可能となり、RNN の固定メモリ(計算量 O(L))とトランスフォーマーの増大メモリ(計算量 O(L²))との間を補間する柔軟なトレードオフを提供します。本研究では、ゲート付き集約やスパース選択機構を含む 4 つの MC 変種を提案し、線形および深層メモリモジュールへの影響について論じます。言語モデリングおよび長文脈理解タスクにおける実験結果は、MC が再帰モデルの性能を向上させることを示しており、その有効性を裏付けています。また、文脈内想起タスクの結果は、トランスフォーマーが最高精度を達成する一方、我々の MC 変種は競合しうる性能を示し、トランスフォーマーとの差を縮め、既存の最先端再帰モデルを上回る性能を発揮することを示唆しています。

1. はじめに

トランスフォーマー (Vaswani et al., 2017) は、多岐にわたる分野における機械学習の最近の進歩の基盤となっています (Jumper et al., 2021; Dosovitskiy et al., 2021; Comanici et al., 2025)。この成功は、しばしば大規模スケールでの学習能力 (Kaplan et al., 2020) と文脈内学習 (Brown et al., 2020) に起因するとされ、これらはいずれも、増大する容量を持つ連想メモリとして機能する主要な構成要素、すなわちアテンションモジュールの産物です (Ramsauer et al., 2021; Bietti et al., 2024; Behrouz et al., 2026)。多くの検索タスクには効果的である一方 (Arora et al., 2024b)、この増大するメモリは計算量の 2 乗オーダー化と推論時の高いメモリ使用量(KV キャッシング)を招きます。これが、性能を維持しつつ効率性を向上させることを目指す部分 2 乗オーダーのアーキテクチャ開発の動機となりました (Dai et al., 2019; Child et al., 2019; Poli et al., 2023)

特に、過去のデータをメモリ状態に圧縮し、入力シーケンス全体を通じて固定サイズを維持することを目指す再帰的ニューラルネットワーク(RNN)が、近年再び注目を集めています (Katharopoulos et al., 2020; Irie et al., 2021; Sun et al., 2023; Behrouz et al., 2025c)。短い文脈における言語モデリング (Irie et al., 2022) や動画データなどの他のシーケンスモデリングタスク (Park et al., 2025) において有望な結果を示しているものの、こうした再帰的アーキテクチャの固定メモリ状態が、その真の能力を発揮する上でのボトルネックとなっています。これらのアーキテクチャの基盤は再帰とデータ圧縮にあり、慎重な設計により、非常に効率的で表現力の高い学習アルゴリズムを生み出す可能性があります (Merrill et al., 2024; Huang et al., 2024)。しかし、増大するシーケンスを圧縮するその固定容量は、過去の情報を忘却することを余儀なくさせます。これは、特に想起を要するタスクや長文脈タスクにおいて重大なボトルネックとなります (Arora et al., 2024b; Kuratov et al., 2024)

図 1: メモリキャッシング手法の全体像。各トークンは、オンラインメモリだけでなく、過去の一連のキャッシュされたメモリにも参照(アテンション)します。
図 1: メモリキャッシング手法の全体像。各トークンは、その時点でのオンラインメモリだけでなく、過去にキャッシュされたメモリ群にもアクセスします。

貢献。 我々は、メモリ状態(隠れ状態)のチェックポイントをキャッシュすることで、再帰モデルの実効メモリをシーケンス長とともに増大させることを可能にする一般的手法「メモリキャッシング(MC)」を導入します(図 1を参照)。MC は標準的な再帰とアテンションとの間の柔軟な中間地点を提供し、O(NL) という制御可能な計算複雑度を実現します。これにより、RNN の O(L) 複雑度とトランスフォーマーの O(L²) 複雑度との間を柔軟に補間することが可能になります。我々の貢献は以下の 3 点に要約されます。

  • MC フレームワーク: シーケンスをセグメントに分割し、各セグメントの圧縮されたメモリ状態をキャッシュする手法を提案します。これにより、モデルは履歴全体からの圧縮情報に直接アクセスできるようになります。
  • 新規な集約戦略: キャッシュされたメモリを利用するための 4 つの手法を導入します。(i, ii) 残差接続と新規な文脈依存ゲート機構を用いる(ゲート付き)残差メモリ、(iii) 重みスープ(Weight Souping)に着想を得た、キャッシュされたメモリモジュールのパラメータを平均化する「メモリスープ」(非線形メモリ用)、および (iv) 専門化混合(Mixture-of-Experts)スタイルのルーターを用いて、文脈的に最も関連性の高いキャッシュされたメモリのみを選択し、効率的に集約する「スパース選択キャッシング(SSC)」です。
  • 実証的検証: 概念実証として、線形アテンション(LA)(Katharopoulos et al., 2020)、深層メモリモジュールである Titans (Behrouz et al., 2025c)、およびスライディングウィンドウ線形アテンション(SWLA)と Deep Linear Attention (DLA) (Behrouz et al., 2025a) の 3 つのアーキテクチャにおいて MC の有効性を実証します。言語モデリング、長文脈、検索タスクにおいて、MC が性能を向上させ、RNN の実効的な文脈長を拡張することを示します。

2. 予備知識と背景

本節では、必要な背景知識のレビューと記法の定義を行います。特に、アテンションとその線形変種の概念をレビューし、続いて、我々がメモリキャッシングを構築する基盤となる、パラメトリックな文脈内学習とネステッド学習パラダイム (Behrouz et al., 2026; 2025b) について議論します。

記法。 ベクトルには太字の小文字を、行列には太字の大文字を使用し、添字 t は時刻 t における実体の状態を表します。本稿を通じて、入力を x ∈ R^(L×d_in)、時刻 t におけるメモリ M(・) の状態を M_t、キーを K、バリューを V、クエリ行列を Q、シーケンス長を L とします。我々は、L_M ≥ 1 層の MLP ベースのメモリ構造に焦点を当てます。特筆すべきは、この定式化には L_M = 1 の場合、すなわち線形行列値メモリモジュールも含まれる点です。必要に応じて、メモリモジュール M(・) を θ_M := {W_1, ..., W_LM, ...} としてパラメータ化します。これには少なくとも MLP 内の線形層のパラメータが含まれます。

アテンション。 アテンション (Vaswani et al., 2017) はトランスフォーマーの主要な構成要素であり、その連想メモリとして機能します (Bietti et al., 2023; Behrouz et al., 2026; Wang et al., 2025)。入力 x ∈ R^(L×d_in) が与えられたとき、因果的アテンションは、入力に依存するキー、バリュー、クエリ行列 Q = xW_Q, K = xW_K, V = xW_V を用いて、出力 y ∈ R^(L×d_in) を以下のように計算します。

y_i = Σ_{t=1}^{i} [exp(q_i^T k_t) v_t] / [Σ_{l=1}^{i} exp(q_i^T k_l)] = (1/Z_i) Σ_{t=1}^{i} exp(q_i^T k_t) v_t ... (1)

ここで、W_Q, W_K, W_V ∈ R^(d_in×d_in) は学習可能なパラメータであり、Z_i = Σ_{l=1}^{i} exp(q_i^T k_l) は正規化項です。アテンションは、すべての過去のトークンにアクセスする必要があるため、O(L²) の演算量を必要とします。

線形アテンション。 線形アテンション (Katharopoulos et al., 2020) とその変種 (Schlag et al., 2021; Peng et al., 2023; Yang et al., 2024b) は、式 (1) における exp(・) 演算子を分離可能なカーネル φ(・) に置き換えることで、アテンションの効率を向上させ、効率的な再帰的定式化をもたらします。

y_i = Σ_{t=1}^{i} [φ(q_i)^T φ(k_t) v_t] / [Σ_{l=1}^{i} φ(q_i)^T φ(k_l)] = (1/Z_i) M_i φ(q_i) ... (2)

ここで、M_t = M_{t-1} + v_t φ(k_t)^T は固定サイズのメモリとして機能します (Katharopoulos et al., 2020)

テスト時メモリー化とネステッド学習の観点。 最近の統一的な枠組みは、アテンションおよび最新の RNN を含むシーケンスモデルの更新則を、異なる目的関数を持つ動的な文脈内学習・メモリー化プロセスとして解釈します (Behrouz et al., 2026; 2025b)。この観点では、モデルは入力トークン(キーとバリュー)間のマッピングを能動的に学習する連想メモリとして機能します。このメモリー化は、多くの場合 L_2 回帰問題 (Wang et al., 2025) として定式化される内部的な目的関数、あるいは「アテンションバイアス」と呼ばれるより一般的な目的関数 (Behrouz et al., 2026; 2025b) を最適化することで達成されます。この観点は、メモリ状態を前方パス中に最適化される動的な実体として位置づけます。特に、Miras フレームワーク (Behrouz et al., 2026) の最も単純な形式では、連想メモリ M(・) は、以下の目的関数(「アテンションバイアス」と呼ばれる)に基づき、キー {k_t}_{t=1}^L とバリュー {v_t}_{t=1}^L の間のマッピングを学習することを目指します。

M_{t+1} = argmin_M L(M(k_t); v_t) + Ret(M; M_t) ... (3)

ここで、目的関数 L(・) はマッピングの質を測定し、Ret(M; M_t) は新しい解をメモリの直前の状態に近づくように保ちます。アテンションバイアスの特定の選択により、よく知られたアーキテクチャを再現できます。例えば、L(M(k_t); v_t) = ⟨M(k_t), v_t⟩ および M(・) ∈ R^(d×d) とすると、非正規化線形アテンションアーキテクチャ (Katharopoulos et al., 2020) が導かれます。我々はこの観点を活用し、キャッシュされた状態をこの最適化プロセスのチェックポイントとして機能させる「メモリキャッシング」を導入することで、長いシーケンス全体にわたる情報の検索能力を向上させます。

3. メモリキャッシングを備えた再帰的ニューラルネットワーク

RNN は入力シーケンスを圧縮するために固定サイズのメモリを維持します。シーケンスが長くなるにつれ、これはメモリのオーバーフローと性能の低下を招きます。対照的に、アテンションは過去のすべてのトークンをキャッシュするため、メモリは増大しますが計算コストは 2 乗オーダーになります。我々は、中間的なメモリ状態をキャッシュする「メモリキャッシング(MC)」を提案し、モデルのメモリが任意のスケールで増大することを可能にする中間地点を提供します。これにより、計算コストは RNN のような O(L) とトランスフォーマーのような O(L²) の間を補間できます。このために、トークンのシーケンス x ∈ R^(L×d_in) が与えられたとき、これをサイズ L^(1), ..., L^(N) のセグメント S^(1), ..., S^(N) に分割し、これらのセグメントを圧縮するためにメモリ M^(1), ..., M^(N) を使用します。s 番目のセグメントに対応するメモリの更新則、あるいは再帰は以下の通りです。

k_t = x_t W_k, v_t = x_t W_v, q_t = x_t W_q ... (4a)
M_t^(s) = f(M_{t-1}^(s); k_t, v_t), ここで 1 ≤ t ≤ L^(s) ... (4b)

ここで、f(・) は学習更新則です(例:線形アテンション (Katharopoulos et al., 2020) の場合、f(M_{t-1}^(s); k_t, v_t) = M_{t-1}^(s) + v_t k_t^T)。上記の定式化を用いて、メモリを更新した後、各セグメントの最終状態(M_L^(s)^(s))をキャッシュします。ここで T は現在のセグメントのインデックス(x_t ∈ S^(T))です。標準的な RNN は、現在のメモリ状態 M_t(q_t) のみを用いて出力 y_t を計算します。対照的に、我々の定式化では、現在のメモリ(オンラインメモリ)に加えて、すべてのキャッシュされたメモリを用いて、クエリ q_t に対する出力を計算します。任意の集約関数 Agg(・;・;・) を与えられたとき、出力は以下のようになります。

y_t = Agg({M_L^(1)^(1)(・), ..., M_L^(s-1)^(s-1)(・)}; M_t^(s)(・); q_t) ... (5)

ここで、s は現在のセグメントのインデックスです。1 ≤ i ≤ s に対し、項 M_L^(i)^(i)(q_t) は、セグメント i におけるクエリ q_t に対応する情報を提供します。以下の節では、過去の情報を現在の出力計算に組み込み、モデルの実効メモリ容量を増大させるための、効果的な Agg 関数の選択肢をいくつか提示します。

3.1 残差メモリ

最も単純な Agg 演算子、すなわちメモリ状態間の残差接続として機能する総和から始めます。この場合、キー、バリュー、クエリ(式 4 参照)およびセグメント S^(1), ..., S^(N) が与えられたとき、セグメント s 内の時刻 t におけるメモリ更新と出力計算は次のように定義されます。

M_t^(s) = f(M_{t-1}^(s); k_t, v_t), ここで 1 ≤ t ≤ L^(s) ... (6)
y_t = M_t^(s)(q_t) [オンラインメモリ] + Σ_{i=1}^{s-1} M_L^(i)^(i)(q_t) [キャッシュされたメモリ] ... (7)

メモリキャッシングにおける重要な変更点は、出力が計算される方法です。実際、メモリの検索において、モデルは入力クエリ q_t に対して、現在のメモリ(オンラインメモリ)とキャッシュされたメモリの両方を前方パスします。

ゲート付き残差メモリ (GRM)。 メモリモジュールが厳密に線形である場合(すなわち M が行列の場合)、残差メモリの定式化(式 7)は、キャッシュされたメモリがあらかじめ総和可能であるため、数学的には標準的な固定サイズメモリに帰着します(後述の式 13 を参照)。しかし実際には、我々の実験結果は、この単純な定式化でさえ再帰モデルの能力を向上させることを示しています(セクション 5 を参照)。その主な理由は、単純な残差メモリでさえ、遠い過去の情報へのアクセスを強化する保持(リテンション)演算子として機能するからです。残差アプローチのさらなる制限は、クエリ q_t との関連性を無視して、すべてのキャッシュされたメモリを等しく扱う点にあります。選択的な検索を可能にするため、入力依存型のゲーティングを導入します。セグメント s 内の入力 x_t が与えられたとき、0 ≤ γ_t^(1), ..., γ_t^(s) ≤ 1 となる入力依存パラメータを定義し、出力を以下のように再定式化します。

M_t^(s) = f(M_{t-1}^(s); k_t, v_t), 1 ≤ t ≤ L^(s) に対して ... (8)
y_t = γ_t^(s) M_t^(s)(q_t) + Σ_{i=1}^{s-1} γ_t^(i) M_L^(i)^(i)(q_t) ... (9)

ここで、パラメータ γ_t^(i) は各セグメントの出力への寄与を調整します。γ_t^(i) → 1 のとき(それぞれ 0 のとき)、i 番目のセグメントは出力により多く(それぞれ少なく)寄与します。これらの入力依存パラメータのため、上記の定式化はこのトークンより前に事前計算することはできず、次のトークンやセグメントのために再利用することもできません。したがって、前述の変種とは対照的に、固定サイズメモリの場合に帰着することはなく(線形メモリの場合でさえ)、すべてのトークンに対して再計算され、メモリ状態のキャッシングを必要とします。γ_t^(i) のパラメータ化の単純な選択肢は、これらを入力 x_t の線形射影(キー、バリュー、クエリへの射影と同様)として定義することです。しかし、このパラメータ化では、γ_t^(i) は位置に基づくフィルタリング・フォーカスとして機能し、x_t の文脈がその内容に関わらず、i 番目のセグメントのメモリが(位置に基づいて)どれだけ寄与するかのみを決定してしまいます。この問題を克服するため、γ_t^(i) を x_t と i 番目のセグメント S^(i) の両方の関数とし、両者の文脈とその類似性を取り込むことを提案します。このために、入力の線形射影であるコネクタパラメータ u_t を導入し、γ_t^(i) を u_t と i 番目のセグメント S^(i) の類似度として定義します。

γ_t^(i) = ⟨u_t, MeanPooling(S^(i))⟩ ここで u_t = x_t W_u ... (10)

ここで、MeanPooling(・) は、すべてのトークンの平均としてセグメントの文脈の単純な表現を提供します。ただし、これは他のプーリング処理に置き換えることも可能です。実際には、γ_t^(i) を softmax(・) を用いて正規化します。代替的なパラメータ化として、u_t = q_t を使用することもできます。γ_t^(i) が定数である場合、GRM は残差メモリ変種と等価になります。

例。 上記の定式化をより明確にするための例示として、f(M_{t-1}^(s); k_t, v_t) = M_{t-1}^(s) - ∇⟨M_{t-1}^(s)(k_t), v_t⟩ とします。ここで、メモリ M(・) は任意のフィードフォワード層(例:MLP またはゲーテッド MLP 層)です。この一般形式は Deep Linear Attention (DLA) (Behrouz et al., 2025a) と等価であり、メモリが行列(すなわち 1 層の MLP)の場合、線形アテンション (Katharopoulos et al., 2020) と等価になります。DLA に残差メモリキャッシングを適用すると、以下の更新および検索則を持つモデルが得られます。

スライディングウィンドウ線形アテンション (SWLA)。 最近、Behrouz ら (2025a) は、スライディングウィンドウ線形アテンション (SWLA) を導入しました。これは、メモリが直前のトークンのみに基づいて更新されるオンライン RNN とは対照的に、c1c≥1 個の過去トークンに基づいて重みを更新するものです。具体的には、メモリモジュール ()ℳ(⋅) およびキー、バリュー、クエリ {(𝒌t,𝒗t,𝒒t)}t=1L{(k_t,v_t,q_t)}_{t=1}^L が与えられたとき、更新則と検索則は次のように定義されます。

t=αtt1+i=tc+1tβi(t)𝒗i𝒌i,ℳ_t = α_t ℳ_{t-1} + Σ β_i^(t) v_i k_i^⊤(26)
𝐲t=t𝒒t,y_t = ℳ_t q_t(27)

c=1c=1 の場合、この設計は単純な線形アテンション(オンライン線形 RNN)およびそのゲーティング変種 (Katharopoulos ら, 2020; Sun ら, 2023; Li ら, 2025) に帰着します。概念実証として、c=2c=2 である SWLA にメモリキャッシングを適用し、以下の再帰および検索則を得ました。

t(s)=αtt1(s)+(βt𝒗t1𝒌t1+λt𝒗t𝒌t),ℳ_t^(s) = α_t ℳ_{t-1}^(s) + (β_t v_{t-1} k_{t-1}^⊤ + λ_t v_t k_t^⊤)(28)
𝐲t=γt(s)t(s)𝒒t+i=1s1γt(i)L(i)(i)𝒒t.y_t = γ_t^(s) ℳ_t^(s) q_t + Σ γ_t^(i) ℳ_{L^(i)}^(i) q_t(29)

前述の通り、SWLA は線形メモリモジュールであるため、GRM 変種とメモリ・スープ変種のいずれも同じ定式化になることに留意してください。

表 1: 言語モデリングおよび常識推論タスクにおけるモデルの性能。
モデルWiki.
ppl↓
LMB.
ppl↓
LMB.
acc↑
PIQA
acc↑
Hella.
acc_n↑
Wino.
acc↑
ARC-e
acc↑
ARC-c
acc_n↑
SIQA
acc↑
BoolQ
acc↑
Avg.
760M パラメータ / 30B トークン
Transformer++24.1824.2736.367.241.852.065.633.439.161.749.64
Samba21.0722.8539.268.947.853.165.834.938.963.151.46
RetNet25.7724.1934.566.841.251.963.632.538.856.248.19
DeltaNet24.5224.3836.867.344.551.864.232.739.660.149.63
RWKV-723.7523.0837.167.347.652.264.734.239.461.950.55
Miras (Memora)22.2822.3138.267.849.353.363.636.140.963.051.53
SWLA23.8322.7436.566.944.154.964.234.139.660.150.05
+ Log-Linear++23.3722.1936.967.344.755.064.934.639.460.450.40
+ GRM (= Soup)22.8121.5037.868.345.855.065.436.240.661.051.26
+ SSC23.0622.3937.267.945.254.965.235.539.860.650.79
DLA23.1222.0936.168.047.952.765.834.639.159.650.48
+ Log-Linear++23.0821.1536.868.147.753.065.635.139.259.350.60
+ GRM22.9120.1037.569.248.752.866.136.840.359.951.41
+ Memory Soup22.7820.4937.269.648.353.465.836.539.660.251.33
+ SSC23.1420.8637.068.447.752.766.035.239.760.150.85
Titans (LMM)20.0421.9637.469.348.552.366.335.840.162.851.56
+ Log-Linear++19.7920.6237.870.148.052.566.835.640.362.851.74
+ GRM19.1420.2138.370.648.454.067.536.441.763.552.55
+ Memory Soup19.5220.3838.071.448.653.767.135.441.363.152.33
+ SSC19.3920.4637.770.948.753.566.936.341.263.152.29
1.3B パラメータ / 100B トークン
Transformer++17.9217.7342.671.451.354.169.936.041.858.453.19
Samba16.1513.2145.271.553.855.869.136.740.663.054.46
RetNet18.9117.0441.271.349.155.267.534.141.461.052.60
DeltaNet18.6217.1041.670.149.452.767.635.239.754.851.39
Miras (Memora)15.9012.0448.773.156.057.471.537.940.261.355.76
SWLA18.4716.2339.470.948.856.567.335.841.560.252.55
+ Log-Linear++18.6716.0939.971.249.356.668.136.341.460.452.90
+ GRM (= Soup)18.5115.9540.672.650.557.869.540.842.862.254.60
+ SSC18.6116.0140.471.950.057.168.938.642.261.253.79
DLA16.3112.2944.570.653.954.269.636.040.860.253.72
+ Log-Linear++16.2212.2544.971.154.554.870.036.641.360.754.24
+ GRM16.0812.1045.872.555.955.871.541.242.862.255.96
+ Memory Soup16.1612.1745.671.955.455.670.937.742.061.555.08
+ SSC16.2012.1945.371.754.855.370.437.141.461.154.64
Titans (LMM)15.6011.4149.173.156.359.872.440.842.161.056.82
+ Log-Linear++15.4911.3849.473.656.560.372.841.142.561.357.19
+ GRM15.3711.2950.474.557.461.573.842.643.962.558.33
+ Memory Soup15.4211.3149.974.257.360.873.542.243.462.057.91
+ SSC15.4411.3549.673.857.060.673.141.942.861.857.58
はアテンションと線形 RNN のハイブリッド (Ren ら, 2024)。

ディープ線形アテンション (DLA)。 DLA は線形アテンション(ヘッビアン則)と同じ更新則を使用しますが、ディープなメモリモジュールを備えています。つまり、メモリモジュール ()ℳ(⋅) およびキー、バリュー、クエリ {(𝒌t,𝒗t,𝒒t)}t=1L{(k_t,v_t,q_t)}_{t=1}^L が与えられたとき、更新則と検索則は次のように定義されます。

t=t1ηt(t1;𝒌t,𝒗t),ℳ_t = ℳ_{t-1} - η_t ∇ℒ(ℳ_{t-1}; k_t, v_t)(30)
𝐲t=t(𝒒t),y_t = ℳ_t(q_t)(31)

ここで、アテンション・バイアス目的関数は (t1;𝒌t,𝒗t)=t1(𝒌t),𝒗tℒ = -⟨ℳ_{t-1}(k_t), v_t⟩ と定義されます。メモリキャッシング(GRM 変種)を使用すると、DLA の更新および検索プロセスは次のように定義されます。

t(s)=t1(s)ηt(t1(s);𝒌t,𝒗t),for 1tL(s),ℳ_t^(s) = ℳ_{t-1}^(s) - η_t ∇ℒ(...)(32)
𝐲t=γt(s)t(s)(𝐪t)+i=1s1γt(i)L(i)(i)(𝐪t).y_t = γ_t^(s) ℳ_t^(s)(q_t) + Σ γ_t^(i) ℳ_{L^(i)}^(i)(q_t)(33)

同様に、式 14 または 式 17 を DLA の更新則(式 32 と同様)に置き換えることで、他のメモリキャッシング変種を導出できます。メモリモジュール ()ℳ(⋅) が行列である場合、上記の定式化は線形アテンション (Katharopoulos ら, 2020) と等価であることに留意してください。

タイタンズ (Titans)。 Titans では、DLA と比較して、アテンション・バイアス目的関数と内部オプティマイザの両方が異なります。具体的には、メモリモジュール ()ℳ(⋅) およびキー、バリュー、クエリ {(𝒌t,𝒗t,𝒒t)}t=1L{(k_t,v_t,q_t)}_{t=1}^L が与えられたとき、Titans の更新則と検索則は次のように定義されます。

t=αtt1𝒮t,ℳ_t = α_t ℳ_{t-1} - S_t(34)

ここで、アテンション・バイアス目的関数は ℒ(ℳt−1; kt, vt) = ‖ℳt−1(kt) − vt22 と定義されます。メモリキャッシング(MC)を使用する場合、各セグメントのメモリ更新操作は 式 34 および 式 35 と同一ですが、メモリキャッシングを備えたタイタンズ(Titans)の検索プロセスは 式 33 と同一として定義されます。

対数線形++(Log-Linear++)変種。 最近、Guo ら(2025)は、線形 RNN の構造化行列定式化を活用し、フェニック木構造(Fenwick, 1994)に基づく階層型アルゴリズムである「対数線形アテンション」を設計しました。これは対数的に増大する隠れ状態の集合を可能にします。我々は本実験において、セグメンテーションが効率性と検索性能に及ぼす効果を示すためのベースラインとして対数線形アテンションを使用します。ただし、その定式化は セクション 3.1 で議論した位置バイアスや検索プロセスにおける文脈依存性の欠如という問題を抱えています。公平な比較のため、我々はこれを GRM を用いたメモリキャッシング変種として再定式化し、対数サイズのセグメント集合を採用することで改善を図りました。これを本実験では「Log-Linear++」と呼称します。セグメンテーション処理は セクション 4.2 で記述された処理と同一です。その他の構成要素は、我々の提供する他のメモリキャッシング変種と同一に保たれています。

トレーニング後適用としてのメモリキャッシング。 メモリキャッシングはモデルの事前トレーニング終了後にも適用可能です。推論時に各セグメント(例:トレーニングシーケンス長)後のメモリ状態をキャッシュし、デコーディング時には学習済み重みを持たない移動平均を使用します。実験結果によれば、この単純な手法でさえも、再帰型モデルの長さ方向への汎化能力を著しく向上させることが確認されています。

表 2: 3 段階の難易度設定による Needle-In-A-Haystack 実験:シングルニードルタスク—S-NIAH-1(パスキー検索)、S-NIAH-2(数値ニードル)、S-NIAH-3(UUID ベースニードル)。
S-NIAH-1S-NIAH-2S-NIAH-3
(パスキー検索)(干し草の山の中の数値)(干し草の山の中の UUID)
モデル4K8K16K4K8K16K4K8K16K
Transformer88.676.479.810098.894.278.069.240.8
DLA96.471.244.079.642.628.218.28.84.0
+ Log-Linear++10096.270.487.670.418.028.820.46.0
+ GRM10010082.494.682.854.848.234.418.2
+ Memory Soup10010078.291.877.240.443.032.814.8
+ SSC10098.276.889.274.837.634.028.611.2
Titans (LMM)10010010099.684.675.474.242.821.2
+ Log-Linear++10010010095.688.474.876.048.424.2
+ GRM10010010099.896.688.289.469.032.2
+ Memory Soup10010010098.892.283.084.261.828.6
+ SSC10010010098.690.479.681.054.227.0

5 実験

次に、言語モデリング、常識推論、Needle-in-a-Haystack、および文脈内検索タスクにおいて、メモリキャッシングがモデル性能をいかに向上させるか評価します。

実験設定。 実験評価においては、主に Guo ら(2025)の方法論に従います。モデルのトレーニングには、{2K, 4K, 8K, 16K, 32K} のトレーニングコンテキストウィンドウサイズと、{16, 32, 64, 128, 256, 512} トークンのセグメント長を採用し、FineWeb データセット(Penedo ら、2024)および Long-Data-Collections(Together AI, 2024)の混合データを使用します。言語モデリングおよび常識推論タスク(表 1)では、デフォルトモデルはコンテキスト長 4K、セグメント長 256 でトレーニングされます。モデルサイズは 760M パラメータおよび 1.3B パラメータとし、FineWeb データセット(Penedo ら、2024)からサンプリングしたそれぞれ 300 億トークンおよび 1000 億トークンでトレーニングを行います。パープレキシティは保留検証データで測定されます。下流タスクとしては、Wikitext(Merity ら、2017)、LMB(Paperno ら、2016)、PIQA(Bisk ら、2020)、HellaSwag(Zellers ら、2019)、WinoGrande(Sakaguchi ら、2021)、ARC-easy(ARC-e)および ARC-challenge(ARC-c)(Clark ら、2018)、SIQA(Sap ら、2019)、BoolQ(Clark ら、2019)で評価します。Needle-in-a-haystack、文脈内検索、LongBench などの他の下流タスクでは、短文脈と長文脈におけるモデル性能をより明確に区別するため、16K コンテキスト長でモデルをトレーニングします。実験設定および使用データセットの詳細は 付録 B に記載しています。

5.1 言語モデリング

まず、学術規模の共通言語モデリングから始めます。SWLA、DLA、および Titans のメモリキャッシングあり/なしの結果を 表 1 に示します。ここから 3 つの知見が得られます。(1)DLA、Titans、SWLA を、それらのメモリキャッシング強化版と比較すると、すべてのメモリキャッシング変種が異なる下流タスクで一貫した性能向上をもたらし、平均的にもベースラインを上回ることが確認されました。これは、メモリ制約のあるモデルをさらに強化する上でメモリキャッシングが重要であることを示しています。(2)前述の通り、メモリキャッシングは(スパース)アテンションと再帰型モデルのハイブリッドと見なせます。メモリキャッシング強化モデルとアテンションベースモデル(ハイブリッドおよび Transformer)を比較すると、メモリキャッシングは再帰型モデルにおけるメモリ制限問題に対し、より強力な解決策を提供します。特に、Titans + MC および DLA + MC は、Titans 単体と比較して +0.8% の性能向上を達成しました。(3)MC の定数サイズセグメンテーションと Log-Linear++ 手法を比較すると、定数サイズセグメンテーション変種の方が良好な結果を示すことが観察されました。さらに、我々が提供する方法の中では GRM、次いで SSC が最良の結果を達成しました。この性能向上は、MC がモデルに提供する実効メモリ容量の増大に起因すると考えられます。

表 3: 入力長を様々に切り詰けた場合の検索タスクにおける精度。
SWDESQuADFDA
モデル5121024204816k5121024204816k5121024204816k
Transformer46.243.744.444.033.133.333.633.471.069.571.671.0
Titans (MAL)51.948.648.348.528.329.229.128.871.173.972.171.7
DLA44.539.932.732.523.824.023.824.155.640.225.923.3
+ Log-Linear++43.737.730.430.627.827.827.928.355.139.622.318.9
+ GRM52.448.948.748.529.530.730.730.163.351.648.941.5
+ Memory Soup49.545.038.037.728.428.628.529.160.548.437.234.6
+ SSC47.042.535.535.326.028.127.128.858.046.028.829.4
Titans (LMM)43.234.429.229.725.726.226.325.659.345.535.432.5
+ Log-Linear++48.041.437.237.027.227.327.227.167.055.541.232.4
+ GRM52.649.349.550.129.730.431.532.072.968.761.152.6
+ Memory Soup50.346.744.845.429.229.729.830.370.363.855.745.8
+ SSC48.644.241.041.428.328.828.528.868.259.447.638.9
TriviaQADropNQ平均
モデル5121024204816k5121024204816k51210242048
Transformer47.548.547.447.621.822.021.521.423.623.123.741.00
Titans (MAL)44.845.144.644.820.620.520.820.922.122.422.540.46
DLA43.344.243.543.220.119.920.620.019.718.418.530.51
+ Log-Linear++43.744.843.643.820.320.220.820.219.918.821.030.75
+ GRM50.147.344.850.021.921.822.021.723.523.323.438.03
+ Memory Soup48.046.444.248.721.521.321.721.222.822.422.535.05
+ SSC45.845.543.946.120.920.721.220.621.420.621.833.09
Titans (LMM)44.244.743.944.520.220.120.320.620.119.519.131.75
+ Log-Linear++44.544.944.144.720.420.420.520.721.519.820.434.37
+ GRM50.247.545.350.921.721.821.921.523.723.423.340.50
+ Memory Soup48.346.644.849.421.321.421.721.122.922.222.538.43
+ SSC46.145.744.346.920.820.721.220.921.920.421.536.27

5.2 Needle-In-A-Haystack タスク

Needle-in-a-Haystack(NIAH)タスク(表 2)を用いて、MC が長文脈検索に与える影響を評価します。MC 強化版の DLA および Titans は、ベースラインモデルを一貫して上回ります。さらに、MC 変種は Log-Linear アプローチ、特に長文脈において顕著に優れています。Log-Linear が苦戦する理由は、単一メモリが非常に大きな初期セグメント(例:16K シーケンス中の 8K トークン)を圧縮することを強制されるのに対し、MC は圧縮負荷をより効果的に分散させるためです。

5.3 文脈内検索タスク

文脈内検索タスクは、再帰型ニューラルネットワークにとって最も困難なベンチマークの一つです。本セクションでは、Arora ら(2024b)に従い、SWDE(Lockard ら、2019)、NQ(Kwiatkowski ら、2019)、DROP(Dua ら、2019)、FDA(Arora ら、2023)、SQUAD(Rajpurkar ら、2016)、TQA(Kembhavi ら、2017)で実験を行い、MC 強化変種とベースラインおよび Transformer の性能比較を実施します。結果は 表 3 に示します。Transformer が依然として文脈内検索タスクで最高性能を達成する一方、我々の MC 変種は競争力のある性能を示し、Transformer との格差を埋め、最先端の再帰型モデルを上回る性能を発揮します。この性能向上も、シーケンス長に比例して拡張するメモリ容量の増大に起因すると考えています。

表 4: LongBench タスク(Bai ら、2024)における精度:NarrativeQA、QasperQA、MultiFieldQA、HotpotQA、2WikiMultiQA、Musique、GovReport、QMSum、MultiNews、TREC、TriviaQA、SamSum、LCC、RepoBench-P。
Single-Doc QAMulti-Doc QASummarizationFew-shotCode
モデルNQAQQAMFQHQA2WMMusGvRQMSMNsTRCTQASSMLCCRBP
Transformer11.59.619.121.528.96.513.09.23.127.227.915.122.929.1
DLA9.417.512.111.822.34.89.57.45.14.823.59.738.434.9
+ Log-Linear++10.110.217.112.423.35.56.612.75.818.624.716.231.631.0
+ GRM11.610.319.818.226.96.413.514.16.925.728.218.332.733.9

表 4(続き):LongBench タスク(Bai ら、2024)における精度。NQA(NarrativeQA)、QQA(QasperQA)、MFQ(MultiFieldQA)、HQA(HotpotQA)、2WM(2WikiMultiQA)、Mus(Musique)、GvR(GovReport)、QMS(QMSum)、MNs(MultiNews)、TRC(TREC)、TQA(TriviaQA)、SSM(SamSum)、LCC、RBP(RepoBench-P)。

モデルNQAQQAMFQHQA2WMMusGvRQMSMNsTRCTQASSMLCCRBP
+ Memory Soup11.210.319.516.725.16.311.213.86.222.526.917.732.333.5
+ SSC10.710.218.814.224.85.98.412.96.120.525.716.831.932.6
Titans (LMM)8.712.518.415.626.16.710.512.611.837.126.224.531.331.4
+ Log-Linear++9.68.919.318.726.96.86.712.92.811.242.725.029.529.7
+ GRM11.89.419.921.429.17.28.413.33.114.849.725.531.032.8
+ Memory Soup10.79.219.620.228.27.17.813.13.013.747.125.330.831.4
+ SSC9.99.119.419.827.56.97.113.02.812.544.825.229.930.8

5.4 長文脈理解タスク

LongBench(Bai ら、2024)を用いて長文脈理解タスクにおける評価を行いました。結果は表 4 に示します。MC 強化変種はいずれも、ベースラインの RNN と比較して性能向上を示しており、これもメモリ容量の増大に起因するものと考えられます。

メモリキャッシュ変種とベースラインのトレーニングスループット比較 変種間の速度比較
図 4: メモリキャッシュ変種とベースラインのトレーニングスループット比較。
MQAR における平均精度(5 シード)
図 5: MQAR における 5 シードの平均精度。

5.5 マルクエリ連想想起(MQAR)

本セクションでは、マルチクエリ連想想起(MQAR)タスク(Arora ら、2024a)において MC 強化変種の性能を評価します。結果は図 5 に示します。我々のモデルは、ベースラインの RNN および最先端の再帰型モデルと比較して良好な性能を示し、Atlas(Behrouz ら、2025a)などの最先端モデルと比較しても、次元値あたりの性能で最高を達成しています。

5.6 除去実験

次に、MC フレームワークにおける設計選択の効果を評価します。最初の選択は、γが入力のみの関数であるべきか、それともブロックの文脈にも依存すべきかです。結果は表 5 に示します。この設計選択は、平均して有意な改善を示しました。2 つ目の設計はゲーティングの除去です。ゲーティングがなければ、設計は残差メモリに退化しますが、この単純な設計でさえモデルの性能を向上させることが示されました。最後に、3 つ目の設計として線形メモリモジュールを使用しました。驚くべきことに、メモリキャッシュを使用することで、メモリ構造や表現力に対する性能の堅牢性が向上しました。

表 5: MC に関する除去実験。MC のすべての設計選択がその有効性に寄与しています。
モデル言語モデリングC.S. 推論検索
ppl ↓acc ↑acc ↑
Titans (GRM)13.358.340.5
- 文脈依存13.457.433.0
- ゲーティング13.556.932.4
- 線形メモリ13.756.334.5
- 共有 u および q00.000.000.0
Titans (SSC)13.457.636.3
- 文脈依存13.457.132.6
- ゲーティング13.556.831.9
- 線形メモリ13.856.833.4
- 共有 u および q00.000.000.0

5.7 効率性

最後に、我々の変種とベースラインのトレーニングスループットを評価します。結果は図 4 に示します。我々の MC 変種は Transformer と RNN の中間に位置し、文脈長が増加するにつれて Transformer と比較して極めて効率的になります。これらの結果は、我々の SSC 変種が両者の利点を兼ね備えており、前述の多様な下流タスクにおいて他の変種と同等かそれ以上の性能を発揮しつつ、元のベースライン RNN 変種と比較しても最小限のオーバーヘッドしか追加しないことを示しています。さらに、より長いシーケンスにおいて著しく優れた効率性を示します。

6 結論

本論文では、すべての再帰型ニューラルネットワークに適用可能な単純な技術であるメモリキャッシング(MC)を提案しました。これはメモリ状態の一部をキャッシュし、後続のトークンが過去の関連するトークンに直接注意を向けることを可能にします。我々の実験は、ベースラインの一部に対して改善を示しました。本論文では、メモリキャッシングのアイデアの効果をより明確に示すために、結果として得られるモデルを可能な限りシンプルに保つための選択を多数行っています。しかしながら、今後の研究では、より表現力のあるプーリングやルーティングメカニズムを使用することで、さらに性能を向上させることができるでしょう。

参考文献

  • [1] Z. Allen-Zhu. Physics of language models: part 4.1, architecture design and the magic of canon layers. The Thirty-ninth Annual Conference on Neural Information Processing Systems. 引用: 付録 A.
  • S. Arora, S. Eyuboglu, A. Timalsina, I. Johnson, M. Poli, J. Zou, A. Rudra, and C. Re (2024a). Zoology: measuring and improving recall in efficient language models. The Twelfth International Conference on Learning Representations. 外部リンク: Link. 引用: §5.5.
  • S. Arora, S. Eyuboglu, M. Zhang, A. Timalsina, S. Alberti, J. Zou, A. Rudra, and C. Re (2024b). Simple linear attention language models balance the recall-throughput tradeoff. Forty-first International Conference on Machine Learning. 外部リンク: Link. 引用: 付録 A, §1, §1, §5.3.
  • S. Arora, B. Yang, S. Eyuboglu, A. Narayan, A. Hojel, I. Trummer, and C. Ré (2023). Language models enable simple systems for generating structured views of heterogeneous data lakes. arXiv preprint arXiv:2304.09433. 引用: §5.3.
  • Y. Bai, X. Lv, J. Zhang, H. Lyu, J. Tang, Z. Huang, Z. Du, X. Liu, A. Zeng, L. Hou, Y. Dong, J. Tang, and J. Li (2024). LongBench: a bilingual, multitask benchmark for long context understanding. ACL (1), pp. 3119–3137. 外部リンク: Link. 引用: §5.4, 表 4.
  • A. Behrouz, Z. Li, P. Kacham, M. Daliri, Y. Deng, P. Zhong, M. Razaviyayn, and V. Mirrokni (2025a). Atlas: learning to optimally memorize the context at test time. arXiv preprint arXiv:2505.23735. 引用: 付録 A, 付録 A, 3 アイテム目, §3.1, §4.3, §4.3, §5.5.
  • A. Behrouz, M. Razaviyayn, P. Zhong, and V. Mirrokni (2025b). Nested learning: the illusion of deep learning architectures. The Thirty-ninth Annual Conference on Neural Information Processing Systems. 外部リンク: Link. 引用: 付録 A, §2, §2, 脚注 1.
  • A. Behrouz, M. Razaviyayn, P. Zhong, and V. Mirrokni (2026). It's all connected: a journey through test-time memorization, attentional bias, retention, and online optimization. The Fourteenth International Conference on Learning Representations. 外部リンク: Link. 引用: 付録 A, 付録 A, 付録 A, 付録 B, §1, §2, §2, §2, 脚注 1.
  • A. Behrouz, P. Zhong, and V. Mirrokni (2025c). Titans: learning to memorize at test time. The Thirty-ninth Annual Conference on Neural Information Processing Systems. 外部リンク: Link. 引用: 付録 A, 付録 B, 3 アイテム目, §1, §4.3.
  • A. Bietti, V. Cabannes, D. Bouchacourt, H. Jegou, and L. Bottou (2023). Birth of a transformer: a memory viewpoint. Advances in Neural Information Processing Systems 36, pp. 1560–1588. 引用: §2.
  • A. Bietti, V. Cabannes, D. Bouchacourt, H. Jegou, and L. Bottou (2024). Birth of a transformer: a memory viewpoint. Advances in Neural Information Processing Systems 36. 引用: §1.
  • Y. Bisk, R. Zellers, J. Gao, Y. Choi, et al. (2020). Piqa: reasoning about physical commonsense in natural language. Proceedings of the AAAI conference on artificial intelligence, Vol. 34, pp. 7432–7439. 引用: 付録 B, §5.
  • T. Brown, B. Mann, N. Ryder, M. Subbiah, J. D. Kaplan, P. Dhariwal, A. Neelakantan, P. Shyam, G. Sastry, A. Askell, et al. (2020). Language models are few-shot learners. Advances in neural information processing systems 33, pp. 1877–1901. 引用: §1.
  • R. Child, S. Gray, A. Radford, and I. Sutskever (2019). Generating long sequences with sparse transformers. arXiv preprint arXiv:1904.10509. 引用: §1.
  • C. Clark, K. Lee, M. Chang, T. Kwiatkowski, M. Collins, and K. Toutanova (2019). BoolQ: exploring the surprising difficulty of natural yes/no questions. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), J. Burstein, C. Doran, and T. Solorio (Eds.), Minneapolis, Minnesota, pp. 2924–2936. 外部リンク: Link, Document. 引用: 付録 B, §5.
  • P. Clark, I. Cowhey, O. Etzioni, T. Khot, A. Sabharwal, C. Schoenick, and O. Tafjord (2018). Think you have solved question answering? try arc, the ai2 reasoning challenge. arXiv preprint arXiv:1803.05457. 引用: 付録 B, §5.
  • G. Comanici, E. Bieber, M. Schaekermann, I. Pasupat, N. Sachdeva, I. Dhillon, M. Blistein, O. Ram, D. Zhang, E. Rosen, et al. (2025). Gemini 2.5: pushing the frontier with advanced reasoning, multimodality, long context, and next generation agentic capabilities. arXiv preprint arXiv:2507.06261. 引用: §1.
  • R. Csordás, C. Potts, C. D. Manning, and A. Geiger (2024). Recurrent neural networks learn to store and generate sequences using non-linear representations. Proceedings of the 7th BlackboxNLP Workshop: Analyzing and Interpreting Neural Networks for NLP, pp. 248–262. 引用: 付録 A.
  • Z. Dai, Z. Yang, Y. Yang, J. G. Carbonell, Q. V. Le, and R. Salakhutdinov (2019). Transformer-xl: attentive language models beyond a fixed-length context. ACL (1), A. Korhonen, D. R. Traum, and L. Màrquez (Eds.), pp. 2978–2988. 外部リンク: ISBN 978-1-950737-48-2. 引用: §1.
  • T. Dao, B. Chen, N. S. Sohoni, A. Desai, M. Poli, J. Grogan, A. Liu, A. Rao, A. Rudra, and C. Ré (2022). Monarch: expressive structured matrices for efficient and accurate training. International Conference on Machine Learning, pp. 4690–4721. 引用: 付録 A.
  • T. Dao, A. Gu, M. Eichhorn, A. Rudra, and C. Ré (2019). Learning fast algorithms for linear transforms using butterfly factorizations. International conference on machine learning, pp. 1517–1527. 引用: 付録 A.
  • A. Dosovitskiy, L. Beyer, A. Kolesnikov, D. Weissenborn, X. Zhai, T. Unterthiner, M. Dehghani, M. Minderer, G. Heigold, S. Gelly, J. Uszkoreit, and N. Houlsby (2021). An image is worth 16x16 words: transformers for image recognition at scale. International Conference on Learning Representations. 外部リンク: Link. 引用: §1.
  • D. Dua, Y. Wang, P. Dasigi, G. Stanovsky, S. Singh, and M. Gardner (2019). DROP: a reading comprehension benchmark requiring discrete reasoning over paragraphs. arXiv preprint arXiv:1903.00161. 引用: §5.3.
  • P. M. Fenwick (1994). A new data structure for cumulative frequency tables. Software: Practice and experience 24 (3), pp. 327–336. 引用: §4.3.
  • X. Gonzalez, A. Warrington, J. Smith, and S. Linderman (2024). Towards scalable and stable parallelization of nonlinear rnns. Advances in Neural Information Processing Systems 37, pp. 5817–5849. 引用: 付録 A.
  • H. Guo, S. Yang, T. Goel, E. P. Xing, T. Dao, and Y. Kim (2025). Log-linear attention. arXiv preprint arXiv:2506.04761. 引用: 付録 A, 付録 B, §4.3, §5.
  • D. O. Hebb (2005). The organization of behavior: a neuropsychological theory. Psychology press. 引用: 付録 A.
  • D. Hendrycks and K. Gimpel (2016). Gaussian error linear units (gelus). arXiv preprint arXiv:1606.08415. 引用: 付録 B.
  • J. J. Hopfield (1982). Neural networks and physical systems with emergent collective computational abilities.. Proceedings of the national academy of sciences 79 (8), pp. 2554–2558. 引用: 付録 A, 付録 A.
  • J. Y. Hu, D. Wu, and H. Liu (2024). Provably optimal memory capacity for modern hopfield models: transformer-compatible dense associative memories as spherical codes. arXiv preprint arXiv:2410.23126. 引用: 付録 A.
  • J. Hu, Y. Pan, J. Du, D. Lan, X. Tang, Q. Wen, Y. Liang, and W. Sun (2025). Improving bilinear RNN with closed-loop control. The Thirty-ninth Annual Conference on Neural Information Processing Systems. 外部リンク: Link. 引用: 付録 A.
  • Y. Huang, J. Zhang, Z. Shan, and J. He (2024). Compression represents intelligence linearly. First Conference on Language Modeling. 外部リンク: Link. 引用: §1.
  • K. Irie, I. Schlag, R. Csordas, and J. Schmidhuber (2021). Going beyond linear transformers with recurrent fast weight programmers. Advances in neural information processing systems 34, pp. 7703–7717. 引用: 付録 A, §1.
  • K. Irie, I. Schlag, R. Csordás, and J. Schmidhuber (2022). A modern self-referential weight matrix that learns to modify itself. International Conference on Machine Learning, pp. 9660–9677. 引用: §1.
  • K. Jordan, Y. Jin, V. Boza, Y. Jiacheng, F. Cecista, L. Newhouse, and J. Bernstein (2024). Muon: an optimizer for hidden layers in neural networks, 2024b. URL https://kellerjordan.github.io/posts/muon. 引用: 付録 A.
  • J. Jumper, R. Evans, A. Pritzel, T. Green, M. Figurnov, O. Ronneberger, K. Tunyasuvunakool, R. Bates, A. Žídek, A. Potapenko, et al. (2021). Highly accurate protein structure prediction with alphafold. nature 596 (7873), pp. 583–589. 引用: §1.
  • Y. Kang, G. Tran, and H. De Sterck (2023). Fast multipole attention: a divide-and-conquer attention mechanism for long sequences. arXiv preprint arXiv:2310.11960. 引用: 付録 A.
  • J. Kaplan, S. McCandlish, T. Henighan, T. B. Brown, B. Chess, R. Child, S. Gray, A. Radford, J. Wu, and D. Amodei (2020). Scaling laws for neural language models. arXiv preprint arXiv:2001.08361. 引用: §1.
  • M. Karami and V. Mirrokni (2025). Lattice: learning to efficiently compress the memory. 引用: 付録 A.
  • A. Katharopoulos, A. Vyas, N. Pappas, and F. Fleuret (2020). Transformers are rnns: fast autoregressive transformers with linear attention. International conference on machine learning, pp. 5156–5165. 引用: 付録 A, 3 アイテム目, §1, §2, §2, §2, §3.1, §3, §4.1, §4.3, §4.3, §4.3.
  • A. Kembhavi, M. Seo, D. Schwenk, J. Choi, A. Farhadi, and H. Hajishirzi (2017). Are you smarter than a sixth grader? textbook question answering for multimodal machine comprehension. Proceedings of the IEEE Conference on Computer Vision and Pattern recognition, pp. 4999–5007. 引用: §5.3.
  • N. Kitaev, Ł. Kaiser, and A. Levskaya (2020). Reformer: the efficient transformer. arXiv preprint arXiv:2001.04451. 引用: 付録 A.
  • D. Krotov and J. J. Hopfield (2016). Dense associative memory for pattern recognition. Advances in neural information processing systems 29. 引用: 付録 A.
  • D. Krotov (2021). Hierarchical associative memory. arXiv preprint arXiv:2107.06446. 引用: 付録 A.
  • Y. Kuratov, A. Bulatov, P. Anokhin, I. Rodkin, D. I. Sorokin, A. Sorokin, and M. Burtsev (2024). BABILong: testing the limits of LLMs with long context reasoning-in-a-haystack. The Thirty-eight Conference on Neural Information Processing Systems Datasets and Benchmarks Track. 外部リンク: Link. 引用: §1.
  • T. Kwiatkowski, J. Palomaki, O. Redfield, M. Collins, A. Parikh, C. Alberti, D. Epstein, I. Polosukhin, J. Devlin, K. Lee, et al. (2019). Natural questions: a benchmark for question answering research. Transactions of the Association for Computational Linguistics 7, pp. 453–466. 引用: §5.3.
  • A. Li, B. Gong, B. Yang, B. Shan, C. Liu, C. Zhu, C. Zhang, C. Guo, D. Chen, D. Li, et al. (2025). Minimax-01: scaling foundation models with lightning attention. arXiv preprint arXiv:2501.08313. 引用: 付録 A, §4.3.
  • S. Li, X. Jin, Y. Xuan, X. Zhou, W. Chen, Y. Wang, and X. Yan (2019). Enhancing the locality and breaking the memory bottleneck of transformer on time series forecasting. Advances in neural information processing systems 32. 引用: 付録 A.
  • X. Li, Y. Li, Y. Liang, Z. Shi, and Z. Song (2024). On the expressive power of modern hopfield networks. arXiv preprint arXiv:2412.05562. 引用: 付録 A.
  • Y. H. Lim, Q. Zhu, J. Selfridge, and M. F. Kasim (2024). Parallelizing non-linear sequential models over the sequence length. The Twelfth International Conference on Learning Representations. 外部リンク: Link. 引用: 付録 A.
  • B. Liu, R. Wang, L. Wu, Y. Feng, P. Stone, and Q. Liu (2024). Longhorn: state space models are amortized online learners. arXiv preprint arXiv:2407.14207. 引用: 付録 A.
  • C. Lockard, P. Shiralkar, and X. L. Dong (2019). Openceres: when open information extraction meets the semi-structured web. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pp. 3047–3056. 引用: §5.3.
  • E. Lu, Z. Jiang, J. Liu, Y. Du, T. Jiang, C. Hong, S. Liu, W. He, E. Yuan, Y. Wang, Z. Huang, H. Yuan, S. Xu, X. Xu, G. Lai, Y. Chen, H. Zheng, J. Yan, J. Su, Y. Wu, Y. Zhang, Z. Yang, X. Zhou, M. Zhang, and J. Qiu (2025). MoBA: mixture of block attention for long-context LLMs. The Thirty-ninth Annual Conference on Neural Information Processing Systems. 外部リンク: Link. 引用: 付録 A.
  • C. Lucibello and M. Mézard (2024). Exponential capacity of dense associative memories. Physical Review Letters 132 (7), pp. 077301. 引用: 付録 A.
  • S. Merity, C. Xiong, J. Bradbury, and R. Socher (2017). Pointer sentinel mixture models. International Conference on Learning Representations. 外部リンク: Link. 引用: 付録 B, §5.
  • W. Merrill, J. Petty, and A. Sabharwal (2024). The illusion of state in state-space models. Forty-first International Conference on Machine Learning. 外部リンク: Link. 引用: 付録 A, §1.
  • T. Munkhdalai, M. Faruqui, and S. Gopal (2024). Leave no context behind: efficient infinite context transformers with infini-attention. arXiv preprint arXiv:2404.07143. 引用: 付録 A.
  • T. Munkhdalai, A. Sordoni, T. Wang, and A. Trischler (2019). Metalearned neural memory. Advances in Neural Information Processing Systems 32. 引用: 付録 A.
  • T. Munkhdalai and H. Yu (2017). Neural semantic encoders. Proceedings of the conference. Association for Computational Linguistics. Meeting, Vol. 1, pp. 397. 引用: 付録 A.
  • T. Nguyen, V. Suliafu, S. Osher, L. Chen, and B. Wang (2021). Fmmformer: efficient and flexible transformer via decomposed near-field and far-field attention. Advances in neural information processing systems 34, pp. 29449–29463. 引用: 付録 A.
  • D. Paperno, G. Kruszewski, A. Lazaridou, N. Q. Pham, R. Bernardi, S. Pezzelle, M. Baroni, G. Boleda, and R. Fernandez (2016). The LAMBADA dataset: word prediction requiring a broad discourse context. Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), K. Erk and N. A. Smith (Eds.), Berlin, Germany, pp. 1525–1534. 外部リンク: Link, Document. 引用: 付録 B, §5.
  • Y. Park, M. Seo, and H. Jeon (2025). VideoTitans: scalable video prediction with integrated short- and long-term memory. The Thirty-ninth Annual Conference on Neural Information Processing Systems. 外部リンク: Link. 引用: §1.
  • G. Penedo, H. Kydlíček, A. Lozhkov, M. Mitchell, C. A. Raffel, L. Von Werra, T. Wolf, et al. (2024). The fineweb datasets: decanting the web for the finest text data at scale. Advances in Neural Information Processing Systems 37, pp. 30811–30849. 引用: §5.
  • B. Peng, E. Alcaide, Q. G. Anthony, A. Albalak, S. Arcadinho, S. Biderman, H. Cao, X. Cheng, M. N. Chung, L. Derczynski, X. Du, M. Grella, K. K. GV, X. He, H. Hou, P. Kazienko, J. Kocon, J. Kong, B. Koptyra, H. Lau, J. Lin, K. S. I. Mantri, F. Mom, A. Saito, G. Song, X. Tang, J. S. Wind, S. Wozniak, Z. Zhang, Q. Zhou, J. Zhu, and R. Zhu (2023). RWKV: reinventing RNNs for the transformer era. The 2023 Conference on Empirical Methods in Natural Language Processing. 外部リンク: Link. 引用: 付録 A, §2.

要約

本セグメントでは、MC 強化モデルが LongBench を用いた長文脈理解タスクにおいて、ベースラインの RNN を一貫して上回る性能を発揮することを示しました。さらに、MQAR タスクや除去実験を通じて、MC の各設計選択(文脈依存性、ゲーティング、線形メモリなど)が性能向上に寄与していることを実証しました。最後に、MC 変種、特に SSC が Transformer と RNN の利点を兼ね備え、長いシーケンスにおいて高い効率性と堅牢な性能を両立させることを確認しました。

  • B. Peng, D. Goldstein, Q. Anthony, A. Albalak, E. Alcaide, S. Biderman, E. Cheah, X. Du, T. Ferdinan, H. Hou, et al. (2024). Eagle and finch: rwkv with matrix-valued states and dynamic recurrence. arXiv preprint arXiv:2404.05892. 引用: 付録 A.
  • M. Poli, S. Massaroli, E. Nguyen, D. Y. Fu, T. Dao, S. Baccus, Y. Bengio, S. Ermon, and C. Ré (2023). Hyena hierarchy: towards larger convolutional language models. International Conference on Machine Learning, pp. 28043–28078. 引用: §1.
  • D. Prados and S. Kak (1989). Neural network capacity using delta rule. Electronics Letters 25 (3), pp. 197–199. 引用: 付録 A.
  • S. Qiu, A. Potapczynski, M. Finzi, M. Goldblum, and A. G. Wilson (2024). Compute better spent: replacing dense layers with structured matrices. arXiv preprint arXiv:2406.06248. 引用: 付録 A.
  • P. Rajpurkar, J. Zhang, K. Lopyrev, and P. Liang (2016). Squad: 100,000+ questions for machine comprehension of text. arXiv preprint arXiv:1606.05250. 引用: §5.3.
  • H. Ramsauer, B. Schäfl, J. Lehner, P. Seidl, M. Widrich, L. Gruber, M. Holzleitner, T. Adler, D. Kreil, M. K. Kopp, G. Klambauer, J. Brandstetter, and S. Hochreiter (2021). Hopfield networks is all you need. International Conference on Learning Representations. 外部リンク: Link. 引用: 付録 A, §1.
  • L. Ren, Y. Liu, Y. Lu, Y. Shen, C. Liang, and W. Chen (2024). Samba: simple hybrid state space models for efficient unlimited context language modeling. arXiv preprint arXiv:2406.07522. 引用: 表 1.
  • K. Sakaguchi, R. L. Bras, C. Bhagavatula, and Y. Choi (2021). Winogrande: an adversarial winograd schema challenge at scale. Communications of the ACM 64 (9), pp. 99–106. 引用: 付録 B, §5.
  • M. Sap, H. Rashkin, D. Chen, R. Le Bras, and Y. Choi (2019). Social IQa: commonsense reasoning about social interactions. Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), K. Inui, J. Jiang, V. Ng, and X. Wan (Eds.), Hong Kong, China, pp. 4463–4473. 外部リンク: Link, Document. 引用: 付録 B, §5.
  • I. Schlag, K. Irie, and J. Schmidhuber (2021). Linear transformers are secretly fast weight programmers. International Conference on Machine Learning, pp. 9355–9366. 引用: 付録 A, 付録 A, §2.
  • J. Schmidhuber (1992). Learning to control fast-weight memories: an alternative to recurrent nets. accepted for publication in. Neural Computation. 引用: 付録 A, 付録 A.
  • J. Schmidhuber (1993). Reducing the ratio between learning complexity and number of time varying variables in fully recurrent nets. ICANN'93: Proceedings of the International Conference on Artificial Neural Networks Amsterdam, The Netherlands 13–16 September 1993 3, pp. 460–463. 引用: 付録 A.
  • M. Schöne, B. Rahmani, H. Kremer, F. Falck, H. Ballani, and J. Gladrow (2025). Implicit language models are rnns: balancing parallelization and expressivity. arXiv preprint arXiv:2502.07827. 引用: 付録 A.
  • N. Shazeer, *. Mirhoseini, *. Maziarz, A. Davis, Q. Le, G. Hinton, and J. Dean (2017). Outrageously large neural networks: the sparsely-gated mixture-of-experts layer. International Conference on Learning Representations. 外部リンク: Link. 引用: §3.3.
  • J. Siems, T. Carstensen, A. Zela, F. Hutter, M. Pontil, and R. Grazzi (2025). DeltaProduct: increasing the expressivity of deltanet through products of householders. arXiv preprint arXiv:2502.10297. 引用: 付録 A.
  • J. T.H. Smith, A. Warrington, and S. Linderman (2023). Simplified state space layers for sequence modeling. The Eleventh International Conference on Learning Representations. 外部リンク: Link. 引用: 付録 A.
  • Y. Sun, X. Li, K. Dalal, J. Xu, A. Vikram, G. Zhang, Y. Dubois, X. Chen, X. Wang, S. Koyejo, et al. (2024). Learning to (learn at test time): rnns with expressive hidden states. arXiv preprint arXiv:2407.04620. 引用: 付録 A, 付録 A.
  • Y. Sun, L. Dong, S. Huang, S. Ma, Y. Xia, J. Xue, J. Wang, and F. Wei (2023). Retentive network: a successor to transformer for large language models. arXiv preprint arXiv:2307.08621. 引用: 付録 A, §1, §4.3.
  • M. Tiezzi, M. Casoni, A. Betti, T. Guidi, M. Gori, and S. Melacci (2024). On the resurgence of recurrent models for long sequences: survey and research opportunities in the transformer era. arXiv preprint arXiv:2402.08132. 引用: 付録 A.
  • Together AI (2024). Long data collections. 外部リンク: Link. 引用: §5.
  • A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, Ł. Kaiser, and I. Polosukhin (2017). Attention is all you need. Advances in Neural Information Processing Systems, I. Guyon, U. V. Luxburg, S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan, and R. Garnett (Eds.), Vol. 30. 外部リンク: Link. 引用: §1, §2.
  • J. Von Oswald, M. Schlegel, A. Meulemans, S. Kobayashi, E. Niklasson, N. Zucchet, N. Scherrer, N. Miller, M. Sandler, M. Vladymyrov, et al. (2023). Uncovering mesa-optimization algorithms in transformers. arXiv preprint arXiv:2309.05858. 引用: 付録 A.
  • K. A. Wang, J. Shi, and E. B. Fox (2025). Test-time regression: a unifying framework for designing sequence models with associative memory. arXiv preprint arXiv:2501.12352. 引用: 付録 A, §2, §2.
  • M. Wortsman, G. Ilharco, S. Y. Gadre, R. Roelofs, R. Gontijo-Lopes, A. S. Morcos, H. Namkoong, A. Farhadi, Y. Carmon, S. Kornblith, et al. (2022). Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time. International conference on machine learning, pp. 23965–23998. 引用: §3.2.
  • S. Yang, J. Kautz, and A. Hatamizadeh (2024a). Gated delta networks: improving mamba2 with delta rule. arXiv preprint arXiv:2412.06464. 引用: 付録 A, 付録 A, 付録 B.
  • S. Yang, B. Wang, Y. Shen, R. Panda, and Y. Kim (2024b). Gated linear attention transformers with hardware-efficient training. Forty-first International Conference on Machine Learning. 外部リンク: Link. 引用: 付録 A, §2.
  • S. Yang, B. Wang, Y. Zhang, Y. Shen, and Y. Kim (2024c). Parallelizing linear transformers with the delta rule over sequence length. Advances in Neural Information Processing Systems 37, pp. 115491–115522. 引用: 付録 A, 付録 A.
  • R. Zellers, A. Holtzman, Y. Bisk, A. Farhadi, and Y. Choi (2019). HellaSwag: can a machine really finish your sentence?. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, A. Korhonen, D. Traum, and L. Marquez (Eds.), Florence, Italy, pp. 4791–4800. 外部リンク: Link, Document. 引用: 付録 B, §5.
  • Z. Zeng, S. Pal, J. Kline, G. M. Fung, and V. Singh (2022). Multi resolution analysis (mra) for approximate self-attention. International conference on machine learning, pp. 25955–25972. 引用: 付録 A.
  • T. Zhang, S. Bi, Y. Hong, K. Zhang, F. Luan, S. Yang, K. Sunkavalli, W. Freeman, and H. Tan (2025). Test-time training done right. arXiv preprint arXiv:2505.23884. 引用: 付録 A, 付録 B.
  • H. Zhou, S. Zhang, J. Peng, S. Zhang, J. Li, H. Xiong, and W. Zhang (2021). Informer: beyond efficient transformer for long sequence time-series forecasting. Proceedings of the AAAI conference on artificial intelligence, Vol. 35, pp. 11106–11115. 引用: 付録 A.

付録 A 関連研究

線形メモリモジュール。近年の研究動向は、複雑な問題解決における Transformer の二次計算量、コンテキスト長の制限、および表現力の限界を緩和することに焦点を当てており、より高速な推論と学習を可能にする効率的なリカレント(再帰型)代替モデルの開発を促進してきました(Tiezzi et al., 2024)。具体的には、Katharopoulos et al. (2020) は、アテンション計算における softmax を分離可能なカーネルに置き換えることで、線形アテンション定式化が再帰計算を可能にすることを示しました。この洞察に基づき、線形アテンションの性能を向上させ、二次的な Transformer とのギャップを埋めることに注力する研究が多数行われています。これに関連し、RetNet(Sun et al., 2023)、RWKV(Peng et al., 2023)、Lightning Attention(Li et al., 2025)、S5(Smith et al., 2023)などは、線形アテンションの定式化に忘却ゲート機構を導入しました。その後、他の研究では、既存の忘却ゲートを入力依存型にすることで、より選択的な忘却を必要とするタスクに適応させています(Yang et al., 2024b; Peng et al., 2024)。並行して、Schlag et al. (2021) は、線形アテンションモデルのメモリ管理を改善するため、デルタルール(Delta-rule)に基づくリカレントニューラルネットワーク(RNN)の再帰に対する代替学習更新則である DeltaNet を提案しました。後に、いくつかの研究がこのデルタ更新則を訓練するための異なるアルゴリズムを設計しました(Yang et al., 2024c; Sun et al., 2024; Liu et al., 2024)。さらに、忘却ゲート、学習アルゴリズム、訓練アルゴリズムの設計からなるこれらの既存技術を組み合わせることで、近年では線形アテンションモジュールのさまざまな変種が設計されています(Yang et al., 2024a; c; a; Allen-Zhu; Liu et al., 2024)。より最近では、Siems et al. (2025) が、1 トークンあたりの更新を複数回適用することでデルタルールモデルを強化し、より表現力豊かな状態追跡機能を実現しました。線形リカレントモデルを超えたところでは、非線形再帰を持ちながら線形行列値メモリを持つ RNN を調査する研究もいくつか存在し(Csordás et al., 2024; Merrill et al., 2024; Lim et al., 2024; Behrouz et al., 2026; 2025a; Schöne et al., 2025; Karami and Mirrokni, 2025; Von Oswald et al., 2023; Gonzalez et al., 2024; Hu et al., 2025)、特にその訓練の高速化に重点が置かれています(Gonzalez et al., 2024; Lim et al., 2024; Schöne et al., 2025)。

ディープメモリモジュール。別の研究の流れは、メモリモジュールの容量を強化し、その学習更新則を改善することに焦点を当てています。Sun et al. (2024) は、L2-回帰損失に基づいて重みを更新するファストウェイトプログラム(Schmidhuber, 1992)である TTT レイヤーを提案しました。Sun et al. (2024) は、アテンションと単純な線形アテンションが TTT レイヤーの一例であることを指摘しましたが、他のリカレントニューラルネットワークは TTT レイヤーの範疇から外れると論じています。これは主に、それらがTTT レイヤーの定義である内部 L2-回帰損失を用いて正確に復元できないためです。Titans(Behrouz et al., 2025c)は、より複雑な最適化アルゴリズムを組み込み、勾配降下法をそれらに置き換えることを提案しています。概念実証として、Titans は内部のL2-回帰損失を最適化するために、モーメンタムと重み減衰を伴う勾配降下法を使用します。TTT レイヤーの定式化(つまり、内部L2-回帰損失の最適化)に基づき、Wang et al. (2025) は、L2-回帰損失をいかに近似し、それによって他の現代的なリカレントニューラルネットワークを近似的に復元できるかを示しました。この洞察に基づき、Wang et al. (2025) は、標準的な softmax アテンションよりも高い表現力を持つ高次アテンション変種を提示しました。同時に、Behrouz et al. (2026) は「テスト時メモライゼーション(TTM)」フレームワークを提示しました。これは、任意の目的関数に基づいて内部的にマッピングを学習する連想メモリ(associative memory)の概念に基づき、アーキテクチャを正確に復元するものです。実際、内部モデルをL2-回帰損失に制限する TTT レイヤー(Sun et al., 2024)とは対照的に、TTM は連想メモリの概念に基づき、以下の 4 つの設計選択からアーキテクチャを設計することを提案しています:(1) メモリのアーキテクチャ、(2) 内部目的関数、(3) 内部保持ゲート、および (4) 内部最適化アルゴリズムです。

この方向性、すなわち内部ループのための新しい目的関数と最適化アルゴリズムの選択が、より表現力豊かなアーキテクチャの開発につながるという事実(Behrouz et al., 2026)に従い、内部目的関数を変化させることで新しい世代のアーキテクチャが生まれています。Moneta と Yaad はそれぞれ、L2-回帰損失をそれぞれLpおよび Huber 損失に置き換えました。Atlas(Behrouz et al., 2025a)は Omega 学習則を組み込んでおり、最後のトークンに対してメモリを更新するのではなく、過去のデータのローカルなコンテキストに対してメモリを更新します。また、内部最適化として Muon(Jordan et al., 2024)の使用も提案しています。Zhang et al. (2025) は、L2-回帰損失をドット積類似度に置き換え、より効率的な訓練のために大きなチャンクサイズの使用を提案しました。最近では、機械学習モデルの長期的メモリをさらに改善するため、Behrouz et al. (2025b) は Continuum Memory System (CMS) を提示しました。これは、アテンションブロックを置き換えるのではなく、Transformer 内の単一の静的 MLP ブロックを、タスクに応じて独自の周波数でエンドツーエンドに更新される複数の MLP ブロックに置き換えることを提案するものです(MLP ブロックと同様の方法です)。アテンションと複数の動的 MLP ブロックのシーケンスからなるこのアーキテクチャは Hope-attention と呼ばれ、単純な Transformer よりも優れた長文脈理解能力を示しています。

ファストウェイトプログラムとメタ学習。線形レイヤーをキー値の連想メモリシステムとして捉える視点は、ホップフィールドネットワーク(Hopfield, 1982)にまでさかのぼります。この考え方はその後、動的なファストプログラムをリカレントニューラルネットワークに統合して書き込み可能なメモリストレージとして機能させるファストウェイトプログラマーの開発を通じて拡張されました(Schlag et al., 2021; Schmidhuber, 1992; 1993)。かかるシステムの学習パラダイムとしては、ヘッビアン学習(Hebb, 2005)とデルタルール(Prados and Kak, 1989)が最も顕著です。これら 2 つの法則は文献において広範に研究されてきました(Munkhdalai and Yu, 2017; Schmidhuber, 1992; Munkhdalai et al., 2019; Schlag et al., 2021; Irie et al., 2021; Yang et al., 2024c; a)。

ホップフィールドネットワーク。我々の定式化は、キーと値のマッピングを学習することを目的とする連想メモリの広範な概念に基づいています。Hopfield (1982) による画期的な研究は、キー値ペアの保存のためにエネルギー関数の最小化によって形式化された、連想メモリに明示的に基づく最も初期のニューラルアーキテクチャの一つとしてホップフィールドネットワークを導入しました。古典的なホップフィールドネットワークは、ベクトル値メモリの容量制限とエネルギー関数の構造上の限界により、その適用性は低下していましたが、近年の研究では、さまざまなアプローチを通じてその容量を強化しようとする試みがなされています(Krotov, 2021; Li et al., 2024; Krotov and Hopfield, 2016)。特に、指数関数的カーネルを用いたエネルギー関数の拡張が探求されてきました(Krotov and Hopfield, 2016; Lucibello and Mézard, 2024)。さらに、現代的なホップフィールドネットワークと Transformer アーキテクチャとの関連性も精力的に調査されています(Ramsauer et al., 2021; Hu et al., 2024)。

効率的なアテンション機構。リカレントアーキテクチャに加えて、最近の研究では、トークン混合およびチャネル混合レイヤーの効率を向上させるために構造化行列を使用することが提案されています。例えば、Butterfly 行列(Dao et al., 2019)、Monarch 行列(Dao et al., 2022)、および Block Tensor-Train 行列(Qiu et al., 2024)は、密な射影の計算負荷を軽減する、コンパクトでありながら表現力豊かなパラメータ化を提供します。他のアプローチとしては、スライディングウィンドウアテンションや、局所的な再帰と選択的な長距離接続を組み合わせたモデルなど、スパースまたはハイブリッドなアテンション機構の設計があります(Nguyen et al., 2021; Arora et al., 2024b; Munkhdalai et al., 2024)。別のアプローチ群は、アテンションの二次計算量をほぼ対数線形時間に削減するものです。古典的な例としては、クエリとキーをクラスタリングするために局所性敏感ハッシュを使用する Reformer(Kitaev et al., 2020)や、長系列および時系列タスクにおける効率化のために構造化スパースパターンに依存する LogSparse Transformer(Li et al., 2019)および Informer(Zhou et al., 2021)があります。その後の研究では、粗いレベルから細かいレベルへとアテンスコアを段階的に洗練させる多解像度アテンション(Zeng et al., 2022)や、スケーラブルな長距離相互作用のために高速多重極法を適応させた Fast Multipole Attention(Kang et al., 2023)など、より精巧な設計が導入されました。別の研究グループは、ブロック単位またはトークン単位のスパースアテンションモジュールに焦点を当てています。具体的には、Lu et al. (2025) は、シーケンスをチャンクに分割し、シーケンス次元で MoE(専門家の混合)を実行することを提案する MoBA を提示しました。この設計はアテンションモジュールに基づいているだけでなく、アテンションの計算がブロックごとおよびトークンごとにその場で(ad-hoc)行われる我々の MoE とは根本的に異なります。我々の手法では、メモリ状態が事前計算されており、その場での計算は不要です。最近、Guo et al. (2025) は、フェニック木の分割によって構成される対数的に成長する隠れ状態のセットで線形アテンションを拡張するフレームワークである Log-Linear Attention を導入しました。この設計は、ハードウェアに効率的な並列化を維持しつつ、𝒪(LlogL)\mathcal{O}(L\log L) の訓練計算量と𝒪(logL)\mathcal{O}(\log L) のデコードメモリを実現します。

表 6: アーキテクチャの詳細。
モデルブロック次元ヘッドピーク学習率トークン数
760M241536161.25e-330B
1.3B18204887e-4100B

付録 B 実験の詳細

我々の実験設定では、リカレントモデルに関する最近の研究(Yang et al., 2024a; Behrouz et al., 2025c; 2026; Zhang et al., 2025; Guo et al., 2025)に従い、Wikitext(Merity et al., 2017)、LMB(Paperno et al., 2016)、PIQA(Bisk et al., 2020)、HellaSwag(Zellers et al., 2019)、WinoGrande(Sakaguchi et al., 2021)、ARC-easy (ARC-e) および ARC-challenge (ARC-c)(Clark et al., 2018)、SIQA(Sap et al., 2019)、および BoolQ(Clark et al., 2019)を使用します。訓練においては、語彙サイズを 32K とし、訓練長を 4K〜32K トークンとしました。最適化には、バッチサイズ 0.5M トークン、重み減衰0.10.1、学習率4e4e-44のコサインアニーリングスケジュールを用いた AdamW オプティマイザを採用しました。メモリアーキテクチャについては、特に明記しない限り、拡張係数 4、GELU 活性化関数(Hendrycks and Gimpel, 2016)を持つ 2 層の MLP を使用します。また、各チャンクの最後に残差接続とレイヤー正規化を使用します:(x)=x+W1σ(W2x)\mathcal{M}(x)=x+W_{1}\sigma(W_{2}x)

関連記事

分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.