Transformerは死んだか？DeepMindがAGIへの別の道に賭ける

「忘却の災害」、AI界を数十年悩ませてきた幽霊が、这一次おそらく完全に解決されるかもしれない。

過去一年、AIは目覚ましい進歩を遂げ、誇張ではない。特にGoogle DeepMindの一年間の成果は、目を見張るものがある：

しかし、DeepMindが2025年で最も重要な研究や製品を選ぶとすれば、最近話題のネスト学習（Nested Learning）「Nested Learning」が確実にその座を占めるだろう。

論文を読んだユーザーが投稿したように、この論文は「Attention is All you Need」の「続編」である。

もしTransformerがスケーリング時代を開いたなら、ネスト学習は、おそらく真のAGI時代を開くかもしれない。

DeepMindの創設者であるShane Leggはより直接的だ。AGIへの道は平坦で、最新の進展はネスト学習である。

さらに、ユーザーは、もし未来のエイリアンに論文を残すとすれば、それはこの「ネスト学習」の論文になるだろうとさえ述べている。

上下にスライドして表示

AGIを実現するために2〜3つのブレークスルーが必要だとすれば、継続学習はその一つかもしれない。Googleはすでに複数の関連論文を発表している。

しかし、これらの論文には共通の著者がいる──

コーネル大学コンピュータ科学科2年目の博士課程学生、Google Research（ニューヨーク）研究インターンのAli Behrouz。

Transformerの記憶の悲劇

多くの点で、Transformerは優れた性能を発揮し、スケーリングが可能で、AIを越え、タスクや分野をまたがる汎化能力を実現できる。

しかし、Googleは早くから一つのことを認識していた：

Transformerは完璧ではない。

1. 長いコンテキスト処理効率が低い
2. 抽象知識の階層が限られている
3. 適応性が弱い
4. 継続学習能力の欠如

特に4点目、Aliはそれが最も重要な問題だと考えている。

「継続学習」（Continual Learning）について言及するとき、私たちは以下を指す：

訓練期間もテスト期間もない；
モデルは使用过程中、新しい記憶と抽象構造を継続的に形成する。

人間は生まれつきそうだ。

しかし、今日の大規模言語モデルにとって、「継続学習」はほぼ存在しない。

問題の本質を説明するために、Aliは医学上の類似を用いた：

前向性健忘症（Anterograde Amnesia）。

この病気の患者には非常に奇妙な特徴がある：

彼らの短期記憶は正常である
彼らの長期記憶もまだ残っている

しかし、問題はここにある：👉 短期記憶は、長期記憶に移行できない。

だから、彼らは永遠に「今」に生きる。

新しい経験が入ってきて、しばらくすると消える；世界は変わるが、彼らの脳は更新されない。

今、この病気をLLMに当てはめてみる。

你会发现、大規模モデルと人間の患者は全く同じ。

今日の大規模言語モデルの知識は主に2つの部分から来ている：

事前学習段階で学んだ長期知識、
現在のコンテキスト内の短期情報。

しかし、この2つの間には、ほぼ完全に通道がない。

AIモデルは「ちょうど学んだもの」を、将来再利用可能な知識として自然に沈殿させることはできない。

本当に学ばせたいなら？

あなたは：もう一度金を燃やし、もう一度訓練し、もう一度微調整するしかない。

これは前向性健忘症患者の状態と、本質的に違いはない。

真の問題はパラメータが十分に多くないこと、データが十分に大きくないこと、計算能力が十分でないことではない。

問題の本質は、「短期記憶」と「長期記憶」の間に、自然な知識移行通道が根本没有していないことである。

もしこの通道が存在しなければ、「継続学習」という言葉は、永遠にスローガンに過ぎない。

これは核心的な問題を提起する：

私たちは、AIモデルが人間のように「今」の経験を「未来」の知識として沈殿させるようなメカニズムをどのように構築すべきか？

すべてのAIは「連想記憶」である

もしAIに真の継続学習能力を持たせたいなら、あなたは最も根本的な問題を避けることはできない：

モデルはどのように物事を記憶するのか？

Aliが与える答えは、Transformerでもパラメータ数でもなく、より原始的で根本的な概念である：

連想記憶（Associative Memory）。

所謂「連想記憶」は、人間の学習メカニズムの基盤である。

その本質は、経験を通じて異なるイベントや情報を相互に関連付けることである。

例えば、顔を見たらすぐに名前を思い出す；ある匂いを嗅ぐと、記憶が呼び覚まされる。

これは論理推論ではなく、関連の構築である。

技術的には、連想記憶はキー・バリューのマッピングである：

キー：手がかり
バリュー：それに関連する内容

しかし、重要なのは、連想記憶のマッピング関係は事前に固定されたものではなく、「学習によって得られる」ことである。

ある観点から見れば、注意力メカニズムは本質的に一種の連想記憶システムである：それは現在のコンテキストからキーを抽出し、最も適切なバリューにマッピングして出力を生成する方法を学ぶ。

もし私たちがこのマッピング自体を最適化するだけでなく、システムにこのマッピング過程の初期状態をメタ学習させるなら、何が起こるだろうか？

連想記憶の理解に基づいて、彼らはMIRASという名前の汎用フレームワークを提案した。これはAIモデル内の記憶モジュールを体系的に設計するためのものである。

このフレームワークの核心思想は：

ほぼすべての注意力メカニズム、ローカル記憶構造、さらには最適化器自体も、連想記憶の特殊なケースとして見なすことができる。

「学習可能で、ネスト化された記憶システム」を設計するために、モデル内の記憶構造に対して4つの設計決定を行う必要がある：

記憶アーキテクチャ（Memory Architecture）
注意力バイアス/目的関数（Attentional Bias/Objective）
保持ゲート（Retention Gate）
学習ルール（Learning Rule）

このフレームワークは、既存の多くの注意力メカニズムと最適化器を統一的に説明するために使用できる。

簡単に言えば：MIRASは、「記憶」を学習プロセスとしてモデル化、組み合わせ、最適化することを可能にする。それは単なる静的モジュールではない。

さらに、最適化器も「現在の勾配を履歴情報にマッピングする」という連想プロセスとして統一的に見なすことができるため、それらを再モデル化し一般化することができる。

最適化器は一種の「記憶モジュール」であり、モデルがその学習履歴を理解し、より優れた意思決定を行うための重要なコンポーネントである。

最適化過程と学習アルゴリズム/アーキテクチャは本質的に同じ概念であり、システムの異なるレベルで異なるコンテキスト（勾配とデータ）を持っている。

さらに、それらは相互に接続された2つのコンポーネントであり、学習アルゴリズム/アーキテクチャが最適化器にコンテキスト（勾配）を生成する。これは、特定のアーキテクチャに専用の最適化器を設計する理念を支持する。

由此、Googleのチームは異なるレベル間の知識伝達方法を探り、ネスト学習を提案した。

ネスト学習

LLMの失憶症に特効

NLの観点に基づいて、Googleのチームは逆伝播と勾配降下法を使用して深層ニューラルネットワークを訓練する。これは本質的に圧縮と最適化の問題であり、その目標は、各層の入力をその予測に対応する局所誤差にマッピングする連想記憶を訓練することである。

相应して、彼らは事前学習はコンテキスト内学習の形式であり、コンテキストはすべての事前学習データであり、各ネットワーク層はそのコンテキストをそのパラメータに圧縮すると考える。他の一般的な勾配ベースの最適化器も、本質的に勾配をそのパラメータに圧縮することを目的とした連想記憶である。

最適化器とアーキテクチャは互いに独立しておらず、互いをコンテキストとし、協調進化すべきである。

正式にネスト学習（Nested Learning）フレームワークを定義するために、2つの核心概念を理解する必要がある：

更新頻度（Update Frequency）とネストシステム（Nested System）。

一、更新頻度

まず時間単位を設定する。通常、システム内で更新が最も遅いモジュールの1回の更新を基本時間単位とする。

次に、システム内の他のコンポーネントについて、1時間単位内でどれだけ更新されたかを統計し、それらの「更新頻度」を得る。

例を挙げる：

リカレントニューラルネットワーク（RNN）を仮定し、コンテキスト長が(L)である場合、長さ(L)のテキストを処理するとき、RNNの状態は(L)回更新される；

そして、もし外側がドキュメントレベルごとにのみ更新されるモジュール（例えば事前学習モデル）であるなら、その更新頻度は1になる。

したがって、私たちは以下可以说：

RNNは「高速モジュール」であり、事前学習モデルは「低速モジュール」である。

このように異なる頻度の組み合わせを通じて、私たちは異なる時間スケールで学習できるシステムを構築できる。

二、ネストシステム（Nested System）

次に、「ネストシステム」を定義する。

それは複数の独立したサブモジュールで構成され、それぞれのモジュールは以下を持つ：

独自のパラメータ（Parameter）；
独自のコンテキスト（Context）；
独自の最適化目標（Objective）；
独自の勾配フロー（Gradient Flow）。

これらのモジュールは「更新頻度」の速さによってネスト関係を形成する。

もし各サブモジュールを連想記憶システムとして見なすなら、全体のモデルはネスト化された連想記憶システム（Nested Associative Memory System）として見なすことができる。

さらに、このような各連想システム自体は、より小さな最適化サブプロセスで構成され、再帰的ネストを形成する。

複数のレベルからなるネストシステムを構築した後、最も重要な問題が出てくる：

異なる層間の知識はどのように伝達されるべきか？

知識転送方式は以下の通りである。これらのメカニズムは、ネスト学習アーキテクチャにおける「情報フロー」の基礎を構成する：

直接条件付き転送（Direct Conditioning）：低速層（外層）モデルの出力が直接高速層（内層）モデルの入力条件として使用される
非パラメータ化条件付き転送：追加パラメータに依存せず、モデルの出力はコンテキスト自体に直接依存する。明示的なパラメータ接続はないが、出力は内層の状態の強い影響を受ける。
逆伝播による転送（Gradient-Based Transfer）：勾配自体が知識の伝達経路を構成する。高層の目標判断が、下層のパラメータ調整方法を逆方向に指導する。
初期状態転送（Meta-Learned Initialization）：低速層モデルが高速層モデルの初期状態を生成する。外層は初期点を学習し、内層が少量の更新で新しいタスクに迅速に適応できるようにする。
重み生成（Hypernetwork）：低速層モデルが直接高速層モデルのパラメータを生成する。これがハイパーネットワーク（Hypernetwork）の本質である。