「災難性困擾」，一個困擾了AI界幾十年的幽靈，這一次或許被徹底解決了。

過去一年，AI突飛猛進，絕非誇張的修辭，僅谷歌DeepMind一年的成就，就讓人眼花繚亂：

但如果DeepMind要選2025年最重要的研究或產品，那最近火爆的嵌套學習「Nested Learning」必有一席之地。

有网友讀過論文之後，發帖表示，這篇論文就是《Attention is All you Need》的「續集」。

如果Transformer開啟了Scaling時代，那麼嵌套學習，可能正在開啟真正的AGI時代。

DeepMind創始人Shane Legg更直接，AGI一路坦途，最新進展就是嵌套學習。

甚至有网友表示，如果要給未來的外星人留一篇論文，必然是這篇《嵌套學習》。

上下滑動查看

如果實現AGI需要2-3項突破，持續學習可能就是其中之一，而谷歌已發表了多篇相關論文。

然而，這些論文有一個共同的作者──

康奈爾大學計算機科學系二年級博士生、谷歌研究院（紐約）研究實習生Ali Behrouz。

Transformer的記憶之殤

在多方面，Transformer表現出色，能夠Scaling、推動AI跨越，能實現跨任務、跨領域的泛化能力。

但谷歌很早就意識到一件事：Transformer並不完美。

1. 長上下文處理效率低

2. 抽象知識層級有限

3. 適應性弱

4. 缺乏持續學習能力

特別是第四點，Ali認為那是最關鍵的問題。

當提到「持續學習」（Continual Learning），我們指的是：

沒有訓練期，也沒有測試期；

模型在使用過程中，持續塑造新的記憶和抽象結構。

人類天生如此。

但對今天的大語言模型來說，幾乎不存在任何「持續學習」。

為了說明問題有多本質，Ali用了一個醫學上的類比：順行性遺忘症（Anterograde Amnesia）。

這種病的患者有一個非常詭異的特徵：

他們的短期記憶是正常的
他們的長期記憶也還在

但問題在於： 👉短期記憶，無法轉移為長期記憶。

於是，他們永遠活在「現在」。

新的經歷進來，過一會兒就消失；世界在變，但他們的大腦不再更新。

現在，把這個病，套到LLM身上。

你會發現，大模型和人類患者一模一樣。

今天的大語言模型，知識主要來自兩部分：

預訓練階段學到的長期知識、

當前上下文裡的短期資訊。

但這兩者之間，幾乎完全沒有通道。

AI模型無法自然地把「剛剛學到的東西」，沉澱為未來可復用的知識。

想讓它真的學會？

你只能：再燒錢、再訓練、再微調。

這和順行性遺忘症患者的狀態，本質上沒有區別。

真正的問題不是參數不夠多，不是數據不夠大，也不只是算力不夠。

問題的本質在於「短期記憶」和「長期記憶」之間，根本沒有一條自然的知識轉移通道。

如果這條通道不存在，所謂「持續學習」，就永遠只是一個口號。

這引出了一個核心問題：我們該如何構建一種機制，讓AI模型像人類一樣，將「現在」的經歷沉澱為「未來」的知識？

一切AI皆是「聯想記憶」

如果想讓AI真正具備持續學習能力，那你繞不開一個最底層的問題：

模型到底是「怎麼記住東西的」？

Ali給出的答案，不是Transformer，不是參數量，而是一個更原始、更根本的概念：聯想記憶（Associative Memory）。

所謂「聯想記憶」，是人類學習機制的基石。

它的本質，是透過經驗將不同的事件或資訊相互關聯。

比如，你看到一張臉，馬上想起一個名字；你聞到某個味道，喚起一段記憶。

這不是邏輯推理，而是關聯的建立。

技術上，聯想記憶就是鍵值對映射：

Key：線索
Value：與之關聯的內容

但關鍵在於，聯想記憶的映射關係不是預先寫死的，而是「學出來的」。

從某種角度來看，注意力機制本質上就是一種聯想記憶系統：它學習如何從當前上下文中提取key，並將其映射到最合適的value，從而產生輸出。

如果我們不僅優化這種映射本身，還讓系統去元學習（meta-learn）這種映射過程的初始狀態，會發生什麼？

基於對聯想記憶的理解，他們提出了一個通用框架，名為MIRAS，用於系統化地設計AI模型中的記憶模組。

這一框架的核心思想是：

幾乎所有注意力機制、本地記憶結構，乃至優化器本身，其實都可以視為聯想記憶的特例。

為了設計一套「可學習的、嵌套式的記憶系統」，我們需要對模型中的記憶結構做出四大設計決策：

記憶架構（Memory Architecture）
注意力偏置/目標函數（Attentional Bias/Objective）
保留機制（Retention Gate）
學習規則（Learning Rule）

這個框架可以用來統一解釋許多已有的注意力機制與優化器。

簡單來說：MIRAS讓我們能夠把「記憶」作為一種學習過程進行建模、組合與優化，而不僅僅是一個靜態模組。

更進一步，優化器也可以被統一視為「將當前梯度映射到歷史資訊」的聯想過程，就可以對它們進行重新建模與推廣。

優化器就是一種「記憶模組」，是模型理解其學習歷史、進而做出更優決策的關鍵組件。

優化過程與學習演算法/架構本質上是相同的概念，只是處於系統不同層級中具有不同的上下文（即梯度與資料）。

此外，它們是兩個相互連接的組件，其中學習演算法/架構為優化器生成上下文（即梯度）。這支持為特定架構設計專屬優化器的理念。

由此，谷歌的團隊探討了不同層級之間的知識傳遞方式，提出了嵌套學習。

嵌套學習專治LLM失憶症

基於NL的觀點，谷歌團隊使用反向傳播和梯度下降訓練深度神經網路，本質上是一個壓縮與優化問題，其目標是訓練一種聯想記憶（associative memory），以將各層的輸入映射到其預測中對應的局部誤差。

相應地，他們認為預訓練是一種上下文內學習形式，其中上下文是全部預訓練資料，而各網路層則將該上下文壓縮進其參數之中。而其他流行的基於梯度的優化器，本質上也是旨在將梯度壓縮進其參數中的聯想記憶。

優化器與架構並不是彼此獨立的，它們應該互為上下文、协同进化。

為了正式定義Nested Learning（嵌套學習）框架，需要了解兩個核心概念：更新頻率（Update Frequency）與嵌套系統（Nested System）。

一、更新頻率

首先設定一個時間單位，通常取系統中更新最慢的模組的一次更新作為基本時間單位。

然後，對於系統中其他組件，我們統計它們在一個時間單位內更新了多少次，就得到了它們的「更新頻率」。

舉個例子：

假設循環神經網路（RNN），上下文長度為(L)，那麼在處理一段長度為(L)的文本時，RNN的狀態會更新(L)次；

而如果外層是一個只在每個文件級別上更新的模組（如預訓練模型），那麼它的更新頻率就是1。

因此，我們可以說：RNN是「快模組」，預訓練模型是「慢模組」。

透過這種不同頻率的組合，我們就能構建出一個在不同時間尺度上都能學習的系統。

二、嵌套系統（Nested System）

接下來，我們定義什麼是一個「嵌套系統」。

它由多個獨立的子模組組成，每個模組都有：

自己的參數（Parameter）；

自己的上下文（Context）；

自己的優化目標（Objective）；

自己的梯度流（Gradient Flow）。

這些模組之間以「更新頻率」的快慢形成嵌套關係。

如果我們把每個子模組都視為一個聯想記憶系統，那麼整個模型就可以看作是一個嵌套的聯想記憶系統（Nested Associative Memory System）。

更進一步，每一個這樣的聯想系統，本身又可以由更小的優化子過程構成，從而形成遞迴嵌套。

當構建了一個由多個層級組成的嵌套系統之後，最關鍵的問題就來了：

不同層之間的知識要如何傳遞？

知識轉移方式有以下幾種，這些機制構成了Nested Learning架構中「資訊流動」的基礎：

直接條件傳遞（Direct Conditioning）：慢層（外層）模型的輸出直接作為快層（內層）模型的輸入條件
非參數化條件傳遞：不依賴額外參數，模型的輸出直接依賴於上下文本身。雖然沒有顯式參數連接，但輸出依然受到內層狀態的強烈影響。
透過反向傳播傳遞（Gradient-Based Transfer）：梯度本身就構成了知識的傳遞路徑——高層對目標的判斷，反向指導底層如何調整參數。
初始狀態傳遞（Meta-Learned Initialization）：慢層模型生成快層模型的初始狀態。外層學習一個初始化點，使得內層可以透過少量更新迅速適應新任務。
權重生成（Hypernetwork）：慢層模型直接生成快層模型的參數。這就是超網路（Hypernetwork）的本質。