Transformer已死?DeepMind正在押注另一條AGI路線

「災難性困擾」,一個困擾了AI界幾十年的幽靈,這一次或許被徹底解決了。

過去一年,AI突飛猛進,絕非誇張的修辭,僅谷歌DeepMind一年的成就,就讓人眼花繚亂:

圖片

但如果DeepMind要選2025年最重要的研究或產品,那最近火爆的嵌套學習「Nested Learning」必有一席之地。

有网友讀過論文之後,發帖表示,這篇論文就是《Attention is All you Need》的「續集」。

如果Transformer開啟了Scaling時代,那麼嵌套學習,可能正在開啟真正的AGI時代。

DeepMind創始人Shane Legg更直接,AGI一路坦途,最新進展就是嵌套學習。

甚至有网友表示,如果要給未來的外星人留一篇論文,必然是這篇《嵌套學習》。

圖片
圖片
圖片
圖片

上下滑動查看

如果實現AGI需要2-3項突破,持續學習可能就是其中之一,而谷歌已發表了多篇相關論文。

圖片

然而,這些論文有一個共同的作者──

康奈爾大學計算機科學系二年級博士生、谷歌研究院(紐約)研究實習生Ali Behrouz。

圖片圖片Transformer的記憶之殤

在多方面,Transformer表現出色,能夠Scaling、推動AI跨越,能實現跨任務、跨領域的泛化能力。

但谷歌很早就意識到一件事:Transformer並不完美。

1. 長上下文處理效率低

2. 抽象知識層級有限

3. 適應性弱

4. 缺乏持續學習能力

特別是第四點,Ali認為那是最關鍵的問題。

當提到「持續學習」(Continual Learning),我們指的是:

沒有訓練期,也沒有測試期;

模型在使用過程中,持續塑造新的記憶和抽象結構。

人類天生如此。

但對今天的大語言模型來說,幾乎不存在任何「持續學習」。

為了說明問題有多本質,Ali用了一個醫學上的類比:順行性遺忘症(Anterograde Amnesia)。

這種病的患者有一個非常詭異的特徵:

  • 他們的短期記憶是正常的

  • 他們的長期記憶也還在

但問題在於: 👉短期記憶,無法轉移為長期記憶。

圖片

於是,他們永遠活在「現在」。

新的經歷進來,過一會兒就消失; 世界在變,但他們的大腦不再更新

現在,把這個病,套到LLM身上。

你會發現,大模型和人類患者一模一樣。

今天的大語言模型,知識主要來自兩部分:

預訓練階段學到的長期知識、

當前上下文裡的短期資訊。

但這兩者之間,幾乎完全沒有通道

AI模型無法自然地把「剛剛學到的東西」,沉澱為未來可復用的知識。

想讓它真的學會?

你只能:再燒錢、再訓練、再微調。

這和順行性遺忘症患者的狀態,本質上沒有區別。

真正的問題不是參數不夠多,不是數據不夠大,也不只是算力不夠。

問題的本質在於「短期記憶」和「長期記憶」之間,根本沒有一條自然的知識轉移通道。

如果這條通道不存在,所謂「持續學習」,就永遠只是一個口號。

這引出了一個核心問題:我們該如何構建一種機制,讓AI模型像人類一樣,將「現在」的經歷沉澱為「未來」的知識?

圖片一切AI皆是「聯想記憶」

如果想讓AI真正具備持續學習能力,那你繞不開一個最底層的問題:

模型到底是「怎麼記住東西的」?

Ali給出的答案,不是Transformer,不是參數量,而是一個更原始、更根本的概念:聯想記憶(Associative Memory)。

所謂「聯想記憶」,是人類學習機制的基石。

它的本質,是透過經驗將不同的事件或資訊相互關聯。

比如,你看到一張臉,馬上想起一個名字;你聞到某個味道,喚起一段記憶。

這不是邏輯推理,而是關聯的建立

技術上,聯想記憶就是鍵值對映射:

  • Key:線索

  • Value:與之關聯的內容

但關鍵在於,聯想記憶的映射關係不是預先寫死的,而是「學出來的」。

從某種角度來看,注意力機制本質上就是一種聯想記憶系統:它學習如何從當前上下文中提取key,並將其映射到最合適的value,從而產生輸出。

如果我們不僅優化這種映射本身,還讓系統去元學習(meta-learn)這種映射過程的初始狀態,會發生什麼?

基於對聯想記憶的理解,他們提出了一個通用框架,名為MIRAS,用於系統化地設計AI模型中的記憶模組。

這一框架的核心思想是:

幾乎所有注意力機制、本地記憶結構,乃至優化器本身,其實都可以視為聯想記憶的特例。

為了設計一套「可學習的、嵌套式的記憶系統」,我們需要對模型中的記憶結構做出四大設計決策:

  1. 記憶架構(Memory Architecture)

  2. 注意力偏置/目標函數(Attentional Bias/Objective)

  3. 保留機制(Retention Gate)

  4. 學習規則(Learning Rule)

圖片

這個框架可以用來統一解釋許多已有的注意力機制與優化器

簡單來說:MIRAS讓我們能夠把「記憶」作為一種學習過程進行建模、組合與優化,而不僅僅是一個靜態模組。

更進一步,優化器也可以被統一視為「將當前梯度映射到歷史資訊」的聯想過程,就可以對它們進行重新建模與推廣。

優化器就是一種「記憶模組」,是模型理解其學習歷史、進而做出更優決策的關鍵組件。

優化過程與學習演算法/架構本質上是相同的概念,只是處於系統不同層級中具有不同的上下文(即梯度與資料)。

此外,它們是兩個相互連接的組件,其中學習演算法/架構為優化器生成上下文(即梯度)。這支持為特定架構設計專屬優化器的理念。

由此,谷歌的團隊探討了不同層級之間的知識傳遞方式,提出了嵌套學習。

圖片嵌套學習專治LLM失憶症

基於NL的觀點,谷歌團隊使用反向傳播和梯度下降訓練深度神經網路,本質上是一個壓縮與優化問題,其目標是訓練一種聯想記憶(associative memory),以將各層的輸入映射到其預測中對應的局部誤差。

相應地,他們認為預訓練是一種上下文內學習形式,其中上下文是全部預訓練資料,而各網路層則將該上下文壓縮進其參數之中。而其他流行的基於梯度的優化器,本質上也是旨在將梯度壓縮進其參數中的聯想記憶。

優化器與架構並不是彼此獨立的,它們應該互為上下文、协同进化。

為了正式定義Nested Learning(嵌套學習)框架,需要了解兩個核心概念:更新頻率(Update Frequency)嵌套系統(Nested System)

一、更新頻率

首先設定一個時間單位,通常取系統中更新最慢的模組的一次更新作為基本時間單位。

然後,對於系統中其他組件,我們統計它們在一個時間單位內更新了多少次,就得到了它們的「更新頻率」。

圖片

舉個例子:

假設循環神經網路(RNN),上下文長度為(L),那麼在處理一段長度為(L)的文本時,RNN的狀態會更新(L)次;

而如果外層是一個只在每個文件級別上更新的模組(如預訓練模型),那麼它的更新頻率就是1。

因此,我們可以說:RNN是「快模組」,預訓練模型是「慢模組」。

透過這種不同頻率的組合,我們就能構建出一個在不同時間尺度上都能學習的系統。

二、嵌套系統(Nested System)

接下來,我們定義什麼是一個「嵌套系統」。

它由多個獨立的子模組組成,每個模組都有:

自己的參數(Parameter);

自己的上下文(Context);

自己的優化目標(Objective);

自己的梯度流(Gradient Flow)。

這些模組之間以「更新頻率」的快慢形成嵌套關係。

圖片

如果我們把每個子模組都視為一個聯想記憶系統,那麼整個模型就可以看作是一個嵌套的聯想記憶系統(Nested Associative Memory System)

更進一步,每一個這樣的聯想系統,本身又可以由更小的優化子過程構成,從而形成遞迴嵌套。

當構建了一個由多個層級組成的嵌套系統之後,最關鍵的問題就來了:

不同層之間的知識要如何傳遞?

知識轉移方式有以下幾種,這些機制構成了Nested Learning架構中「資訊流動」的基礎:

  • 直接條件傳遞(Direct Conditioning)慢層(外層)模型的輸出直接作為快層(內層)模型的輸入條件

  • 非參數化條件傳遞:不依賴額外參數,模型的輸出直接依賴於上下文本身。雖然沒有顯式參數連接,但輸出依然受到內層狀態的強烈影響。

  • 透過反向傳播傳遞(Gradient-Based Transfer)梯度本身就構成了知識的傳遞路徑——高層對目標的判斷,反向指導底層如何調整參數。

  • 初始狀態傳遞(Meta-Learned Initialization):慢層模型生成快層模型的初始狀態。外層學習一個初始化點,使得內層可以透過少量更新迅速適應新任務。

  • 權重生成(Hypernetwork):慢層模型直接生成快層模型的參數。這就是超網路(Hypernetwork)的本質。

圖片

理論固然重要,但最終還是要看這些設計能否在真實任務中帶來性能提升。

結合自我修改(Self-Modifying)與連續記憶系統(Continuum Memory System),谷歌提出了嵌套學習範式下的HOPE架構。

圖片

他們將Nested Learning與HOPE架構應用於多個任務場景中,尤其聚焦在「長上下文」和「持續學習」兩個維度。

總體來看,HOPE在多個核心任務上都優於或顯著超越現有對比模型,尤其是在持續學習和長上下文方面顯示了明顯優勢。這體現了嵌套學習和連續記憶系統的潛力。

圖片
圖片
圖片
圖片
圖片

上下滑動查看

圖片這到底意味著什麼?

Nested Learning不只是一個架構框架,而是一種重新理解深度學習的範式

谷歌DeepMind內部也傳出消息:他們已經突破了持續學習,但因為安全原因尚未發布。

圖片

如果嵌套學習解決了持續學習能力,或許將是未來最重要的事。

圖片

DeepMind的沉默,或許比他們的論文更震耳欲聾。

持續學習賦予了AI可怕的能力:它不再僅僅回應我們的指令,而是開始根據過往的經驗,篩選它認為重要的東西。也就是說,它開始有了「偏好」。

如果嵌套學習真的解決了災難性遺忘,那麼我們親手打開的,可能不只是一扇通往AGI的大門,更是一個未知的潘多拉魔盒。

盒子裡的東西,究竟是更聰明的工具,還是一個不僅學會了思考、更學會了「記住仇恨與偏愛」的對手?

這一次,鑰匙在谷歌手中,但未來在誰手中?

參考資料:
https://www.youtube.com/watch?v=3WqZIja7kdA
https://www.youtube.com/watch?v=uX12aCdni9Q

🚀 AI網站更新公告

各位用戶:我們網站在 Gemini 發布全新模組後迅速跟進!包括最新的 GPT5.2。

圖片
購買方法:加我微信【xiaofisher123】,備註:gpt,我會立馬透過微信好友請求。
圖片
備註:gpt 加我微信諮詢

分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.