Google、康乃爾新研究:大型語言模型的下一步,是學會「好好睡覺」

大型語言模型(LLM)部署完成後,通常就進入一種近乎「凍結」的狀態。它能執行預訓練階段已掌握的任務,卻很難像人類一樣持續吸收新知。這帶來了一個長期存在的矛盾:

停止學習,知識會逐漸過時;持續微調參數,又容易引發「災難性遺忘」,意即模型在學習新能力時,原有的能力也會一併被削弱甚至覆蓋。然而,重新進行大規模預訓練,無論是運算消耗或工程成本,都異常高昂。

儘管上下文學習(In-Context Learning,ICL)提供了一種更輕量的適應方式,但它本質上仍受限於上下文視窗:會話結束後,模型「記住」的內容也隨之消失。這種現象與人類的順行性遺忘(anterograde amnesia)有些相似。人類患者能保留久遠的舊記憶,卻無法形成新的長期記憶,對他們而言,每一個當下都像第一次經歷。當前基於 Transformer 的 LLM,也表現出類似特徵:知識要麼被固化在預訓練參數中,要麼短暫存在於當前的上下文激活裡,兩者之間始終缺少穩定的連結機制。

為解決此一問題,來自 Google 和康乃爾大學的研究團隊提出了 Sleep 範式。這是一套受人類睡眠機制啟發的持續學習框架,試圖讓模型在不破壞既有能力的前提下,逐步沉澱與整合新知。

研究示意圖

論文連結:https://arxiv.org/pdf/2606.03979

據論文描述,Sleep 由兩個階段構成:記憶鞏固(類比人類的慢波睡眠 NREM)和做夢(類比快速動眼睡眠 REM)。

實驗結果顯示,在長上下文理解、知識整合、少樣本推理以及持續學習等任務中,Sleep 範式均能帶來持續的效能提升。

Sleep 範式:重新定義 LLM 持續學習

Sleep 範式的出發點是對持續學習生命週期的重新定義。在傳統機器學習框架中,模型的生命週期被切分為訓練時間和測試時間兩個明確階段。而在持續學習場景下,這一邊界並不存在,模型始終處於學習狀態,只是學習的方式在兩種模態之間交替:

  • Active(覺醒)階段:模型接收外部輸入,執行推理或上下文學習,知識以短期、高頻更新的方式暫存於 Attention 模組和高頻 MLP 層中。
  • Sleep(睡眠)階段:模型不再接受新的外部資料,轉而專注於對內部知識的鞏固與自我改進。Sleep 並非被動的閒置,而是一個高度動態的計算過程。

研究團隊將 Sleep 過程進一步拆解為兩個子階段,分別對應人類大腦中慢波睡眠和 REM 睡眠承擔的不同功能。

圖表:傳統機器學習vs.持續學習的覺醒與睡眠交替示意圖

圖|傳統機器學習(訓練/測試分離)vs. 持續學習(Wake 與 Sleep 交替)示意圖

1. 記憶鞏固:參數擴展與 Knowledge Seeding

記憶鞏固階段的核心目標,是將儲存在高頻(快速更新)模組中的短期脆弱記憶,轉移到更穩定的低頻參數中,同時避免兩類知識相互干擾。

為什麼直接遷移會導致遺忘?災難性遺忘的根本原因之一是參數容量有限,新知識的寫入必然覆蓋舊知識。受人腦神經可塑性的啟發,研究團隊提出了漸進式參數擴展機制:

在每次 Sleep 步驟中,向接收知識的低頻 MLP 塊(以 MoE 結構表示)新增一個低秩專家模組(由兩個低維矩陣參數化),專門用於儲存即將遷移過來的新知。已有專家的參數在此過程中完全凍結,確保舊知識不受擾動。

Sleep 結束後,高頻塊中此前添加的低秩參數會被重置清空,釋放容量供未來使用。這一步驟與人腦中的突觸修剪(synaptic pruning)高度類比,大腦在鞏固記憶後,會主動刪除冗餘連結以提升效率。

記憶鞏固整體流程圖

圖|記憶鞏固整體流程

在參數擴展完成後,記憶遷移本身透過 Knowledge Seeding(上行蒸餾)來實現。與常規知識蒸餾方向相反,Knowledge Seeding 是從較小的「教師」模型(當前高頻模組的狀態)向參數量更大的「學生」模型(擴展後的低頻模組)進行蒸餾。

此一設計面臨兩個特殊挑戰:其一,學生的表達能力強於教師,直接在教師生成的資料上訓練會導致學生參數的次優利用;其二,Sleep 階段原則上無法存取外部資料集,主流蒸餾方法的依賴假設不成立。

為此,研究團隊在廣義知識蒸餾(GKD)框架的基礎上,引入了基於強化學習的模仿學習過程 Learning to Imitate(LTI)。整個 Knowledge Seeding 目標由兩部分構成:首先,在策略蒸餾(on-policy distillation),學生在自己生成的序列上接受教師 logit 的 token 級回饋,確保知識的直接傳遞;其次,LTI 過程,教師先生成一批合成文本(「夢境資料」),隨機截取前綴後讓學生續寫,再根據學生輸出與教師原文的語義相似度(由凍結的獎勵模型評分)和編輯距離(Levenshtein 距離)的加權組合計算獎勵。

LTI 的作用在於:光有知識還不夠,學生還需要學會如何像教師一樣使用這些知識。

2. 做夢:RL 驅動的自我改進

記憶鞏固完成後,Sleep 進入第二階段 Dreaming,對應人類 REM 睡眠中大腦活躍合成新連結的過程。此階段的目標是透過模型自我生成的合成資料,在不引入人工標註的情況下遞迴地提升自身能力。

合成資料如何生成?給定一個採樣任務(包含上下文 C 和評估指標 τ),模型在 MoE 路由時額外隨機選擇一個專家參與計算,這一設計刻意引入了無關知識的干擾,目的是模擬夢境中記憶的創造性混合,讓模型探索平時不會激活的知識組合。由此產生 m 個候選「夢境」樣本。

如何篩選有價值的夢境?研究團隊引入梯度為基礎的重要性評分:對每個夢境樣本計算語言建模目標關於當前參數的梯度範數,作為該樣本對模型能力改進潛力的代理指標。得分最高的 Top-k 樣本加上若干隨機樣本(保持多樣性)組成最終訓練集。對於入選的每個夢境,實驗以 LoRA 方式在獨立的模型實例上進行監督式微調;若微調後模型在下游任務上的表現有所提升,則對應夢境獲得正向獎勵,整個生成過程透過 ReSTEM 演算法進行優化。相比 SEAL 的原始設計,研究團隊在採樣策略(隨機專家路由)和樣本篩選(梯度為基礎的評分)兩個環節做了針對性改進,以控制迭代自訓練引發災難性遺忘的風險。

實驗結果

在實證評估中,研究團隊系統分析了 Sleep 範式各階段的獨立貢獻,以及多階段協同帶來的整體收益。具體結果如下:

在類別增量學習任務中,研究團隊基於 CLINC、Banking、DBpedia 三個意圖分類資料集,以 Llama-3B 與 Llama3-8B 為骨幹模型,對比了 ICL(無 Sleep)、彈性權重鞏固(EWC)、外部持續學習器(InCA),以及不含顯式蒸餾機制的 Hope 基線。

結果顯示,引入 Sleep 的 Hope 在三個資料集上均取得最高準確率。相較於僅依賴提示級適應的 ICL,Sleep 能將上下文中的臨時適應能力轉化為持久化參數記憶;相較於不含顯式蒸餾的 Hope,加入自蒸餾機制後,模型提煉出的知識抽象品質進一步提升。

在記憶層級對 ICL 的影響實驗中,研究團隊基於 MK-NIAH(來自 RULER)、LongHealth 和 QASPER 三個長上下文基準評測,系統考察了 Hope 中 Sleep 階段數量,即記憶層級深度,對模型效能的影響,並與 ICL、DuoAttention、Cartridges 等方法進行對比。

實驗結果呈現出兩條一致規律:隨著鞏固階段數量增加,模型在長上下文任務上的表現持續提升;與此同時,當最低頻記憶模組的更新頻率被提高、使其具備更強適應性後,整體效能反而下降。這表明,持久記憶的穩定性是其核心價值來源。整體來看,Hope 在三個任務上均優於 DuoAttention 與 Cartridges。

在順序習得兩門新語言實驗中,研究團隊基於 MTOB 與 Manchu 兩個低資源翻譯資料集,讓模型依次學習兩門在預訓練階段從未見過的新語言,並在最終階段同時評估兩種語言能力。

結果顯示,標準 ICL 在學習第二門語言後,對第一門語言的翻譯能力出現明顯崩塌,幾乎退化回預訓練基線;而 Hope-3(三級 Sleep)則保留了絕大多數已習得能力,其連續學習後的 ChRF 得分接近單語言獨立訓練水準。相比之下,Cartridges 與監督式微調(SFT)在至少一門語言上同樣出現災難性遺忘,因此未進入論文主圖的有效結果區間。

在 BABILong 超長上下文推理任務中,面對最長可達 10M token 的基準評測,Hope 取得了接近滿分的表現。相比之下,GPT-4 與 GPT-4o-mini 在上下文長度超過 128K 至 256K token 後效能迅速下降;Llama-8B + RAG 同樣隨著上下文增長而明顯退化;Titans 與 ARMT 等同類小模型則在超過 1M token 後出現顯著效能劣化。

在數學推理任務中,研究團隊以 Qwen3-1.7B 與 Qwen3-8B 為基礎模型,在 AIME-24、AIME-25、HMMT-25 三個數學競賽基準評測上,對比了 SFT 與 GRPO 等訓練方法。結果顯示,Sleep 在 Qwen3-8B 上的 AIME-24 得分達到 79.2,超過 OPSD 的 76.6 與 GRPO 的 76.4;在 Qwen3-1.7B 上同樣取得 53.2 的成績,高於 GRPO 的 51.0。

實驗結果圖表

在知識融合實驗中,研究團隊基於 SQuAD 資料集,評估模型在無上下文問答條件下,將新知內化進參數的能力。在單段落設置(n=1)下,Sleep(四級記憶)達到 48.9;在持續預訓練設置(n=200,對應 974 個相關問題)下達到 46.2,均優於 SEAL 的 46.7 與 43.2。進一步的消融實驗表明,移除 Dreaming 階段後,單段落場景下的準確率從 48.1 大幅下降至 35.7,說明自我改進階段對於知識內化具有關鍵作用。

知識融合實驗結果圖

在少樣本抽象推理實驗中,研究團隊以 Llama-3.2-1B 為骨幹模型,在篩選後的 11 個訓練任務與 8 個保留任務上進行評估。最終,Sleep 的成功率達到 80%,顯著高於 SEAL 的 72.5%、TTT(僅進行合成更新、無 Dreaming)的 10%,以及 ICL 的 0%。

少樣本抽象推理實驗結果圖

不足與未來方向

當然,這項研究依然存在一些侷限性。

首先是在效率層面。根據論文描述,在相同步數條件下,SFT 的執行速度約為 Sleep 的 4 倍;但若以達到相同效能為目標,情況則出現反轉,SFT 需要額外消耗約 3.6 至 4.8 倍的實際掛鐘時間才能追平 Sleep。即便如此,Sleep 的整體計算開銷仍顯著高於標準對照方法,因此在強調快速迭代與低成本部署的場景中,實際應用仍面臨一定限制。

其次,研究團隊也指出,迭代式自訓練若控制不當,本身可能誘發災難性遺忘。這也是 Dreaming 階段引入基於梯度的樣本篩選機制,以及隨機專家路由策略的重要原因。不過,該機制在長期循環中的穩定性仍缺乏系統驗證。例如,在經歷數十輪 Sleep 後,模型是否依舊能夠穩定抑制遺忘、維持知識結構一致性,論文尚未給出充分的實驗結果。

與此同時,當前方案對 MoE 架構存在較強依賴。參數擴展、記憶隔離以及多層級更新頻率控制等設計,都建立在稀疏混合專家結構之上。對於不支援專家路由的傳統稠密模型,Sleep 如何完成等效適配,論文並未展開深入討論。

更重要的是,Sleep 範式實際上指向了一個更宏觀的問題:LLM 的生命週期,或許不應在預訓練結束時終止。

人類大腦會在睡眠過程中持續進行記憶重構,將零散的短期經驗逐步沉澱為穩定、層次化的長期知識;而 Sleep 所嘗試的,正是將這一機制遷移到模型參數體系中,為 LLM 提供一種無需依賴額外人工標註、同時盡可能避免能力破壞的持續學習路徑。

隨著參數容量管理、蒸餾穩定性、多頻率記憶排程等關鍵問題進一步推進,具備週期性自我整合能力的模型,或許會成為下一代長生命週期 AI 系統的重要基礎組件。

更多技術細節,詳見原論文。

圖片

相關文章推薦

分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.