Google、康乃爾新研究：大型語言模型的下一步，是學會「好好睡覺」

大型語言模型（LLM）部署完成後，通常就進入一種近乎「凍結」的狀態。它能執行預訓練階段已掌握的任務，卻很難像人類一樣持續吸收新知。這帶來了一個長期存在的矛盾：

停止學習，知識會逐漸過時；持續微調參數，又容易引發「災難性遺忘」，意即模型在學習新能力時，原有的能力也會一併被削弱甚至覆蓋。然而，重新進行大規模預訓練，無論是運算消耗或工程成本，都異常高昂。

儘管上下文學習（In-Context Learning，ICL）提供了一種更輕量的適應方式，但它本質上仍受限於上下文視窗：會話結束後，模型「記住」的內容也隨之消失。這種現象與人類的順行性遺忘（anterograde amnesia）有些相似。人類患者能保留久遠的舊記憶，卻無法形成新的長期記憶，對他們而言，每一個當下都像第一次經歷。當前基於 Transformer 的 LLM，也表現出類似特徵：知識要麼被固化在預訓練參數中，要麼短暫存在於當前的上下文激活裡，兩者之間始終缺少穩定的連結機制。

為解決此一問題，來自 Google 和康乃爾大學的研究團隊提出了 Sleep 範式。這是一套受人類睡眠機制啟發的持續學習框架，試圖讓模型在不破壞既有能力的前提下，逐步沉澱與整合新知。

研究示意圖

論文連結：https://arxiv.org/pdf/2606.03979

據論文描述，Sleep 由兩個階段構成：記憶鞏固（類比人類的慢波睡眠 NREM）和做夢（類比快速動眼睡眠 REM）。

實驗結果顯示，在長上下文理解、知識整合、少樣本推理以及持續學習等任務中，Sleep 範式均能帶來持續的效能提升。

Sleep 範式：重新定義 LLM 持續學習

Sleep 範式的出發點是對持續學習生命週期的重新定義。在傳統機器學習框架中，模型的生命週期被切分為訓練時間和測試時間兩個明確階段。而在持續學習場景下，這一邊界並不存在，模型始終處於學習狀態，只是學習的方式在兩種模態之間交替：

Active（覺醒）階段：模型接收外部輸入，執行推理或上下文學習，知識以短期、高頻更新的方式暫存於 Attention 模組和高頻 MLP 層中。
Sleep（睡眠）階段：模型不再接受新的外部資料，轉而專注於對內部知識的鞏固與自我改進。Sleep 並非被動的閒置，而是一個高度動態的計算過程。

研究團隊將 Sleep 過程進一步拆解為兩個子階段，分別對應人類大腦中慢波睡眠和 REM 睡眠承擔的不同功能。

圖表：傳統機器學習vs.持續學習的覺醒與睡眠交替示意圖

圖｜傳統機器學習（訓練/測試分離）vs. 持續學習（Wake 與 Sleep 交替）示意圖

1. 記憶鞏固：參數擴展與 Knowledge Seeding

記憶鞏固階段的核心目標，是將儲存在高頻（快速更新）模組中的短期脆弱記憶，轉移到更穩定的低頻參數中，同時避免兩類知識相互干擾。

為什麼直接遷移會導致遺忘？災難性遺忘的根本原因之一是參數容量有限，新知識的寫入必然覆蓋舊知識。受人腦神經可塑性的啟發，研究團隊提出了漸進式參數擴展機制：

在每次 Sleep 步驟中，向接收知識的低頻 MLP 塊（以 MoE 結構表示）新增一個低秩專家模組（由兩個低維矩陣參數化），專門用於儲存即將遷移過來的新知。已有專家的參數在此過程中完全凍結，確保舊知識不受擾動。

Sleep 結束後，高頻塊中此前添加的低秩參數會被重置清空，釋放容量供未來使用。這一步驟與人腦中的突觸修剪（synaptic pruning）高度類比，大腦在鞏固記憶後，會主動刪除冗餘連結以提升效率。

記憶鞏固整體流程圖

圖｜記憶鞏固整體流程

在參數擴展完成後，記憶遷移本身透過 Knowledge Seeding（上行蒸餾）來實現。與常規知識蒸餾方向相反，Knowledge Seeding 是從較小的「教師」模型（當前高頻模組的狀態）向參數量更大的「學生」模型（擴展後的低頻模組）進行蒸餾。

此一設計面臨兩個特殊挑戰：其一，學生的表達能力強於教師，直接在教師生成的資料上訓練會導致學生參數的次優利用；其二，Sleep 階段原則上無法存取外部資料集，主流蒸餾方法的依賴假設不成立。

為此，研究團隊在廣義知識蒸餾（GKD）框架的基礎上，引入了基於強化學習的模仿學習過程 Learning to Imitate（LTI）。整個 Knowledge Seeding 目標由兩部分構成：首先，在策略蒸餾（on-policy distillation），學生在自己生成的序列上接受教師 logit 的 token 級回饋，確保知識的直接傳遞；其次，LTI 過程，教師先生成一批合成文本（「夢境資料」），隨機截取前綴後讓學生續寫，再根據學生輸出與教師原文的語義相似度（由凍結的獎勵模型評分）和編輯距離（Levenshtein 距離）的加權組合計算獎勵。

LTI 的作用在於：光有知識還不夠，學生還需要學會如何像教師一樣使用這些知識。

2. 做夢：RL 驅動的自我改進

記憶鞏固完成後，Sleep 進入第二階段 Dreaming，對應人類 REM 睡眠中大腦活躍合成新連結的過程。此階段的目標是透過模型自我生成的合成資料，在不引入人工標註的情況下遞迴地提升自身能力。

合成資料如何生成？給定一個採樣任務（包含上下文 C 和評估指標 τ），模型在 MoE 路由時額外隨機選擇一個專家參與計算，這一設計刻意引入了無關知識的干擾，目的是模擬夢境中記憶的創造性混合，讓模型探索平時不會激活的知識組合。由此產生 m 個候選「夢境」樣本。

如何篩選有價值的夢境？研究團隊引入梯度為基礎的重要性評分：對每個夢境樣本計算語言建模目標關於當前參數的梯度範數，作為該樣本對模型能力改進潛力的代理指標。得分最高的 Top-k 樣本加上若干隨機樣本（保持多樣性）組成最終訓練集。對於入選的每個夢境，實驗以 LoRA 方式在獨立的模型實例上進行監督式微調；若微調後模型在下游任務上的表現有所提升，則對應夢境獲得正向獎勵，整個生成過程透過 ReSTEM 演算法進行優化。相比 SEAL 的原始設計，研究團隊在採樣策略（隨機專家路由）和樣本篩選（梯度為基礎的評分）兩個環節做了針對性改進，以控制迭代自訓練引發災難性遺忘的風險。

實驗結果

在實證評估中，研究團隊系統分析了 Sleep 範式各階段的獨立貢獻，以及多階段協同帶來的整體收益。具體結果如下：

在類別增量學習任務中，研究團隊基於 CLINC、Banking、DBpedia 三個意圖分類資料集，以 Llama-3B 與 Llama3-8B 為骨幹模型，對比了 ICL（無 Sleep）、彈性權重鞏固（EWC）、外部持續學習器（InCA），以及不含顯式蒸餾機制的 Hope 基線。

結果顯示，引入 Sleep 的 Hope 在三個資料集上均取得最高準確率。相較於僅依賴提示級適應的 ICL，Sleep 能將上下文中的臨時適應能力轉化為持久化參數記憶；相較於不含顯式蒸餾的 Hope，加入自蒸餾機制後，模型提煉出的知識抽象品質進一步提升。

在記憶層級對 ICL 的影響實驗中，研究團隊基於 MK-NIAH（來自 RULER）、LongHealth 和 QASPER 三個長上下文基準評測，系統考察了 Hope 中 Sleep 階段數量，即記憶層級深度，對模型效能的影響，並與 ICL、DuoAttention、Cartridges 等方法進行對比。

實驗結果呈現出兩條一致規律：隨著鞏固階段數量增加，模型在長上下文任務上的表現持續提升；與此同時，當最低頻記憶模組的更新頻率被提高、使其具備更強適應性後，整體效能反而下降。這表明，持久記憶的穩定性是其核心價值來源。整體來看，Hope 在三個任務上均優於 DuoAttention 與 Cartridges。

在順序習得兩門新語言實驗中，研究團隊基於 MTOB 與 Manchu 兩個低資源翻譯資料集，讓模型依次學習兩門在預訓練階段從未見過的新語言，並在最終階段同時評估兩種語言能力。

結果顯示，標準 ICL 在學習第二門語言後，對第一門語言的翻譯能力出現明顯崩塌，幾乎退化回預訓練基線；而 Hope-3（三級 Sleep）則保留了絕大多數已習得能力，其連續學習後的 ChRF 得分接近單語言獨立訓練水準。相比之下，Cartridges 與監督式微調（SFT）在至少一門語言上同樣出現災難性遺忘，因此未進入論文主圖的有效結果區間。

在 BABILong 超長上下文推理任務中，面對最長可達 10M token 的基準評測，Hope 取得了接近滿分的表現。相比之下，GPT-4 與 GPT-4o-mini 在上下文長度超過 128K 至 256K token 後效能迅速下降；Llama-8B + RAG 同樣隨著上下文增長而明顯退化；Titans 與 ARMT 等同類小模型則在超過 1M token 後出現顯著效能劣化。

在數學推理任務中，研究團隊以 Qwen3-1.7B 與 Qwen3-8B 為基礎模型，在 AIME-24、AIME-25、HMMT-25 三個數學競賽基準評測上，對比了 SFT 與 GRPO 等訓練方法。結果顯示，Sleep 在 Qwen3-8B 上的 AIME-24 得分達到 79.2，超過 OPSD 的 76.6 與 GRPO 的 76.4；在 Qwen3-1.7B 上同樣取得 53.2 的成績，高於 GRPO 的 51.0。

實驗結果圖表

在知識融合實驗中，研究團隊基於 SQuAD 資料集，評估模型在無上下文問答條件下，將新知內化進參數的能力。在單段落設置（n=1）下，Sleep（四級記憶）達到 48.9；在持續預訓練設置（n=200，對應 974 個相關問題）下達到 46.2，均優於 SEAL 的 46.7 與 43.2。進一步的消融實驗表明，移除 Dreaming 階段後，單段落場景下的準確率從 48.1 大幅下降至 35.7，說明自我改進階段對於知識內化具有關鍵作用。

知識融合實驗結果圖

在少樣本抽象推理實驗中，研究團隊以 Llama-3.2-1B 為骨幹模型，在篩選後的 11 個訓練任務與 8 個保留任務上進行評估。最終，Sleep 的成功率達到 80%，顯著高於 SEAL 的 72.5%、TTT（僅進行合成更新、無 Dreaming）的 10%，以及 ICL 的 0%。

少樣本抽象推理實驗結果圖

不足與未來方向

當然，這項研究依然存在一些侷限性。

首先是在效率層面。根據論文描述，在相同步數條件下，SFT 的執行速度約為 Sleep 的 4 倍；但若以達到相同效能為目標，情況則出現反轉，SFT 需要額外消耗約 3.6 至 4.8 倍的實際掛鐘時間才能追平 Sleep。即便如此，Sleep 的整體計算開銷仍顯著高於標準對照方法，因此在強調快速迭代與低成本部署的場景中，實際應用仍面臨一定限制。

其次，研究團隊也指出，迭代式自訓練若控制不當，本身可能誘發災難性遺忘。這也是 Dreaming 階段引入基於梯度的樣本篩選機制，以及隨機專家路由策略的重要原因。不過，該機制在長期循環中的穩定性仍缺乏系統驗證。例如，在經歷數十輪 Sleep 後，模型是否依舊能夠穩定抑制遺忘、維持知識結構一致性，論文尚未給出充分的實驗結果。

與此同時，當前方案對 MoE 架構存在較強依賴。參數擴展、記憶隔離以及多層級更新頻率控制等設計，都建立在稀疏混合專家結構之上。對於不支援專家路由的傳統稠密模型，Sleep 如何完成等效適配，論文並未展開深入討論。

更重要的是，Sleep 範式實際上指向了一個更宏觀的問題：LLM 的生命週期，或許不應在預訓練結束時終止。

人類大腦會在睡眠過程中持續進行記憶重構，將零散的短期經驗逐步沉澱為穩定、層次化的長期知識；而 Sleep 所嘗試的，正是將這一機制遷移到模型參數體系中，為 LLM 提供一種無需依賴額外人工標註、同時盡可能避免能力破壞的持續學習路徑。

隨著參數容量管理、蒸餾穩定性、多頻率記憶排程等關鍵問題進一步推進，具備週期性自我整合能力的模型，或許會成為下一代長生命週期 AI 系統的重要基礎組件。

更多技術細節，詳見原論文。

Google、康乃爾新研究：大型語言模型的下一步，是學會「好好睡覺」

Sleep 範式：重新定義 LLM 持續學習

實驗結果

不足與未來方向

相關文章推薦

分享網址