Googleとコーネル大学の新研究：大規模言語モデルの次なるステップは「良質な睡眠」の習得

大規模言語モデル（LLM）は、一度実環境にデプロイされると、ほぼ「凍結」された状態になります。事前学習で習得済みのタスクは実行できますが、人間のように新たな知識を継続的に吸収することは困難です。ここに、長年のジレンマが存在します。

学習を停止すれば知識は陳腐化し、パラメータの継続的なファインチューニングは「破滅的忘却」、つまり新たな能力の習得時に既存の能力が損なわれたり上書きされたりするリスクを孕みます。かといって、大規模な再事前学習には莫大な計算リソースとエンジニアリングコストがかかります。

より軽量な適応手段として文脈内学習（In-Context Learning, ICL）がありますが、これは本質的にコンテキストウィンドウの制約を受けます。セッションが終了すれば、モデルが「記憶」した内容も消え去ります。この現象は、人間の前向性健忘に類似しています。患者は過去の遠い記憶を保持できるものの、新たな長期記憶を形成できず、あらゆる瞬間が初めての経験のように感じられます。現在のTransformerベースのLLMも同様の特徴を示し、知識は事前学習パラメータに固定されているか、現在のコンテキストの活性化状態に一時的に存在するだけで、両者を繋ぐ安定したメカニズムが常に欠落しています。

この問題を解決するため、Googleとコーネル大学の研究チームは「Sleep」パラダイムを提案しました。これは人間の睡眠メカニズムに着想を得た継続学習フレームワークであり、既存の能力を損なうことなく、新たな知識を徐々に定着・統合させることを目指します。

論文リンク：https://arxiv.org/pdf/2606.03979

論文によると、Sleepは記憶の固定（人間のノンレム睡眠に相当）と夢（レム睡眠に相当）という2つのフェーズで構成されています。

実験結果では、長文コンテキスト理解、知識統合、少数例推論、および継続学習といったタスクにおいて、Sleepパラダイムが一貫してパフォーマンスを向上させることが示されました。

Sleepパラダイム：LLM継続学習の再定義

Sleepパラダイムの出発点は、継続学習のライフサイクルの再定義です。従来の機械学習フレームワークでは、モデルのライフサイクルは訓練時間とテスト時間という明確な2段階に分割されます。しかし、継続学習のシナリオではこの境界は存在せず、モデルは常に学習状態にあり、その学習方法が以下の2つのモード間で交互に切り替わります。

Active（覚醒）フェーズ：モデルは外部入力を受け取り、推論または文脈内学習を実行します。知識は短期かつ高頻度で更新される形で、Attentionモジュールや高頻度MLP層に一時的に保存されます。
Sleep（睡眠）フェーズ：モデルは新たな外部データを受け付けず、内部知識の固定と自己改善に専念します。Sleepは受動的な待機状態ではなく、非常に動的な計算プロセスです。

研究チームはSleepプロセスをさらに2つのサブフェーズに分解し、それぞれ人間の脳におけるノンレム睡眠とレム睡眠の異なる機能に対応させています。

図｜従来の機械学習（訓練/テスト分離）と継続学習（WakeとSleepの交互）の模式図

1. 記憶の固定：パラメータ拡張とナレッジ・シーディング

記憶固定フェーズの中核的な目標は、高頻度（急速更新）モジュールに保存された短期で脆弱な記憶を、より安定した低頻度パラメータに転送し、同時に二種類の知識の相互干渉を回避することです。

なぜ直接的な移行が忘却を引き起こすのか？破滅的忘却の根本原因の一つは、パラメータ容量が有限であることです。新たな知識の書き込みは、必然的に古い知識を上書きします。人間の脳の神経可塑性に触発され、研究チームは漸進的なパラメータ拡張メカニズムを提案しました。

各Sleepステップにおいて、知識を受け取る低頻度MLPブロック（MoE構造で表現）に、新たな低ランクエキスパートモジュール（2つの低次元行列でパラメータ化）を追加し、移行される新たな知識の保存専用とします。既存のエキスパートのパラメータはこのプロセス中完全に凍結され、古い知識が損なわれないことを保証します。

Sleep終了後、高頻度ブロックに以前追加された低ランクパラメータはリセット・消去され、将来の使用のために容量が解放されます。このステップは、人間の脳におけるシナプス刈り込みと強く類似しており、脳は記憶を固定した後、冗長な接続を積極的に削除して効率を高めます。

図｜記憶固定の全体的な流れ

パラメータ拡張が完了した後、記憶の移行自体はナレッジ・シーディング（上向き蒸留）によって実現されます。通常の知識蒸留とは方向が逆で、ナレッジ・シーディングは、より小さな「教師」モデル（現在の高頻度モジュールの状態）から、よりパラメータ数の多い「生徒」モデル（拡張後の低頻度モジュール）へと蒸留を行います。

この設計には2つの特有の課題があります。第一に、生徒の表現能力は教師よりも高いため、教師が生成したデータのみで訓練すると生徒のパラメータが最適に活用されない可能性があります。第二に、Sleepフェーズでは原則として外部データセットにアクセスできず、主流の蒸留手法が依存する前提条件が成立しません。

このため研究チームは、汎化知識蒸留（GKD）フレームワークに基づき、強化学習による模倣学習プロセス「Learning to Imitate（LTI）」を導入しました。ナレッジ・シーディングの全体目標は2つの部分から構成されます。まず、方策蒸留では、生徒が自身の生成したシーケンス上で教師のロジットからトークンレベルのフィードバックを受け、知識の直接的な伝達を確保します。次に、LTIプロセスでは、教師がまず合成テキストのバッチ（「夢データ」）を生成し、ランダムに接頭辞を切り取った後、生徒に続きを書かせます。そして、生徒の出力と教師の元テキストとの意味的類似度（凍結された報酬モデルがスコアリング）と編集距離（レーベンシュタイン距離）の加重組み合わせによって報酬を計算します。

LTIの役割は、知識だけでは不十分であり、生徒はその知識を教師のように使いこなす方法も学ぶ必要がある、という点にあります。

2. 夢：RL駆動の自己改善

記憶の固定が完了すると、Sleepは第二段階の「Dreaming（夢）」に移行します。これは、人間のレム睡眠中に脳が活発に新たな結合を合成するプロセスに対応します。このフェーズの目標は、モデルが自己生成した合成データを通じて、人手によるアノテーションを導入することなく、自身の能力を再帰的に向上させることです。

合成データはどのように生成されるのか？サンプリングタスク（コンテキストCと評価指標τを含む）が与えられると、モデルはMoEルーティング時に、追加でランダムに1つのエキスパートを選択して計算に参加させます。この設計は、夢の中での記憶の創造的な混合を模倣するために、意図的に関連性のない知識の干渉を導入し、モデルが普段は活性化しない知識の組み合わせを探索することを促します。これにより、m個の「夢」サンプル候補が生成されます。

価値のある夢をどのように選別するのか？研究チームは勾配ベースの重要度スコアを導入しました。各夢サンプルについて、現在のパラメータに対する言語モデリング目的の勾配ノルムを計算し、それをモデル能力の改善可能性を示す代理指標とします。スコアが最も高いTop-kサンプルと、多様性を維持するためのいくつかのランダムサンプルを組み合わせて、最終的な訓練セットを構成します。選ばれた各夢に対して、実験ではLoRA方式で独立したモデルインスタンス上で教師ありファインチューニングを行います。もしファインチューニング後のモデルが下流タスクでパフォーマンスを向上させた場合、その夢は正の報酬を獲得し、生成プロセス全体はReSTEMアルゴリズムによって最適化されます。SEALのオリジナル設計と比較して、研究チームは反復的な自己訓練による破滅的忘却のリスクを制御するため、サンプリング戦略（ランダムエキスパートルーティング）とサンプル選別（勾配ベーススコアリング）の2点に的を絞った改良を加えています。

実験結果

実証評価では、研究チームはSleepパラダイムの各段階の独立した貢献と、多段階の連携による全体的な利得を体系的に分析しました。具体的な結果は以下の通りです。

クラス増分学習タスクでは、研究チームはCLINC、Banking、DBpediaの3つの意図分類データセットに基づき、Llama-3BとLlama3-8Bをバックボーンモデルとして、ICL（Sleepなし）、Elastic Weight Consolidation（EWC）、外部継続学習器（InCA）、および明示的な蒸留メカニズムを含まないHopeベースラインを比較しました。

結果、Sleepを導入したHopeは、3つのデータセットすべてで最高の精度を達成しました。プロンプトレベルの適応のみに依存するICLと比較して、Sleepはコンテキスト内の一時的な適応能力を永続的なパラメータ記憶へと変換できます。また、明示的な蒸留を含まないHopeと比較して、自己蒸留メカニズムを追加することで、モデルが抽出する知識の抽象度がさらに向上しました。

記憶階層がICLに与える影響の実験では、研究チームはRULERのMK-NIAH、LongHealth、QASPERという3つの長文コンテキストベンチマークに基づき、HopeにおけるSleep段階の数、すなわち記憶階層の深さがモデルパフォーマンスに与える影響を体系的に調査し、ICL、DuoAttention、Cartridgesなどの手法と比較しました。

実験結果から、2つの一貫した法則が明らかになりました。固定段階の数が増加するにつれて、モデルの長文コンテキストタスクにおけるパフォーマンスは継続的に向上します。一方で、最も低頻度の記憶モジュールの更新頻度を高め、より高い適応性を持たせると、全体的なパフォーマンスは逆に低下しました。これは、持続的記憶の安定性こそが、その中核的な価値の源泉であることを示しています。全体として、Hopeは3つのタスクすべてにおいてDuoAttentionとCartridgesを上回りました。

2つの新言語を逐次的に習得する実験では、研究チームはMTOBとManchuという2つの低リソース翻訳データセットに基づき、モデルに事前学習段階で全く見たことのない2つの新言語を順次学習させ、最終段階で両方の言語能力を同時に評価しました。

結果、標準的なICLは第二言語を学習した後、第一言語の翻訳能力が顕著に崩壊し、ほぼ事前学習ベースラインまで退化しました。一方、Hope-3（3段階のSleep）は習得した能力の大部分を保持し、継続学習後のChRFスコアは単一言語の独立訓練レベルに迫りました。対照的に、Cartridgesと教師ありファインチューニング（SFT）は、少なくとも一方の言語で破滅的忘却が発生したため、論文のメイン図における有効な結果区間には入りませんでした。

BABILong超長文コンテキスト推論タスクでは、最大1,000万トークンに及ぶベンチマークに直面し、Hopeは満点に近いパフォーマンスを達成しました。対照的に、GPT-4とGPT-4o-miniはコンテキスト長が12.8万～25.6万トークンを超えると性能が急速に低下しました。Llama-8B + RAGも同様にコンテキストの増加に伴い明らかに劣化しました。TitansやARMTなどの同クラスの小規模モデルは、100万トークンを超えると顕著な性能劣化が見られました。

数学推論タスクでは、研究チームはQwen3-1.7BとQwen3-8Bをベースモデルとして、AIME-24、AIME-25、HMMT-25の3つの数学コンペティションベンチマークで、SFTやGRPOなどの訓練手法と比較しました。結果、SleepはQwen3-8BにおけるAIME-24スコアで79.2を記録し、OPSDの76.6、GRPOの76.4を上回りました。Qwen3-1.7Bにおいても、GRPOの51.0を上回る53.2のスコアを達成しました。

知識融合実験では、研究チームはSQuADデータセットに基づき、文脈なしの質問応答条件下で、モデルが新知識をパラメータに内在化させる能力を評価しました。単一パラグラフ設定（n=1）では、Sleep（4段階の記憶）は48.9に達しました。継続的事前学習設定（n=200、974の関連質問に対応）では46.2に達し、いずれもSEALの46.7と43.2を上回りました。さらなるアブレーション実験により、Dreaming段階を除去すると、単一パラグラフシナリオでの精度が48.1から35.7へと大幅に低下することが明らかになり、自己改善段階が知識内在化に重要な役割を果たすことが示されました。

少数例抽象推論実験では、研究チームはLlama-3.2-1Bをバックボーンモデルとして、選別された11の訓練タスクと8の保留タスクで評価を行いました。最終的に、Sleepの成功率は80%に達し、SEALの72.5%、TTT（合成更新のみでDreamingなし）の10%、ICLの0%を大きく上回りました。

課題と今後の方向性

もちろん、この研究にはいくつかの限界も存在します。

まず、効率性の面です。論文の記述によると、同じステップ数の条件下では、SFTの実行速度はSleepの約4倍です。しかし、同じ性能に達することを目標とした場合、状況は逆転し、SFTがSleepに追いつくためには、実際の wall-clock time で約3.6倍から4.8倍の時間を余分に消費する必要があります。それでも、Sleepの全体的な計算オーバーヘッドは標準的な比較手法よりも著しく高く、迅速なイテレーションと低コストなデプロイメントが重視されるシナリオでは、実用化に一定の制約が残ります。

次に、研究チームは反復的な自己訓練は、制御を誤るとそれ自体が破滅的忘却を誘発する可能性があるとも指摘しています。これは、Dreaming段階に勾配ベースのサンプル選別メカニズムやランダムエキスパートルーティング戦略が導入された重要な理由でもあります。ただし、このメカニズムの長期的なサイクルにおける安定性については、体系的な検証が未だ不足しています。例えば、数十回のSleepサイクルを経た後でも、モデルが安定的に忘却を抑制し、知識構造の一貫性を維持できるかどうかについて、論文は十分な実験結果を示していません。

同時に、現行のソリューションはMoEアーキテクチャへの依存度が高いという点も挙げられます。パラメータ拡張、記憶の隔離、多層的な更新頻度制御といった設計は、すべてスパースな混合エキスパート構造の上に構築されています。エキスパートルーティングをサポートしない従来の密なモデルに対して、Sleepがどのように等価に適応できるかについて、論文では深く議論されていません。

さらに重要なのは、Sleepパラダイムが実際には、より巨視的な問題を指し示していることです。LLMのライフサイクルは、おそらく事前学習の終了時に終わらせるべきではないということです。

人間の脳は睡眠プロセス中に継続的に記憶の再構築を行い、断片的な短期経験を徐々に安定した階層的な長期知識へと定着させます。Sleepが試みているのは、まさにこのメカニズムをモデルのパラメータ体系に移植し、LLMに対して、追加の人手アノテーションに依存せず、かつ可能な限り能力の破壊を避ける継続学習の道筋を提供することです。

パラメータ容量管理、蒸留の安定性、多頻度記憶スケジューリングといった重要な課題がさらに進展するにつれて、周期的な自己統合能力を備えたモデルは、次世代の長ライフサイクルAIシステムの重要な基盤コンポーネントとなるかもしれません。

より詳細な技術情報は、原論文をご参照ください。

Googleとコーネル大学の新研究：大規模言語モデルの次なるステップは「良質な睡眠」の習得

Sleepパラダイム：LLM継続学習の再定義

実験結果

課題と今後の方向性

関連記事

分享網址