近年の AI 研究界には、明確な風向きの変化が見られる。人々はもはや「大規模言語モデル(LLM)に正解を言わせる」ことだけでは満足せず、「大規模モデルに正しく考えさせる」ことを追求し始めている。特に LLM が多対話型のエージェントフレームワークに組み込まれると、モデルは一度きりの回答出力ではなく、人間のように観察し、思考し、行動し、そして再思考するよう求められる。このプロセスが強化学習(RL)の段階に入ると、訓練は「推論の質を巡る持久戦」と化す。
リー・フェイフェイ氏率いるチームが最近着手しているのは、この持久戦において最も隠蔽的で、かつ危険な問題を掘り起こすことだ。
01 なぜ RAGEN-2 の書き換えが必要なのか
ここ数年、エージェント訓練の安定性はほぼ「報酬(reward)」と「エントロピー(entropy)」という 2 つの指標に依存してきた。報酬は結果の良し悪しを表し、エントロピーは推論過程の多様性を示す。これら 2 つの指標が安定していれば、モデルの訓練は健全であるとみなされるのが通例だった。
しかし、RAGEN-2 の登場により、このロジックは根底から覆された。
研究チームが指摘するのは、エントロピーが極めて誤解を招く「幻覚」に過ぎないという事実だ。モデルの推論過程は、「エントロピーが正常に見える」状況下で、静かにかつ体系的に崩壊しうる。一見するとモデルは真剣に「思考」しているように見えるが、実際にはもはや入力を聞いておらず、決まりきった定型パターンを繰り返しているに過ぎないのだ。
p>これが RAGEN-2 が提起する核心的な問題、すなわち推論の崩壊(Reasoning Collapse)である。この目に見えぬ崩壊を捉えるため、研究チームは 2 つの重要なツールを提案した。1 つ目は、モデルの推論が入力に実際に依存しているかを判断するための「相互情報量プロキシ(MI Proxy)」、2 つ目は、なぜ RL がモデルを「定型的推論」へと追いやるのかを説明する「信号対雑音比(SNR)理論」だ。
本プロジェクトのチーム構成も豪華そのものだ。中核はノースウェスタン大学であり、スタンフォード大学(リー・フェイフェイ氏、Yejin Choi 氏、Jiajun Wu 氏)、マイクロソフト、オックスフォード大学、インペリアル・カレッジ・ロンドン、イリノイ大学アーバナ・シャンペーン校(UIUC)などの機関が連携している。
プロジェクトのホームページはhttps://ragen-ai.github.io/v2/にあり、完全な資料とコードを閲覧可能だ。
02 推論の崩壊とは何か、なぜ誰も気づかなかったのか
「推論の崩壊」という言葉はやや抽象的に聞こえるが、それが記述するのは極めて直感的な現象だ。モデルは真剣に思考しているように見えるが、その思考内容は入力と無関係なのである。
まるで「今日の上海の天気は?」と尋ねているのに、相手が毎回「このタスクを一歩ずつ考えてみよう」と答え返してくるようなものだ。一見して思考しているように思えるが、実際にはあなたの話を全く聞いていない。
RAGEN-2 は、この「偽物の思考」現象を体系的に白日の下にさらすものだ。
従来指標の盲点:エントロピーが見るのは「内部的な多様性」のみ
なぜこれまで誰も推論の崩壊に気づかなかったのか。それは、人々が常にエントロピーばかりを見ていたからだ。
エントロピー H(Z|X) という指標は、「ある入力 1 つに対して、モデルの推論が多様かどうか」しか見ることができない。モデルが同じ入力に対して多数の異なる推論チェーンを生成すれば、エントロピーは高くなる。
問題なのは、エントロピーにはその推論チェーンが実際に入力と関係があるかどうかは全く分からないということだ。
これにより、極めて危険な状況が生まれる。モデルのエントロピーは健全に見えるが、その推論は完全に入力から遊離し、「定型的な独り言」状態に陥っているのだ。
研究チームは、なぜエントロピーが不十分なのかを、ある極めて重要な数式で説明している。
エントロピーは右辺の第 2 項に過ぎない。真に「推論が入力に依存しているか」を測っているのは、相互情報量 I(X;Z) なのだ。
つまり、エントロピーが高いからといって推論が優れているわけではなく、むしろ推論が崩壊しつつあることを隠蔽している可能性さえある。
テンプレート崩壊の定義:高エントロピー+低相互情報量
RAGEN-2 はこの現象を「テンプレート崩壊(Template Collapse)」と名付けた。
その特徴は極めて明白だ。推論チェーンは豊富に見えるが、異なる入力の間でも内容はほぼ同一となる。モデルはある種の「万能推論テンプレート」を暗記しており、何を問われても「Let me think step by step…(段階的に考えてみよう)」や「I need to solve this task carefully.(このタスクを慎重に解く必要がある)」といった決まり文句から入る。
これらの文は推論のように見えるが、実際には入力に全く依存していない。
これは偶然の産物ではなく、多対話型エージェントの RL における体系的な失敗モードなのである。
4 象限の推論状態図:エントロピー×相互情報量
研究チームは推論状態を 4 つに分類しており、これが非常に分かりやすい。
- エントロピーが高く、相互情報量も高い場合:モデルの推論は多様であり、かつ入力に依存している。これが理想状態だ。
- エントロピーが高く、相互情報量が低い場合:テンプレート崩壊である。モデルは思考しているように見えるが、実際には「台本の暗唱」をしているに過ぎない。
- エントロピーが低く、相互情報量が高い場合:モデルの推論は入力に強く依存しているが、確定的すぎて、まるで丸暗記のようだ。
- エントロピーが低く、相互情報量も低い場合:完全な劣化状態。モデルは多様性もなければ、入力にも耳を貸さない。
この 4 つの状態の中で最も危険なのがテンプレート崩壊だ。エントロピーによって「健全な状態」であるかのように偽装されてしまうからだ。
図 1 | 左:入力駆動型推論が現在の状態に適応している様子。テンプレート推論は異なる入力に対してほぼ同一の応答を生成する。右:条件付きエントロピー H(Z|X)(入力の多様性の範囲内)と相互情報量 I(X;Z)(入力依存性)の 2 つの軸で記述された 4 種類の推論メカニズム。
03 RAGEN-2:相互情報量の視点による推論の質の再構築
RAGEN-2 の第 1 の貢献が「問題の発見」だとすれば、第 2 の貢献は「何が推論の質なのかを再定義」した点にある。我々はこれまでエントロピーに依存しすぎ、「推論が多様であれば、モデルは真剣に思考している」と考えてきた。しかし RAGEN-2 は、推論の多様性は有効な推論を意味するものではなく、むしろ推論が崩壊しつつある偽装である可能性さえあると告げる。
真に推論の質を測りうる指標、それは相互情報量(MI)である。
このことは、研究においてある極めて古典的な情報理論の数式によって暴かれている。
この数式の意味は極めて明白だ。左辺が推論の全エントロピーであり、右辺が 2 つの項に分解されている。
H(Z|X) は「ある入力内部での多様性」を表し、I(X;Z) は「推論が実際に入力に依存しているか」を表す。これまで人々は H(Z|X)、つまり「推論が多様かどうか」のみを見てきた。しかし真に重要なのは I(X;Z)、つまり「推論が入力を聞いているかどうか」なのだ。
これは、ある学生が作文を書いているのを見るようなものだ。派手に飾り立てていても、課題を理解しているとは限らない。MI こそが、彼が課題を本当に理解しているかを判断する鍵なのである。
RAGEN-2 の貢献は、この MI を理論の中から引っ張り出し、訓練中にリアルタイムで監視可能な指標へと変えた点にある。
MI Proxy:訓練中に相互情報量をリアルタイム推定するには
相互情報量そのものの直接計算は困難だ。推論チェーンが高次元の離散列だからである。RAGEN-2 の賢明な点は、MI を無理に計算するのではなく、訓練過程のデータから推定可能な「相互情報量代理指標」を設計した点にある。
その中核となる手法が「In-Batch Cross-Scoring(バッチ内クロススコアリング)」だ。
端的に言えば、各推論チェーン Zᵢ,k をすべての入力 Xⱼ と照合させ、「適合度スコア」を付けて、それが実際どの入力から生成されたものに見えるかを判定する。
推論が入力に実際に依存していれば、Zᵢ,k は自身の入力 Xᵢ で最高スコアを示す。推論が既に定型化されていれば、すべての入力でスコアは均一になる。
研究チームはこのスコアを 2 つの量に分解した。matched(一致):推論が真の入力上での log‑prob、marginal(周辺):推論が全入力混合上での log‑prob である。
この 2 つの量の差分こそが、相互情報量の影なのである。
この思想に基づき、研究チームは 2 つの主力指標を提案した。
- Retrieval-Accuracy(検索精度):推論チェーンが「自分の入力を認識し返せるか」を見る。モデルが崩壊すれば、この精度はランダムレベルまで低下する。
- MI-ZScore-EMA:matched − marginal を連続指標化し、z-score と EMA(指数移動平均)による平滑化を施したもの。より安定しており、訓練の監視に適している。
最も重要なのは、これらの指標に追加のモデルも追加の推論も不要で、訓練プロセスそのものの中で算出可能だという点だ。
これにより、MI は「理論的概念」から「エンジニアリング的に利用可能な監視シグナル」へと変貌を遂げた。
MI とタスク性能の強い相関
RAGEN-2 の実験には、非常に衝撃的な発見があった。
MI と最終タスクの成功率には極めて高い相関が見られた一方、エントロピーとタスク成功率の相関は低く、場合によっては負でさえあった。
言い換えれば、エントロピーが高ければ高いほど、タスク性能は悪化する可能性があるのだ。まるで、ある人物の話が流暢になるほど、その内容が的外れになっていくのに似ている。
これは、エントロピーが信頼できないばかりか、訓練の判断を誤らせる可能性さえあることを示唆している。真に「モデルが真剣に思考しているか」を告げてくれる指標、それは MI なのである。
RAGEN-2 がここで成し遂げたのは、本質的に「推論の質」という曖昧な概念を、定量化・監視可能・最適化可能な指標体系へと変換したことに他ならない。
04 推論崩壊の根本原因:SNR(信号対雑音比)メカニズム
MI Proxy が「診断ツール」だとすれば、SNR 理論は「病因分析」である。RAGEN-2 の 3 つ目の大きな貢献は、なぜ RL によってモデルの推論が崩壊するのかを説明した点にある。
この部分は、研究チームが最も洞察力を発揮した箇所だ。
図 2 | RL 更新の信号対雑音比(SNR)概略図。左:全勾配はタスク勾配(入力報酬の分散増加に伴い鋭くなる)と正則化勾配に分解される。正しい高報酬分散は強力なタスク勾配を生み、より良い収束(高 SNR)をもたらす。低報酬分散は正則化勾配を優勢にし、不安定な更新と入力無関係な推論(低 SNR)を引き起こす。
重要な発見:報酬分散がタスク勾配の強度を決定する
研究チームの実験結果は極めて明快だ。
ある入力の報酬分散が高い場合、モデルは異なる軌跡から有用なシグナルを学習でき、タスク勾配が強くなり、推論は自然に入力に依存するようになる。
一方、報酬分散が低い場合、モデルは有用な差異をほとんど学習できず、タスク勾配は弱まり、正則化項(KL+エントロピー)が支配的な力となる。
これにより、推論は「定型化」へと押しやられるのだ。
高報酬分散 → 強力なタスクシグナル → 推論が入力に依存
低報酬分散 → 微弱なタスクシグナル → 正則化項が支配 → 推論の定型化
これが推論崩壊の根本的な誘因である。
勾配の分解:タスクシグナル vs タスクノイズ vs 正則化ノイズ
研究チームは RL の勾配を 3 つの要素に分解した。
g_signal が真に有用なタスクシグナル、g_task-noise がサンプリングノイズ、g_reg が KL とエントロピーの正則化項である。
報酬分散が低いと、g_signal は 0 に収束する。しかし g_reg は小さくなることはなく、入力とは無関係な「均一な収縮力」として働き続ける。
その結果、g_reg が支配的な力となり、推論を「入力無関係なテンプレート」の方向へと引きずり込むのだ。
これが、「思考しているように見えるが、実際にはテンプレートを暗唱している」という現象が起きる理由である。
図 3 | プロンプトを 6 つの等しい報酬分散バケット(Q1-Q6)に分類。発見されたこと:(a) タスク勾配ノルムはバケットの RV に伴い単調増加する。(b) RV が 0 に近づいても、有用なシグナルをほとんど運んでいないにもかかわらずタスク勾配は存在し続ける。(c) 正則化勾配ノルム(KL+エントロピー)はバケット間で平坦。これは 2 つのアルゴリズムにおける SNR メカニズムを直接裏付けている。
低報酬分散の危険性
最も危険な点は、報酬分散が 0 に近づいても、勾配ノルムが 0 にならないことだ。
正則化項が「強く押し続けている」からである。
これは、モデルが更新を続けるが、その更新方向がタスクと完全に無関係であることを意味する。推論は入力からますます遊離し、より定型化していく。
これが推論崩壊の根本原因であり、なぜエントロピーが訓練の判断を誤らせるのかの理由でもある。
05 解決策:SNR 認識型フィルタリング
RAGEN-2 が「推論崩壊」という隠れた問題を白日の下にさらした後、次に問われるべき最重要課題は「いかに解決するか」だ。研究チームが提示した答えは極めて工学的だった。複雑な新モデルを導入したり、RL の中核構造を変更したりするのではなく、軽量かつほぼゼロコストの戦略、すなわち「SNR 認識型フィルタリング(SNR-Aware Filtering)」を提案したのである。
図 4 | 信号対雑音比(SNR)認識型フィルタリングのワークフロー。各訓練イテレーションにおいて:(1) ローリング生成による軌跡の収集、(2) 即時報酬の分散を SNR プロキシとして計算、(3) プロンプトを RV 順にランク付けし、上位 p% のスコアを保持し、高信号サブセットに対してのみ方策更新を実行。このフィルタリングループはノイズの多い展開に対する更新を防止し、標準 RL 以外の追加モデルや展開を必要としない。
この手法の中核思想は極めてシンプルだ。推論崩壊の根本原因が「低報酬分散によるタスクシグナルの弱体化と、正則化項による更新の支配」にあるならば、モデルには「高報酬分散」のサンプルからのみ学習させればよい。各訓練において、タスクシグナルを実際に提供できるプロンプトのみを保持し、報酬分散がほぼゼロで正則化ノイズしか生まないプロンプトをフィルタリング除去するのである。
これは、騒がしい部屋で誰かの話を聞こうとする際、すべてのノイズを耳に押し込むのではなく、よりクリアな声の人により近づくようなものだ。
SNR 認識型フィルタリングが行っているのは、まさにモデルに「信号に近づかせ、ノイズから遠ざける」ことなのである。
中核思想
訓練時の各バッチデータには、「高分散・高信号」のプロンプトと、「低分散・低信号」のプロンプトの両方が含まれる。後者の問題点は、報酬にほとんど差異がないためタスク勾配がほぼゼロになる一方、正則化項は強く働き続け、モデルを「定型的推論」の方向へ引きずり込むことだ。
SNR 認識型フィルタリングのアプローチは、各訓練において報酬分散が最も高い上位 p% のプロンプトのみを保持し、低分散のプロンプトをすべて除外することである。
高分散=高信号
低分散=高ノイズ
ノイズを除去し信号を保持すれば、推論構造は自然に入力依存性を維持できる。
手法のフロー
研究チームは図 4 で全プロセスを明確に描いているが、より平易な言葉で説明しよう。
- 訓練開始時、モデルは通常通り複数の軌跡をサンプリングする。
- 各プロンプトに対して一連の報酬値が与えられる。
- 各プロンプトの報酬分散を計算する。
- すべてのプロンプトを分散の高い順にソートする。
- 上位 p% のみを保持し、他はすべて破棄する。
- 最後に、これらの「高信号プロンプト」のみを用いてモデルパラメータを更新する。
このプロセス全体に、追加のモデルも、追加の推論も、追加の計算リソースも不要だ。単に訓練データを「信号強度順に選別」するだけなのである。
しかし、その効果は極めて顕著だ。
なぜ有効なのか
SNR 認識型フィルタリングの有効性は、極めて直感的な数学的事実に基づいている。
RL の勾配分解において:
報酬分散が低いと、g_signal は 0 に収束する。しかし g_reg は小さくなることはなく、入力無関係な「均一な収縮力」として働き続ける。その結果、g_reg が支配力を持ち、推論を「入力無関係なテンプレート」の方向へ引きずり込む。
SNR 認識型フィルタリングの役割は、g_signal ≒ 0 となるプロンプトをすべて除去し、モデルを g_signal が十分に強いサンプルでのみ更新させることだ。
これにより、3 つの直接的な効果がもたらされる。
- 勾配の SNR が顕著に向上する
- タスクシグナルが保持される
- 正則化ノイズが抑制される
その結果、モデルの推論は再び「入力に耳を傾ける」ようになり、相互情報量 MI が上昇し、定型的推論が抑制されるのだ。
これはモデル変更もアルゴリズム変更も不要で、訓練データの選択方法を変えるだけという、極めて「エンジニアリングフレンドリー」な解決策なのである。
06 実験:タスク横断・アルゴリズム横断・規模横断での検証
RAGEN-2 の実験セクションは極めて堅固で、7 つの環境、4 種類の RL アルゴリズム、複数のモデル規模を網羅している。小さな玩具のようなタスクでの有効性証明に留まらず、一連の現実的・マルチモーダル・多対話・多意思決定環境において、推論崩壊の普遍性と SNR フィルタリングの有効性を検証している。
図 5 | 異なる介入戦略下での訓練ダイナミクス。(a) タスク成功率、(b) MI プロキシ(検索精度)、(c) 推論エントロピー。フィルタリングを行わない場合、MI はエントロピーがピークに達する頃に早期低下し、信号テンプレートが崩壊する。フィルタリングは検索精度の低下を効果的に緩和し、top-p SNR 認識型フィルタリングがタスク性能と推論の多様性を最もよく保持する。
7 つの環境がマルチモーダル・マルチタスク・多意思決定を網羅
研究チームが選択した 7 つの環境は非常に代表的で、現在のエージェント研究における主要なシナリオのほぼ全てを網羅している。
- Sokoban:不可逆な計画タスク。モデルの長期的推論能力を試す。
- FrozenLake:確率的ナビゲーションタスク。不確実な環境下での方策の安定性を試す。
- MetaMathQA:数学的推論タスク。モデルの記号推論能力を試す。
- Countdown:数式構成タスク。モデルの組合せ推論能力を試す。
- SearchQA:多対話型検索タスク。モデルの情報統合能力を試す。
- WebShop:ウェブナビゲーションタスク。モデルのツール使用と意思決定能力を試す。
- DeepCoder:コード合成タスク。モデルのプログラム推論能力を試す。
これらのタスクに共通するのは、多対話の相互作用において、安定しており入力に依存した推論構造を維持する必要がある点だ。
RAGEN-2 の実験により、推論崩壊がこれらのタスクに普遍的に存在し、SNR フィルタリングがそれら全てにおいて有効であることが示された。
重要な実験現象
実験において特に強調すべき 3 つの重要な現象がある。
- 相互情報量 MI の低下は性能低下に先行し、より感受性の高い診断指標となる。
- エントロピーは崩壊過程において高位を維持し、問題を全く反映できない。
- SNR フィルタリングは MI とタスク成功率を顕著に向上させる。
これは、MI プロキシが単なる「見栄えの良い指標」ではなく、推論崩壊を事前に警告する真のシグナルであることを示している。
そして SNR フィルタリングは、崩壊を阻止し推論の質を回復させる真の解決策なのである。
異なる RL アルゴリズム間での一貫性
研究チームはさらに、PPO、GRPO、DAPO、Dr.GRPO という 4 種類の RL アルゴリズムにおいても、推論崩壊の普遍性を検証した。
結果は極めて一貫していた。
推論崩壊はアルゴリズムに依存しない体系的問題であり、SNR フィルタリングは普遍的な解決策なのである。
これは、推論崩壊がある特定のアルゴリズムのバグではなく、多対話型エージェント RL における構造的リスクであることを意味する。
対して SNR フィルタリングは、その構造的な修復策なのである。
図 6 | 上位のフィルタリング戦略の比較を示す。top-p は全 4 環境において top-k やフィルタなしのベースラインを持続的に上回った。
07 エージェンティック RL の新パラダイム
RAGEN-2 の意義は、新しい指標やテクニックを提案したという点に留まらない。それは、我々がエージェントの推論の質を理解する方法を再構築し、エージェントを訓練するパラダイムそのものを変容させたのである。
RAGEN-2 は、推論の質の測定を「エントロピー」から「相互情報量」へ転換させた。
RL 訓練の安定性に関する理解を「報酬」から「SNR」へ転換させた。
推論崩壊を曖昧な現象から、説明可能・診断可能・介入可能なメカニズムへと変えた。
これは、将来のエージェンティック RL に向けた新たな理論的枠組みを提供するものだ。
MI プロキシは既存の RLHF、GRPO、PPO の訓練パイプラインに直接統合可能だ。SNR フィルタリングは軽量かつほぼゼロコストの強化手法である。これはマルチモーダルエージェント、ツール使用型エージェント、Web エージェントのいずれにも価値がある。
これは、RAGEN-2 の手法が「研究チーム内だけで動作するもの」ではなく、実際のシステムへ直接実装可能であることを意味する。
エージェント時代の中核的な課題は「モデルの能力」ではなく「推論の安定性」である。RAGEN-2 はその安定性評価と訓練の新たな基準を提供した。これは AI エージェントのプロダクト化に直接的な影響を与える。
将来のエージェントシステムは、もはや「より多くのツールを呼び出せるか、より多くのステップを実行できるか」を競うのではなく、「多対話の推論において、いかに安定し、信頼でき、入力に依存した思考構造を維持できるか」を競うことになるだろう。
RAGEN-2 は、その安定性を実現可能にする手法を我々に与えてくれたのである。(以上)
参考資料:https://arxiv.org/pdf/2604.06268