研究概要

出典：机器之心

強化学習の次なるステージ：教師ありから教師なしへ

強化学習（RL）は大規模言語モデル（LLM）の能力限界を再構築しつつある。OpenAIのo3、DeepSeek-R1、Gemini 3などの最先端モデルは、大規模なRLVR（検証可能報酬強化学習）を用いて推論タスクの限界を押し上げている。しかし、誰もが知っているように、純粋な教師あり学習は持続可能ではない。人手によるラベリングコストは指数関数的に増大し、専門分野での信頼性の高いアノテーションの取得は困難になっている。モデルの能力が人間の専門家に迫い、あるいは凌駕しようとする時、誰がそのモデルを採点するのだろうか？

TTRLに端を発し、教師なしRLVR（Unsupervised RLVR）は人手のラベルなしにモデルを継続的に進化させる方法として登場した。これは単なるコスト削減や効率化の要請ではなく、スーパーインテリジェンス（超人的知能）への必須の道筋である。事前学習がラベルなしデータでGPTを育成したように、教師なしRLVRはこの奇跡を継続できるのだろうか？

論文情報

論文リンク: https://arxiv.org/abs/2603.08660
GitHub: https://github.com/PRIME-RL/TTRL/tree/urlvr-dev
Xスレッド: https://x.com/HBX_hbx/status/2031406636930338828

清華大学の研究チームによる最新研究は、この一見美しい展望に対して最初の境界線を描き出した。研究者たちは教師なしRLVRの内在的メカニズムを系統的に解明し、モデル自身の信号に基づく全ての内在報酬手法（多数決、エントロピー報酬、その他の派生手法を含む）が、類似した軌跡を辿ることを発見した。すなわち、学習初期には性能が急速に上昇するが、ある臨界点に達すると不可逆的な低下を開始するのである。これは特定の手法の欠陥ではなく、メカニズムの宿命である。これらの手法は本質的に、モデルが既に持つ嗜好を鋭化させるものであり、まるでエコーチェンバーのように、モデルに最初に信じたことを繰り返し強化させるだけだ。初期の自信が偶然正しければ驚異的な効果を上げるが、誤りている場合、崩壊は時間の問題である。

しかし、これは内在報酬に価値がないことを意味するわけではない。小規模なテスト時学習（Test-Time Training）では、依然として性能を安定して向上させることができ、モデルの初期状態が完全に誤っていた場合でも、自己修正を通じて進化し得る。さらに重要なことに、研究者たちは大規模学習を実行する前にモデルの学習可能性を予測できる「予言的指標」を発見した。これにより、全ての学習曲線を走らせる必要なく事前に評価できる。

内在報酬がモデル自身の反響に制限される一方で、生成と検証の非対称性を利用して報酬を固定化するような、外部報酬手法は異なる展望を示し始めている。この種の手法は内在報酬の天井を突破し、教師なし強化学習を真のスケーラビリティ（拡張性）へと導こうとしている。

スーパーインテリジェンスへの道筋において、我々に必要なのは、モデルが自己進化できるという盲目的な信頼ではなく、いつモデルに自身の反響に耳を傾けさせ、いつ模型を真の世界の検証に突き当てるべきかを知ることである。

実験結果

内在報酬手法：繁栄の表象の下に潜む深層の問題

ここ1年間、様々な「内在報酬」手法が密集して出現した。多数決からモデルの自信度やエントロピーに基づく派生手法まで、これらはモデルの内在的信号を利用して代理報酬（proxy reward）を構築する。学習前期には性能が急上昇し、一時は教師あり手法を上回ることさえある。

研究者たちはこれらの手法を報酬の源泉に基づいて2つに分類した。1つは「確実性（certainty）」に基づくもので、推論軌跡におけるモデルの信頼度指標をそのまま報酬として採用する。もう1つは「アンサンブル（ensemble）」に基づくもので、複数回のロールアウト後の集成結果（例：多数決）を正解の根拠として利用する。

手法分類

報酬の源泉は無料だが、その代償は高価である。初期の性能上昇の後、継続的な学習は典型的な「報酬ハッキング（reward hacking）」を引き起こす。

代理報酬（proxy reward）は上昇し続ける一方で、真の性能は崩壊する
モデルはますます自信を持つようになるが、回答はどんどん的外れになる
異なる内在報酬手法は、異なるモデルで全く異なる振る舞いを示す

さらに重要なことに、なぜ機能するのか、なぜ失敗するのかを誰も明確に説明できていない。

我々の取り組み：ブラックボックスを分解し、境界を明確化する

我々は単に「新手法を提案してスコアを上げる」のではなく、誰も明確に答えられていない次の問いに答えたかった。

教師なしRLVRのスケーリング上限はどこにあるのか？もし上限があるとすれば、境界はどこか？

そのために、我々は5つのことを行った。

統一理論フレームワーク：一見多岐にわたる内在報酬手法を同一のメカニズムに帰結させ、その本質が「モデルの初期分布を鋭化させること」（殊途同帰であることを）明らかにし、理論的な収束境界を示した。
大規模実証実験：11のモデル×5種類の内在報酬手法×ハイパーパラメータ探索。「上昇後に下降」が偶然ではなく普遍的な法則であることをデータで検証した。
安全領域の特定：全ての場面で崩壊が起きるわけではない。小規模なテスト時学習（test-time training）では、内在報酬を安全に使用でき、初期状態が完全に誤っていても安定して進化できることを発見した。
落とし穴を道標へ：「上昇と下降」は単なるリスクではなく、それ自体が情報である。我々はこれを利用してモデルの事前知識（モデル先验）の指標を抽出し、RL曲線全体を走らせることなく、基盤モデルが強化学習に適しているかを予測できるようにした。
代替案の探索：内在報酬に天井があるならば、地平線はどこか？我々は外部報酬手法、特に「生成-検証の非対称性」に基づく手法の予備的な探索を行い、それが内在報酬のスケーリング限界を突破できるかを検証した。

4つの重要な発見

🔍 発見その1：成否は「信頼度-正確性（confidence-correctness）」の整合性に依存する

我々は内在報酬手法の統一理論を構築し、全ての内在報酬手法の本質を明らかにした。すなわち「分布の鋭化」、つまり既にモデルが持つ嗜好を増幅させることであり、新たな知識を創造することではない。このメカニズムには以下の特性がある。

モデルの初期傾向が正しい場合→鋭化は有効で性能が向上する
モデルの初期傾向が誤りである場合→鋭化は有害で崩壊を加速する

我々はモデルの初期傾向（またはモデルの事前分布（モデル先验））を信頼度-正確性の整合性（confidence-correctness alignment）と定義する。すなわち、モデルの自己整合性（self-consistency）を向上させるだけで、どの程度の確率でより多くの問題を正解できるようになるか。言い換えれば、事前知識が強いモデルは、既に問題解決の大部分の知識を持っているが、自信がなく正解を出力できていないに過ぎない。

我々は11のモデル、5つの手法、4つの一般的なハイパーパラメータで検証したが、結論は厳しいものだった。崩壊は避けられず、問題はいつ起きるかだけである。最も安定した設定でも数エポック持たない。これはおそらく工程学的問題ではなく、数学的な必然性を示唆している。

信頼度と正確性の関係

左：成否は信頼度-正確性の整合性に依存する。右：単一データにおける信頼度と正確性の学習による変化

✅ 発見その2：小規模な場面では逆に安全

「上昇と下降」は宿命だが、その宿命には適用範囲がある。

学習データが十分に少ない場合、例えばテスト時学習（Test-Time Training）のような特定領域の場面では、内在報酬手法はかえって珍しい安定性を示す。理由は素朴である。少数のサンプルでのみ自信度を最適化すると、モデルが走り込める距離には限界がある。たとえそのサンプルにおいて「過度に自信満々」になったとしても、大局的な戦略の偏移（drift）を引き起こすことは難く、分布外（OOD）タスクの正解率はしっかりと維持される。

さらに興味深いのは極端な実験である。研究者は意図的に、モデルが全て誤っている32個のサンプルを学習セットとして選んだ。つまり、内在報酬が与える代理報酬は最初から誤っているのだが、結果はどうだったか？OODテストセットでの性能は依然として安定して向上した。

これは、内在報酬がモデルに「何が正しいか」を教えているのではなく、「自己をより信じること」を教えていることを示している。たとえ誤ったことを信じていても、その自己強化は局所的に厳しく封じ込められ、大波を起こすことはできない。

小規模学習の安定性

左：小規模TTTは安定して向上し崩壊しない。右：異なる学習セット規模における戦略のKL偏移

🎯 発見その3：モデルがRLに適しているかの判断

「上昇と下降」は単なるリスクではなく、それ自体が情報である。

内在報酬の成否はモデルの初期「信頼度-正確性」整合性に依存するのであれば、その整合性を利用して、基盤モデルがRLに適しているかを事前に判断できないだろうか？大規模なRLを一度実行するコストは高く、学界は軽量な予測指標を欠いている。

研究者は物差しを見つけ出した。それは「モデル崩壊ステップ（Model Collapse Step）」であり、モデルが内在報酬学習下で、完全に崩壊するまでに何ステップ持ちこたえられるかを測定する。論理は単純である。崩壊が遅ければ遅いほど、モデルの初期事前知識が優れていることを示し、それはモデルがより多くの正しい知識を持っているが自信がないだけであることを意味する。このような事前知識は、まさに標準的な教師ありRLで増幅できるものである。言い換えれば、内在報酬における崩壊点は、モデルの「RL学習可能性」の天然の指標となる。

結果もこれを裏付けた。RLに「適している」と広く認められているQwenモデルシリーズは、内在報酬下でもより長く持ちこたえる。さらに興味深いことに、この指標は正解ラベル（ground truth）を全く必要とせず、従来のpass@kを上回る予測精度を示した。

失敗を道標に変え、高価な試行錯誤を軽量な予測へと変換したのである。

モデル崩壊ステップの分析

左：異なる基盤モデルにおける教師なし内在報酬学習でのモデル崩壊ステップ。中央：対応する基盤モデルの教師ありRLVRでの性能向上。教師なし内在報酬で崩壊が遅いほど、教師ありRLVR後の効果が良く、従来のpass@kを上回る予測精度を示す。

🚀 発見その4：外部報酬こそがスケーラブルな方向である

内在報酬に天井があるとすれば、道はどこにあるのか？

問題の根源は報酬の源泉にある。内在報酬手法はモデル自身の信頼度を用いてモデル自身を学習させる。これはまるで閉じたエコーチェンバーのようで、報酬信号はモデルが既に知っていることに永遠に制限される。これを用いてモデルが真に知らない知識を教えることはできない。

しかし、教師なしRLVRはこれに留まらない。我々は外部報酬手法を2つに分類する。

ラベルなしデータの活用：膨大なコーパスから報酬信号を掘り出す。データが多ければ多いほど報酬信号は豊富になり、モデルが強くなっても枯渇しない。
生成-検証の非対称性の活用：モデルに回答を生成させ、外部ツール（コンパイラ、証明支援系、シミュレータ）で検証し、環境からのフィードバックを得る。これらの検証器はモデルが強くなっても機能しなくなることはなく、その判断は永遠に客観的である。

我々は自己検証手法を予備的にテストした結果、全く異なる曲線が示された。継続的な改善であり、崩壊はない。理由は素朴である。報酬は「モデルがどれだけ自信があるか」ではなく、「回答が客観的検証を通過できるか」から来る。解法を思いつくことは難しくても、正誤を確認することはしばしば簡単である。この非対称性は、モデルの進化を自己の反響ではなく、真の世界の鉄則に固定する。

内在報酬は「自分を信じるか」を問い、外部報酬は「これが真実か」を問う。スケーラブルな教師なし強化学習への道は、おそらく後者にこそある。

外部報酬の展望

最後に：境界の外側

我々は多くの紙幅を割いて、教師なし強化学習の境界を描いてきた。しかし、この地図の価値は決して「此路不通（この道は通れない）」と教えることにはなく、次の問いに答えることにある。「どのような条件下で、どの道が通じるのか」。

システムが自己を省みることで改善できるかどうかは、その最初の判断がどれだけ正確であるかに依存する。内在報酬手法が失敗する理由は、まさにそれが成功する理由でもある。同じメカニズム、すなわち自己強化である。違いは、強化されるものが真理であるか偏見であるかだけだ。

我々が内在報酬の宿命を認識して初めて、外部報酬の星辰大海（無限の可能性）が真に見えてくる。スケーラブルな教師なし強化学習への道に必要なのは、モデルが自己進化できるという盲目的な信頼ではなく、いつモデルに自身の反響に耳を傾けさせ、いつそれを真の世界の検証に突き当てるべきかを知ることである。

内在と外部は対立ではなく、道具箱の中の異なる道具である。境界を認識することは、立ち止まるためではなく、境界内で自由に創造し、境界の外に新たな可能性を探すためである。

ICLR 2026 | 大規模モデルの教師なし強化学習はどこまで行けるか？清華大学チームが体系的な答えを示す