強化学習は最適ではない、CMUが最大尤度強化学習を提案

MLNLPコミュニティは国内外で有名な機械学習と自然言語処理のコミュニティで、国内外のNLP修士・博士課程学生、大学教員、企業研究者を対象としています。

コミュニティのビジョンは、国内外の自然言語処理、機械学習の学術界、産業界、そして多くの愛好家之间的交流と進歩を促進することであり、特に初心者学生の進歩を支援することです。

出典 | 機械之心

大規模モデルの時代において、コード生成から数学推論、自律計画のAgentシステムまで、強化学習はほぼ「最後の一マイル」の標準構成となっています。

直感的に、開発者が本当に求めているのは単純です：

モデルが「正しい軌道」を生成する確率を高めること。確率論的な観点から見れば、これは正しい出力の確率を最大化することに等しく、つまり古典的な最大尤度（Maximum Likelihood）目標です。

しかし、カーネギーメロン大学（CMU）、清華大学、浙江大学などの研究機関からの最新の研究は、颠覆的な事実を指摘しています：

現実で広く使用されている強化学習は、真に最大尤度最適化を行っていない。厳密な理論分析により、強化学習は最大尤度目標の一階近似を最適化しているに過ぎないことが示されました——私たちが考える最適な訓練目標から、実はまだ遠く離れているのです。

この観察に基づき、研究チームは強化学習の目標関数を再検討し、最大尤度強化学習（Maximum Likelihood Reinforcement Learning）を提案しました：正しさに基づく強化学習を潜在変数生成の最大尤度問題として再定義し、さらに計算量をインデックスとする一連の目標関数を導入し、訓練目標が真の最大尤度最適化に徐々に近づくようにしました。

論文タイトル：Maximum Likelihood Reinforcement Learning

論文リンク：https://arxiv.org/abs/2602.02710

プロジェクトアドレス：https://zanette-labs.github.io/MaxRL/

Githubアドレス：https://github.com/tajwarfahim/maxrl

従来の強化学習の「ボトルネック」問題

コード生成、数学推論、多段階意思決定などのタスクにおいて、私たちはほぼ既定のコンセンサスを形成しています：

フィードバックが二値で、プロセスが微分不可能であれば、強化学習を使用する。

強化学習というパラダイムは、AlphaGoから大規模言語モデルの推論能力向上までの重要な進展を支えてきました。

エンドツーエンドの観点から見れば、強化学習は入力が与えられたとき、モデルが暗黙的に「成功確率」を誘導することです。微分可能性の制約を考慮しない場合、最も自然で、最も原則的な目標は最大尤度です。

しかし、論文研究チームは発見しました：

期待報酬に基づく強化学習は、実際には最大尤度目標の一階近似を最適化しているに過ぎない。より具体的には、最大尤度目標は全体レベルで一連のpass@kイベントを基盤とする項に展開されますが、標準強化学習はその一階項のみを最適化しています。

簡単に言えば、強化学習は真に「モデルが正しい答えを生成する確率」を最大化しておらず、実際の尤度と系統的な偏差を持つ代替目標を最適化しています。

これにより、広く存在するが言葉にしがたい現象が説明されます：

強化学習は初期段階で急速に進歩しますが、後期になるほど、性能向上が困難になります。

研究チームはこの新たな発見に対し、「正しさフィードバックに基づく強化学習」を再定義し、論文の主な貢献は以下の通りです：

正しさに基づく強化学習を潜在変数生成の最大尤度問題として形式化し、標準強化学習が最大尤度目標の一階近似のみを最適化することを証明しました。
計算量をインデックスとする一連の目標関数を提案し、pass@kイベントをマクローリン展開することで、期待報酬と正確な最大尤度の間に連続的な補間を実現しました。
単純なon-policy推定器を導出しました。その期待勾配は、その計算量インデックスの尤度近似目標と完全に一致します。これは、サンプリングを増やすことが、最適化される目標自体を真に改善することを意味します。

最大尤度：真に最適化目標を改善する

研究チームは、最大尤度推定が教師あり学習で卓越した性能を示すのなら、なぜ強化学習で直接実現しないのかと考えます。

前節の観察は示唆しています：計算量に応じて変化する目標関数族を構築し、徐々に高階項を導入できます。利用可能な計算リソースが増えるにつれて、この目標関数族は完全な最大尤度目標に収束します。

論文は一連の導出を通じて、最大尤度目標を失敗イベント方面でマクローリン展開しました：

展開式の最大尤度勾配は、有限サンプルで推定することが困難です。

特に、大きなk値のpass@k勾配を推定するには、越来越多のサンプルが必要になります。特に合格率pが小さい場合、この有限サンプルの困難さが、最大尤度強化学習（MaxRL）を提案する動機となっています。

研究チームはMaxRLを、最大尤度を明示的に目標とする強化学習手法のクラスとして定義しました。合格率を目標とするのではなく、有限サンプリングと微分不可能な生成条件下でも実現可能です。以下に、この目標を実現する原則的な方法を検討します。

マクローリン展開式を有限階で切断して最大尤度目標を近似し、その目標を推定することを検討します。切断レベルT ∈Nに対して、固定入力xの切断最大尤度目標を以下のように定義します：

これに導関数を求めて、切断された全体勾配を得ます：

これは一連の目標関数を定義します：T = 1は強化学習に還元され、T → ∞は最大尤度に還元され、中間のT値はその両者の間に補間します。したがって、切断レベルTは、学習に役立つ正しさイベントの次数を直接制御します。rolloutでより多くの計算量を消費するにつれて、高階勾配の推定が可行になります。

言い換えれば：MaxRLは、計算量を増やすことで、最大尤度目標へのより忠実な近似を得るための原則的なフレームワークを提供します。

上記の式は、実行可能な無偏推定の考え方を既に示しています：pass@k勾配推定器を利用して、有限級数の各項をそれぞれ近似します。この戦略では、pass@k推定器の改善は、切断最大尤度目標のより優れた勾配推定に直接変換されます。

ただし、本論文では、研究者は異なる道を採り、より簡潔な推定器形式をもたらし、同時に新たな理解の視点を提供します。

最大尤度目標の勾配は、以下の条件付き期待値形式で書くことができます：

この定理は、最大尤度勾配が成功軌道の勾配のみを平均したものと等価であることを示しています。この説明は、具体的な勾配推定器を構築するための直接的な道筋を提供します：サンプリングで得られた成功軌道を用いて、上記の条件付き期待値をサンプル平均すればよいのです。

その核心的な洞見は：

最大尤度目標の勾配は、「成功条件分布」下での期待値として表現できることです。

したがって、本文では単純な戦略を採用しました：条件付けされていない政策分布からサンプリングしますが、成功軌道のみを平均し、強化学習スタイルの推定器を得ました。これは、rollout数の増加に伴い、最大尤度勾配の近似が不断に改善される特性を持ちます。

換言すれば、MaxRLフレームワークでは、追加の計算リソースは推定品質を改善するだけでなく、最適化される目標自体を直接改善します。

驚くべき効率の進歩

実験では、この変更は予想をはるかに超える利益をもたらしました。研究チームは複数のモデル規模と多様なタスクでMaxRLを系統的に評価し、その結果、MaxRLは性能と計算効率のトレードオフにおいて、既存の強化学習手法を安定して上回ることが示されました。

実験結果は、MaxRLの訓練効率における優位性を直感的に示しています。同じ訓練ステップ数で、MaxRLの性能向上は明らかに速く、rollout数の増加に伴い、MaxRLは持続的に恩恵を受けます。

この優位性は訓練段階だけでなく、GRPOで訓練されたモデルと比較して、MaxRLのテスト時のスケーリング効率は最大で20倍向上します。

迷路タスクでは、テスト時のサンプリング予算kの値に関わらず、訓練rolloutsの増加に伴い、MaxRLは−log (Pass@k)を持続的に低下させますが、GRPOとRLOOの改善幅度は明らかにより早く平坦化します。この結果は、訓練段階でのMaxRLの優れた性能–効率トレードオフを直感的に示しています。

異なるpass@k設定下で、各手法が訓練中のサンプリング計算の増加に伴う最適化傾向を比較すると、GRPOとRLOOでは、曲線が早期に下降した後すぐに平坦化し、追加サンプリングが主にノイズを低減するために使用されていることがわかります。一方、MaxRLは異なるk値で持続的に下降し、モデルを最大尤度に近い最適化目標に不断に近づけます。

より大規模な設定でも、MaxRLの優位性は安定して保持されます。これは、MaxRLがもたらす改善が特定の規模やハイパーパラメータ設定に依存していないことを示しています。訓練規模が拡大しても、MaxRLは収益が急速に減少したり、優位性が消失したりすることはありません。

さらに、実験結果は、MaxRLの優位性が過度に理想化された実験条件に依存していないことを示しています。フィードバックにノイズが存在したり、検証信号が完全に信頼できない設定下でも、MaxRLは相対的に安定した性能優位性を保持できます。

全体として、MaxRLは微分不可能でサンプリングベースの学習問題に対して、より深い解法を提供します。計算量に応じて自然に拡張する目標フレームワークを通じて、真の尤度最適化を系統的に近似します。

最適化目標自体が計算能力に応じて進化し、徐々に最大尤度に近づくとき、強化学習は汎用知能への長期的な答えとなるのか、それとも次の訓練パラダイムへの移行案に過ぎないのか？

詳細は、原論文をご参照ください。

技術交流群招待状

△長押ししてアシスタントを追加

QRコードをスキャンしてアシスタントのWeChatを追加

備考欄に以下を記入してください：

名前-学校/会社-研究方向

（例：張さん-ハルビン工業大学-対話システム）

これで、自然言語処理/Pytorchなどの技術交流群に参加申請ができます。

私たちについて

MLNLPコミュニティは、国内外の機械学習と自然言語処理の学者が共同で構築した民間学術コミュニティで、すでに国内外で有名な機械学習と自然言語処理のコミュニティに発展しました。機械学習、自然言語処理の学術界、産業界、そして多くの愛好家之间的進歩を促進することを目的としています。

コミュニティは、関連する専門家の深造、就職、研究などに開放的な交流プラットフォームを提供できます。私たちを关注し、参加することを歓迎します。

強化学習は最適ではない、CMUが最大尤度強化学習を提案

関連記事

分享網址