思考をより正確に、より長く！新しい強化学習アルゴリズム「FIPO」が登場

OpenAI の「o1」などのモデルが卓越した複雑な推論能力を示すにつれ、検証可能な報酬に基づく強化学習（RLVR）が大規模言語モデル（LLM）の性能向上における鍵となる技術パスとして注目されています。しかし、強化学習という「ブラックボックス」の内部では実際には何が起こっているのでしょうか。また、既存のアルゴリズムにはどのようなボトルネックが存在するのでしょうか。

このほど、アリババグループの通義実験室（Tongyi Lab）に所属する Qwen Pilot チームは、大規模モデルの強化学習の基盤メカニズムと潜在的な限界を深く分析する一連の技術ブログ 4 編を連続して公開しました。

これらの洞察に基づき、同チームは新アルゴリズム「FIPO（Future-KL Influenced Policy Optimization）」を正式に発表しました。この手法は「Future-KL（将来の KL 散度）」メカニズムを巧みに導入することで、純粋な RL 訓練において頑固に存在していた「推論長の停滞」という課題を効果的に解決しました。32B（320 億パラメータ）のベースモデルのみを用いた比較実験において、FIPO は SFT（指示微調整）データによる事前学習や価値モデルの補助を一切必要とせず、最先端の収束限界を示しました。さらに、権威ある数学評価ベンチマークにおいて、同規模の DeepSeek-Zero-MATH や「o1-mini」を性能面で上回ることに初めて成功し、ミドルスケール・パラメータにおける純粋 RL 訓練の新たなベンチマークをオープンソースコミュニティに樹立しました。

テセウスの船：

出力の 98% は変化せず、RL の本質は「希少かつ決定的」な経路誘導にある

大規模モデルは強化学習（RL）によるファインチューニングを経た後、その内部の推論メカニズムは完全に「書き換え」られてしまうのでしょうか。この「テセウスの船」にも喩えるべき難問に答えるため、チームはトークンレベルでモデルの挙動を詳細に解剖しました。

その研究結果は業界の常識を覆すものでした。生成ステップの绝大多数において、RL 適用後のモデルとベースモデルの挙動は極めて類似しており、トークン分布の 98% 以上はほとんど変化していなかったのです。

上図（a）および（b）に示されるように、モデル出力分布の JS 発散（JS Divergence）はシーケンスの大部分の位置でゼロに収束しており、ごく一部の位置でのみパルス状の急増が見られます。

これは、検証可能な報酬に基づく強化学習（RLVR）がモデルのために全く新しい大域的な能力を無から生み出したわけではなく、その最適化メカニズムは「極めて希少だが決定的（Sparse but critical）」な特徴を示していることを意味します。図（c）の軌跡の可視化が示すように、RL の役割は正確な「車線変更のスイッチ」のようです。少数の重要な論理的決定点（RL edit）でのみ微細な介入を行うことで、ベースモデルが本来持っているが全行程で維持するのは困難だった正しい推論軌道へとモデルを導くのです。

重要な点の特定（Direction）：

変化量の盲点を突破し、「方向性」で推論の中核を正確に特定する

「バタフライ効果」を引き起こす重要なトークンがこれほど希少であるならば、研究者はいかにして数万もの出力の中からそれを正確に見つければよいのでしょうか。

さらなる探求の中で、チームは業界で一般的に使用されている従来の評価指標（エントロピーや KL 散度など）に本質的な観測の盲点があることを発見しました。それらはモデルが「どれだけ変化したか（変化量）」を測定することはできても、変化の具体的な「形」を明らかにすることはできないのです。

上図（a）とヒストグラム（b）が示すように、従来の指標による観測では、ベースモデルと RL モデルの出力分布は高度に重複しており、依然として「大海で針を探す」ような状態です。しかし、チームが変化量のみの指標を捨て、記号対数確率差（Δ log P）という新たな次元を導入すると、RL の内部論理は瞬時に明確になりました。

Δ log P は最適化の「方向性（Direction）」を正確に捉えることができます。RL アルゴリズムが特定のトークンの生成を「奨励（正の方向）」しているのか、それとも「抑制（負の方向）」しているのかを明確に定量化するのです。上図（c）のトークン置換実験が最も説得力のある証明となっています。Δ log P を用いて選別された重要な決定点は、極めて低い置換比率で RL による完全な推論性能を最も効率的に回復させることができ、その精度は KL 散度やエントロピーを遥かに凌駕しています。

この方向性の法則を把握したことで、チームは推論軌跡に影響を与える中核的なハブを最速で特定できただけでなく、工学的にも新たな道筋を切り開きました。テスト段階において、Δ log P の方向にこれらの重要な決定を直接拡大させることで、モデルはいかなる追加訓練も行うことなく、数学的問題解決の精度を著しく向上させることができるのです。

長い推論の隠れたリスク（Secrets）の解明：

高頻度で発生する「Oops Moment」と大域報酬メカニズムの限界

最適化の重要な方向性を特定する方法を掌握した後、チームはモデルの長い推論プロセスにおける具体的な挙動に目を向け、警鐘を鳴らすような発見をしました。業界では一般的に、大規模モデルが自己省察を通じて先行する誤りを正す（いわゆる「アハ・モーメント」と称されるもの）ことが期待されています。しかし、膨大な数の長い思考の連鎖（Chain of Thought）を深く分析した結果、チームはこれとは正反対で、極めて破壊的な現象、すなわち「自己誤誘導（Oops Moment）」を観測しました。その典型的な症状は、モデルがすでに中間ステップや最終的な正解を正確に導き出しているにもかかわらず、余計な「自己疑念」のシーケンスを誤って発動させてしまい、結果として正しい結論を強制的に覆し、最終出力を誤りとさせてしまうというものです。

この現象は複雑な数学的推論において頻繁に見られます。下表（Table 1）の典型的なケースが示すように、モデルは 108 ステップ目で目標とする結果（3507）を正確に計算し終えています。しかし直後、冗長な自己疑念（"Wait, let me double check..."）を生成し、その直後に自分で構築した誤った論理に完全に引きずり込まれ、最終的には荒唐無稽な誤った答え（15）を導き出してしまいました。

これは単なる偶然の個別事例なのか、それとも普遍的に存在するシステム上の欠陥なのか。膨大な量のゼロショット強化学習検証データを厳密に統計分析した結果、チームは深刻な現実を明らかにしました。

訓練サイクル全体を通じて、肯定的な「アハ・モーメント」は極めて稀であり、その割合は約 1% に過ぎません。これと対照的に、破壊的な「Oops Moment」の発生率は 3% 近い高水準で安定して推移しており、その発生頻度は「アハ・モーメント」の約 3 倍に達しています。

なぜモデルは頻繁にこのような「逆最適化」を引き起こすのか。

チームが指摘するには、その根本的な原因は、現在の主流である強化学習アルゴリズム（標準的な GRPO など）に「粗い粒度の信用割り当て（Coarse-Grained Credit Assignment）」という欠陥が存在することです。伝統的な大域報酬メカニズムは「均一配分（Uniform Advantage）」を採用しており、最終結果さえ正しければ、システムは思考の連鎖上のすべてのトークンに同じ報酬を平均的に配分します。

このメカニズムでは、どれが真に重要な論理の進展であり、どれが無意味な冗長な省察であるかを区別することができず、モデルは局所的な正誤の認識を欠いた状態に陥ります。長期的には、モデルは長いシーケンス推論において方向性を見失いやすく、最終的には「推論長の停滞」という性能のボトルネックに陥ることになるのです。

信用割り当ての再構築：

FIPO が「将来の影響度」を導入し、深層推論の可能性を解放する

上記 3 つの洞察を総合すると、現在の推論上のボトルネックを打破する技術的パスは明確になります。大規模モデルの推論能力の飛躍は、ごく少数の重要な決定点における正確な「車線変更」に依存しており（洞察 1 および 2 参照）、伝統的な大域報酬メカニズムはその粗い粒度の配分方式のためにこれらの重要点を識別できず、長いシーケンスにおいて高頻度の「Oops」災害を助長してしまっています（洞察 3 参照）。次世代の強化学習アルゴリズムは、「大域的一斉報酬」から「トークンレベルの精密な信用割り当て」への飛躍を遂げなければならないのです。

この信用割り当ての難題を完全に克服するため、チームは新たなFIPO（Future-KL Influenced Policy Optimization：将来 KL 影響方策最適化）アルゴリズムを正式に提案しました。

従来の GRPO アルゴリズムが軌跡の末端における二値の結果フィードバック（ORM）に高度に依存し、報酬を均等に按分するのに対し、FIPO は最適化のパラダイムを根本的な論理から再構築するものです。その中核指標として「将来の影響度（Future Impact）」を革新的に導入し、生成される各トークンがその後の推論軌跡全体の方向性に及ぼす因果関係をリアルタイムで追跡・定量化することを目指します。

中核メカニズム：

「将来の影響度（Future-KL）」を導入し、トークンレベルでの正確な評価を実現

FIPO アルゴリズムは、軌跡の終点でのみ集計される二値の結果フィードバック（ORM）への依存を減らし、因果的影響を捉えることを目的としたFuture-KL 推定メカニズムを革新的に導入しました。モデルが思考の連鎖を生成する過程で、FIPO は各トークンが引き起こす確率の偏移（Probability Shift）を鋭敏に追跡します。

これに基づき、現在のトークンが将来の全体的な因果的影響力は、後続の軌跡における確率偏移の累積として定義されます。

この指標のフィードバックに基づき、アルゴリズムは局所的な推論軌跡の正確な誘導を実現します。

正の強化（Reinforcement）：FutureKL_t > 0 の場合、更新された方策が後続の軌跡全体を強化する役割を果たしたことを示します。現在生成されたトークンは推論チェーン内の「安定の錨（アンカー）」と見なされ、アルゴリズムはその重みを増加させ、モデルが将来的にこの有効な経路を踏襲するよう促します。
負の抑制（Suppression）：逆に、FutureKL_t < 0 の場合、方策が将来のトークン生成を集団的に抑制していることを示します。これは、その点から派生する推論軌跡がもはやモデルに好まれていない（＝低効率または誤りである）ことを意味し、アルゴリズムはその分岐の重みを低下させ、非効率または誤った思考の継続を効果的に阻止します。

工学的な堅牢性の確保：

3 つのメカニズムによる訓練の不安定性の抑制

実際の訓練において、制約のない Future-KL は分布の偏移による分散を増幅させやすく、勾配爆発や壊滅的な訓練の崩壊を招く恐れがあります。FIPO の工学的な利点は、Qwen Pilot チームが 3 つの安定化メカニズム（Stability Mechanisms）を設計した点にあり、これにより最適化の円滑な進行を保証しています。

極端値のフィルタリング（Extreme Value Filtering）：アルゴリズムは、極端な更新変動の利点を持つトークンを明示的に遮断します。これにより、有効な推論信号を変えることなく、訓練における最大の不安定要因を除去します。
ソフトディケイウィンドウ（Soft Decay Window）：因果的影響力の減衰効果を模倣するために、割引係数（γ）を革新的に導入しました。このメカニズムは、モデルに局所的な論理的一貫性を優先的に注目させると同時に、遥か未来から累積されるノイズを滑らかにフィルタリングします。
影響度重みのクリッピング（Influence Weight Clipping）：利得の乗数係数となる影響度重み（⨍_t）を、あらかじめ設定された安全区間に厳密に制限します。これにより、極端な確率偏移に起因する数値的な崩壊を完全に防止します。

長さのボトルネックを突破：

1 万字の深層推論と精度の飛躍的な向上

この手法の有効性を検証するため、研究チームは長い論理的連鎖（Long-CoT）データに全く触れたことのないゼロベースのモデル「Qwen2.5-32B-Base」で評価を行いました。実験データは、複雑な数学的推論の解決における FIPO の画期的な進歩を示しています。

長さの停滞の突破：従来のベースラインアルゴリズムは、約 4,000 トークンを生成した時点で長さの停滞に陥ることが一般的です。一方、FIPO による正のインセンティブのもと、モデルの平均推論長は 1 万トークン以上にまで正常に引き上げられました。
精度のスケーリングの実現：実験により、「長さの増加は冗長な生成ではない」ことが明確に検証されました。FIPO の誘導により、応答長の増加はモデルの実際の問題解決精度と強い正の相関を示し、真に意味のある深い思考を実現しました。

最も挑戦的な数学ベンチマークテストの一つである「AIME 2024」において、FIPO はベースラインである DAPO アルゴリズムの 50.0% という性能の壁を打ち破り、精度を 58.0% という新たな高みに押し上げることに成功しました。これは、32B という同等のパラメータ規模でありながら、外部の長い思考連鎖の事前知識を一切持たない「純粋な強化学習（Pure RL）」の設定下で、o1-mini との性能の溝を埋めることに成功した初のオープンソースソリューションとなったことを意味します。

さらに、監視指標も FIPO 訓練プロセスの健全さを裏付けています。滑らかに上昇する方策 KL 散度（Policy KL）、低い水準で推移する勾配ノルム（Gradient Norm）、そして探求を維持するエントロピー（Entropy）は、モデルが機械的な局所適合に陥ることなく、安定してその推論空間を拡張していることを示しています。

論文：
https://arxiv.org/pdf/2603.19835

GitHub：
https://github.com/qwenpilot/FIPO

モデル：
https://huggingface.co/QwenPilot/FIPO_32B
https://modelscope.cn/models/chiyum609/FIPO_32B

訓練曲線：
https://swanlab.cn/@QwenPilot/FIPO

採用情報：アリババ通義実験室 QwenPilot チーム大規模言語モデルアルゴリズム専門家/インターン募集

チーム紹介：
QwenPilot チームはアリババグループの通義実験室に所属し、大規模言語モデルの発展過程における長期的かつ基礎的な課題の解決に取り組んでいます。我々の使命は、汎用知能を備えた次世代の AI システムを構築し、モデルに真の深層推論、計画、複雑な問題解決能力を備えさせることです。我々は、モデルがタスクやドメインを横断して汎化し、あらゆる実世界のシナリオにおいて信頼性が高く深遠な知能を発揮することを目指しています。同時に、動的環境における強力な意思決定と実行能力をモデルに付与するため、自律型エージェント（AI Agent）の最前線における探求を全力で推進しています。

勤務地： 北京、杭州、シアトル
募集職種： アルゴリズム専門家、インターン

主な研究分野：

最先端基盤モデルの探求と進化：次世代大規模モデルの研究開発と反復改良に取り組み、最先端の技術的ボトルネックを打破し、汎用知能のレベル向上と境界の突破を推進します。
モデル能力の評価と欠陥診断：モデル能力の境界を正確に描写する体系的な評価手法と指標を構築します。同時に、重要なタスクにおける能力の短所を特定し、失敗モードとその根本原因を深く分析します。
訓練メカニズムの探究と問題分析：大規模モデル訓練の核となるメカニズムと潜在的なボトルネックを深く研究し、訓練パラダイムの改善と進化のための強固な理論的指針を提供します。
より優れた訓練パラダイムの設計と探求：実践を通じて訓練方法論の進化を推進し、より強力で、より信頼性が高く、より知的なモデルを創出します。
Agentic RL アルゴリズムとアーキテクチャの探求と最適化：複雑な多段階推論および意思決定環境における強化学習の応用を深く研究し、長期的計画、ツール呼び出し、自己省察などの次元におけるモデルのパフォーマンスを向上させ、モデルの自己探求と進化能力を刺激します。

資格要件

基本要件：

世界のトップ大学で、コンピューターサイエンス、人工知能、機械学習、ディープラーニング、ソフトウェアエンジニアリング、数学、物理学、または関連分野を専攻し、博士号または修士号を有すること（博士号優遇）。
LLM システム、事前学習、Post-training（SFT / RL）、または評価において実務経験を有すること。
AI エージェントアーキテクチャの開発、または Agentic RL 分野において確かな実戦経験を有し、複雑な対話環境におけるエージェントの意思決定メカニズムに精通していること。
PyTorch または JAX などのディープラーニングフレームワークに精通し、確かなソフトウェアエンジニアリング能力を有すること。
優れた自己学習能力と自発性を有し、最先端分野に対して強い探求心と好奇心を持っていること。独立した思考、内省、要約が得意で、優れたコミュニケーション能力とチームワーク精神を有すること。

優遇条件：

veRL や Slime などの主要な LLM 強化学習および訓練フレームワークを深く理解し、使用できること。
vLLM や SGLang などの基盤となる推論およびデプロイメントフレームワークに精通していること。
マルチエージェント協調（Multi-Agent）または複雑環境下における Agentic RL において、豊富な開発・訓練経験を有すること。
NeurIPS、ICML、ICLR、ACL などのトップカンファレンスまたはジャーナルにおいて影響力のある論文を発表した経験があること。
著名なオープンソースプロジェクトへの重要な貢献があり、オープンソースコミュニティで大きな影響力を持っているか、LLM の開発および訓練において豊富な経験を有すること。

履歴書送付先：guoyin.wang@alibaba-inc.com

私をフォローして、千問（Qwen）大規模モデルの最新動向を掌握しよう

思考をより正確に、より長く！新しい強化学習アルゴリズム「FIPO」が登場

関連記事

分享網址