著者:王天楽 香港城市大学データサイエンス学科博士課程学生、指導教官は苗寧教授、研究分野は大規模言語モデル推論。
DeepSeek-R1の爆発的な人気により、RLVR(検証報酬付き強化学習)が再び大規模モデル後訓練(Post-training)の焦点となっている。しかし、R1-Zeroや類似プロセスを再現した経験のある方ならご存知の通り、RLVRは非常に高コストだ。数千もの訓練ステップが必要なだけでなく、モデルの思考連鎖(CoT)が長くなるにつれ、後期の各ステップの計算コストが指数関数的に増加する。
果たして、長大なRL訓練を一歩一歩完了する必要はあるのか?
本日紹介するのは、ArXivに投稿されたばかりの論文《Not All Steps are Informative: On the Linearity of LLMs' RLVR Training》だ。
https://arxiv.org/abs/2601.04537論文:https://arxiv.org/abs/2601.04537コード:https://github.com/Miaow-Lab/RLVR-Linearityこの研究は、直観に反する現象を明らかにした:RLVRプロセスにおいて、LLMの重みと出力確率が驚くべき線形変化を示す!
この発見に基づき、「重み外挿」手法を提案、訓練せずに、直接未来のモデルを「計算」することで、最大6.1倍の訓練加速を実現した。
01. 直観に反する発見:RLVR訓練は「線形」か?
Transformer自体は高度に非線形な複雑系であり、直観的にはそのパラメータ更新軌跡は複雑に曲がりくねっているはずだと思う。しかし、DeepSeek-R1-Distillシリーズモデルに対する複数のRLアルゴリズム(GRPO, Reinforce++, GSPO)での訓練過程を分析した結果、驚くべき事実が明らかになった:
1. 重みの線形変化
RL訓練ステップ数が増加するにつれ、モデル重みの変化はステップ数と強く線形相関を示す。実験では、80%を超えるパラメータのR²(決定係数)が0.7以上であり、多くは0.9付近に集中していた。
つまり、モデルの第1000ステップの状態は、第100ステップと第200ステップから直線を引くことでほぼ予測できるのだ!
2. 出力Log-Probの線形変化
さらに驚くべきことに、この線形性はパラメータ空間だけでなく、モデルの出力行動にも直接反映されている。同一のプロンプトに対して、モデルが特定のトークンを生成する対数確率(Log-Probability)も訓練ステップ数に対して線形変化する。
多くは接続詞(例: "wait", "but"):確率が線形変化する。上昇はモデルが反省や逆接などの振る舞いを学習したことを示し、下降は誤ったパスを示す。
(図注:左図は重みのR²分布、右図はトークンの対数確率の変化を示し、明確な線形傾向が見られる)
これは何を意味するのか?
現在のRLVR訓練は、後期に「新たな戦略を不断に探索」しているのではなく、訓練初期に最適化方向を決定し、残りの数千ステップは単にこの傾向を拡大しているに過ぎない可能性を示唆している。
02. なぜこのような現象が起こるのか?
論文内で理論的説明を提供しているが、簡単に言えば:
- • 低学習率 & 大バッチサイズ: RLVRは通常、極小の学習率(< 1e-5)と大きなバッチサイズ(加えてRollout数)を使用する。
- • Adamオプティマイザの特性: 勾配方向が比較的安定している状況では、Adamオプティマイザは一定の更新ステップ長を生成する傾向がある。
- • 一次項支配: Transformerは非線形だが、パラメータ変化が小さい場合、出力の変化は主に重みの一次変化項によって支配され(テイラー展開の一次近似)、二次項(ヘッセ行列)の影響はごくわずかである。
この「線形性」は本質的に示す:RLVRの計算量の大部分は、繰り返し作業に費やされている可能性が高い。
03. この特性をどう活用するか?「外挿」から「交互訓練」へ
RL訓練軌跡が強い線形特性を持つことが確認されたので、大胆に推測できる:冗長な中間ステップをスキップし、直接未来のモデルを「計算」する。
我々は三つの活用戦略を提案する:
1. Logit Extrapolation(Logits外挿)
これは追加訓練なしで「未来を予知」するテクニックだ。LLMの訓練軌跡が線形であることが確認されれば、二つの早期チェックポイント(θ_t1とθ_t2)のlogitsを選択し、単純な線形式を使用して未来の任意のステップ(t)の出力分布を計算できる:
ここでαは拡大係数である。
実験結果(驚き):これは単に未来を模倣するだけでなく、未来を超越することさえある。
実験データによると、Logits外挿はAIMEとLiveCodeBenchの両方で一貫した性能向上を示した。さらに重要なことに、RL訓練後期によく見られる「エントロピー崩壊(Entropy Collapse)」や過学習問題を効果的に抑制する。
簡単に言えば、後期訓練におけるノイズを「フィルタリング」し、愚直に訓練を完了するよりも約3%高い性能を獲得した。
2. Weight Extrapolation(重み外挿)—— 直接パラメータを予測
Logits外挿が結果を予測するなら、Weight Extrapolationは直接モデル本体を予測する:
実験結果(逆U字型曲線):
早期チェックポイントを固定し、異なるステップ数まで後方外挿を試みたところ、興味深い「逆U字型」現象が観察された:
一定の範囲内(例:数百ステップ)、直接計算されたモデルの性能は実際の訓練に全く引けを取らない。しかし、あまりにも大きなステップを踏む(例:step 300から直接step 2000へ)と、性能は上昇した後に下降する。
これは、大方向は線形だが、モデルは長距離移動中に微調整を必要とし、純粋な線形外挿には限界があることを示す。
3. RL-Extra(交互式訓練)—— 核となる必殺技
長距離における純粋な外挿の誤差を解決するため、RL-Extraを提案する:「数ステップのRLで方向を校正 -> 大きく外挿 -> 再び数ステップのRLで校正 -> 再び外挿」。
核心理念は:「少量の実際のRL訓練で方向を校正(Grounding)し、大量の線形外挿で高速に前進する。」
これは周期的な循環プロセス(サイクルN):
1. 校正フェーズ(Grounding): Mステップの通常のRL勾配更新(例:GRPO)を行い、モデルが正しいReward信号を学習し、最適化軌跡を修正することを保証する。
2. 加速フェーズ(Extrapolation): 先ほど決定した方向に基づき、重み空間で直接Kステップ線形外挿する。
3. 循環: 再度RL更新に戻り、方向を修正し、再度外挿する。
04. 実験結果:計算資源を節約し、同等の効果
AIME24、MATH-500、LiveCodeBenchなどの権威あるベンチマークで、RL-Extraは驚異的な効率を示した:
- • 速度向上: 同等のAIME24正答率(例:38%)を達成する場合、標準RLは1100ステップ必要だが、RL-Extra(20 RLステップ + 100 外挿ステップ)はわずか180ステップの実際のRL計算しか必要としない。
- • 総合加速比: 6.1倍のWall-clock speedupを達成!
- • 性能損失なし: 様々な計算予算下で、RL-Extraの性能は標準RL訓練を上回るか、同等である。
(図注:RL-Extraは同等の訓練予算下で、性能が常に標準RLを上回る)
これは、RL訓練における大量の計算ステップが実際には「線形繰り返し」に過ぎず、数学的外挿で完全に置き換えられることを再度裏付けている。
05. まとめと考察
この論文は、実用的な加速Trickを提供するだけでなく、RLVRの訓練メカニズムを再考するきっかけを与える。
1、情報密度が低い: 既存のRLVR訓練ステップの大部分は、情報増分が極めて低く、単に決定されたルートを機械的に実行しているに過ぎない。
2、方向が王様: 訓練初期の方向探索(Exploration)は、我々が想像する以上に重要であり、方向が決定されれば、残りは線形の「実行」である。
3、普遍性: この結論は、Qwen、Llama、DeepSeekなど様々な基盤モデル、およびGRPO、Reinforce++など様々なアルゴリズムで検証されている。
リソースが限られており、DeepSeek-R1の再現や垂直分野のReasoningモデル訓練を試みたい人にとって、RL-Extraは間違いなく試す価値のある「節約」案だ。
One More Thing:
もしあなたのGPUが燃えているなら、まずCheckpointを取り出してグラフを描いてみてはどうだろう。あなたのモデルも一直線の広い道を歩いているかもしれず、あなたがそれを「外挿」するのを待っている!
引用リンク
[1] 苗寧: https://www.ningmiao.space/