RLVR強化学習の学習コストが98%急減！12種のPEFT手法を大比較、結果は意外だった...

最近、大規模言語モデル（LLM）は数学的推論などの複雑なタスクにおけるパフォーマンスがますます驚異的になっています。特に、「検証可能な報酬に基づく強化学習」（Reinforcement Learning with Verifiable Rewards、略してRLVR）という学習パラダイムは、モデルの推論能力をさらに向上させる主流の方法となっています。簡単に言うと、モデルに数学の問題を解かせ、正解には報酬を与え、不正解には報酬を与えないことで、モデルを賢くしていくというものです。

しかし、問題があります——強化学習の学習は特に「燃やす」ようにコストがかかり、大量の計算資源を必要とします。コストを削減するために、研究者たちは通常、パラメータ効率的微調整（PEFT）手法を使用します。その中で最も一般的なのがLoRA（低ランク適応）です。LoRAの核心的な考え方はシンプルです：すべてのパラメータを更新するのではなく、わずか一部分の低ランク行列のみを学習することで、良い結果を得るというものです。

しかし、ここに关键な問題があります：みんながLoRAを使うのは、それが強化学習に最も適しているからでしょうか？

この論文の著者チーム（浙江大学、香港科技大学、ブラウン大学などの機関から）はこの問題に注目しました。彼らは、LoRAの様々な派生形が次々と登場しているにもかかわらず、強化学習のシーンでは、ほとんどが最も原始的な標準的なLoRAを使い続けていることに気づきました。これは奇妙です——明らかに、教師あり学習のシーンでは、DoRAやAdaLoRAなどの派生形は標準的なLoRAよりも強いと証明されているのに、なぜ強化学習では体系的に研究されてこなかったのでしょうか。

於是、著者たちは核心的な研究課題を提起しました：どのパラメータ効率的な手法が強化学習に最適か？

この問いに答えるために、彼らは大規模な評価ベンチマークを構築し、DeepSeek-R1-Distillモデルファミリー（1.5Bおよび7Bパラメータ規模）上で12種類以上のPEFT手法をテストし、MATH-500、AIME24/25などの数学的推論タスクをカバーしました。

論文の3つの核心的な発見は非常に反直感的です：

構造派生形が標準LoRAを完全に上回る：DoRA、MiSS、AdaLoRAなどの構造派生形のパフォーマンスは標準的なLoRAを継続的に上回り、DoRAは甚至、全パラメータ微調整よりも強くなります！
SVD初期化の「破滅的崩壊」：特異値分解（SVD）に基づく初期化戦略、例えばPiSSAやMiLoRAは、強化学習では完全に失敗します。著者たちはスペクトル分析を通じて背後のメカニズムを明らかにしました：これらの手法は強制的に主成分で更新しますが、強化学習は偏偏「非主成分」空間で学習する必要があり、両者は根本的に相容れません。
パラメータ圧縮は越えれば越好ではない：VeRAやRank-1アダプターのような極端な圧縮手法は、モデルの「可塑性」を嚴重に制限し、パフォーマンスを崩壊させます。強化学習には一定の表現能力の下限が必要で、壓縮しすぎると逆に何も学べません。

核心的な方法：どうやってこれら12のPEFTを「公平に競わせる」か？

実験設計

評価の公平性と信頼性を確保するために、著者たちは大きな努力をしました：

モデル選択：DeepSeek-R1-Distillシリーズの1.5Bおよび7Bモデルを使用しました。これらのモデルはすでに監督微調整（SFT）を経ていて、基礎的な推論能力と標準出力形式（推論プロセスを<think>タグ内に置き、最終答えを\boxed{}内に置く）を持っています。

データセット：DAPO-Math-17kデータセット（約17,400の高品質な数学問題）を使用し、AIME24/25、MATH-500、AMCなどの6つの数学的推論ベンチマークで評価しました。

学習設定：ハイパーパラメータを統一——学習率1e-5、LoRAランク32、dropout 0.05。各問題につき8個の答えを生成し、DAPOアルゴリズムで学習しました。1.5Bモデルは1024ステップ（バッチサイズ128）で学習し、7Bモデルは8192ステップ（バッチサイズ32）で学習しました。

報酬メカニズム：非常に厳しい二元報酬——答えが完全に正しければ1点、それ以外は0点。数学の等価性を確認するために、latex2sympyとmath_verifyを使用しました。

評価指標：AIMEのようなサンプルサイズの小さなベンチマークの統計的変動に対応するため、Avg@k指標（k回生成の平均正解率）とPass@1（k回生成のうち少なくとも1回が正解）を採用しました。

消去実験の「4つの次元」

発見の頑健性を検証するために、著者たちは非常に包括的な消去研究を行いました：

バッチサイズ（32 vs 128）：PEFT手法がSFTのように小さなバッチを好むかどうかをテスト。
アルゴリズムの派生形（GRPO、DAPO、Dr. GRPO）：結論が特定のアルゴリズムに依存するかどうかを検証。
学習率（1e-5、5e-6、1e-6）：最適な学習率範囲を確認。
LoRAランク（1、8、16、32）：ランクとパフォーマンスの関係を探索。

実験効果：3つの発見が認知を覆す

発見1：LoRAはすでに「時代遅れ」、構造派生形こそが王道

実験結果が出たときから非常に衝撃的でした：標準的なLoRA（42.5%）は全パラメータ微調整（44.9%）に全面的に後れ、一方、構造派生形は大きく輝きました：

DoRA：平均正解率46.6%、LoRAを超越するだけでなく、甚至、全パラメータ微調整よりも強かったです！AIME24で39.0%、AMCで71.9%に達しました。
AdaLoRA：44.2%、安定してLoRAを上回りました。
MiSS：43.4%、LoRAよりも良いパフォーマンスを示しました。

なぜこんなことが起こるのでしょうか？著者たちは、標準的なLoRAの低ランク拘束が「堅すぎて」、強化学習の複雑な戦略調整ニーズに対応できないと考えています。DoRAは幅度と方向を分離し、AdaLoRAは適応的なランク割り当てを、MiSSはパラメータ共有を通過することで、より柔軟な最適化空間を提供し、RLVRの最適化動態に更适合しています。

核心的な結論：もう無条件に標準的なLoRAを使わないでください！強化学習のシーンでは、構造派生形が最適な選択です。

発見2：SVD初期化の「破滅的崩壊」

この発見は特に面白いです。理論的には、PiSSAやMiLoRAのようなSVD初期化手法は合理的に思えます：

PiSSA：主成分（大きな特異値）で初期化し、重要な情報が主成分に集中していると仮定。
MiLoRA：逆に、副成分（小さな特異値）で初期化し、这样才能「新しい」情報をより多く保持できると考える。

結果はどうでしょうか？PiSSAは直接0.2%の正解率で崩壊し、MiLoRAもわずか18.0%でした。これはどういうことでしょうか？

著者たちは深いスペクトル分析（図3参照）を行いました。核心的な発見は：強化学習の更新は主に「非主成分」空間で発生するということです。最近の研究（Zhu et al., 2025）は、RLVRが事前学習済みモデルの知識構造を保護するために、高曲率の主成分を避け、低曲率の非主成分子空間で学習することを明らかにしました。

PiSSAが失敗する理由：它は強制的に主成分で更新しますが、RLVRの「非主成分偏好」と直接冲突し、学習が崩壊します。
MiLoRAが失敗する理由：副成分で初期化しますが、これらの成分の特異値が小さすぎて（0に近い）、初期アダプターがほぼゼロになってしまいます。十分な初期偏見がないと、勾配は自動的に「滑って」主成分方向に向かい（勾配が最大分散方向に沿うため）、結局は主成分更新に退化します。

スペクトル分析図は、MiLoRAの最終的な更新分布がPiSSAとほぼ同じで、主成分に明確なピークがあり、一方、全パラメータ微調整の更新は整个スペクトルに均一に分布していることを示しています。

核心的な結論：SVDに基づく初期化戦略はRLVRには適合しません。初期化を改善したい場合は、LoRA+のように学習率動態を調整するのであって、SVD分解のトリックを弄るのではありません。

発見3：パラメータ圧縮の「表現力の床」

多くの人はおそらく、パラメータが少ないほど良い——メモリも計算も節約できる——と考えるかもしれません。しかし、実験は残酷な真実を明らかにしました：強化学習にはパラメータ数に下限要求があります。

異なる手法の学習可能パラメータ比率を比較してみましょう：

全パラメータ：100%（正解率44.9%）
LoRA：1.55%（正解率42.5%）
MiSS：0.99%（正解率43.4%）——LoRAの2/3に壓縮されているのに、性能はむしろわずかに良い
LoRA-FA：半分のパラメータを凍結（正解率43.0%）——まだ受け入れられる
VeRA：0.0029%（正解率40.7%）——崩壊
IA³：スケーリングベクトルのみ調整（正解率22.3%）——さらに崩壊
LN Tuning：正規化層のみ調整（正解率41.8%）——ぎりぎり使えるが明顯に弱い
Rank-1 LoRA（正解率40.5%）——ベースラインモデルと同じで、等しく訓練なし

なぜでしょうか？著者たちは、強化学習の監督信号はスパースである（0または1の報酬信号のみ）と説明します。これは、密集したトークンレベルのフィードバックを持つ教師あり学習とは異なります。このスパース信号は、複雑な戦略調整を「担う」のに十分なパラメータ空間を必要とします。極端な圧縮手法（例えばVeRAがスケーリングベクトルのみを学習するなど）は、「情報ボトルネック」を作り、モデルが推論行動を学ぶ能力を嚴重に制限します。

核心的な結論：パラメータ効率的＝パラメータが少ないほど良い、ではありません。効率と表現力のバランスを取り、「空腹」にしすぎないようにしてください。

消去実験：結論は堅牢である

著者たちが行った消去実験もまた、中身があります：

バッチサイズ：SFTとは異なり、RLVRはバッチサイズにそれほど敏感ではありません。小さなバッチ（32）は大きなバッチ（128）よりもわずかに良いですが、差は大きくありません。これはおそらく、強化学習のスパース報酬が、SFTの密集した信号のようにアダプター容量を「撑て爆発」させないからです。

アルゴリズムの派生形：GRPO、DAPO、Dr. GRPOのいずれを使用しても、結論は一致しています——これは、PEFT手法の優劣が「スパースで検証可能な報酬」という根本特性によって決定され、特定のアルゴリズムの詳細には依存しないことを示しています。

学習率：これまでのスケーリング法則を検証しました——最適な学習率は大体です。大きすぎるとうまくいかず、小さすぎる学べません。

LoRAランク：Rank=32 > Rank=16 > Rank=8 >> Rank=1。「Rank=1で十分」という噂を信じないでください。適度なランク（16-32）を維持するのが王道です。

7Bモデル検証：結論は拡張可能である

発見が1.5B小モデルの特殊な現象でないことを証明するために、著者たちは7Bモデルで実験を繰り返しました。結果は非常に一致しています：

LoRA：54.8%
DoRA：55.0%
LoRA+：55.5%（最良）
MiSS：53.4%

DoRAとLoRA+は依然として標準的なLoRAを安定して上回り、構造最適化と学習率調整の優位性が大モデルでも有効であることが示されています。

論文まとめ：強化学習の学習に明確な道を示す

この論文は非常に堅実な仕事をしました：初めてPEFT手法を強化学習において体系的に評価しました。3つの発見が私たちに正しい方向を指し示します：

標準LoRAを使い止めて、構造派生形に切り替える：DoRA、MiSS、AdaLoRAはRLVRのシーンで明らかに強く、DoRAは甚至、全パラメータ微調整をも超えます。もしまだ標準LoRAで強化学習モデルを学習しているなら、ツールボックスをアップグレードする時です。
SVD初期化の落とし穴から遠ざかる：PiSSAとMiLoRAは強化学習で失敗します。なぜなら、它们はRLVRの「非主成分更新」と根本的に矛盾するからです。もし初期化を改善したいなら、LoRA+のように学習率を調整するだけで、SVD分解を弄る必要はありません。
適度なパラメータ数を維持する：極端な圧縮（VeRA、IA³、Rank-1）はモデルを「空腹」にし、学べなくします。スパースな信号を出す強化学習には十分な表現能力が必要で、性能を犠牲にしてまでメモリを節約する必要はありません。

著者たちはまた、正直に将来の研究方向を指摘しました：更高性能の学習フレームワーク（如VeRL）への移行、アダプター動態の理論的メカニズムの深掘り、多モーダルおよび長期学習シーンへの拡張、重み結合の数値安定性問題の解決など。

最後に、この論文は強化学習コミュニティに「PEFT選択ガイド」を提供しました：もし数学的推論やコード生成など、検証器フィードバックに基づくモデルを学習するなら、DoRAが第一候補、LoRA+が第二候補、標準LoRAは「使えるが不十分」と言えます。SVD初期化や極端な圧縮手法は、直接避けるべきです。このガイドは、RLVRに関わるすべての研究者やエンジニアが収集すべきものです！

RLVR強化学習の学習コストが98%急減！12種のPEFT手法を大比較、結果は意外だった...

関連研究：RLVRとPEFTの「前世今生」

RLVR：検証器で「調教」するモデル

PEFTファミリー：十八番の技を競う