RLVR強化學習訓練成本暴降98%！12種PEFT方法大PK，結果讓人意外...

最近大語言模型（LLM）在數學推理等複雜任務上的表現越來越驚豔。特別是「基於可驗證獎勵的強化學習」（Reinforcement Learning with Verifiable Rewards，簡稱RLVR）這個訓練範式，已經成為進一步提升模型推理能力的主流方法。簡單來說，就是讓模型做數學題，做對了給獎勵，做錯了不給，透過這種方式讓模型越來越聰明。

但問題來了——強化學習訓練特別「燒錢」，需要海量算力。為了降低成本，研究者們通常會用參數高效微調（PEFT）方法，其中最流行的就是LoRA（低秩適應）。LoRA的核心思想很簡單：不更新所有參數，只訓練一小部分低秩矩陣，就能達到不錯的效果。

但這裡有個關鍵問題：大家預設用LoRA，真的是因為它最適合強化學習嗎？

這篇論文的作者團隊（來自浙江大學、香港科技大學、布朗大學等機構）就盯上了這個問題。他們發現，雖然LoRA的各種變體層出不窮，但在強化學習場景下，大家幾乎都還在用最原始的標準LoRA。這太奇怪了——明明在監督學習場景下，DoRA、AdaLoRA等變體已經被證明比標準LoRA更強，為什麼在強化學習中就沒人系統研究過呢？

於是，作者們提出了核心研究問題：哪種參數高效方法最適合強化學習？

為了回答這個問題，他們建立了一個大規模評測基準，在DeepSeek-R1-Distill模型家族（1.5B和7B參數規模）上測試了超過12種PEFT方法，涵蓋MATH-500、AIME24/25等數學推理任務。

論文的三大核心發現非常顛覆認知：

結構變體完勝標準LoRA：DoRA、MiSS、AdaLoRA這些結構變體的表現持續超越標準LoRA，DoRA甚至比全參數微調還要強！
SVD初始化會「翻車」：PiSSA、MiLoRA這類基於奇異值分解（SVD）的初始化策略在強化學習中會徹底崩潰。作者透過頻譜分析揭示了背後的機制：這些方法強制在主成分上更新，但強化學習偏偏需要在「非主成分」空間學習，兩者根本不相容。
參數壓縮不是越狠越好：VeRA、Rank-1適配器這種極端壓縮方法會嚴重限制模型的「可塑性」，導致性能崩盤。強化學習需要一定的表達能力下限，壓得太狠反而學不到東西。

相關工作：RLVR與PEFT的「前世今生」

RLVR：用驗證器「調教」模型

傳統的RLHF（基於人類回饋的強化學習）需要人工標註，成本高昂。而RLVR換了個思路：對於數學題、程式碼這類有確定答案的任務，直接用規則驗證器（比如檢查數學答案是否正確）給獎勵。這種方法的核心演算法是GRPO（組相對策略優化）。

GRPO的工作原理是：給模型一道題，讓它產生多個答案（比如8個），然後用這一組答案的獎勵來計算「優勢值」，判斷哪些答案應該被強化，哪些應該被抑制。目標函數大概長這樣：

後來還出現了DAPO、Dr. GRPO等改進版本，主要解決訓練不穩定、樣本效率低等問題。比如DAPO引入了「非對稱裁切」策略，讓低機率的探索token更容易被提升；Dr. GRPO去掉了長度歸一化，避免模型偏好「長而錯」的答案。

PEFT家族：十八般武藝各顯神通

PEFT方法可以分成幾大類：

基線方法：全參數微調（性能上限）和標準LoRA（效率基線）。LoRA的核心公式是：

其中是凍結的預訓練權重，和是低秩矩陣，是秩（通常遠小於原始維度）。

結構變體：這類方法改變了LoRA的架構設計。比如DoRA把權重更新拆成「方向」和「幅度」兩部分；AdaLoRA用類似SVD的結構動態調整秩；MiSS透過子網路選擇來分配參數。

初始化策略：保留LoRA架構，但改變初始化方式。PiSSA和MiLoRA用SVD把分解，然後用主成分或次要成分初始化適配器；LoRA+給和設置不同的學習率。

極端壓縮：為了省顯存，LoRA-FA凍結只訓練；VeRA更狠，連低秩矩陣都凍結，只訓練縮放向量。

其他PEFT：比如LayerNorm Tuning只調歸一化層參數；IA³透過逐元素乘法縮放激活值。

核心方法：如何「公平競賽」這12種PEFT？

實驗設計

為了確保評測的公平性和可靠性，作者們下了很大功夫：

模型選擇：用DeepSeek-R1-Distill系列的1.5B和7B模型。這些模型已經經過監督微調（SFT），具備基礎推理能力和標準輸出格式（把推理過程放在<think>標籤裡，最終答案放在\boxed{}裡）。

資料集：使用DAPO-Math-17k資料集（約17,400道高品質數學題），在AIME24/25、MATH-500、AMC等六個數學推理基準上評測。

訓練配置：統一超參數——學習率1e-5、LoRA秩32、dropout 0.05。每道題產生8個答案，用DAPO演算法訓練。1.5B模型訓練1024步（批次大小128），7B模型訓練8192步（批次大小32）。

獎勵機制：非常嚴格的二元獎勵——答案完全正確得1分，否則0分。用latex2sympy和math_verify來驗證數學等價性。

評測指標：為了應對AIME這類樣本量小的基準的統計波動，採用Avg@k指標（k次生成的平均準確率）和Pass@1（k次生成中至少有一次正確）。

消融實驗的「四個維度」

為了驗證發現的穩健性，作者們做了非常全面的消融研究：

批次大小（32 vs 128）：測試PEFT方法是否像SFT那樣偏好小批次。
演算法變體（GRPO、DAPO、Dr. GRPO）：驗證結論是否依賴特定演算法。
學習率（1e-5、5e-6、1e-6）：確認最佳學習率範圍。
LoRA秩（1、8、16、32）：探索秩與性能的關係。

實驗效果：三大發現顛覆認知

發現1：LoRA已經「過時」，結構變體才是王道

實驗結果一出來就很震撼：標準LoRA（42.5%）全面落後於全參數微調（44.9%），而結構變體們則大放異彩：

DoRA：平均準確率46.6%，不僅超越LoRA，甚至比全參數微調還強！在AIME24上達到39.0%，在AMC上71.9%。
AdaLoRA：44.2%，穩定超越LoRA。
MiSS：43.4%，也比LoRA表現更好。

為什麼會這樣？作者認為，標準LoRA的低秩約束太「死板」，無法應對強化學習中複雜的策略調整需求。而DoRA透過解耦幅度和方向，AdaLoRA透過自適應秩分配，MiSS透過參數分片，都提供了更優化的靈活空間，更符合RLVR的優化動態。

核心結論：別再無腦用標準LoRA了！在強化學習場景下，結構變體才是最佳選擇。

發現2：SVD初始化的「災難性崩潰」

這個發現特別有趣。理論上，PiSSA和MiLoRA這類SVD初始化方法應該挺合理的：

PiSSA：用主成分（大奇異值）初始化，假設重要資訊集中在主成分。
MiLoRA：反其道而行，用次要成分（小奇異值）初始化，認為這樣能保留更多「新」資訊。

結果呢？PiSSA直接崩盤到0.2%準確率，MiLoRA也只有18.0%。這是怎麼回事？

作者做了深入的頻譜分析（見圖3）。關鍵發現是：強化學習更新主要發生在「非主成分」空間。最近的研究（Zhu et al., 2025）揭示，RLVR為了保護預訓練模型的知識結構，會避開高曲率的主成分，在低曲率的非主成分子空間學習。

PiSSA為什麼失敗：它強制在主成分上更新，和RLVR的「非主成分偏好」直接衝突，導致訓練崩潰。
MiLoRA為什麼失敗：雖然初始化在次要成分，但這些成分的奇異值太小（接近0），導致初始適配器幾乎為零。沒有足夠的初始偏誤，梯度會自動「滑向」主成分方向（因為梯度沿著最大方差方向），最終還是退化成主成分更新。

頻譜分析圖顯示：MiLoRA最終的更新分布和PiSSA幾乎一樣，都在主成分上有明顯尖峰，而全參數微調的更新是均勻分佈在整個頻譜上的。

核心結論：基於SVD的初始化策略不適合RLVR。如果想改進初始化，應該像LoRA+那樣調整學習率動態，而不是玩SVD分解的花樣。

發現3：參數壓縮的「表達力地板」

很多人可能覺得，參數越少越好——既省顯存又省算力。但實驗揭示了一個殘酷真相：強化學習對參數量有下限要求。

對比一下不同方法的可訓練參數比例：

全參數：100%（準確率44.9%）
LoRA：1.55%（準確率42.5%）
MiSS：0.99%（準確率43.4%）——壓縮到LoRA的2/3，性能反而略好
LoRA-FA：凍結一半參數（準確率43.0%）——還能接受
VeRA：0.0029%（準確率40.7%）——崩了
IA³：只調縮放向量（準確率22.3%）——崩得更厲害
LN Tuning：只調歸一化層（準確率41.8%）——勉強能用但明顯變弱
Rank-1 LoRA（準確率40.5%）——和基線模型一樣，等於沒訓練

為什麼會這樣？作者解釋說，強化學習的監督訊號是稀疏的（只有0或1的獎勵訊號），不像監督學習有密集的token級別回饋。這種稀疏訊號需要足夠的參數空間來「承載」複雜的策略調整。極端壓縮方法（如VeRA只訓練縮放向量）創造了一個「資訊瓶頸」，嚴重限制了模型學習推理行為的能力。

核心結論：參數高效不等於參數越少越好。要在效率和表達力之間找平衡，別把模型「餓」得太厲害。

消融實驗：結論穩如泰山

作者做的消融實驗也很有料：

批次大小：和SFT不同，RLVR對批次大小沒那麼敏感。小批次（32）略好於大批次（128），但差距不大。這可能是因為強化學習的稀疏獎勵不會像SFT的密集訊號那樣「撐爆」適配器容量。

演算法變體：無論用GRPO、DAPO還是Dr. GRPO，結論都一致——說明PEFT方法的優劣是由「稀疏可驗證獎勵」這個根本特性決定的，而不是具體演算法細節。

學習率：驗證了之前的縮放律——最佳學習率大約是。太大學不動，太小不穩定。

LoRA秩：Rank=32 > Rank=16 > Rank=8 >> Rank=1。別信「Rank=1就夠了」的鬼話，保持適中的秩（16-32）才是王道。

7B模型驗證：結論可擴展

為了證明發現不是1.5B小模型的特殊現象，作者在7B模型上重複了實驗。結果非常一致：

LoRA：54.8%
DoRA：55.0%
LoRA+：55.5%（最佳）
MiSS：53.4%

DoRA和LoRA+仍然穩定超越標準LoRA，說明結構優化和學習率調整的優勢在大模型上依然有效。

論文總結：給強化學習訓練指一條明路

這篇論文做了一件非常紮實的工作：第一次系統評測了PEFT方法在強化學習中的表現。三大發現為我們指明了方向：

停用標準LoRA，改用結構變體：DoRA、MiSS、AdaLoRA在RLVR場景下明顯更強，DoRA甚至能超越全參數微調。如果你還在用標準LoRA訓練強化學習模型，那真的該升級工具箱了。
遠離SVD初始化的坑：PiSSA和MiLoRA在強化學習中會翻車，原因是它們和RLVR的「非主成分更新」特性存在根本性衝突。如果想優化初始化，學LoRA+調學習率就好，別折騰SVD分解。
保持適度的參數量：極端壓縮（VeRA、IA³、Rank-1）會讓模型「餓」到學不動。強化學習的稀疏訊號需要足夠的表達能力，別為了省那點顯存犧牲性能。

作者們還很誠實地指出了未來工作方向：遷移到更高性能的訓練框架（如VeRL）、深入研究適配器動態的理論機制、擴展到多模態和長期訓練場景、解決權重合併的數值穩定性問題等。

最後的最後，這篇論文給強化學習社區提供了一份「PEFT選型指南」：如果你要訓練數學推理、程式碼生成等基於驗證器回饋的模型，DoRA是首選，LoRA+是備選，標準LoRA只能算「能用但不夠好」，而SVD初始化和極端壓縮方法請直接避開。這份指南，值得每個做RLVR的研究者和工程師收藏！