最近大語言模型(LLM)在數學推理等複雜任務上的表現越來越驚豔。特別是「基於可驗證獎勵的強化學習」(Reinforcement Learning with Verifiable Rewards,簡稱RLVR)這個訓練範式,已經成為進一步提升模型推理能力的主流方法。簡單來說,就是讓模型做數學題,做對了給獎勵,做錯了不給,透過這種方式讓模型越來越聰明。
但問題來了——強化學習訓練特別「燒錢」,需要海量算力。為了降低成本,研究者們通常會用參數高效微調(PEFT)方法,其中最流行的就是LoRA(低秩適應)。LoRA的核心思想很簡單:不更新所有參數,只訓練一小部分低秩矩陣,就能達到不錯的效果。
但這裡有個關鍵問題:大家預設用LoRA,真的是因為它最適合強化學習嗎?
這篇論文的作者團隊(來自浙江大學、香港科技大學、布朗大學等機構)就盯上了這個問題。他們發現,雖然LoRA的各種變體層出不窮,但在強化學習場景下,大家幾乎都還在用最原始的標準LoRA。這太奇怪了——明明在監督學習場景下,DoRA、AdaLoRA等變體已經被證明比標準LoRA更強,為什麼在強化學習中就沒人系統研究過呢?
於是,作者們提出了核心研究問題:哪種參數高效方法最適合強化學習?
為了回答這個問題,他們建立了一個大規模評測基準,在DeepSeek-R1-Distill模型家族(1.5B和7B參數規模)上測試了超過12種PEFT方法,涵蓋MATH-500、AIME24/25等數學推理任務。
論文的三大核心發現非常顛覆認知:
結構變體完勝標準LoRA:DoRA、MiSS、AdaLoRA這些結構變體的表現持續超越標準LoRA,DoRA甚至比全參數微調還要強!
SVD初始化會「翻車」:PiSSA、MiLoRA這類基於奇異值分解(SVD)的初始化策略在強化學習中會徹底崩潰。作者透過頻譜分析揭示了背後的機制:這些方法強制在主成分上更新,但強化學習偏偏需要在「非主成分」空間學習,兩者根本不相容。
參數壓縮不是越狠越好:VeRA、Rank-1適配器這種極端壓縮方法會嚴重限制模型的「可塑性」,導致性能崩盤。強化學習需要一定的表達能力下限,壓得太狠反而學不到東西。
相關工作:RLVR與PEFT的「前世今生」
RLVR:用驗證器「調教」模型
傳統的RLHF(基於人類回饋的強化學習)需要人工標註,成本高昂。而RLVR換了個思路:對於數學題、程式碼這類有確定答案的任務,直接用規則驗證器(比如檢查數學答案是否正確)給獎勵。這種方法的核心演算法是GRPO(組相對策略優化)。
GRPO的工作原理是:給模型一道題,讓它產生多個答案(比如8個),然後用這一組答案的獎勵來計算「優勢值」,判斷哪些答案應該被強化,哪些應該被抑制。目標函數大概長這樣:
後來還出現了DAPO、Dr. GRPO等改進版本,主要解決訓練不穩定、樣本效率低等問題。比如DAPO引入了「非對稱裁切」策略,讓低機率的探索token更容易被提升;Dr. GRPO去掉了長度歸一化,避免模型偏好「長而錯」的答案。
PEFT家族:十八般武藝各顯神通
PEFT方法可以分成幾大類:
基線方法:全參數微調(性能上限)和標準LoRA(效率基線)。LoRA的核心公式是:
其中是凍結的預訓練權重,和是低秩矩陣,是秩(通常遠小於原始維度)。
結構變體:這類方法改變了LoRA的架構設計。比如DoRA把權重更新拆成「方向」和「幅度」兩部分;AdaLoRA用類似SVD的結構動態調整秩;MiSS透過子網路選擇來分配參數。
初始化策略:保留LoRA架構,但改變初始化方式。PiSSA和MiLoRA用SVD把分解,然後用主成分或次要成分初始化適配器;LoRA+給和設置不同的學習率。
極端壓縮:為了省顯存,LoRA-FA凍結只訓練;VeRA更狠,連低秩矩陣都凍結,只訓練縮放向量。
其他PEFT:比如LayerNorm Tuning只調歸一化層參數;IA³透過逐元素乘法縮放激活值。
核心方法:如何「公平競賽」這12種PEFT?
實驗設計
為了確保評測的公平性和可靠性,作者們下了很大功夫:
模型選擇:用DeepSeek-R1-Distill系列的1.5B和7B模型。這些模型已經經過監督微調(SFT),具備基礎推理能力和標準輸出格式(把推理過程放在<think>標籤裡,最終答案放在\boxed{}裡)。
資料集:使用DAPO-Math-17k資料集(約17,400道高品質數學題),在AIME24/25、MATH-500、AMC等六個數學推理基準上評測。
訓練配置:統一超參數——學習率1e-5、LoRA秩32、dropout 0.05。每道題產生8個答案,用DAPO演算法訓練。1.5B模型訓練1024步(批次大小128),7B模型訓練8192步(批次大小32)。
獎勵機制:非常嚴格的二元獎勵——答案完全正確得1分,否則0分。用latex2sympy和math_verify來驗證數學等價性。
評測指標:為了應對AIME這類樣本量小的基準的統計波動,採用Avg@k指標(k次生成的平均準確率)和Pass@1(k次生成中至少有一次正確)。
消融實驗的「四個維度」
為了驗證發現的穩健性,作者們做了非常全面的消融研究:
批次大小(32 vs 128):測試PEFT方法是否像SFT那樣偏好小批次。
演算法變體(GRPO、DAPO、Dr. GRPO):驗證結論是否依賴特定演算法。
學習率(1e-5、5e-6、1e-6):確認最佳學習率範圍。
LoRA秩(1、8、16、32):探索秩與性能的關係。
實驗效果:三大發現顛覆認知
發現1:LoRA已經「過時」,結構變體才是王道
實驗結果一出來就很震撼:標準LoRA(42.5%)全面落後於全參數微調(44.9%),而結構變體們則大放異彩:
DoRA:平均準確率46.6%,不僅超越LoRA,甚至比全參數微調還強!在AIME24上達到39.0%,在AMC上71.9%。
AdaLoRA:44.2%,穩定超越LoRA。
MiSS:43.4%,也比LoRA表現更好。
為什麼會這樣?作者認為,標準LoRA的低秩約束太「死板」,無法應對強化學習中複雜的策略調整需求。而DoRA透過解耦幅度和方向,AdaLoRA透過自適應秩分配,MiSS透過參數分片,都提供了更優化的靈活空間,更符合RLVR的優化動態。
核心結論:別再無腦用標準LoRA了!在強化學習場景下,結構變體才是最佳選擇。
發現2:SVD初始化的「災難性崩潰」
這個發現特別有趣。理論上,PiSSA和MiLoRA這類SVD初始化方法應該挺合理的:
PiSSA:用主成分(大奇異值)初始化,假設重要資訊集中在主成分。
MiLoRA:反其道而行,用次要成分(小奇異值)初始化,認為這樣能保留更多「新」資訊。
結果呢?PiSSA直接崩盤到0.2%準確率,MiLoRA也只有18.0%。這是怎麼回事?
作者做了深入的頻譜分析(見圖3)。關鍵發現是:強化學習更新主要發生在「非主成分」空間。最近的研究(Zhu et al., 2025)揭示,RLVR為了保護預訓練模型的知識結構,會避開高曲率的主成分,在低曲率的非主成分子空間學習。
PiSSA為什麼失敗:它強制在主成分上更新,和RLVR的「非主成分偏好」直接衝突,導致訓練崩潰。
MiLoRA為什麼失敗:雖然初始化在次要成分,但這些成分的奇異值太小(接近0),導致初始適配器幾乎為零。沒有足夠的初始偏誤,梯度會自動「滑向」主成分方向(因為梯度沿著最大方差方向),最終還是退化成主成分更新。
頻譜分析圖顯示:MiLoRA最終的更新分布和PiSSA幾乎一樣,都在主成分上有明顯尖峰,而全參數微調的更新是均勻分佈在整個頻譜上的。
核心結論:基於SVD的初始化策略不適合RLVR。如果想改進初始化,應該像LoRA+那樣調整學習率動態,而不是玩SVD分解的花樣。
發現3:參數壓縮的「表達力地板」
很多人可能覺得,參數越少越好——既省顯存又省算力。但實驗揭示了一個殘酷真相:強化學習對參數量有下限要求。
對比一下不同方法的可訓練參數比例:
全參數:100%(準確率44.9%)
LoRA:1.55%(準確率42.5%)
MiSS:0.99%(準確率43.4%)——壓縮到LoRA的2/3,性能反而略好
LoRA-FA:凍結一半參數(準確率43.0%)——還能接受
VeRA:0.0029%(準確率40.7%)——崩了
IA³:只調縮放向量(準確率22.3%)——崩得更厲害
LN Tuning:只調歸一化層(準確率41.8%)——勉強能用但明顯變弱
Rank-1 LoRA(準確率40.5%)——和基線模型一樣,等於沒訓練
為什麼會這樣?作者解釋說,強化學習的監督訊號是稀疏的(只有0或1的獎勵訊號),不像監督學習有密集的token級別回饋。這種稀疏訊號需要足夠的參數空間來「承載」複雜的策略調整。極端壓縮方法(如VeRA只訓練縮放向量)創造了一個「資訊瓶頸」,嚴重限制了模型學習推理行為的能力。
核心結論:參數高效不等於參數越少越好。要在效率和表達力之間找平衡,別把模型「餓」得太厲害。
消融實驗:結論穩如泰山
作者做的消融實驗也很有料:
批次大小:和SFT不同,RLVR對批次大小沒那麼敏感。小批次(32)略好於大批次(128),但差距不大。這可能是因為強化學習的稀疏獎勵不會像SFT的密集訊號那樣「撐爆」適配器容量。
演算法變體:無論用GRPO、DAPO還是Dr. GRPO,結論都一致——說明PEFT方法的優劣是由「稀疏可驗證獎勵」這個根本特性決定的,而不是具體演算法細節。
學習率:驗證了之前的縮放律——最佳學習率大約是。太大學不動,太小不穩定。
LoRA秩:Rank=32 > Rank=16 > Rank=8 >> Rank=1。別信「Rank=1就夠了」的鬼話,保持適中的秩(16-32)才是王道。
7B模型驗證:結論可擴展
為了證明發現不是1.5B小模型的特殊現象,作者在7B模型上重複了實驗。結果非常一致:
LoRA:54.8%
DoRA:55.0%
LoRA+:55.5%(最佳)
MiSS:53.4%
DoRA和LoRA+仍然穩定超越標準LoRA,說明結構優化和學習率調整的優勢在大模型上依然有效。
論文總結:給強化學習訓練指一條明路
這篇論文做了一件非常紮實的工作:第一次系統評測了PEFT方法在強化學習中的表現。三大發現為我們指明了方向:
停用標準LoRA,改用結構變體:DoRA、MiSS、AdaLoRA在RLVR場景下明顯更強,DoRA甚至能超越全參數微調。如果你還在用標準LoRA訓練強化學習模型,那真的該升級工具箱了。
遠離SVD初始化的坑:PiSSA和MiLoRA在強化學習中會翻車,原因是它們和RLVR的「非主成分更新」特性存在根本性衝突。如果想優化初始化,學LoRA+調學習率就好,別折騰SVD分解。
保持適度的參數量:極端壓縮(VeRA、IA³、Rank-1)會讓模型「餓」到學不動。強化學習的稀疏訊號需要足夠的表達能力,別為了省那點顯存犧牲性能。
作者們還很誠實地指出了未來工作方向:遷移到更高性能的訓練框架(如VeRL)、深入研究適配器動態的理論機制、擴展到多模態和長期訓練場景、解決權重合併的數值穩定性問題等。
最後的最後,這篇論文給強化學習社區提供了一份「PEFT選型指南」:如果你要訓練數學推理、程式碼生成等基於驗證器回饋的模型,DoRA是首選,LoRA+是備選,標準LoRA只能算「能用但不夠好」,而SVD初始化和極端壓縮方法請直接避開。這份指南,值得每個做RLVR的研究者和工程師收藏!