RLVR強化學習訓練成本暴降98%!12種PEFT方法大PK,結果讓人意外...

最近大語言模型(LLM)在數學推理等複雜任務上的表現越來越驚豔。特別是「基於可驗證獎勵的強化學習」(Reinforcement Learning with Verifiable Rewards,簡稱RLVR)這個訓練範式,已經成為進一步提升模型推理能力的主流方法。簡單來說,就是讓模型做數學題,做對了給獎勵,做錯了不給,透過這種方式讓模型越來越聰明。

但問題來了——強化學習訓練特別「燒錢」,需要海量算力。為了降低成本,研究者們通常會用參數高效微調(PEFT)方法,其中最流行的就是LoRA(低秩適應)。LoRA的核心思想很簡單:不更新所有參數,只訓練一小部分低秩矩陣,就能達到不錯的效果。

但這裡有個關鍵問題:大家預設用LoRA,真的是因為它最適合強化學習嗎?

這篇論文的作者團隊(來自浙江大學、香港科技大學、布朗大學等機構)就盯上了這個問題。他們發現,雖然LoRA的各種變體層出不窮,但在強化學習場景下,大家幾乎都還在用最原始的標準LoRA。這太奇怪了——明明在監督學習場景下,DoRA、AdaLoRA等變體已經被證明比標準LoRA更強,為什麼在強化學習中就沒人系統研究過呢?

於是,作者們提出了核心研究問題:哪種參數高效方法最適合強化學習?

為了回答這個問題,他們建立了一個大規模評測基準,在DeepSeek-R1-Distill模型家族(1.5B和7B參數規模)上測試了超過12種PEFT方法,涵蓋MATH-500、AIME24/25等數學推理任務。

論文的三大核心發現非常顛覆認知:

  1. 結構變體完勝標準LoRA:DoRA、MiSS、AdaLoRA這些結構變體的表現持續超越標準LoRA,DoRA甚至比全參數微調還要強!

  2. SVD初始化會「翻車」:PiSSA、MiLoRA這類基於奇異值分解(SVD)的初始化策略在強化學習中會徹底崩潰。作者透過頻譜分析揭示了背後的機制:這些方法強制在主成分上更新,但強化學習偏偏需要在「非主成分」空間學習,兩者根本不相容。

  3. 參數壓縮不是越狠越好:VeRA、Rank-1適配器這種極端壓縮方法會嚴重限制模型的「可塑性」,導致性能崩盤。強化學習需要一定的表達能力下限,壓得太狠反而學不到東西。

圖片

相關工作:RLVR與PEFT的「前世今生」

RLVR:用驗證器「調教」模型

傳統的RLHF(基於人類回饋的強化學習)需要人工標註,成本高昂。而RLVR換了個思路:對於數學題、程式碼這類有確定答案的任務,直接用規則驗證器(比如檢查數學答案是否正確)給獎勵。這種方法的核心演算法是GRPO(組相對策略優化)。

GRPO的工作原理是:給模型一道題,讓它產生多個答案(比如8個),然後用這一組答案的獎勵來計算「優勢值」,判斷哪些答案應該被強化,哪些應該被抑制。目標函數大概長這樣:

後來還出現了DAPO、Dr. GRPO等改進版本,主要解決訓練不穩定、樣本效率低等問題。比如DAPO引入了「非對稱裁切」策略,讓低機率的探索token更容易被提升;Dr. GRPO去掉了長度歸一化,避免模型偏好「長而錯」的答案。

PEFT家族:十八般武藝各顯神通

PEFT方法可以分成幾大類:

基線方法:全參數微調(性能上限)和標準LoRA(效率基線)。LoRA的核心公式是:

其中是凍結的預訓練權重,是低秩矩陣,是秩(通常遠小於原始維度)。

結構變體:這類方法改變了LoRA的架構設計。比如DoRA把權重更新拆成「方向」和「幅度」兩部分;AdaLoRA用類似SVD的結構動態調整秩;MiSS透過子網路選擇來分配參數。

初始化策略:保留LoRA架構,但改變初始化方式。PiSSA和MiLoRA用SVD把分解,然後用主成分或次要成分初始化適配器;LoRA+給設置不同的學習率。

極端壓縮:為了省顯存,LoRA-FA凍結只訓練;VeRA更狠,連低秩矩陣都凍結,只訓練縮放向量。

其他PEFT:比如LayerNorm Tuning只調歸一化層參數;IA³透過逐元素乘法縮放激活值。

圖片

核心方法:如何「公平競賽」這12種PEFT?

實驗設計

圖片為了確保評測的公平性和可靠性,作者們下了很大功夫:

模型選擇:用DeepSeek-R1-Distill系列的1.5B和7B模型。這些模型已經經過監督微調(SFT),具備基礎推理能力和標準輸出格式(把推理過程放在<think>標籤裡,最終答案放在\boxed{}裡)。

資料集:使用DAPO-Math-17k資料集(約17,400道高品質數學題),在AIME24/25、MATH-500、AMC等六個數學推理基準上評測。

訓練配置:統一超參數——學習率1e-5、LoRA秩32、dropout 0.05。每道題產生8個答案,用DAPO演算法訓練。1.5B模型訓練1024步(批次大小128),7B模型訓練8192步(批次大小32)。

獎勵機制:非常嚴格的二元獎勵——答案完全正確得1分,否則0分。用latex2sympy和math_verify來驗證數學等價性。

評測指標:為了應對AIME這類樣本量小的基準的統計波動,採用Avg@k指標(k次生成的平均準確率)和Pass@1(k次生成中至少有一次正確)。

消融實驗的「四個維度」

為了驗證發現的穩健性,作者們做了非常全面的消融研究:

  1. 批次大小(32 vs 128):測試PEFT方法是否像SFT那樣偏好小批次。

  2. 演算法變體(GRPO、DAPO、Dr. GRPO):驗證結論是否依賴特定演算法。

  3. 學習率(1e-5、5e-6、1e-6):確認最佳學習率範圍。

  4. LoRA秩(1、8、16、32):探索秩與性能的關係。

實驗效果:三大發現顛覆認知

發現1:LoRA已經「過時」,結構變體才是王道

實驗結果一出來就很震撼:標準LoRA(42.5%)全面落後於全參數微調(44.9%),而結構變體們則大放異彩:

  • DoRA:平均準確率46.6%,不僅超越LoRA,甚至比全參數微調還強!在AIME24上達到39.0%,在AMC上71.9%。

  • AdaLoRA:44.2%,穩定超越LoRA。

  • MiSS:43.4%,也比LoRA表現更好。

為什麼會這樣?作者認為,標準LoRA的低秩約束太「死板」,無法應對強化學習中複雜的策略調整需求。而DoRA透過解耦幅度和方向,AdaLoRA透過自適應秩分配,MiSS透過參數分片,都提供了更優化的靈活空間,更符合RLVR的優化動態。

核心結論:別再無腦用標準LoRA了!在強化學習場景下,結構變體才是最佳選擇。

圖片

發現2:SVD初始化的「災難性崩潰」

這個發現特別有趣。理論上,PiSSA和MiLoRA這類SVD初始化方法應該挺合理的:

  • PiSSA:用主成分(大奇異值)初始化,假設重要資訊集中在主成分。

  • MiLoRA:反其道而行,用次要成分(小奇異值)初始化,認為這樣能保留更多「新」資訊。

結果呢?PiSSA直接崩盤到0.2%準確率,MiLoRA也只有18.0%。這是怎麼回事?

作者做了深入的頻譜分析(見圖3)。關鍵發現是:強化學習更新主要發生在「非主成分」空間。最近的研究(Zhu et al., 2025)揭示,RLVR為了保護預訓練模型的知識結構,會避開高曲率的主成分,在低曲率的非主成分子空間學習。

  • PiSSA為什麼失敗:它強制在主成分上更新,和RLVR的「非主成分偏好」直接衝突,導致訓練崩潰。

  • MiLoRA為什麼失敗:雖然初始化在次要成分,但這些成分的奇異值太小(接近0),導致初始適配器幾乎為零。沒有足夠的初始偏誤,梯度會自動「滑向」主成分方向(因為梯度沿著最大方差方向),最終還是退化成主成分更新。

頻譜分析圖顯示:MiLoRA最終的更新分布和PiSSA幾乎一樣,都在主成分上有明顯尖峰,而全參數微調的更新是均勻分佈在整個頻譜上的。

圖片

核心結論:基於SVD的初始化策略不適合RLVR。如果想改進初始化,應該像LoRA+那樣調整學習率動態,而不是玩SVD分解的花樣。

發現3:參數壓縮的「表達力地板」

很多人可能覺得,參數越少越好——既省顯存又省算力。但實驗揭示了一個殘酷真相:強化學習對參數量有下限要求

對比一下不同方法的可訓練參數比例:

  • 全參數:100%(準確率44.9%)

  • LoRA:1.55%(準確率42.5%)

  • MiSS:0.99%(準確率43.4%)——壓縮到LoRA的2/3,性能反而略好

  • LoRA-FA:凍結一半參數(準確率43.0%)——還能接受

  • VeRA:0.0029%(準確率40.7%)——崩了

  • IA³:只調縮放向量(準確率22.3%)——崩得更厲害

  • LN Tuning:只調歸一化層(準確率41.8%)——勉強能用但明顯變弱

  • Rank-1 LoRA(準確率40.5%)——和基線模型一樣,等於沒訓練

為什麼會這樣?作者解釋說,強化學習的監督訊號是稀疏的(只有0或1的獎勵訊號),不像監督學習有密集的token級別回饋。這種稀疏訊號需要足夠的參數空間來「承載」複雜的策略調整。極端壓縮方法(如VeRA只訓練縮放向量)創造了一個「資訊瓶頸」,嚴重限制了模型學習推理行為的能力。

核心結論:參數高效不等於參數越少越好。要在效率和表達力之間找平衡,別把模型「餓」得太厲害。

圖片

消融實驗:結論穩如泰山

作者做的消融實驗也很有料:

批次大小:和SFT不同,RLVR對批次大小沒那麼敏感。小批次(32)略好於大批次(128),但差距不大。這可能是因為強化學習的稀疏獎勵不會像SFT的密集訊號那樣「撐爆」適配器容量。

演算法變體:無論用GRPO、DAPO還是Dr. GRPO,結論都一致——說明PEFT方法的優劣是由「稀疏可驗證獎勵」這個根本特性決定的,而不是具體演算法細節。

學習率:驗證了之前的縮放律——最佳學習率大約是。太大學不動,太小不穩定。

LoRA秩:Rank=32 > Rank=16 > Rank=8 >> Rank=1。別信「Rank=1就夠了」的鬼話,保持適中的秩(16-32)才是王道。

圖片

7B模型驗證:結論可擴展

為了證明發現不是1.5B小模型的特殊現象,作者在7B模型上重複了實驗。結果非常一致:

  • LoRA:54.8%

  • DoRA:55.0%

  • LoRA+:55.5%(最佳)

  • MiSS:53.4%

DoRA和LoRA+仍然穩定超越標準LoRA,說明結構優化和學習率調整的優勢在大模型上依然有效

圖片

論文總結:給強化學習訓練指一條明路

這篇論文做了一件非常紮實的工作:第一次系統評測了PEFT方法在強化學習中的表現。三大發現為我們指明了方向:

  1. 停用標準LoRA,改用結構變體:DoRA、MiSS、AdaLoRA在RLVR場景下明顯更強,DoRA甚至能超越全參數微調。如果你還在用標準LoRA訓練強化學習模型,那真的該升級工具箱了。

  2. 遠離SVD初始化的坑:PiSSA和MiLoRA在強化學習中會翻車,原因是它們和RLVR的「非主成分更新」特性存在根本性衝突。如果想優化初始化,學LoRA+調學習率就好,別折騰SVD分解。

  3. 保持適度的參數量:極端壓縮(VeRA、IA³、Rank-1)會讓模型「餓」到學不動。強化學習的稀疏訊號需要足夠的表達能力,別為了省那點顯存犧牲性能。

作者們還很誠實地指出了未來工作方向:遷移到更高性能的訓練框架(如VeRL)、深入研究適配器動態的理論機制、擴展到多模態和長期訓練場景、解決權重合併的數值穩定性問題等。

最後的最後,這篇論文給強化學習社區提供了一份「PEFT選型指南」:如果你要訓練數學推理、程式碼生成等基於驗證器回饋的模型,DoRA是首選,LoRA+是備選,標準LoRA只能算「能用但不夠好」,而SVD初始化和極端壓縮方法請直接避開。這份指南,值得每個做RLVR的研究者和工程師收藏!


分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.