作者:王天樂
香港城市大學數據科學系博士生,導師為苗寧 [1] 教授,研究方向為大語言模型推理。
DeepSeek-R1 的爆紅讓 RLVR(帶驗證獎勵的強化學習) 再次成為大型語言模型後訓練(Post-training)的焦點。然而,有過復現 R1-Zero 或類似流程經驗的同學都知道,RLVR 極其昂貴——它不僅需要成千上萬個訓練步數,而且隨著模型思考鏈(CoT)變長,後期每一步的計算成本都在成倍增加。
我們是否真的一步一步地跑完漫長的 RL 訓練?
今天介紹一篇剛剛掛出的 ArXiv 論文 《Not All Steps are Informative: On the Linearity of LLMs' RLVR Training》。
論文:https://arxiv.org/abs/2601.04537
程式碼:https://github.com/Miaow-Lab/RLVR-Linearity
這項工作揭示了一個反直覺的現象:在 RLVR 過程中,LLM 的權重和輸出機率竟然呈現出驚人的線性變化!
基於這一發現,我們提出了一種「權重外推」的方法,不用訓練,直接「算」出未來的模型,實現了最高 6.1 倍 的訓練加速。
01. 反直覺的發現:RLVR 訓練是「線性」的?
Transformer 本身就是一個高度非線性的複雜系統,直覺上我們認為其參數更新軌跡應該是蜿蜒曲折的。然而,我們透過對 DeepSeek-R1-Distill 系列模型在多種 RL 演算法(GRPO, Reinforce++, GSPO)下的訓練過程分析,發現了一個令人驚訝的事實:
1. 權重的線性變化
隨著 RL 訓練步數的增加,模型權重的變化與步數呈現極強的線性相關性。在實驗中,超過 80% 的參數(決定係數)大於 0.7,大部分集中在 0.9 左右。
也就是說,模型在第 1000 步的樣子,幾乎可以透過第 100 步和第 200 步連一條直線畫出來!
2. 輸出 Log-Prob 的線性變化
更神奇的是,這種線性不僅存在於參數空間,還直接反映在模型的輸出行為上。對於同一個 Prompt,模型生成特定 Token 的 Log-Probability(對數機率)也隨訓練步數線性變化。
多為連接詞(如 "wait", "but"): 機率線性變化。上升代表模型學會了反思和轉折等行為;下降代表錯誤路徑。
(圖註:左圖為權重的分佈,右圖為 token 對數機率的變化,可見明顯的線性趨勢)
這意味著什麼?
這暗示了當前的 RLVR 訓練可能並沒有在後期「不斷探索新策略」,而是在訓練初期就確定了優化方向,剩下的幾千步更多是在簡單地放大這個趨勢(Amplify)。
02. 為什麼會這樣?
我們在文中給出了理論解釋,簡單來說:
- 低學習率 & 大批次大小(Batch Size): RLVR 通常使用極小的學習率(< 1e-5)和較大的 Batch Size(加上 Rollout 數量)。
- Adam 優化器特性: 在梯度方向相對穩定的情況下,Adam 優化器傾向於產生恆定的更新步長。
- 一階主導: 儘管 Transformer 是非線性的,但在參數變化較小的情況下,輸出的變化主要由權重的一階變化項主導(泰勒展開的一階近似),二階項的影響微乎其微。
這種「線性」本質上說明:RLVR 的大部分計算量,可能都在重複造輪子。
03. 如何利用這一特性?從「外推」到「交替訓練」
既然驗證了 RL 訓練軌跡具有極強的線性特徵,我們完全可以大膽一點:跳過那些冗餘的中間步驟,直接「計算」出未來的模型。
我們提出了三種利用策略:
1. Logit Extrapolation(Logits 外推)
這是一個無需額外訓練即可「預知未來」的技巧。既然驗證了 LLM 的訓練軌跡是線性的,我們只需選取兩個早期檢查點的 logits,透過簡單的線性公式即可算出未來某一步的輸出入分佈:
(此處為線性外推公式示意)
其中是放大係數。
實驗發現(驚喜): 這不僅僅是模擬未來,它甚至超越了未來。
實驗數據顯示,Logits 外推在 AIME 和 LiveCodeBench 上均取得了一致的性能提升。更重要的是,它能有效抑制 RL 訓練後期常見的「熵坍塌(Entropy Collapse)」和過擬合問題。
簡單來說,它幫模型「過濾」掉了後期訓練中的噪音,獲得了比老老實實跑完訓練還要高出3% 左右的性能。
2. Weight Extrapolation(權重外推)—— 直接預測參數
如果說 Logits 外推是預測結果,那 Weight Extrapolation 就是直接預測模型本體:
(此處為權重外推公式示意)
實驗發現(倒 U 型曲線):
我們固定早期檢查點,嘗試向後外推不同步數,發現了一個有趣的「倒 U 型」現象:
在一定範圍內(例如幾百步),直接算出來的模型性能完全不輸真實訓練;但如果步子邁得太大(例如從 step 300 直接推到 step 2000),性能會先升後降。
這說明:雖然大方向是線性的,但模型在長途跋涉中仍需要微調方向,純粹的線性外推有其極限。
3. RL-Extra(交替式訓練)—— 核心大招
為了解決純外推在長距離下的誤差,我們提出 RL-Extra:「跑幾步 RL 校準方向 -> 往後外推一大截 -> 再跑幾步 RL 校準 -> 再外推」。
核心理念是:「用少量真實的 RL 訓練來校準方向(Grounding),用大量的線性外推來加速趕路。」
這是一個週期性循環的過程(Cycle):
- 校準階段(Grounding): 進行步正常的 RL 梯度更新(如 GRPO),確保模型學習到正確的 Reward 訊號,修正優化軌跡。
- 加速階段(Extrapolation): 基於剛才確定的方向,直接在權重空間線性外推步。
- 循環: 再次回到 RL 更新,修正方向,再外推。
04. 實驗結果:白嫖的算力,一樣的效果
在 AIME24、MATH-500 和 LiveCodeBench 等權威榜單上,RL-Extra 展現了驚人的效率:
- 速度起飛: 在達到相同 AIME24 準確率(例如 38%)的情況下,標準 RL 需要 1100 步,而 RL-Extra (20 RL 步 + 100 外推步) 只需要 180 步真實的 RL 計算。
- 綜合加速比: 達到了6.1 倍的 Wall-clock speedup!
- 性能無損: 在各種算力預算下,RL-Extra 的表現均優於或持平於標準 RL 訓練。
(圖註:RL-Extra 在相同訓練預算下,性能始終優於標準 RL)
這再次印證了:RL 訓練中大量的計算步驟其實只是在「線性重複」,完全可以透過數學外推來替代。
05. 總結與思考
這篇文章不僅提供了一個實用的加速 Trick,更重要的是它讓我們重新審視 RLVR 的訓練機理。
- 資訊密度低: 現有的 RLVR 訓練步數中,大部分步驟的資訊增量極低,只是在機械地執行既定路線。
- 方向為王: 訓練初期的方向探索(Exploration)可能比我們想像的更重要,一旦方向確定,剩下的就是線性的「執行」。
- 普適性: 該結論在 Qwen、Llama、DeepSeek 等多種底座,以及 GRPO、Reinforce++ 等多種演算法上均被驗證。
對於資源有限、想要嘗試復現 DeepSeek-R1 或訓練垂直領域 Reasoning 模型的小夥伴來說,RL-Extra 絕對是一個值得嘗試的「省錢」方案。
One More Thing:
如果你的顯示卡在燃燒,不妨先把 Checkpoint 拿出來畫個圖,說不定你的模型也正走在一條筆直的康莊大道上,等著你去「外推」它!
引用連結
[1] 苗寧:https://www.ningmiao.space/
往期推薦
少用 sense 挑戰 math!如何把 post train 做好,聊聊後訓練方法論
比肩 GPT-5 的 Kernel Coding 模型!Dr. Kernel 用多輪 RL 訓練大模型 GPU Kernel 生成