LLM RL 訓練軌跡竟然是線性的?Miaow Lab 最新工作:無需繼續訓練,直接「預測」未來模型!

圖片

主頁:http://qingkeai.online/


作者:王天樂
香港城市大學數據科學系博士生,導師為苗寧 [1] 教授,研究方向為大語言模型推理。

DeepSeek-R1 的爆紅讓 RLVR(帶驗證獎勵的強化學習) 再次成為大型語言模型後訓練(Post-training)的焦點。然而,有過復現 R1-Zero 或類似流程經驗的同學都知道,RLVR 極其昂貴——它不僅需要成千上萬個訓練步數,而且隨著模型思考鏈(CoT)變長,後期每一步的計算成本都在成倍增加。

我們是否真的一步一步地跑完漫長的 RL 訓練?

今天介紹一篇剛剛掛出的 ArXiv 論文 《Not All Steps are Informative: On the Linearity of LLMs' RLVR Training》

論文:https://arxiv.org/abs/2601.04537
程式碼:https://github.com/Miaow-Lab/RLVR-Linearity

這項工作揭示了一個反直覺的現象:在 RLVR 過程中,LLM 的權重和輸出機率竟然呈現出驚人的線性變化!

基於這一發現,我們提出了一種「權重外推」的方法,不用訓練,直接「算」出未來的模型,實現了最高 6.1 倍 的訓練加速。

01. 反直覺的發現:RLVR 訓練是「線性」的?

Transformer 本身就是一個高度非線性的複雜系統,直覺上我們認為其參數更新軌跡應該是蜿蜒曲折的。然而,我們透過對 DeepSeek-R1-Distill 系列模型在多種 RL 演算法(GRPO, Reinforce++, GSPO)下的訓練過程分析,發現了一個令人驚訝的事實:

1. 權重的線性變化

隨著 RL 訓練步數的增加,模型權重的變化與步數呈現極強的線性相關性。在實驗中,超過 80% 的參數(決定係數)大於 0.7,大部分集中在 0.9 左右。

也就是說,模型在第 1000 步的樣子,幾乎可以透過第 100 步和第 200 步連一條直線畫出來!

2. 輸出 Log-Prob 的線性變化

更神奇的是,這種線性不僅存在於參數空間,還直接反映在模型的輸出行為上。對於同一個 Prompt,模型生成特定 Token 的 Log-Probability(對數機率)也隨訓練步數線性變化。

多為連接詞(如 "wait", "but"): 機率線性變化。上升代表模型學會了反思和轉折等行為;下降代表錯誤路徑。

左圖為權重的分佈,右圖為 token 對數機率的變化,可見明顯的線性趨勢

(圖註:左圖為權重的分佈,右圖為 token 對數機率的變化,可見明顯的線性趨勢)

這意味著什麼?

這暗示了當前的 RLVR 訓練可能並沒有在後期「不斷探索新策略」,而是在訓練初期就確定了優化方向,剩下的幾千步更多是在簡單地放大這個趨勢(Amplify)。

02. 為什麼會這樣?

我們在文中給出了理論解釋,簡單來說:

  • 低學習率 & 大批次大小(Batch Size): RLVR 通常使用極小的學習率(< 1e-5)和較大的 Batch Size(加上 Rollout 數量)。
  • Adam 優化器特性: 在梯度方向相對穩定的情況下,Adam 優化器傾向於產生恆定的更新步長。
  • 一階主導: 儘管 Transformer 是非線性的,但在參數變化較小的情況下,輸出的變化主要由權重的一階變化項主導(泰勒展開的一階近似),二階項的影響微乎其微。

這種「線性」本質上說明:RLVR 的大部分計算量,可能都在重複造輪子。

03. 如何利用這一特性?從「外推」到「交替訓練」

既然驗證了 RL 訓練軌跡具有極強的線性特徵,我們完全可以大膽一點:跳過那些冗餘的中間步驟,直接「計算」出未來的模型。

我們提出了三種利用策略:

1. Logit Extrapolation(Logits 外推)

這是一個無需額外訓練即可「預知未來」的技巧。既然驗證了 LLM 的訓練軌跡是線性的,我們只需選取兩個早期檢查點的 logits,透過簡單的線性公式即可算出未來某一步的輸出入分佈:

(此處為線性外推公式示意)

其中是放大係數。

Logits 外推示意圖

實驗發現(驚喜): 這不僅僅是模擬未來,它甚至超越了未來

實驗數據顯示,Logits 外推在 AIME 和 LiveCodeBench 上均取得了一致的性能提升。更重要的是,它能有效抑制 RL 訓練後期常見的「熵坍塌(Entropy Collapse)」和過擬合問題。

簡單來說,它幫模型「過濾」掉了後期訓練中的噪音,獲得了比老老實實跑完訓練還要高出3% 左右的性能。

2. Weight Extrapolation(權重外推)—— 直接預測參數

如果說 Logits 外推是預測結果,那 Weight Extrapolation 就是直接預測模型本體:

(此處為權重外推公式示意)

權重外推示意圖

實驗發現(倒 U 型曲線):

我們固定早期檢查點,嘗試向後外推不同步數,發現了一個有趣的「倒 U 型」現象

在一定範圍內(例如幾百步),直接算出來的模型性能完全不輸真實訓練;但如果步子邁得太大(例如從 step 300 直接推到 step 2000),性能會先升後降。

這說明:雖然大方向是線性的,但模型在長途跋涉中仍需要微調方向,純粹的線性外推有其極限。

3. RL-Extra(交替式訓練)—— 核心大招

為了解決純外推在長距離下的誤差,我們提出 RL-Extra「跑幾步 RL 校準方向 -> 往後外推一大截 -> 再跑幾步 RL 校準 -> 再外推」

核心理念是:「用少量真實的 RL 訓練來校準方向(Grounding),用大量的線性外推來加速趕路。」

這是一個週期性循環的過程(Cycle):

  1. 校準階段(Grounding): 進行步正常的 RL 梯度更新(如 GRPO),確保模型學習到正確的 Reward 訊號,修正優化軌跡。
  2. 加速階段(Extrapolation): 基於剛才確定的方向,直接在權重空間線性外推步。
  3. 循環: 再次回到 RL 更新,修正方向,再外推。

04. 實驗結果:白嫖的算力,一樣的效果

在 AIME24、MATH-500 和 LiveCodeBench 等權威榜單上,RL-Extra 展現了驚人的效率:

  • 速度起飛: 在達到相同 AIME24 準確率(例如 38%)的情況下,標準 RL 需要 1100 步,而 RL-Extra (20 RL 步 + 100 外推步) 只需要 180 步真實的 RL 計算。
  • 綜合加速比: 達到了6.1 倍的 Wall-clock speedup!
  • 性能無損: 在各種算力預算下,RL-Extra 的表現均優於或持平於標準 RL 訓練。
RL-Extra 在相同訓練預算下,性能始終優於標準 RL

(圖註:RL-Extra 在相同訓練預算下,性能始終優於標準 RL)

這再次印證了:RL 訓練中大量的計算步驟其實只是在「線性重複」,完全可以透過數學外推來替代。

05. 總結與思考

這篇文章不僅提供了一個實用的加速 Trick,更重要的是它讓我們重新審視 RLVR 的訓練機理。

  1. 資訊密度低: 現有的 RLVR 訓練步數中,大部分步驟的資訊增量極低,只是在機械地執行既定路線。
  2. 方向為王: 訓練初期的方向探索(Exploration)可能比我們想像的更重要,一旦方向確定,剩下的就是線性的「執行」。
  3. 普適性: 該結論在 Qwen、Llama、DeepSeek 等多種底座,以及 GRPO、Reinforce++ 等多種演算法上均被驗證。

對於資源有限、想要嘗試復現 DeepSeek-R1 或訓練垂直領域 Reasoning 模型的小夥伴來說,RL-Extra 絕對是一個值得嘗試的「省錢」方案。

One More Thing:

如果你的顯示卡在燃燒,不妨先把 Checkpoint 拿出來畫個圖,說不定你的模型也正走在一條筆直的康莊大道上,等著你去「外推」它!

引用連結

[1] 苗寧:https://www.ningmiao.space/


往期推薦

少用 sense 挑戰 math!如何把 post train 做好,聊聊後訓練方法論

比肩 GPT-5 的 Kernel Coding 模型!Dr. Kernel 用多輪 RL 訓練大模型 GPU Kernel 生成

簡單明了!一張圖看懂 GRPO 的十幾種主流變體演算法

On-Policy Distillation 是什麼?如何做?


分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.