主頁：http://qingkeai.online/

作者：王天樂
香港城市大學數據科學系博士生，導師為苗寧 [1] 教授，研究方向為大語言模型推理。

DeepSeek-R1 的爆紅讓 RLVR（帶驗證獎勵的強化學習） 再次成為大型語言模型後訓練（Post-training）的焦點。然而，有過復現 R1-Zero 或類似流程經驗的同學都知道，RLVR 極其昂貴——它不僅需要成千上萬個訓練步數，而且隨著模型思考鏈（CoT）變長，後期每一步的計算成本都在成倍增加。

我們是否真的一步一步地跑完漫長的 RL 訓練？

今天介紹一篇剛剛掛出的 ArXiv 論文 《Not All Steps are Informative: On the Linearity of LLMs' RLVR Training》。

論文：https://arxiv.org/abs/2601.04537
程式碼：https://github.com/Miaow-Lab/RLVR-Linearity

這項工作揭示了一個反直覺的現象：在 RLVR 過程中，LLM 的權重和輸出機率竟然呈現出驚人的線性變化！

基於這一發現，我們提出了一種「權重外推」的方法，不用訓練，直接「算」出未來的模型，實現了最高 6.1 倍 的訓練加速。

01. 反直覺的發現：RLVR 訓練是「線性」的？

Transformer 本身就是一個高度非線性的複雜系統，直覺上我們認為其參數更新軌跡應該是蜿蜒曲折的。然而，我們透過對 DeepSeek-R1-Distill 系列模型在多種 RL 演算法（GRPO, Reinforce++, GSPO）下的訓練過程分析，發現了一個令人驚訝的事實：

1. 權重的線性變化

隨著 RL 訓練步數的增加，模型權重的變化與步數呈現極強的線性相關性。在實驗中，超過 80% 的參數（決定係數）大於 0.7，大部分集中在 0.9 左右。

也就是說，模型在第 1000 步的樣子，幾乎可以透過第 100 步和第 200 步連一條直線畫出來！

2. 輸出 Log-Prob 的線性變化

更神奇的是，這種線性不僅存在於參數空間，還直接反映在模型的輸出行為上。對於同一個 Prompt，模型生成特定 Token 的 Log-Probability（對數機率）也隨訓練步數線性變化。

多為連接詞（如 "wait", "but"）： 機率線性變化。上升代表模型學會了反思和轉折等行為；下降代表錯誤路徑。

（圖註：左圖為權重的分佈，右圖為 token 對數機率的變化，可見明顯的線性趨勢）

這意味著什麼？

這暗示了當前的 RLVR 訓練可能並沒有在後期「不斷探索新策略」，而是在訓練初期就確定了優化方向，剩下的幾千步更多是在簡單地放大這個趨勢（Amplify）。

02. 為什麼會這樣？

我們在文中給出了理論解釋，簡單來說：

低學習率 & 大批次大小（Batch Size）： RLVR 通常使用極小的學習率（< 1e-5）和較大的 Batch Size（加上 Rollout 數量）。
Adam 優化器特性： 在梯度方向相對穩定的情況下，Adam 優化器傾向於產生恆定的更新步長。
一階主導： 儘管 Transformer 是非線性的，但在參數變化較小的情況下，輸出的變化主要由權重的一階變化項主導（泰勒展開的一階近似），二階項的影響微乎其微。

這種「線性」本質上說明：RLVR 的大部分計算量，可能都在重複造輪子。

03. 如何利用這一特性？從「外推」到「交替訓練」

既然驗證了 RL 訓練軌跡具有極強的線性特徵，我們完全可以大膽一點：跳過那些冗餘的中間步驟，直接「計算」出未來的模型。

我們提出了三種利用策略：

1. Logit Extrapolation（Logits 外推）

這是一個無需額外訓練即可「預知未來」的技巧。既然驗證了 LLM 的訓練軌跡是線性的，我們只需選取兩個早期檢查點的 logits，透過簡單的線性公式即可算出未來某一步的輸出入分佈：

（此處為線性外推公式示意）

其中是放大係數。

實驗發現（驚喜）： 這不僅僅是模擬未來，它甚至超越了未來。

實驗數據顯示，Logits 外推在 AIME 和 LiveCodeBench 上均取得了一致的性能提升。更重要的是，它能有效抑制 RL 訓練後期常見的「熵坍塌（Entropy Collapse）」和過擬合問題。

簡單來說，它幫模型「過濾」掉了後期訓練中的噪音，獲得了比老老實實跑完訓練還要高出3% 左右的性能。

2. Weight Extrapolation（權重外推）—— 直接預測參數

如果說 Logits 外推是預測結果，那 Weight Extrapolation 就是直接預測模型本體：

（此處為權重外推公式示意）

實驗發現（倒 U 型曲線）：

我們固定早期檢查點，嘗試向後外推不同步數，發現了一個有趣的「倒 U 型」現象：

在一定範圍內（例如幾百步），直接算出來的模型性能完全不輸真實訓練；但如果步子邁得太大（例如從 step 300 直接推到 step 2000），性能會先升後降。

這說明：雖然大方向是線性的，但模型在長途跋涉中仍需要微調方向，純粹的線性外推有其極限。

3. RL-Extra（交替式訓練）—— 核心大招

為了解決純外推在長距離下的誤差，我們提出 RL-Extra：「跑幾步 RL 校準方向 -> 往後外推一大截 -> 再跑幾步 RL 校準 -> 再外推」。

核心理念是：「用少量真實的 RL 訓練來校準方向（Grounding），用大量的線性外推來加速趕路。」

這是一個週期性循環的過程（Cycle）：

校準階段（Grounding）： 進行步正常的 RL 梯度更新（如 GRPO），確保模型學習到正確的 Reward 訊號，修正優化軌跡。
加速階段（Extrapolation）： 基於剛才確定的方向，直接在權重空間線性外推步。
循環： 再次回到 RL 更新，修正方向，再外推。

04. 實驗結果：白嫖的算力，一樣的效果

在 AIME24、MATH-500 和 LiveCodeBench 等權威榜單上，RL-Extra 展現了驚人的效率：

速度起飛： 在達到相同 AIME24 準確率（例如 38%）的情況下，標準 RL 需要 1100 步，而 RL-Extra (20 RL 步 + 100 外推步) 只需要 180 步真實的 RL 計算。
綜合加速比： 達到了6.1 倍的 Wall-clock speedup！
性能無損： 在各種算力預算下，RL-Extra 的表現均優於或持平於標準 RL 訓練。