論文標題:JudgeRLVR: Judge First, Generate Second for Efficient Reasoning
論文連結:https://arxiv.org/pdf/2601.08468
TL;DR
核心問題:現有的驗證獎勵強化學習(RLVR)傾向於誘導模型生成冗長、充滿試錯和回溯的思維鏈,導致推理效率低下且資訊密度不足。雖然啟發式長度懲罰能緩解此問題,但往往損害準確率。
解決方案:提出 JudgeRLVR,一種「先判斷、後生成」的兩階段訓練範式。第一階段訓練模型區分正確與錯誤的解題過程(判別能力);第二階段用判別模型初始策略模型,進行標準的 RLVR 微調(生成能力)。
主要結論:在 Qwen3-30B-A3B 模型上的實驗表明,JudgeRLVR 在域內數學任務上平均準確率提升 3.7 個百分點,同時平均生成长度減少 42%;在域外任務上展現出更強的泛化能力。該方法促使模型將外部的「試錯」內化為內部的「判別」,從而生成更直接、高效的推理路徑。
1. 背景
在大型語言模型(LLM)的推理能力演進中,基於驗證獎勵的強化學習已成為提升模型解決複雜數學和程式碼問題能力的標準範式(如 DeepSeek-R1 等工作)。RLVR 通過稀疏但客觀的監督訊號(即最終答案是否正確)來激勵模型探索監督微調(SFT)資料之外的解題策略。
然而,RLVR 引入了一個顯著的副作用:思維鏈的「無序擴張」。
1.1 結果導向最佳化的盲區
由於 RLVR 主要最佳化最終答案的正確性,模型往往傾向於採取「生成式搜索」的策略:即通過列舉大量可能的嘗試分支、不斷修正中間步驟、進行顯式的自我校正來「撞」對答案。這種行為模式導致了兩個主要問題:
1. 推理冗餘與效率低下:生成的 Chain-of-Thought (CoT) 軌跡極長,充斥著大量的回溯和自我否定。例如,「讓我再試一次」、「這裡好像不對,通過...來驗證」等。雖然這保證了正確率,但大幅增加了推理時的運算開銷(Token 消耗)。
2. 低資訊密度:長輸出並不等同於高品質推理。現有的研究(如 Kimi k1.5, DAPO 等)嘗試引入長度懲罰來抑制 Token 數,但這往往造成了一種不可調和的權衡:縮短長度通常會導致關鍵推理步驟被截斷,從而降低準確率。
1.2 認知科學的啟示
論文作者從認知科學(Chi et al., 1981)中汲取了靈感:專家與新手的區別不在於是否進行搜索,而在於搜索發生的位置。
新手:傾向於進行外部化的試錯,將所有嘗試路徑寫在紙上(或生成在 Context 中)。
專家:具備「早期判別與剪枝」的能力,在思維展開之前就能識別並剪除低價值的路徑,從而只輸出高價值的推理過程。
基於此,作者提出假設:判別能力是高效生成的前提。只有當模型學會了區分什麼是「好的推理」和「壞的推理」,它才能在生成階段內化這種指導訊號,從而不依賴顯式長度懲罰的情況下,自發地修剪搜索空間。
2. JudgeRLVR 二階段範式
JudgeRLVR 將推理策略的訓練拆解為兩個順序執行的階段:判別階段和生成階段。
圖 2 JudgeRLVR 兩階段訓練流程管道
2.1 符號定義
問題域 Q,標準答案 y*。
解題響應,為一個包含邏輯過程並以最終答案結尾的 Token 序列。
通過確定性解析器提取預測答案 y^。
正確性標籤 c,當且僅當 y^ = y* 時為 1。
2.2 第一階段:判別階段
此階段的目標是訓練模型作為一個「裁判」,使其具備識別錯誤路徑的能力。
資料構建:難負樣本挖掘
為了訓練一個高品質的判別器,資料的構造至關重要。作者採用了以下策略:
1. Rollout 生成:對於每個問題,使用多個模型(如 MiMo-7B RL 和目標模型 Qwen3-30B-A3B-SFT)生成一組候選響應。
2. 難負樣本挖掘:優先選擇那些通過率非 0 且非 1 的「中等難度」問題。這類問題產生的錯誤答案通常是「差一點就對」的,比純粹的隨機錯誤更具判別訓練價值。
3. 類別平衡:對正樣本和負樣本進行下採樣平衡,防止模型學習到類別先驗偏見。
訓練目標
模型接收問題和候選響應,輸出兩部分內容:
1. 評論:包含對推理過程的分析。
2. 判決 Token:0 代表不正確,1 代表正確。
獎勵函數定義為判決是否匹配真實標籤。
此時的策略網路學習條件概率。
這一步的關鍵在於,模型不僅要學會「做題」,更要學會「看題」和「挑錯」。這種訓練方式迫使模型建立起對推理邏輯嚴密性的內在評價標準。
2.3 第二階段:生成階段
此階段回歸到標準的 Vanilla RLVR 設定,但關鍵在於初始。
初始:策略模型使用第一階段訓練好的判別模型權重進行初始。
訓練流程:給定問題,模型生成思維鏈和答案。
獎勵訊號:僅使用稀疏的二值最終答案正確性獎勵。
機制假設
作者假設這種兩階段訓練通過兩種機制提升推理品質:
1. 風格遷移:判別階段的訓練改變了模型的語言風格,使其更傾向於客觀、審慎的表達。
2. 減少回溯:模型在生成階段激活了內化的判別模式,將原本需要顯式顯式寫出的「驗顯式寫出的「驗證-糾錯」過程在隱空間中完成,表現為文本中回溯性詞彙的減少。
3. 實驗設置
為了驗證該範式的有效性,作者在數學推理和通用能力基準上進行了廣泛的測試。
3.1 模型與演算法
基礎模型:Qwen3-30B-A3B (MoE架構),經過基礎 SFT 獲得指令遵循能力。
訓練演算法:DAPO (Yu et al., 2025),屬於 GRPO (Group Relative Policy Optimization) 家族的策略梯度方法。
訓練超參數:
Rollout size = 16。
動態採樣(過濾掉全對或全錯的樣本)。
學習率 = 1e-6。
最大 Token 數 65536(支援長思維鏈)。
3.2 評估基準
域內數學:AIME24, AIME25, MATH500, HMMT_feb_2025, BeyondAIME。
域外泛化:
GPQA Diamond (科學推理)
IFEval (指令遵循)
LiveCodeBenchv6 (程式碼)
MMLU-Redux (通用知識)
ZebraLogic (邏輯推理)
3.3 對比基線
1. Base SFT:未經 RL 訓練的基座模型。
2. Vanilla RLVR:僅使用最終答案獎勵進行單階段訓練(共 250 步)。
3. JudgeRLVR:先判別(145 步)後生成(105 步),總步數與 Vanilla RLVR 保持一致,確保公平比較。
4. 主要實驗結果分析
表 1 Base SFT, Vanilla RLVR 與 JudgeRLVR (Sequential) 的主要結果對比
4.1 域內數學:品質與效率的雙重飛躍
在 AIME 和 HMMT 等高難度數學基準上,JudgeRLVR 展現了顯著的優勢:
準確率提升:相比 Vanilla RLVR,JudgeRLVR 在所有數學榜單上均取得正向收益。例如,在 HMMT_feb_2025 上提升了 +9.2 個百分點,在 AIME24 上提升了 +2.7 個百分點。
長度大幅縮減:這是最顯著的成果。在 AIME24 上,平均生成长度從 21.8k 降至 12.9k(-41%);在 MATH500 上更是減少了 71%。
結論:這直接驗證了「判別先驗」能夠有效修剪無效搜索分支。相比之下,Vanilla RLVR 依靠「堆疊長度」來換取微弱的準確率提升,其推理過程充斥著冗餘。
4.2 域外泛化:能力遷移
在非數學領域的任務中,JudgeRLVR 同樣表現出色:
GPQA Diamond:準確率提升 +5.2,長度減少 7.5%。說明科學推理同樣受益於更嚴謹的判別能力。
程式碼任務:準確率提升 +5.7,長度減少 18%。程式碼生成往往需要精密的邏輯規劃,判別訓練顯然有助於此。
指令遵循:準確率提升 +6.5,但有趣的是,長度增加了 12%。這表明對於需要嚴格格式和約束的任務,模型學會了通過更詳細的檢查(而非盲目試錯)來確保合規性。
總體而言,JudgeRLVR 在域外任務上平均提升了 +4.5 個百分點,證明了該範式習得的是一種通用的「高品質思考模式」,而非僅僅擬合了數學題。
5. 消融實驗與機制分析
為了探究收益的來源,作者設計了兩組重要的消融實驗。
表 2 JudgeRLVR, Judge Only 與 Mixed Strategy 的對比
5.1 為什麼不能只做判別?
如果僅進行第一階段的判別訓練,模型表現如何?
結果:相比 JudgeRLVR,Judge Only 在所有數學任務上準確率均有下降,且生成长度顯著增加(例如 AIME24 上長度增加了 74%)。
分析:這說明判別訓練本身並不會自動轉化為簡潔的生成策略。相反,一個純粹的「評論家」模型可能變得過於謹慎和絮叨,傾向於在輸出中反覆糾結於檢查過程。生成階段是必不可少的,它負責將這種對錯誤的敏感性轉化為高效的路徑選擇策略。
5.2 為什麼必須是兩階段?
如果將判別任務和生成任務混合在一起並行訓練,效果如何?
結果:表現不穩定。雖然在某些任務上接近 JudgeRLVR,但在 IFEval 和程式碼任務上大幅退步,且生成长度普遍較長。
分析:混合訓練導致模型在同一階段需要最佳化兩個不同的目標(判別 vs 生成),這種干擾阻礙了清晰內部決策過程的形成。順序執行的策略(先學判別,再學生成)更符合「先學走,再學跑」的學習曲線。
6. 模型到底學到了什麼?
作者通過定性和定量分析,揭示了 JudgeRLVR 改變模型思維模式的證據。
6.1 風格遷移
圖 3 Base SFT 在訓練過程中的困惑度 (PPL) 變化
作者使用 Base SFT 模型作為探針,計算訓練過程中模型輸出的困惑度(PPL)。
Vanilla RLVR:PPL 保持平坦,說明其輸出風格與 Base SFT 差異不大。
JudgeRLVR (第一階段):PPL 顯著上升。這表明判別訓練劇烈改變了模型的語言分佈,引入了一種不同於原始 SFT 的「裁判風格」。這種風格偏置為第二階段的高效生成奠定了基礎。
6.2 顯式回溯的減少
圖 4 轉折/回溯詞彙在訓練過程中的頻率變化
作者統計了轉折詞(如 but, however, wait, actually 等)在生成文本中的頻率。
結果:在 JudgeRLVR 的生成階段訓練中,這些詞彙的絕對數量和相對頻率均呈大幅下降趨勢。
解讀:這提供了強有力的語言學證據,證明模型不再依賴顯式的「寫出錯誤再修正」,而是學會了在思維鏈展開之前進行隱式的預判和剪枝。
7. 案例研究:思維鏈的質變
論文通過一個具體的坐標轉換問題(直角坐標轉極坐標),直觀展示了兩種範式的區別。
圖 1 Vanilla RLVR vs JudgeRLVR 的推理模式對比
Vanilla RLVR 的思維鏈:
充滿了猶豫和重複驗證:「Let me confirm...」, "Just to be thorough...", "But here...".
甚至出現對非常基礎事實的反覆確認,顯得信心不足。
耗費了大量 Token 描述心理活動,而非解題邏輯。
JudgeRLVR 的思維鏈:
開門見山,直接列出公式。
計算過程線性推進,無冗餘分支。
在得出結果後直接輸出答案,沒有多餘的自我懷疑。
結果:邏輯清晰,長度僅為 Vanilla 的三分之一,且答案正確。
8. 深度討論與展望
8.1 效率與品質的 Trade-off 新解
長期以來,RLVR 領域存在一種誤區,認為更長的 CoT 必然帶來更好的性能。JudgeRLVR 挑戰了這一觀點,指出當前的許多長 CoT 實際上是低效的「偽推理」。通過提升 Token 的資訊密度,我們可以在更短的長度下實現更高的準確率。這對降低 LLM 推理成本具有重大意義。
8.2 與 Process Reward Model (PRM) 的關係
JudgeRLVR 的第一階段可以看作是一種隱式的 PRM 訓練,但它不需要昂貴的逐步標註資料。它通過構建全序列的判別任務(區分 Good/Bad Response),讓模型自己習得對過程品質的感知。這為在缺乏細粒度標註的場景下提升推理能力提供了一條新路徑。
8.3 局限性
雖然 JudgeRLVR 在數學和邏輯任務上表現優異,但在需要極高創造性或發散性思維的任務上(如創意寫作),過早的「剪枝」是否會抑制多樣性?這一點仍需進一步探索。
更多細節請閱讀原文。