本文第一作者李夢琦為香港中文大學(深圳)電腦科學專業博士生。本項研究是與上海交通大學趙磊老師、香港中文大學蘇文藻老師合作,並在香港中文大學(深圳)孫若愚老師與李肖老師的共同指導下完成。
在推理後訓練裡,多數方法仍依賴獎勵模型、驗證器或額外的教師訊號。如果不依賴這些外部訊號,只使用模型自身生成的答案進行自訓練,是否仍然能夠提升推理能力?是的!SePT(Self-evolving Post-Training)給出了肯定的答案,這種簡潔的自訓練方法,可在數學推理任務上讓準確率直接飆升 10 個百分點!
論文標題:
A Model Can Help Itself: Reward-Free Self-Training for LLM Reasoning
論文連結:
程式碼:
SePT 的線上自訓練循環示意圖:樣本以取樣溫度 τ_s 生成,訓練階段採用標準 SFT;下一輪訓練資料由更新後的模型生成。
如流程圖所示,SePT 的核心極其簡潔:當前模型先生成答案,再用這些答案做標準 SFT,隨後由更新後的模型重新生成下一輪訓練資料。下面先來看看這種線上循環自訓練到底帶來了多少提升。
數學推理上的結果:SePT vs Baseline
主要結果如圖所示。這裡的 baseline 並非預設取樣設定下直接評測的基礎模型,而是未做後訓練、但在推理階段經過 temperature sweep 並取最佳結果的強基線。經過 SePT 自訓練後,在 6 個數學基準測試集平均後的 Pass@1、Pass@8、Pass@32 和 AVG 上均有明顯提升。
在 Qwen2.5-Math-7B 上,6 個數學基準測試集平均後的 Pass@1、Pass@8、Pass@32 和 AVG:SePT 在各項指標上均明顯高於上述 baseline。
數學推理上的結果:SePT vs RLVR
如果進一步與 RLVR 方法(如 GRPO)比較,可以看到:自訓練方法 SePT 已經能夠取得與 GRPO 較為接近的結果,尤其是在 OTM 資料集上。
結合表中的結果,在 Qwen2.5-Math-7B 上,使用 OTM 時,SePT 和 GRPO 的 AVG 分別為 55.2 和 56.6,差距只有 1.4;而在 DSR 上,這一差距擴大為 4.1(55.0 vs. 59.1)。在 DeepSeek-Math-7B-Instruct 上,同樣的差距分別為 0.4(33.0 vs. 33.4)和 1.7(33.9 vs. 35.6)。甚至在 Qwen2.5-Math-7B 的 OTM 設定下,SePT 的 Pass@1 還略高於 GRPO(40.8 vs. 39.5)。
這些結果顯示,在本文的比較設定下,SePT 對訓練題集的選擇表現出更小的波動,而 GRPO 在 DSR 上的增益更明顯。
OpenThoughts-Math(OTM)和 DeepScaleR(DSR)在 Qwen2.5-Math-7B 與 DeepSeek-Math-7B-Instruct 上的平均基準比較。兩套訓練題集規模相近。Δ 表示 DSR 相對 OTM 的變化,陰影標示出 DSR 至少高出 OTM 2.0 分的情形。
SePT 演算法具體流程
SePT 有著極其簡潔的自訓練框架設計,可以概括為以下三個步驟:
1、從題庫中取樣問題,並由當前模型在取樣溫度下生成答案;
2、使用這些自生成樣本對當前模型進行標準 SFT;
3、再由更新後的模型生成下一輪訓練資料。
這項設計的關鍵可概括為:溫度解耦、標準 SFT 訓練、由最新模型自生成資料。
如果把當前輪用於取樣的模型記為,訓練題集記為
,取樣溫度為
,訓練溫度為
,則 SePT 的訓練 objective 可以寫成
。
也就是說,SePT 並沒有引入額外的 reward、advantage、verifier 或 teacher signal;訓練階段就是標準的負對數似然,也就是標準 SFT,只不過訓練樣本來自模型自己上一輪在溫度下生成的軌跡。
本文實驗裡採用標準 SFT 訓練,即 ,預設每個 prompt 只取樣一次(
),這也是 SePT 在工程上非常輕量的原因之一。
SePT 中的線上自生成資料
本文進一步透過消融實驗驗證了這項設計的重要性:如果將「由最新模型逐輪生成下一輪訓練資料」改為固定資料訓練,效能會明顯下降。以 Qwen2.5-Math-7B 為例,SePT (Offline) 的 AVG 為 45.5,而線上版本的 SePT 可達到 55.0。
SePT 與 SePT (Offline) 在 Qwen2.5-Math-7B 上的比較,括號中的數值表示相對於 baseline 的變化。
SePT 中的溫度解耦
SePT 中涉及兩個溫度,生成時放開探索,訓練時保持標準 SFT,二者不必綁死。生成自訓練樣本時使用的取樣溫度為,而另一個是訓練階段的標準設定
= 1。
為什麼這件事很重要?本文的定理一給出了一個直觀的理論論證:
若在某個前綴 下,舊模型的取樣分佈寫作
,而訓練後的最優解寫作
,則存在某個常數
,使得
。
因此,對任意兩個 token ,都有
。
這意味著,當 時(本文實驗裡的主要選擇),pairwise logit margin 會按比例
被放大。直觀上來說,低溫取樣加上標準溫度訓練,並不是簡單地讓模型變得更保守,而是在盡量保留兩兩 token 之間的相對排序的同時,把預訓練裡已經存在的偏好邊界適當地拉開。
這一點在實驗上也被直接驗證了。以 Qwen2.5-Math-7B 為例,若使用 temperature coupling,Pass@1/Pass@8/Pass@32/AVG 只有 19.3/50.1/64.3/44.6,Pass@1 甚至低於 baseline;而採用 decoupling 後,四項指標可以提升到 39.5/57.7/67.9/55.0。
也就是說,SePT 裡「低溫生成加上標準 SFT」對於數學推理的提升並不是一個經驗性技巧,而是有理論與實驗雙重支持的重要設計。
Qwen2.5-Math-7B 在溫度耦合與解耦方案下的對比。括號內數值表示方法值與基準值的差(Method−Baseline)。
上表顯示,生成溫度與訓練溫度解耦在結果上確實更優;但它為什麼更優,還可以從基礎模型本身的 temperature–performance trade-off 來理解。如下圖所示,不同指標對應的最佳 並不一致,這正是 SePT 不把
與
綁定的直觀動機。
Pass@1、Pass@8、Pass@32 以及 AVG 在基礎模型上隨著取樣溫度變化的結果。
自訓練是否會損害模型的通用能力?
模型的一般能力會不會因為只在數學自生成軌跡上繼續訓練而受損?本文在 Qwen2.5-Math-7B 上的一組 general-domain benchmark 正面回答了這個問題,測試基準包括 IFEval、BBH、GPQA、MuSR 和 MMLU-Pro。結果基本上是幾乎不掉分:基礎模型分別為 23.4/47.5/29.9/41.4/32.1,SePT 為 23.6/47.3/30.6/41.5/32.2。也就是說,SePT 在 IFEval、GPQA、MuSR、MMLU-Pro 上都有輕微提升,BBH 基本上不變;GRPO 也呈現了類似模式。這表示 SePT 自訓練方法不會明顯損害模型的通用能力。
Qwen2.5-Math-7B 基礎模型及其 SePT、GRPO 訓練版本在通用領域的評測結果。
程式碼簡單可用
專案團隊的程式碼實作是基於位元組開源的 verl 框架。更重要的是,SePT 本身並不綁定某個特定框架,其方法簡單直接:以取樣溫度 生成樣本、進行標準 SFT、再由更新後的模型生成下一輪訓練資料。也正因為這個訓練循環足夠輕量,SePT 不僅可以自然地在 verl 上實作;對於已經有訓練框架,或使用其他線上訓練框架的團隊而言,也較容易遷移和重現。
© THE END
轉載請聯繫本公眾號獲得授權