LLM 只靠自己就能強化推理?SePT 提出簡潔的線上自訓練範式

本文第一作者李夢琦為香港中文大學(深圳)電腦科學專業博士生。本項研究是與上海交通大學趙磊老師、香港中文大學蘇文藻老師合作,並在香港中文大學(深圳)孫若愚老師與李肖老師的共同指導下完成。

在推理後訓練裡,多數方法仍依賴獎勵模型、驗證器或額外的教師訊號。如果不依賴這些外部訊號,只使用模型自身生成的答案進行自訓練,是否仍然能夠提升推理能力?是的!SePT(Self-evolving Post-Training)給出了肯定的答案,這種簡潔的自訓練方法,可在數學推理任務上讓準確率直接飆升 10 個百分點!

圖片

圖片

SePT 的線上自訓練循環示意圖:樣本以取樣溫度 τ_s 生成,訓練階段採用標準 SFT;下一輪訓練資料由更新後的模型生成。

如流程圖所示,SePT 的核心極其簡潔:當前模型先生成答案,再用這些答案做標準 SFT,隨後由更新後的模型重新生成下一輪訓練資料。下面先來看看這種線上循環自訓練到底帶來了多少提升。

數學推理上的結果:SePT vs Baseline

主要結果如圖所示。這裡的 baseline 並非預設取樣設定下直接評測的基礎模型,而是未做後訓練、但在推理階段經過 temperature sweep 並取最佳結果的強基線。經過 SePT 自訓練後,在 6 個數學基準測試集平均後的 Pass@1、Pass@8、Pass@32 和 AVG 上均有明顯提升。

圖片

在 Qwen2.5-Math-7B 上,6 個數學基準測試集平均後的 Pass@1、Pass@8、Pass@32 和 AVG:SePT 在各項指標上均明顯高於上述 baseline。

數學推理上的結果:SePT vs RLVR

如果進一步與 RLVR 方法(如 GRPO)比較,可以看到:自訓練方法 SePT 已經能夠取得與 GRPO 較為接近的結果,尤其是在 OTM 資料集上。

結合表中的結果,在 Qwen2.5-Math-7B 上,使用 OTM 時,SePT 和 GRPO 的 AVG 分別為 55.2 和 56.6,差距只有 1.4;而在 DSR 上,這一差距擴大為 4.1(55.0 vs. 59.1)。在 DeepSeek-Math-7B-Instruct 上,同樣的差距分別為 0.4(33.0 vs. 33.4)和 1.7(33.9 vs. 35.6)。甚至在 Qwen2.5-Math-7B 的 OTM 設定下,SePT 的 Pass@1 還略高於 GRPO(40.8 vs. 39.5)。

這些結果顯示,在本文的比較設定下,SePT 對訓練題集的選擇表現出更小的波動,而 GRPO 在 DSR 上的增益更明顯。

圖片

OpenThoughts-Math(OTM)和 DeepScaleR(DSR)在 Qwen2.5-Math-7B 與 DeepSeek-Math-7B-Instruct 上的平均基準比較。兩套訓練題集規模相近。Δ 表示 DSR 相對 OTM 的變化,陰影標示出 DSR 至少高出 OTM 2.0 分的情形。

SePT 演算法具體流程

SePT 有著極其簡潔的自訓練框架設計,可以概括為以下三個步驟:

1、從題庫中取樣問題,並由當前模型在取樣溫度圖片下生成答案;

2、使用這些自生成樣本對當前模型進行標準 SFT;

3、再由更新後的模型生成下一輪訓練資料。

這項設計的關鍵可概括為:溫度解耦、標準 SFT 訓練、由最新模型自生成資料。

如果把當前輪用於取樣的模型記為圖片,訓練題集記為圖片,取樣溫度為圖片,訓練溫度為圖片,則 SePT 的訓練 objective 可以寫成 圖片

也就是說,SePT 並沒有引入額外的 reward、advantage、verifier 或 teacher signal;訓練階段就是標準的負對數似然,也就是標準 SFT,只不過訓練樣本來自模型自己上一輪在溫度圖片下生成的軌跡。

本文實驗裡採用標準 SFT 訓練,即 圖片,預設每個 prompt 只取樣一次(圖片),這也是 SePT 在工程上非常輕量的原因之一。

SePT 中的線上自生成資料

本文進一步透過消融實驗驗證了這項設計的重要性:如果將「由最新模型逐輪生成下一輪訓練資料」改為固定資料訓練,效能會明顯下降。以 Qwen2.5-Math-7B 為例,SePT (Offline) 的 AVG 為 45.5,而線上版本的 SePT 可達到 55.0。

圖片

SePT 與 SePT (Offline) 在 Qwen2.5-Math-7B 上的比較,括號中的數值表示相對於 baseline 的變化。

SePT 中的溫度解耦

SePT 中涉及兩個溫度,生成時放開探索,訓練時保持標準 SFT,二者不必綁死。生成自訓練樣本時使用的取樣溫度為圖片,而另一個是訓練階段的標準設定圖片 = 1。

為什麼這件事很重要?本文的定理一給出了一個直觀的理論論證

若在某個前綴 圖片 下,舊模型的取樣分佈寫作 圖片,而訓練後的最優解寫作 圖片,則存在某個常數 圖片,使得 圖片

因此,對任意兩個 token 圖片,都有 圖片

這意味著,當 圖片 時(本文實驗裡的主要選擇),pairwise logit margin 會按比例 圖片 被放大。直觀上來說,低溫取樣加上標準溫度訓練,並不是簡單地讓模型變得更保守,而是在盡量保留兩兩 token 之間的相對排序的同時,把預訓練裡已經存在的偏好邊界適當地拉開。

這一點在實驗上也被直接驗證了。以 Qwen2.5-Math-7B 為例,若使用 temperature coupling,Pass@1/Pass@8/Pass@32/AVG 只有 19.3/50.1/64.3/44.6,Pass@1 甚至低於 baseline;而採用 decoupling 後,四項指標可以提升到 39.5/57.7/67.9/55.0。

也就是說,SePT 裡「低溫生成加上標準 SFT」對於數學推理的提升並不是一個經驗性技巧,而是有理論與實驗雙重支持的重要設計。

圖片

Qwen2.5-Math-7B 在溫度耦合與解耦方案下的對比。括號內數值表示方法值與基準值的差(Method−Baseline)。

上表顯示,生成溫度與訓練溫度解耦在結果上確實更優;但它為什麼更優,還可以從基礎模型本身的 temperature–performance trade-off 來理解。如下圖所示,不同指標對應的最佳 圖片 並不一致,這正是 SePT 不把 圖片圖片 綁定的直觀動機。

圖片

Pass@1、Pass@8、Pass@32 以及 AVG 在基礎模型上隨著取樣溫度變化的結果。

自訓練是否會損害模型的通用能力?

模型的一般能力會不會因為只在數學自生成軌跡上繼續訓練而受損?本文在 Qwen2.5-Math-7B 上的一組 general-domain benchmark 正面回答了這個問題,測試基準包括 IFEval、BBH、GPQA、MuSR 和 MMLU-Pro。結果基本上是幾乎不掉分:基礎模型分別為 23.4/47.5/29.9/41.4/32.1,SePT 為 23.6/47.3/30.6/41.5/32.2。也就是說,SePT 在 IFEval、GPQA、MuSR、MMLU-Pro 上都有輕微提升,BBH 基本上不變;GRPO 也呈現了類似模式。這表示 SePT 自訓練方法不會明顯損害模型的通用能力。

圖片

Qwen2.5-Math-7B 基礎模型及其 SePT、GRPO 訓練版本在通用領域的評測結果。

程式碼簡單可用

專案團隊的程式碼實作是基於位元組開源的 verl 框架。更重要的是,SePT 本身並不綁定某個特定框架,其方法簡單直接:以取樣溫度 圖片 生成樣本、進行標準 SFT、再由更新後的模型生成下一輪訓練資料。也正因為這個訓練循環足夠輕量,SePT 不僅可以自然地在 verl 上實作;對於已經有訓練框架,或使用其他線上訓練框架的團隊而言,也較容易遷移和重現。

圖片

© THE END

轉載請聯繫本公眾號獲得授權

相關文章推薦

分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.