LLM 只靠自己就能強化推理？SePT 提出簡潔的線上自訓練範式

本文第一作者李夢琦為香港中文大學（深圳）電腦科學專業博士生。本項研究是與上海交通大學趙磊老師、香港中文大學蘇文藻老師合作，並在香港中文大學（深圳）孫若愚老師與李肖老師的共同指導下完成。

在推理後訓練裡，多數方法仍依賴獎勵模型、驗證器或額外的教師訊號。如果不依賴這些外部訊號，只使用模型自身生成的答案進行自訓練，是否仍然能夠提升推理能力？是的！SePT（Self-evolving Post-Training）給出了肯定的答案，這種簡潔的自訓練方法，可在數學推理任務上讓準確率直接飆升 10 個百分點！

論文標題：
A Model Can Help Itself: Reward-Free Self-Training for LLM Reasoning
論文連結：
https://arxiv.org/pdf/2510.18814
程式碼：
https://github.com/ElementQi/SePT

SePT 的線上自訓練循環示意圖：樣本以取樣溫度 τ_s 生成，訓練階段採用標準 SFT；下一輪訓練資料由更新後的模型生成。

如流程圖所示，SePT 的核心極其簡潔：當前模型先生成答案，再用這些答案做標準 SFT，隨後由更新後的模型重新生成下一輪訓練資料。下面先來看看這種線上循環自訓練到底帶來了多少提升。

數學推理上的結果：SePT vs Baseline

主要結果如圖所示。這裡的 baseline 並非預設取樣設定下直接評測的基礎模型，而是未做後訓練、但在推理階段經過 temperature sweep 並取最佳結果的強基線。經過 SePT 自訓練後，在 6 個數學基準測試集平均後的 Pass@1、Pass@8、Pass@32 和 AVG 上均有明顯提升。

在 Qwen2.5-Math-7B 上，6 個數學基準測試集平均後的 Pass@1、Pass@8、Pass@32 和 AVG：SePT 在各項指標上均明顯高於上述 baseline。

數學推理上的結果：SePT vs RLVR

如果進一步與 RLVR 方法（如 GRPO）比較，可以看到：自訓練方法 SePT 已經能夠取得與 GRPO 較為接近的結果，尤其是在 OTM 資料集上。

結合表中的結果，在 Qwen2.5-Math-7B 上，使用 OTM 時，SePT 和 GRPO 的 AVG 分別為 55.2 和 56.6，差距只有 1.4；而在 DSR 上，這一差距擴大為 4.1（55.0 vs. 59.1）。在 DeepSeek-Math-7B-Instruct 上，同樣的差距分別為 0.4（33.0 vs. 33.4）和 1.7（33.9 vs. 35.6）。甚至在 Qwen2.5-Math-7B 的 OTM 設定下，SePT 的 Pass@1 還略高於 GRPO（40.8 vs. 39.5）。

這些結果顯示，在本文的比較設定下，SePT 對訓練題集的選擇表現出更小的波動，而 GRPO 在 DSR 上的增益更明顯。

OpenThoughts-Math（OTM）和 DeepScaleR（DSR）在 Qwen2.5-Math-7B 與 DeepSeek-Math-7B-Instruct 上的平均基準比較。兩套訓練題集規模相近。Δ 表示 DSR 相對 OTM 的變化，陰影標示出 DSR 至少高出 OTM 2.0 分的情形。

SePT 演算法具體流程

SePT 有著極其簡潔的自訓練框架設計，可以概括為以下三個步驟：

1、從題庫中取樣問題，並由當前模型在取樣溫度下生成答案；

2、使用這些自生成樣本對當前模型進行標準 SFT；

3、再由更新後的模型生成下一輪訓練資料。

這項設計的關鍵可概括為：溫度解耦、標準 SFT 訓練、由最新模型自生成資料。

如果把當前輪用於取樣的模型記為，訓練題集記為，取樣溫度為，訓練溫度為，則 SePT 的訓練 objective 可以寫成。

也就是說，SePT 並沒有引入額外的 reward、advantage、verifier 或 teacher signal；訓練階段就是標準的負對數似然，也就是標準 SFT，只不過訓練樣本來自模型自己上一輪在溫度下生成的軌跡。

本文實驗裡採用標準 SFT 訓練，即，預設每個 prompt 只取樣一次（），這也是 SePT 在工程上非常輕量的原因之一。

SePT 中的線上自生成資料

本文進一步透過消融實驗驗證了這項設計的重要性：如果將「由最新模型逐輪生成下一輪訓練資料」改為固定資料訓練，效能會明顯下降。以 Qwen2.5-Math-7B 為例，SePT (Offline) 的 AVG 為 45.5，而線上版本的 SePT 可達到 55.0。

SePT 與 SePT (Offline) 在 Qwen2.5-Math-7B 上的比較，括號中的數值表示相對於 baseline 的變化。

SePT 中的溫度解耦

SePT 中涉及兩個溫度，生成時放開探索，訓練時保持標準 SFT，二者不必綁死。生成自訓練樣本時使用的取樣溫度為，而另一個是訓練階段的標準設定 = 1。

為什麼這件事很重要？本文的定理一給出了一個直觀的理論論證：

若在某個前綴下，舊模型的取樣分佈寫作，而訓練後的最優解寫作，則存在某個常數，使得。

因此，對任意兩個 token ，都有。

這意味著，當時（本文實驗裡的主要選擇），pairwise logit margin 會按比例被放大。直觀上來說，低溫取樣加上標準溫度訓練，並不是簡單地讓模型變得更保守，而是在盡量保留兩兩 token 之間的相對排序的同時，把預訓練裡已經存在的偏好邊界適當地拉開。

這一點在實驗上也被直接驗證了。以 Qwen2.5-Math-7B 為例，若使用 temperature coupling，Pass@1/Pass@8/Pass@32/AVG 只有 19.3/50.1/64.3/44.6，Pass@1 甚至低於 baseline；而採用 decoupling 後，四項指標可以提升到 39.5/57.7/67.9/55.0。

也就是說，SePT 裡「低溫生成加上標準 SFT」對於數學推理的提升並不是一個經驗性技巧，而是有理論與實驗雙重支持的重要設計。

Qwen2.5-Math-7B 在溫度耦合與解耦方案下的對比。括號內數值表示方法值與基準值的差（Method−Baseline）。

上表顯示，生成溫度與訓練溫度解耦在結果上確實更優；但它為什麼更優，還可以從基礎模型本身的 temperature–performance trade-off 來理解。如下圖所示，不同指標對應的最佳並不一致，這正是 SePT 不把與綁定的直觀動機。

Pass@1、Pass@8、Pass@32 以及 AVG 在基礎模型上隨著取樣溫度變化的結果。

自訓練是否會損害模型的通用能力？

模型的一般能力會不會因為只在數學自生成軌跡上繼續訓練而受損？本文在 Qwen2.5-Math-7B 上的一組 general-domain benchmark 正面回答了這個問題，測試基準包括 IFEval、BBH、GPQA、MuSR 和 MMLU-Pro。結果基本上是幾乎不掉分：基礎模型分別為 23.4/47.5/29.9/41.4/32.1，SePT 為 23.6/47.3/30.6/41.5/32.2。也就是說，SePT 在 IFEval、GPQA、MuSR、MMLU-Pro 上都有輕微提升，BBH 基本上不變；GRPO 也呈現了類似模式。這表示 SePT 自訓練方法不會明顯損害模型的通用能力。

Qwen2.5-Math-7B 基礎模型及其 SePT、GRPO 訓練版本在通用領域的評測結果。

程式碼簡單可用

專案團隊的程式碼實作是基於位元組開源的 verl 框架。更重要的是，SePT 本身並不綁定某個特定框架，其方法簡單直接：以取樣溫度生成樣本、進行標準 SFT、再由更新後的模型生成下一輪訓練資料。也正因為這個訓練循環足夠輕量，SePT 不僅可以自然地在 verl 上實作；對於已經有訓練框架，或使用其他線上訓練框架的團隊而言，也較容易遷移和重現。

轉載請聯繫本公眾號獲得授權