本文の第一著者である李梦琦は、香港中文大学(深圳)のコンピュータサイエンス専攻の博士課程学生です。本研究は、上海交通大学の趙磊教授、香港中文大学の蘇文藻教授と協力し、香港中文大学(深圳)の孫若愚教授と李肖教授の共同指導のもとで完了しました。
推論のポストトレーニングにおいて、ほとんどの手法は依然として報酬モデル、検証器、または追加の教師信号に依存しています。これらの外部信号に依存せず、モデル自身が生成した回答のみを用いて自己学習を行うだけで、推論能力を向上させることは可能でしょうか?可能です!SePT(Self-evolving Post-Training)は肯定的な答えを提示します。このシンプルな自己学習手法により、数学的推論タスクの精度が一気に10ポイント向上します!
論文タイトル:
A Model Can Help Itself: Reward-Free Self-Training for LLM Reasoning
論文:
コード:
SePTのオンライン自己学習ループの概略図:サンプルはサンプリング温度τ_sで生成され、訓練段階では標準的なSFTが採用されます。次のラウンドの訓練データは、更新されたモデルによって生成されます。
フローチャートが示すように、SePTの核心は極めてシンプルです。現在のモデルがまず回答を生成し、それらの回答を用いて標準的なSFTを行い、その後、更新されたモデルが次のラウンドの訓練データを再生成します。以下では、このオンラインループの自己学習がどれほどの向上をもたらすかを見ていきます。
数学的推論における結果:SePT vs ベースライン
主な結果は図の通りです。ここでのベースラインは、デフォルトのサンプリング設定で直接評価したベースモデルではなく、ポストトレーニングは行われていませんが、推論段階でテンパラチャスイープ(temperature sweep)を行い、最良の結果を選択した強力なベースラインです。SePTによる自己学習後、6つの数学ベンチマークテストセットの平均で、Pass@1、Pass@8、Pass@32、AVGのすべてにおいて顕著な向上が見られました。
Qwen2.5-Math-7Bにおいて、6つの数学ベンチマークテストセットの平均Pass@1、Pass@8、Pass@32、AVGで、SePTは上記ベースラインを全ての指標で明らかに上回っています。
数学的推論における結果:SePT vs RLVR
さらにRLVR手法(GRPO)と比較すると、自己学習手法SePTは、特にOTMデータセットにおいて、GRPOにかなり近い結果を達成できていることがわかります。
表中の結果と合わせると、Qwen2.5-Math-7BでOTMを使用した場合、SePTとGRPOのAVGはそれぞれ55.2と56.6で、差はわずか1.4です。一方、DSRではその差は4.1(55.0 vs. 59.1)に拡大します。DeepSeek-Math-7B-Instructでは、同じ差はそれぞれ0.4(33.0 vs. 33.4)と1.7(33.9 vs. 35.6)です。Qwen2.5-Math-7BのOTM設定においては、SePTのPass@1がGRPOをわずかに上回る(40.8 vs. 39.5)ことさえあります。
これらの結果は、本論文の比較設定下において、SePTは訓練問題セットの選択に対してより小さな変動を示し、GRPOはDSRでの向上がより顕著であることを示しています。
Qwen2.5-Math-7BとDeepSeek-Math-7B-Instructにおける、OpenThoughts-Math(OTM)とDeepScaleR(DSR)の平均ベンチマーク比較。2つの訓練セットの規模は同程度です。ΔはOTMに対するDSRの相対的な変化を示し、DSRがOTMを少なくとも2.0ポイント上回るケースを網掛けで示しています。
SePTアルゴリズムの具体的な流れ
SePTは極めてシンプルな自己学習フレームワーク設計を持ち、以下の3つのステップに要約できます。
1. 問題バンクから問題をサンプリングし、現在のモデルがサンプリング温度τ_sで回答を生成します。
2. これらの自己生成サンプルを用いて、現在のモデルに標準的なSFTを実行します。
3. 更新されたモデルが、次のラウンドの訓練データを再生成します。
この設計の鍵は、温度のデカップリング、標準SFT訓練、最新モデルによる自己生成データに集約されます。
現在のラウンドでサンプリングに使用するモデルをM_t、訓練問題セットをQ、サンプリング温度をτ_s、訓練温度をτ_tとすると、SePTの訓練目的関数は次のように記述できます。L_SePT(M_t) = -E_{q~Q, y~P_{M_t}(・|q; τ_s)} [log P_{M_t}(y|q; τ_t)] 。
つまり、SePTは追加の報酬、アドバンテージ、検証器、教師信号を一切導入していません。訓練段階は標準的な負の対数尤度、すなわち標準的なSFTであり、訓練サンプルは前のラウンドで温度τ_sの下でモデル自身が生成した軌跡から得られるだけです。
本論文の実験では、標準的なSFT訓練(τ_t = 1)を採用しており、デフォルトではプロンプトごとに1回だけサンプリングします(k = 1)。これもSePTが工学的に非常に軽量である理由の一つです。
SePTにおけるオンライン自己生成データ
本論文は、この設計の重要性をアブレーション実験を通じてさらに検証しています。「最新モデルがラウンドごとに次の訓練データを生成する」方式を固定データでの訓練に変更すると、性能が明らかに低下します。Qwen2.5-Math-7Bを例にとると、SePT (オフライン) のAVGは45.5であるのに対し、オンライン版のSePTは55.0に達します。
Qwen2.5-Math-7BにおけるSePTとSePT (オフライン) の比較。括弧内の数値はベースラインからの変化量を示します。
SePTにおける温度デカップリング
SePTでは2つの温度が関係します。生成時は探索を広げるために低温(τ_s < 1)を採用し、訓練時は標準SFT(τ_t = 1)を維持します。この二つを固定する必要はありません。自己学習サンプルの生成に使用するサンプリング温度はτ_s、もう一方の訓練段階の標準設定はτ_t = 1です。
なぜこれが重要なのでしょうか?本論文の定理1は、直感的な理論的論証を提供しています。
ある接頭辞xの下で、旧モデルのサンプリング分布をP_old(・|x; τ_s)、訓練後の最適解をP*(・|x)とすると、ある定数αが存在し、P*(y2|x) - P*(y1|x) ∝ α (P_old(y2|x)^(1/τ_s) - P_old(y1|x)^(1/τ_s)) となります。
したがって、任意の2つのトークンy1、y2について、P*(y2|x) > P*(y1|x) ⇔ P_old(y2|x) > P_old(y1|x) が成り立ちます。
これは、τ_s < 1のとき(本論文の実験での主な選択)、一対比較のロジットマージンが1/τ_sの比率で拡大されることを意味します。直感的に言うと、低温サンプリング+標準温度訓練は、単にモデルをより保守的にするのではなく、トークン間の相対的な順序を可能な限り保持しつつ、事前学習に既に存在する選好境界を適切に広げるのです。
この点は実験でも直接検証されています。Qwen2.5-Math-7Bを例にとると、温度カップリング(τ_s = τ_t)を使用した場合、Pass@1/Pass@8/Pass@32/AVGは19.3/50.1/64.3/44.6にとどまり、Pass@1はベースラインを下回ります。一方、デカップリング(τ_s < 1, τ_t = 1)を採用すると、これら4つの指標は39.5/57.7/67.9/55.0まで向上します。
つまり、SePTにおける「低温生成+標準SFT」は、数学的推論の向上にとって単なる経験則ではなく、理論と実験の両方から支持される重要な設計なのです。
Qwen2.5-Math-7Bにおける温度カップリングとデカップリングの比較。括弧内の数値は手法の値とベースライン値の差(手法 − ベースライン)を示します。
上の表は、生成温度と訓練温度のデカップリングが結果的に確かに優れていることを示していますが、なぜそれが優れているのかは、ベースモデル自体の温度と性能のトレードオフ(temperature–performance trade-off)からも理解できます。下図が示すように、異なる指標に対応する最適なτ_sは一貫しておらず、これこそがSePTがτ_tとτ_sを連動させない直感的な動機です。
ベースモデルにおけるPass@1、Pass@8、Pass@32、およびAVGのサンプリング温度に応じた結果。
自己学習はモデルの汎用能力を損なうか?
数学的な自己生成軌跡でのみ訓練を継続することで、モデルの一般的な能力が損なわれることはないのでしょうか?本論文は、Qwen2.5-Math-7Bを用いた一連の一般ドメインベンチマークでこの問いに肯定的な回答を示しています。テストベンチマークにはIFEval、BBH、GPQA、MuSR、MMLU-Proが含まれます。結果はほぼ横ばいか微増でした。基本モデルは23.4/47.5/29.9/41.4/32.1、SePTは23.6/47.3/30.6/41.5/32.2でした。つまり、SePTはIFEval、GPQA、MuSR、MMLU-Proでわずかに向上し、BBHはほぼ変化なしでした。GRPOも同様のパターンを示しました。これは、SePTの自己学習手法がモデルの汎用能力を明らかに損なわないことを示しています。
Qwen2.5-Math-7Bベースモデルと、そのSePT、GRPO訓練バージョンの汎用ドメインにおける評価結果。
シンプルで使いやすいコード
プロジェクトチームのコード実装は、ByteDanceがオープンソース化したverlフレームワークに基づいています。さらに重要なのは、SePT自体は特定のフレームワークに依存しないという点です。その手法はシンプルかつ直接的です。サンプリング温度τ_sでサンプルを生成し、標準的なSFTを実行し、更新されたモデルが次のラウンドの訓練データを生成する、というものです。この訓練ループが十分に軽量であるため、SePTはverl上で自然に実装できるだけでなく、既に訓練フレームワークを持っているチームや、他のオンライン学習フレームワークを使用しているチームにとっても、移行や再現が比較的容易です。
© THE END
転載は本公式アカウントへの連絡により許可を得てください
投稿または取材のお申し出:liyazhou@jiqizhixin.com