ホームページ:http://qingkeai.online/
On-Policy に関する研究の多くは概念の販売に終始しており、本質的な革新性に欠けると感じられます。例えば、ある時は On-Policy Distillation を SFT(教師あり微調整)と呼び、別の時は RL(強化学習)と呼びますが、単に「Distillation(蒸留)」と呼ぶべきではないでしょうか。
一般的に認められている点は以下の通りです:
- On-Policy Distillation は、GRPO のパフォーマンスを維持しつつ、過度な「アハ・モーメント(Aha Moment)」を回避できる
- On-Policy Distillation は壊滅的忘却(catastrophic forgetting)を緩和できる
- On-Policy Distillation は GRPO と自然に組み合わせやすく、トークンレベルの密な報酬信号を提供できる
- On-Policy Distillation の課題は教師モデルの取得であり、Self-Distillation(ポリシーモデル自体を教師モデルとして使用する方法)が有効であることが検証されている
- On-Policy Distillation の実装は RL と互換性があるため、RL フレームワーク上での開発が比較的容易である
本稿では、ポリシー自体を教師モデルとして使用する On-Policy/Self-Distillation(OPSD)に焦点を当てて解説します。
1. On-Policy Distillation の目的と勾配
On-Policy Distillation の目的は、学生ポリシー π_θ と教師ポリシー π_T 之间的 KL ダイバージェンスを、学生ポリシー自身が生成した軌跡分布上で最小化することです:
ここで KL は Reverse KL でも Forward KL でも構いません。文献 [1-2] では Reverse KL が、文献 [3] では Forward KL が使用されています。
Forward KL の勾配は以下のように導出できます:
Reverse KL の勾配は以下のように導出できます:
ご覧の通り、これは RL の目的関数と非常によく似ており、どちらも ∇logπ_θ(a|s) を含んでいます。違いは重み付けの部分にあります。RL では報酬(Reward)またはアドバンテージ(Advantage)で重み付けされます。
2. On-Policy Self-Distillation
Self-Distillation は、ポリシー自体を教師モデルとして使用することを目的としています:
ここで、sg は stop gradient(勾配停止)を表し、K は追加的な知識を表し、K は y〜π_T(・|x) によって得られます。
On-Policy Self-Distillation の鍵は教師の構築方法にあります。OPSD における教師の構築方法は、MoCo、SimCLR、DINO、SigLIP などの手法と類似点があります。
- インコンテキスト学習(In-Context Learning)能力に依存するため、追加的な知識を導入する必要がある
- ポリシーモデルは常に更新されるため、教師モデルのパラメータはより安定している必要がある
この 2 点が、以降の実装詳細で議論される内容です。
3. 実装詳細
3.1 追加的な知識をどう導入するか
現在確認されている方法は以下の 2 通りです:
方法 1:Ground-Truth を直接ポリシーモデルに参考として提示する
方法 2:環境からのフィードバックに依存する
3.2 教師モデルのパラメータをどう決定するか
- 初期段階では凍結された元のモデルを直接使用可能だが、後続で崩壊する
- 教師モデルとして常にポリシーモデルを使用することも可能だが、EMA(指数移動平均)ほどの効果はない
- Trust-region と EMA はほぼ同等の効果があり、どちらも最適化過程での劇的な変化を避けてより安定した教師を得ることを目的としている
Trust-region の更新戦略は以下の通りです:
4. On-Policy Self-Distillation の利点
4.1 壊滅的忘却の緩和
「Self-Distillation Bridges Distribution Gap in Language Model Fine-Tuning」という研究は比較的早期にこの問題に取り組んでいましたが、当時は On-Policy という概念がまだ注目されていませんでした。
4.2 アハ・モーメントの削減
4.3 訓練 - テストギャップの削減
訓練時に学生モデルへテスト時の分布を事前に暴露することで、暴露バイアス(exposure bias)を緩和します。
5. On-Policy Self-Distillation のスケーリング
一般的に、モデルサイズが大きいほど GRPO を上回る効果が大きくなります。これは、モデルが大きいほどインコンテキスト学習能力が強くなる傾向があるためです。
参考文献
[1] Reinforcement Learning via Self-Distillation
https://arxiv.org/html/2601.20802
[2] Self-Distillation Enables Continual Learning
https://arxiv.org/html/2601.19897
[3] Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models
https://arxiv.org/html/2601.18734
関連記事のおすすめ
AGI への必須経路:エージェントの自己進化とは何を「進化」させているのか?