On-Policy Distillation とは何か？On-Policy/Self-Distillation の深層解説

ホームページ：http://qingkeai.online/

著者：一木不
https://zhuanlan.zhihu.com/p/2004306938188537902

On-Policy に関する研究の多くは概念の販売に終始しており、本質的な革新性に欠けると感じられます。例えば、ある時は On-Policy Distillation を SFT（教師あり微調整）と呼び、別の時は RL（強化学習）と呼びますが、単に「Distillation（蒸留）」と呼ぶべきではないでしょうか。

一般的に認められている点は以下の通りです：

On-Policy Distillation は、GRPO のパフォーマンスを維持しつつ、過度な「アハ・モーメント（Aha Moment）」を回避できる
On-Policy Distillation は壊滅的忘却（catastrophic forgetting）を緩和できる
On-Policy Distillation は GRPO と自然に組み合わせやすく、トークンレベルの密な報酬信号を提供できる
On-Policy Distillation の課題は教師モデルの取得であり、Self-Distillation（ポリシーモデル自体を教師モデルとして使用する方法）が有効であることが検証されている
On-Policy Distillation の実装は RL と互換性があるため、RL フレームワーク上での開発が比較的容易である

本稿では、ポリシー自体を教師モデルとして使用する On-Policy/Self-Distillation（OPSD）に焦点を当てて解説します。

1. On-Policy Distillation の目的と勾配

On-Policy Distillation の目的は、学生ポリシー π_θ と教師ポリシー π_T 之间的 KL ダイバージェンスを、学生ポリシー自身が生成した軌跡分布上で最小化することです：

数式：KL ダイバージェンスの定義

ここで KL は Reverse KL でも Forward KL でも構いません。文献 [1-2] では Reverse KL が、文献 [3] では Forward KL が使用されています。

Forward KL の勾配は以下のように導出できます：

数式：Forward KL の勾配

Reverse KL の勾配は以下のように導出できます：

数式：Reverse KL の勾配

ご覧の通り、これは RL の目的関数と非常によく似ており、どちらも ∇logπ_θ(a|s) を含んでいます。違いは重み付けの部分にあります。RL では報酬（Reward）またはアドバンテージ（Advantage）で重み付けされます。

2. On-Policy Self-Distillation

Self-Distillation は、ポリシー自体を教師モデルとして使用することを目的としています：

数式：Self-Distillation の目的関数

ここで、sg は stop gradient（勾配停止）を表し、K は追加的な知識を表し、K は y〜π_T(・|x) によって得られます。

On-Policy Self-Distillation の鍵は教師の構築方法にあります。OPSD における教師の構築方法は、MoCo、SimCLR、DINO、SigLIP などの手法と類似点があります。

インコンテキスト学習（In-Context Learning）能力に依存するため、追加的な知識を導入する必要がある
ポリシーモデルは常に更新されるため、教師モデルのパラメータはより安定している必要がある

この 2 点が、以降の実装詳細で議論される内容です。

3. 実装詳細

3.1 追加的な知識をどう導入するか

現在確認されている方法は以下の 2 通りです：

方法 1：Ground-Truth を直接ポリシーモデルに参考として提示する

図：Ground-Truth を提示する方法

方法 2：環境からのフィードバックに依存する

図：環境フィードバックを利用する方法

3.2 教師モデルのパラメータをどう決定するか

初期段階では凍結された元のモデルを直接使用可能だが、後続で崩壊する
教師モデルとして常にポリシーモデルを使用することも可能だが、EMA（指数移動平均）ほどの効果はない
Trust-region と EMA はほぼ同等の効果があり、どちらも最適化過程での劇的な変化を避けてより安定した教師を得ることを目的としている

Trust-region の更新戦略は以下の通りです：

図：Trust-region 更新戦略

図：Trust-region 数式

図：EMA 更新式

4. On-Policy Self-Distillation の利点

4.1 壊滅的忘却の緩和

「Self-Distillation Bridges Distribution Gap in Language Model Fine-Tuning」という研究は比較的早期にこの問題に取り組んでいましたが、当時は On-Policy という概念がまだ注目されていませんでした。

図：壊滅的忘却の緩和効果

図：分布ギャップの橋渡し

4.2 アハ・モーメントの削減

図：アハ・モーメントの削減効果

図：学習安定性の向上

4.3 訓練 - テストギャップの削減

訓練時に学生モデルへテスト時の分布を事前に暴露することで、暴露バイアス（exposure bias）を緩和します。

5. On-Policy Self-Distillation のスケーリング

一般的に、モデルサイズが大きいほど GRPO を上回る効果が大きくなります。これは、モデルが大きいほどインコンテキスト学習能力が強くなる傾向があるためです。

図：モデルサイズと性能の関係

参考文献

[1] Reinforcement Learning via Self-Distillation
https://arxiv.org/html/2601.20802

[2] Self-Distillation Enables Continual Learning
https://arxiv.org/html/2601.19897

[3] Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models
https://arxiv.org/html/2601.18734

関連記事のおすすめ

AGI への必須経路：エージェントの自己進化とは何を「進化」させているのか？

ゼロから構築する自己進化エージェントの開発历程

苦い教訓！ROLL チームが共有：Agentic RL 訓練における実践経験

sense を減らして math に挑戦！post train を成功させる方法論について

人工知能機械学習大規模言語モデルモデル蒸留強化学習

関連記事

Thinking Machinesの最新作「Interaction Model」をどう評価すべきか？人工知能

トークンレベルで生成長を精密制御：3BモデルがGPT-5.4やClaudeを撃破人工知能

近年で最も革新的なAI論文か：推論にリアルタイム字幕を付けると、AIの心理活動が衝撃的だった！人工知能

エージェント訓練はなぜ長距離タスクで必ず崩壊するのか人工知能

ICML 2026｜力技を拒絶、PRISMフレームワークがdLLMでも効率的なTest-Time Scalingを実現人工知能

分享網址

元のURL：https://mp.weixin.qq.com/s/tNwZiCPz9S9h2oTCxR8G6w