解説:強化学習は大規模言語モデルの推論能力を向上させるための核となる手段ですが、RL 訓練の効率、特に訓練時間の 70% もを消費しがちな「ロールアウト」段階のボトルネックは長年の課題でした。SortedRL は、このボトルネックを半減させるエレガントなスケジューリング技術をもたらします。
背景:なぜ RL 訓練はこれほど遅いのか
現在の主要な大規模言語モデル向け RL 訓練(GRPO や PPO など)は、以下の構造的なジレンマに直面しています。
- ロールアウトの重さ:16k トークンに及ぶ思考連鎖(Chain of Thought)の生成は、自己回帰型デコーディングの性質上、本質的に非常に時間がかかります。
- 同期のオーバーヘッド:ポリシーの更新はロールアウト完了後でなければ行えず、GPU は待機中に大量のアイドル時間が発生します。
- バッチ間の不均衡:サンプルごとの出力長の差が激しく、短いサンプルが長いサンプルを待つことで効率が低下します。
その結果、クラスタの計算リソースが十分にあっても、実際の GPU 稼働率は極めて低く、訓練時間が大量の「バブル(待機時間)」によって浪費されています。
中核的手法:長さでソートし、実行しながら更新
SortedRL の中核的な発想は驚くほどシンプルです。
Rollout Buffer
│
▼
[出力長でソート] ← 短いサンプルを優先
│
▼
短グループ → 早期にポリシー更新 → 次回のロールアウトへ継続
長グループ → 後続バッチで更新
│
▼
Stateful Controller(オフポリシーバイアスの程度を制御)
3 つの重要な設計:
| 設計 | 役割 |
|---|---|
| オンライン長さ認識スケジューリング | 短いサンプルを先に更新し、待機バブルを解消 |
| 大規模ロールアウトと小規模更新バッチの分離 | 並列処理効率の向上とメモリ負荷の軽減 |
| キャッシュ制御によるオフポリシー調整 | サンプルの新しさと訓練速度のバランスを最適化 |
本質的に SortedRL は、「全サンプルの実行完了を待って一括更新する」という従来の直列パイプラインを、「実行しながら更新する」ストリーミングスケジューリングへと改造したものです。短いサンプルグループが揃った時点で直ちに方策勾配をトリガーし、長いサンプルの生成終了を待つ必要がなくなります。
実験結果:データが示す事実
LLaMA-3.1-8B および Qwen-2.5-32B を用い、AIME 24、Math 500、Minerval などの推論ベンチマークで実験を行いました。
- 訓練バブル比の 50% 以上削減:GPU のアイドル時間を劇的に圧縮
- 同等の訓練量で性能が 3.9%〜18.4% 向上:ベースライン手法との比較
- 16k トークンの長鎖推論をサポート:思考連鎖の品質を損なうことなく実現
効率向上に加え、SortedRL は「ニア・オンポリシー・マイクロカリキュラム」とも呼ぶべき状態を構築します。短いサンプルは頻繁に更新され、長いサンプルは蓄積されてから更新されるため、自然と「易しいものから難しいものへ」という訓練リズムが生まれ、RL 訓練プロセスの安定化に寄与します。
結論
SortedRL の価値は単なる速度向上にとどまらず、直感に反する重要な洞察を示した点にあります。それは、RL 訓練のボトルネックはアルゴリズムではなくスケジューリングであるということです。大規模クラスタにおいて、いかに GPU を稼働させ続けるかは、どの報酬関数を選ぶのと同様に重要です。検証可能な報酬による強化学習(RLVR)が業界標準となりつつある中、SortedRL のようなシステムレベルでの最適化が果たす役割は、今後さらに顕著になっていくでしょう。