大規模言語モデル(LLM)の強化学習(RL)訓練において、最も頭を悩ませるのはアルゴリズムではなく、データである。実在するプログラミング問題を 2 万 5 千問から 8 万 1 千問に増やしても、性能の向上は早々に頭打ちとなる。簡単すぎる問題はモデルのエントロピー崩壊を招き、難しすぎる問題は報酬が希薄すぎて計算リソースを無駄に消費するだけだ。この状況下で Meta の論文が示した直感に反する結論はこうだ。
「多段階の合成データパイプラインで生成した 2 万問の合成問題と、多様な環境下での訓練を組み合わせれば、ドメイン外での汎化性能において、2 万 5 千問の実在プログラミング問題集を明確に凌駕する」
なぜ実データの量を増やしても効果がないのか
論文ではまず、Qwen3-8B Base モデルを用い、実在するプログラミング問題 2 万 5 千問と 8 万 1 千問を用いた RL 訓練の効果を比較した。その結果は残酷なものだった。方策エントロピーの低下に伴い、性能向上はごく早期にプラトー(停滞期)に達し、データ量を増やしてもそれに見合った収益は得られなかったのである。
問題の根源はデータ分布にある。実在する問題セットには、大量の簡単問題と、ごく少数の極めて困難な問題が不可避に混在している。簡単問題は訓練初期に勾配更新を提供した後に訓練を支配してしまい、一方で極難問は「困難な探索」を要求するが、初期モデルには到底解けず、計算資源を浪費するだけに終わる。
[図 3: Qwen3-8B Base を用いた実データによる拡張実験] 2 万 5 千問と 8 万 1 千問の実在プログラミング問題を用いた RL 訓練を比較すると、ドメイン内評価(LCB)およびドメイン外評価(Math500、AIME2024)のいずれのベンチマークにおいても、性能向上は早期に頭打ちとなっている。これは、単に実データの規模を拡大するだけでは効果が限定的であることを示している。
また、「簡単問題から始め、徐々に難問へ移行する」という一般的なカリキュラム学習戦略も、実データ上では機能しない。難問と簡単問題の間に意味のある段階的関係が欠如していることが多く、簡単問題に探索予算を使いすぎると、後続の難問に対処する能力をモデルが失ってしまうためだ。
多段階合成データパイプライン:教師が生徒に動的に適応する
本論文が提案する中核的な解決策は、多段階の「教師 - 生徒(Teacher-Student)」型合成データ生成パイプラインである。具体的な手法は以下の通り。
シード(種)の由来
シードは 2 種類ある。(1) 初期の RL 訓練で正解できた実在プログラミング問題の解答から抽出したコード断片。(2) オープンソースのコードコーパス「starcoderdata」から無作為に抽出した、25〜50 行の連続するコードをインスピレーションの源とするもの。
生成フロー
プロセスは多段階に構成される。第 1 ラウンドでは、教師モデル(GPT-OSS 120B の高推論モード)がシード断片と現在の RL 環境のルールに基づいて問題を 1 問生成し、生徒モデル(同一モデルの低推論モード)が M=32 回の試行で解答を試みる。第 2 ラウンド以降、教師は生徒の正解率(p)と代表的な解法の要約を受け取り、それに基づいて問題の難易度を調整する。具体的には、正解率が 0.65 を超えれば難易度を上げ、正解率が 0 であれば難易度を下げる。各シードに対して 6 ラウンドの反復を行い、各ラウンドは完全な履歴ではなく、直前のラウンドの問題と生徒の要約のみに基づいて行われる。
[図 1: 多段階合成データパイプラインの概要] シード断片が教師のインスピレーション源となる。第 1 ラウンドで教師が初期問題を生成し、生徒が複数回解答を試みる。その後のラウンドでは、教師が生徒の成績要約(正解率と代表的解法)に基づき、問題の難易度を動的に調整する。無効な生成や重複はフィルタリング・除外された後、データセットに組み込まれる。
[図 2: 多段階データ生成の例] 第 1 ラウンドで教師が生成した問題の生徒による正解率は 0.875 であった。第 2 ラウンドで教師は生徒の成績を観察し、より困難な変種を生成。これにより正解率は 0.25 まで低下した。
この手法の決定的な利点は、この適応プロセス全体がコンテキスト学習のみで完結し、教師モデルの勾配更新を一切必要としない点にある。単独の単一ラウンドサンプリングと比較し、多段階生成によって有効な問題の生存率は約4 倍に向上し、同時に自然と異なる難易度を持つ「踏み石」となる変種が生み出される。
4 つの RL 環境の設計
論文では 4 種類の RL 環境を定義している。Induction(帰納)(入力と出力の組から関数を合成するプログラム合成)、Abduction(アブダクション)(関数と出力から入力を推測)、Deduction(演繹)(関数と入力から出力を推測)、そしてFuzzing(ファズテスト)(テスト関数を失敗させる入力を見つける)である。各環境には明確な教師による生成ルールと、二値報酬関数が定義されている。
[表 1: RL 環境の概要] 4 つの環境における教師の生成方法、生徒の解決タスク、および報酬関数の定義を一覧にしたもの。
実験:複数モデル・複数スケールにおける合成データの効果
論文では、Llama3.1-8B Instruct、Qwen3-8B Base、Qwen2.5-32B Base の 3 モデルで体系的な実験を実施した。評価基準には、ドメイン内の LiveCodeBench(LCB、454 問)と、ドメイン外の Math500、AIME2024 を含む。
合成データによる強化効果は顕著であった。 訓練予算の総量を一定に保ったまま、2 万 5 千問の実在問題に 2 万問の合成問題を追加して強化したところ、3 モデルすべてにおいてドメイン内のコードベンチマークで、より速く、より安定した収束を示した。Llama3.1-8B Instruct と Qwen2.5-32B Base では、ドメイン外の数学ベンチマークでも性能向上が見られた。特筆すべきは、合成データによる強化が、LCB 指標の多くにおいて 8 万 1 千問の実データベーラインさえも上回る性能を記録した点である。
[図 4: Llama3.1-8B Instruct における合成データ強化実験] 合成データによる強化は、ドメイン内(LCB)およびドメイン外(Math500、AIME2024)の両ベンチマークにおいて、2 万 5 千問の実データのみを用いたベースラインを上回る性能を示した。
純粋な合成データも競争力を有する。 合成問題のみで訓練されたモデルは LCB において実データと同等の成績を収めることができる。ただし、難易度分布には注意が必要だ。明示的な制御を行わない場合、データセットは簡単問題が中心となり、単純なタスクへの過学習を招く恐れがある。
難易度、カリキュラム、環境の多様性:3 つの重要次元
難易度という次元において、論文は問題を生徒の正解率に基づき「易(easy)」「中(medium)」「難(hard)」の 3 段階に分類した。その結果、「中」難度の問題単独での訓練が、収束速度と汎化性能のバランスにおいて最適であることが判明した。「易」は過学習を招き、「難」は報酬の希薄さから収束が極めて遅くなる。
[図 11: Qwen3-8B Base における難易度別 RL 訓練] 「中」難度での訓練は、LCBv5-medium および LCBv5-hard の各区分において、「易」や「難」よりも優れた性能を示した。
カリキュラム設計という次元では、従来の「易から難へ」というカリキュラムが、むしろ「易」区分への過学習を招くことがわかった。論文では逆カリキュラム(「中」または「難」から開始)も実験したが、「中」から始める逆カリキュラムが、最も収束が速く、シード間の分散も低いことが判明した。一方、「難」から始めると分散が大幅に増加する。ただし留意すべき点として、逆カリキュラムが「中」難度のデータのみを訓練する場合に比べ、どれほどの優位性を持つかは、さらなる検証が必要である。
環境の多様性という次元こそが、本論文の最も輝かしい発見の一つだ。2 万問という問題数の予算を 4 つの環境に均等配分(各 5 千問)し、すべてを単一の「Induction」環境に投入した場合と比較した。その結果、多環境設定はドメイン外ベンチマークで顕著な性能向上をもたらし、ドメイン内での pass@10 も向上させ、さらに「易」区分における過学習を回避した。この傾向は Llama3.1-8B Instruct においても確認され、2 万問の多環境合成問題は、2 万 5 千問の実在プログラミング問題集をも凌駕する結果を残している。
[図 14: Qwen3-8B Base における RL 環境数の拡張実験] データ予算を 4 つの環境に分散させたところ、単一環境での訓練に比べ、ドメイン外汎化性能およびドメイン内 pass@10 の双方において優れた結果を示した。
X(旧 Twitter)での議論と考察
論文は複数の限界点も率直に認めている。「踏み石」となる構造の恩恵はカリキュラム戦略によって一貫しておらず、混合難易度での訓練時には異なる難度間の勾配に干渉が見られた。また、現在のデータ生成パイプラインは RL 訓練と切り離されており、教師は実際の生徒のオンライン上の誤りから学習するわけではない。今後は教師を訓練ループに組み込み、生徒の弱点をリアルタイムで適応させることで、さらなる向上が見込まれるとしている。
ここから得られる核心的な示唆は明確だ。RL による後訓練(post-training)のボトルネックはデータ規模ではなく、データの構造、難易度分布、そして環境の多様性にある。多段階合成パイプラインは実用的なスケーリングへの道筋を示しており、特に「環境の数」を独立した拡張軸として捉える視点は、過小評価されてきた性能向上のレバレッジポイントとなり得る。
原文タイトル:A Deep Dive into Scaling RL for Code Generation with Synthetic Data and Curricula
原文リンク:https://arxiv.org/abs/2603.24202
#无影寺