合成資料比真實數據更有效？Meta 論文揭示強化學習訓練大模型的突破路徑

在利用強化學習（RL）訓練大型語言模型時，最令人頭痛的往往不是演算法本身，而是「數據」的品質與分佈。嘗試將真實的程式設計題目從 25K 擴增到 81K，模型性能的提升很早就觸及天花板；簡單題目容易導致模型熵崩塌，而過難的題目又因獎勵過於稀疏，白白浪費了寶貴的運算資源。Meta 發表的一篇論文給出了一個反直覺的結論：透過多輪合成數據管線生成的 20K 道合成題目，配合多環境訓練，其在域外泛化能力上顯著優於使用 25K 道真實編程題的表現。

真實數據擴量為何失效？

論文首先在 Qwen3-8B Base 模型上，對比了使用 25K 與 81K 真實編程題進行 RL 訓練的效果。結果相當殘酷：隨著策略熵（Policy Entropy）下降，性能提升很早就進入平台期，單純增加數據量並未帶來成比例的收益。

問題癥結在於數據分佈——真實世界的題目集中，不可避免地混雜著大量簡單題和極少量的極難題。簡單題在訓練早期提供梯度更新後便主導了進程，而極難題構成了「硬探索」挑戰，初始模型根本無法解出，導致計算資源被無效消耗。

Figure 3: Qwen3-8B Base 使用真實數據的擴展實驗

[圖 3：Qwen3-8B Base 使用真實數據的擴展實驗] 對比 25K 與 81K 真實編程題的 RL 訓練，在 LCB（域內）以及 Math500、AIME2024（域外）基準上的性能提升均早早見頂，說明僅靠擴大真實數據規模收效有限。

此外，常見的课程學習策略——即先訓練簡單題再逐步過渡到難題——在真實數據上效果也不佳。這是因為難題與簡單題之間往往缺乏有意義的遞進關係，且在簡單題上消耗過多探索預算，會讓模型喪失後續應對難題的能力。

多輪合成數據管線：讓教師動態適配學生

論文提出的核心方案是一個「多輪 Teacher-Student 合成數據生成管線」。具體做法如下：

種子來源主要有兩類：(1) 從初始 RL 訓練中成功求解的真實編程題答案中提取代碼片段；(2) 從開源代碼語料 Starcoderdata 中隨機抽取 25-50 行連續代碼作為靈感種子。

生成流程分為多輪。第一輪，教師模型（採用 GPT-OSS 120B 高推理模式）根據種子片段和當前 RL 環境規則生成一道題目，學生模型（同一模型的低推理模式）嘗試求解 M=32 次。從第二輪開始，教師接收學生的通過率 p 和代表性解法摘要，據此調整題目難度——若通過率高於 0.65 則增加難度，若通過率為 0 則降低難度。每個種子執行 6 輪迭代，每輪僅基於前一轮的題目和學生摘要，而非完整歷史。

Figure 1: 多輪合成數據管線概覽

[圖 1：多輪合成數據管線概覽] 種子片段作為教師的靈感來源，第一輪教師生成初始題目並由學生多次嘗試求解，後續輪次教師根據學生表現摘要（通過率和代表性解法）動態調整題目難度。無效和重複生成經過過濾去重後納入數據集。

Figure 2: 多輪數據生成示例

[圖 2：多輪數據生成示例] 第一輪教師生成的題目學生通過率為 0.875，第二輪教師觀察到學生表現後生成更難變體，通過率降至 0.25。

此方法的關鍵優勢在於：整個適配過程純靠上下文學習（In-Context Learning）完成，無需對教師模型進行梯度更新。相比獨立的單輪採樣，多輪生成將有效題目的留存比例提高了約4 倍，同時自然產生了不同難度的「踏腳石」變體。

四大 RL 環境的設計

論文明確定義了四種 RL 環境：

Induction（歸納）：程式合成，給定輸入輸出對以合成函數。
Abduction（溯因）：輸入預測，給定函數和輸出以推斷輸入。
Deduction（演繹）：輸出預測，給定函數和輸入以推斷輸出。
Fuzzing（模糊測試）：找到使測試函數失敗的輸入。

每種環境都有明確的教師生成規則和二值獎勵函數。

Table 1: RL 環境概覽

[表 1：RL 環境概覽] 列出了四種環境的教師生成方式、學生求解任務和獎勵函數定義。

實驗：合成數據在多模型、多尺度上的效果

論文在 Llama3.1-8B Instruct、Qwen3-8B Base 和 Qwen2.5-32B Base 三個模型上進行了系統實驗，評估基準包括域內的 LiveCodeBench（LCB，454 道題）和域外的 Math500、AIME2024。

合成數據增強效果顯著。在保持總訓練預算不變的前提下，將 25K 真實題增強 20K 合成題後，三個模型在域內代碼基準上均獲得更快且更穩定的收斂。Llama3.1-8B Instruct 和 Qwen2.5-32B Base 在域外數學基準上也有提升。合成增強甚至在多項 LCB 指標上超越了 81K 真實數據基線的表現。

Figure 4: Llama3.1-8B Instruct 合成數據增強實驗

[圖 4：Llama3.1-8B Instruct 合成數據增強實驗] 合成增強在域內（LCB）和域外（Math500、AIME2024）基準上均優於僅用 25K 真實數據的基線。

純合成數據也具有競爭力。僅用合成題訓練的模型在 LCB 上可匹配真實數據的成績，但需注意難度分佈——未經顯式調控時數據集以簡單題為主，容易導致對簡單任務過擬合。

難度、課程與環境多樣性：三個關鍵維度

在難度層面上，論文將題目按學生存活率分為 easy、medium、hard 三檔。結果顯示，單獨訓練 medium 難度題在收斂速度與泛化之間取得最佳平衡，easy 題導致過擬合，hard 題因獎勵稀疏收斂極慢。

Figure 11: Qwen3-8B Base 在不同難度上的 RL 訓練

[圖 11：Qwen3-8B Base 在不同難度上的 RL 訓練] medium 難度訓練在 LCBv5-medium 和 LCBv5-hard 分片上表現優於 easy 和 hard。

在課程設計層面上，傳統從易到難的課程反而導致對 easy 分片過擬合。論文實驗了反向課程（從 medium 或 hard 開始訓練），發現從 medium 開始的反向課程收斂更快、跨種子方差更低，但從 hard 起步則方差大幅增加。值得注意的是，反向課程相比直接只訓 medium 數據的優勢尚需進一步驗證。

在環境多樣性層面上，這是論文最亮眼的發現之一。將 20K 題目預算均分到四種環境（每種 5K），對比全部投入單一 induction 環境：多環境設置在域外基準上取得顯著提升，域內 pass@10 也更高，且避免了在 easy 分片上的過擬合。同樣趨勢在 Llama3.1-8B Instruct 上也得到驗證——20K 多環境合成題甚至超過 25K 真實編程題。

Figure 14: Qwen3-8B Base 中 RL 環境數量的擴展實驗

[圖 14：Qwen3-8B Base 中 RL 環境數量的擴展實驗] 將數據預算分散到四種環境後，域外泛化和域內 pass@10 均優於單環境訓練。

總結與啟示

論文坦承幾個局限：踏腳石結構的收益在不同課程策略下表現不一致，混合難度訓練時不同難度梯度之間存在干擾；當前數據生成管線與 RL 訓練解耦，教師並非從實際學生的在線錯誤中學習。論文預期將教師納入訓練循環、實時適配學生弱點將帶來進一步提升。

核心啟示清晰：RL 後訓練的瓶頸不在數據規模，而在數據結構、難度分佈和環境多樣性。多輪合成管線提供了一條實用的規模化路徑，而「環境數量」作為獨立的擴展軸，可能是被低估的性能槓桿。

原文標題：A Deep Dive into Scaling RL for Code Generation with Synthetic Data and Curricula

原文連結：https://arxiv.org/abs/2603.24202

#無影寺