合成資料比真實數據更有效?Meta 論文揭示強化學習訓練大模型的突破路徑

在利用強化學習(RL)訓練大型語言模型時,最令人頭痛的往往不是演算法本身,而是「數據」的品質與分佈。嘗試將真實的程式設計題目從 25K 擴增到 81K,模型性能的提升很早就觸及天花板;簡單題目容易導致模型熵崩塌,而過難的題目又因獎勵過於稀疏,白白浪費了寶貴的運算資源。Meta 發表的一篇論文給出了一個反直覺的結論:透過多輪合成數據管線生成的 20K 道合成題目,配合多環境訓練,其在域外泛化能力上顯著優於使用 25K 道真實編程題的表現。

真實數據擴量為何失效?

論文首先在 Qwen3-8B Base 模型上,對比了使用 25K 與 81K 真實編程題進行 RL 訓練的效果。結果相當殘酷:隨著策略熵(Policy Entropy)下降,性能提升很早就進入平台期,單純增加數據量並未帶來成比例的收益。

問題癥結在於數據分佈——真實世界的題目集中,不可避免地混雜著大量簡單題和極少量的極難題。簡單題在訓練早期提供梯度更新後便主導了進程,而極難題構成了「硬探索」挑戰,初始模型根本無法解出,導致計算資源被無效消耗。

Figure 3: Qwen3-8B Base 使用真實數據的擴展實驗

[圖 3:Qwen3-8B Base 使用真實數據的擴展實驗] 對比 25K 與 81K 真實編程題的 RL 訓練,在 LCB(域內)以及 Math500、AIME2024(域外)基準上的性能提升均早早見頂,說明僅靠擴大真實數據規模收效有限。

此外,常見的课程學習策略——即先訓練簡單題再逐步過渡到難題——在真實數據上效果也不佳。這是因為難題與簡單題之間往往缺乏有意義的遞進關係,且在簡單題上消耗過多探索預算,會讓模型喪失後續應對難題的能力。

多輪合成數據管線:讓教師動態適配學生

論文提出的核心方案是一個「多輪 Teacher-Student 合成數據生成管線」。具體做法如下:

種子來源主要有兩類:(1) 從初始 RL 訓練中成功求解的真實編程題答案中提取代碼片段;(2) 從開源代碼語料 Starcoderdata 中隨機抽取 25-50 行連續代碼作為靈感種子。

生成流程分為多輪。第一輪,教師模型(採用 GPT-OSS 120B 高推理模式)根據種子片段和當前 RL 環境規則生成一道題目,學生模型(同一模型的低推理模式)嘗試求解 M=32 次。從第二輪開始,教師接收學生的通過率 p 和代表性解法摘要,據此調整題目難度——若通過率高於 0.65 則增加難度,若通過率為 0 則降低難度。每個種子執行 6 輪迭代,每輪僅基於前一轮的題目和學生摘要,而非完整歷史。

Figure 1: 多輪合成數據管線概覽

[圖 1:多輪合成數據管線概覽] 種子片段作為教師的靈感來源,第一輪教師生成初始題目並由學生多次嘗試求解,後續輪次教師根據學生表現摘要(通過率和代表性解法)動態調整題目難度。無效和重複生成經過過濾去重後納入數據集。

Figure 2: 多輪數據生成示例

[圖 2:多輪數據生成示例] 第一輪教師生成的題目學生通過率為 0.875,第二輪教師觀察到學生表現後生成更難變體,通過率降至 0.25。

此方法的關鍵優勢在於:整個適配過程純靠上下文學習(In-Context Learning)完成,無需對教師模型進行梯度更新。相比獨立的單輪採樣,多輪生成將有效題目的留存比例提高了約4 倍,同時自然產生了不同難度的「踏腳石」變體。

四大 RL 環境的設計

論文明確定義了四種 RL 環境:

  • Induction(歸納):程式合成,給定輸入輸出對以合成函數。
  • Abduction(溯因):輸入預測,給定函數和輸出以推斷輸入。
  • Deduction(演繹):輸出預測,給定函數和輸入以推斷輸出。
  • Fuzzing(模糊測試):找到使測試函數失敗的輸入。

每種環境都有明確的教師生成規則和二值獎勵函數。

Table 1: RL 環境概覽

[表 1:RL 環境概覽] 列出了四種環境的教師生成方式、學生求解任務和獎勵函數定義。

實驗:合成數據在多模型、多尺度上的效果

論文在 Llama3.1-8B InstructQwen3-8B BaseQwen2.5-32B Base 三個模型上進行了系統實驗,評估基準包括域內的 LiveCodeBench(LCB,454 道題)和域外的 Math500、AIME2024。

合成數據增強效果顯著。在保持總訓練預算不變的前提下,將 25K 真實題增強 20K 合成題後,三個模型在域內代碼基準上均獲得更快且更穩定的收斂。Llama3.1-8B Instruct 和 Qwen2.5-32B Base 在域外數學基準上也有提升。合成增強甚至在多項 LCB 指標上超越了 81K 真實數據基線的表現。

Figure 4: Llama3.1-8B Instruct 合成數據增強實驗

[圖 4:Llama3.1-8B Instruct 合成數據增強實驗] 合成增強在域內(LCB)和域外(Math500、AIME2024)基準上均優於僅用 25K 真實數據的基線。

純合成數據也具有競爭力。僅用合成題訓練的模型在 LCB 上可匹配真實數據的成績,但需注意難度分佈——未經顯式調控時數據集以簡單題為主,容易導致對簡單任務過擬合。

難度、課程與環境多樣性:三個關鍵維度

在難度層面上,論文將題目按學生存活率分為 easy、medium、hard 三檔。結果顯示,單獨訓練 medium 難度題在收斂速度與泛化之間取得最佳平衡,easy 題導致過擬合,hard 題因獎勵稀疏收斂極慢。

Figure 11: Qwen3-8B Base 在不同難度上的 RL 訓練

[圖 11:Qwen3-8B Base 在不同難度上的 RL 訓練] medium 難度訓練在 LCBv5-medium 和 LCBv5-hard 分片上表現優於 easy 和 hard。

在課程設計層面上,傳統從易到難的課程反而導致對 easy 分片過擬合。論文實驗了反向課程(從 medium 或 hard 開始訓練),發現從 medium 開始的反向課程收斂更快、跨種子方差更低,但從 hard 起步則方差大幅增加。值得注意的是,反向課程相比直接只訓 medium 數據的優勢尚需進一步驗證。

在環境多樣性層面上,這是論文最亮眼的發現之一。將 20K 題目預算均分到四種環境(每種 5K),對比全部投入單一 induction 環境:多環境設置在域外基準上取得顯著提升,域內 pass@10 也更高,且避免了在 easy 分片上的過擬合。同樣趨勢在 Llama3.1-8B Instruct 上也得到驗證——20K 多環境合成題甚至超過 25K 真實編程題。

Figure 14: Qwen3-8B Base 中 RL 環境數量的擴展實驗

[圖 14:Qwen3-8B Base 中 RL 環境數量的擴展實驗] 將數據預算分散到四種環境後,域外泛化和域內 pass@10 均優於單環境訓練。

總結與啟示

論文坦承幾個局限:踏腳石結構的收益在不同課程策略下表現不一致,混合難度訓練時不同難度梯度之間存在干擾;當前數據生成管線與 RL 訓練解耦,教師並非從實際學生的在線錯誤中學習。論文預期將教師納入訓練循環、實時適配學生弱點將帶來進一步提升。

核心啟示清晰:RL 後訓練的瓶頸不在數據規模,而在數據結構、難度分佈和環境多樣性。多輪合成管線提供了一條實用的規模化路徑,而「環境數量」作為獨立的擴展軸,可能是被低估的性能槓桿。

原文標題:A Deep Dive into Scaling RL for Code Generation with Synthetic Data and Curricula

原文連結:https://arxiv.org/abs/2603.24202

#無影寺


分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.