Nemotron-Cascade 2 是一款僅具 30 億(3B)激活參數的混合專家模型(MoE),卻在 2025 年國際數學奧林匹亞(IMO)中斬獲 35 分(滿分 42 分)的金牌佳績;在國際資訊奧林匹亞(IOI)中拿下 439.28 分的金牌分數;甚至在 ICPC 世界總決賽中解出 12 題中的 10 題。此前,這類被視為只有千億級閉源模型才能觸及的成績,如今由 NVIDIA 發布的 Nemotron-Cascade 2,透過一套精心設計的後訓練流水線,讓小模型展現出驚人的智能密度。
級聯式強化學習:讓 RL 環境分領域逐步推進
Nemotron-Cascade 2 的核心方法為「Cascade RL」(級聯式強化學習),亦即按領域依序進行 RL 訓練,而非將所有任務混為一談。此框架承襲自前作 Nemotron-Cascade 1,其優勢主要體現在三點:(1) 各領域 RL 階段對「災難性遺忘」具有極強抵抗力,幾乎不會退化既有性能;(2) 每個階段可獨立調整超參數與訓練課程;(3) 同一領域內的回應長度與驗證耗時更為均勻,顯著節省運算資源。
[圖 2:Nemotron-Cascade 2 於 SFT 之後,按領域依序進行級聯 RL 訓練之流程圖] 論文展示從 SFT 開始,依序經過 IF-RL、多領域 RL、MOPD、RLHF、長上下文 RL、程式碼 RL 以至 SWE RL 的完整訓練流程,每個階段皆在對應領域帶來顯著提升。
具體而言,整個 Cascade RL 流水線依序執行如下:首先透過 IF-RL(指令遵循 RL)建立基礎指令遵循能力;接著進行多領域 RL,同步提升 STEM 多選題、Agent 工具呼叫與結構化輸出能力;其後進入 MOPD(多領域在線策略蒸餾);再進行 RLHF 以對齊人類偏好;接著是長上下文 RL、程式碼 RL,最後以 SWE RL 處理軟體工程 Agent 任務。
階段順序並非固定不變,而是根據模型行為動態調整。核心原則是找出能使跨領域負向干擾最小化的排列方式。舉例來說,IF-RL 可能損害人類對齊能力(如 ArenaHard 分數),但後續的 RLHF 對指令遵循影響甚微,因此將 IF-RL 安排在前。
訓練全程採用 GRPO(Group Relative Policy Optimization)演算法,嚴格遵循「在線策略」訓練——每一步皆以當前策略生成 rollouts 並執行單次梯度更新,重要性採樣比恆為 1,同時完全移除 KL 散度項。
多領域在線蒸餾:以訓練過程最優檢查點為師
儘管 Cascade RL 大幅降低災難性遺忘風險,但隨著 RL 環境數量增加,性能波動仍難避免。為此,論文引入 MOPD 作為關鍵穩定化階段。其核心概念為:從 Cascade RL 各階段中,挑選每個基準測試類別表現最佳的檢查點作為領域教師模型,對學生模型進行在線蒸餾。
[圖 3:訓練動態與下游評估] 論文比較 MOPD 與 GRPO 於 AIME25 上的收斂速度。在相同數學訓練設定下,GRPO 經 25 步從 89.9 提升至 91.0;而 MOPD 僅需 30 步即達 92.0,恢復至教師模型水準,展現顯著訓練效率優勢。
MOPD 的吸引力在於三點:教師模型直接取自 Cascade RL 流水線,無需引入外部模型;所有教師共享同一 tokenizer,減少分布偏移;MOPD 提供密集的 token 層級訓練訊號,遠優於 GRPO 稀疏的序列層級獎勵。在 ArenaHard v2 上,MOPD 僅用52 步即將 Hard Prompt 分數從 71.5 提升至85.5;反觀 RLHF 則需160 步才達 80.7。
[表 3:MOPD 與 RLHF 於 ArenaHard V2.0 之比較] 在匹配評估檢查點條件下,MOPD 以較少步數同時於 Hard Prompt 與創意寫作項目取得更高分數。
SFT 資料:涵蓋十大領域的大規模蒸餾
SFT 階段為模型注入基礎能力。Nemotron-Cascade 2 的 SFT 資料涵蓋數學(含 180 萬工具呼叫樣本與 260 萬無工具樣本)、程式碼推理(190 萬 Python 與 100 萬 C++14 推理軌跡)、科學(270 萬樣本)、長上下文(23.4 萬樣本)、通用對話(約 1000 萬樣本)、指令遵循、安全、對話 Agent、SWE Agent 與終端 Agent 等十大領域。所有樣本打包至最長256K token序列中,單階段訓練約1.5 個 epoch即達最佳效果。
競賽級表現與基準測試全面領先
[表 1:主要結果] Nemotron-Cascade-2-30B-A3B 於數學、程式碼推理、對齊與指令遵循等多個類別,超越 Qwen3.5-35B-A3B 及更大的 Nemotron-3-Super-120B-A12B。
[表 2:IMO 2025、IOI 2025 與 ICPC 世界總決賽表現] 模型於 IMO 2025 前五題全數滿分(P1-P5 各 7 分);IOI 2025 獲得 439.28/600 金牌成績;ICPC 世界總決賽解出 10/12 題。
數學方面,AIME 2025 達到92.4(使用工具時達98.6);HMMT Feb25 達到94.6。程式碼推理方面,LiveCodeBench v6 達到87.2;Codeforces ELO 估分2320;甚至在 LiveCodeBench Pro Hard 上,首次以小模型實現高於 0% 的通過率。對齊任務上,ArenaHard v2 平均分83.5;IFBench 達到82.9。1M token 的 NIAH 測試達到99.0。
[表 6:競賽編程綜合基準測試結果] 論文將 Nemotron-Cascade-2 與包含 DeepSeek-V3.2-Speciale、GPT-OSS-120B 在內的多個基線模型比較,發現模型於整合工具推理後,性能可匹配超過 300B 總參數的頂級開源模型。
模型在知識密集型與 Agent 任務上仍落後 Qwen3.5-35B-A3B,顯示更強知識預訓練與 Agent RL 為未來改進方向。值得注意的是,Nemotron-Cascade-2 與 Nemotron-3-Nano-30B-A3B 共享同一預訓練基座,卻在几乎所有基準測試實現超越,直接證明 Cascade RL 加上 MOPD 訓練流水線之有效性。
Nemotron-Cascade 2 已完全開源模型權重、訓練資料與方法細節。當大模型軍備競賽仍持續升溫之際,這項工作證明後訓練方法論的精進,能讓小模型釋放出遠超其參數量級的能力——3B 激活參數触及 IMO 金牌線,這或許是 2025 年最具性價比的 AI 推理方案之一。
原文標題:Nemotron-Cascade 2: Post-Training LLMs with Cascade RL and Multi-Domain On-Policy Distillation
原文連結:https://research.nvidia.com/labs/nemotron/files/Nemotron-Cascade-2.pdf
#無影寺