NVIDIA Nemotron-Cascade 2 技術報告：3B 激活參數奪下 IMO 金牌，重新定義小模型極限

Nemotron-Cascade 2 是一款僅具 30 億（3B）激活參數的混合專家模型（MoE），卻在 2025 年國際數學奧林匹亞（IMO）中斬獲 35 分（滿分 42 分）的金牌佳績；在國際資訊奧林匹亞（IOI）中拿下 439.28 分的金牌分數；甚至在 ICPC 世界總決賽中解出 12 題中的 10 題。此前，這類被視為只有千億級閉源模型才能觸及的成績，如今由 NVIDIA 發布的 Nemotron-Cascade 2，透過一套精心設計的後訓練流水線，讓小模型展現出驚人的智能密度。

級聯式強化學習：讓 RL 環境分領域逐步推進

Nemotron-Cascade 2 的核心方法為「Cascade RL」（級聯式強化學習），亦即按領域依序進行 RL 訓練，而非將所有任務混為一談。此框架承襲自前作 Nemotron-Cascade 1，其優勢主要體現在三點：(1) 各領域 RL 階段對「災難性遺忘」具有極強抵抗力，幾乎不會退化既有性能；(2) 每個階段可獨立調整超參數與訓練課程；(3) 同一領域內的回應長度與驗證耗時更為均勻，顯著節省運算資源。

Nemotron-Cascade 2 級聯 RL 訓練流程圖

[圖 2：Nemotron-Cascade 2 於 SFT 之後，按領域依序進行級聯 RL 訓練之流程圖] 論文展示從 SFT 開始，依序經過 IF-RL、多領域 RL、MOPD、RLHF、長上下文 RL、程式碼 RL 以至 SWE RL 的完整訓練流程，每個階段皆在對應領域帶來顯著提升。

具體而言，整個 Cascade RL 流水線依序執行如下：首先透過 IF-RL（指令遵循 RL）建立基礎指令遵循能力；接著進行多領域 RL，同步提升 STEM 多選題、Agent 工具呼叫與結構化輸出能力；其後進入 MOPD（多領域在線策略蒸餾）；再進行 RLHF 以對齊人類偏好；接著是長上下文 RL、程式碼 RL，最後以 SWE RL 處理軟體工程 Agent 任務。

階段順序並非固定不變，而是根據模型行為動態調整。核心原則是找出能使跨領域負向干擾最小化的排列方式。舉例來說，IF-RL 可能損害人類對齊能力（如 ArenaHard 分數），但後續的 RLHF 對指令遵循影響甚微，因此將 IF-RL 安排在前。

訓練全程採用 GRPO（Group Relative Policy Optimization）演算法，嚴格遵循「在線策略」訓練——每一步皆以當前策略生成 rollouts 並執行單次梯度更新，重要性採樣比恆為 1，同時完全移除 KL 散度項。

多領域在線蒸餾：以訓練過程最優檢查點為師

儘管 Cascade RL 大幅降低災難性遺忘風險，但隨著 RL 環境數量增加，性能波動仍難避免。為此，論文引入 MOPD 作為關鍵穩定化階段。其核心概念為：從 Cascade RL 各階段中，挑選每個基準測試類別表現最佳的檢查點作為領域教師模型，對學生模型進行在線蒸餾。

訓練動態與下游評估圖表

[圖 3：訓練動態與下游評估] 論文比較 MOPD 與 GRPO 於 AIME25 上的收斂速度。在相同數學訓練設定下，GRPO 經 25 步從 89.9 提升至 91.0；而 MOPD 僅需 30 步即達 92.0，恢復至教師模型水準，展現顯著訓練效率優勢。

MOPD 的吸引力在於三點：教師模型直接取自 Cascade RL 流水線，無需引入外部模型；所有教師共享同一 tokenizer，減少分布偏移；MOPD 提供密集的 token 層級訓練訊號，遠優於 GRPO 稀疏的序列層級獎勵。在 ArenaHard v2 上，MOPD 僅用52 步即將 Hard Prompt 分數從 71.5 提升至85.5；反觀 RLHF 則需160 步才達 80.7。

[表 3：MOPD 與 RLHF 於 ArenaHard V2.0 之比較] 在匹配評估檢查點條件下，MOPD 以較少步數同時於 Hard Prompt 與創意寫作項目取得更高分數。

MOPD 與 RLHF 比較圖表

SFT 資料：涵蓋十大領域的大規模蒸餾

SFT 階段為模型注入基礎能力。Nemotron-Cascade 2 的 SFT 資料涵蓋數學（含 180 萬工具呼叫樣本與 260 萬無工具樣本）、程式碼推理（190 萬 Python 與 100 萬 C++14 推理軌跡）、科學（270 萬樣本）、長上下文（23.4 萬樣本）、通用對話（約 1000 萬樣本）、指令遵循、安全、對話 Agent、SWE Agent 與終端 Agent 等十大領域。所有樣本打包至最長256K token序列中，單階段訓練約1.5 個 epoch即達最佳效果。

競賽級表現與基準測試全面領先

主要結果比較表

[表 1：主要結果] Nemotron-Cascade-2-30B-A3B 於數學、程式碼推理、對齊與指令遵循等多個類別，超越 Qwen3.5-35B-A3B 及更大的 Nemotron-3-Super-120B-A12B。

IMO、IOI 與 ICPC 表現比較

[表 2：IMO 2025、IOI 2025 與 ICPC 世界總決賽表現] 模型於 IMO 2025 前五題全數滿分（P1-P5 各 7 分）；IOI 2025 獲得 439.28/600 金牌成績；ICPC 世界總決賽解出 10/12 題。

數學方面，AIME 2025 達到92.4（使用工具時達98.6）；HMMT Feb25 達到94.6。程式碼推理方面，LiveCodeBench v6 達到87.2；Codeforces ELO 估分2320；甚至在 LiveCodeBench Pro Hard 上，首次以小模型實現高於 0% 的通過率。對齊任務上，ArenaHard v2 平均分83.5；IFBench 達到82.9。1M token 的 NIAH 測試達到99.0。

競賽編程綜合基準測試結果

[表 6：競賽編程綜合基準測試結果] 論文將 Nemotron-Cascade-2 與包含 DeepSeek-V3.2-Speciale、GPT-OSS-120B 在內的多個基線模型比較，發現模型於整合工具推理後，性能可匹配超過 300B 總參數的頂級開源模型。

模型在知識密集型與 Agent 任務上仍落後 Qwen3.5-35B-A3B，顯示更強知識預訓練與 Agent RL 為未來改進方向。值得注意的是，Nemotron-Cascade-2 與 Nemotron-3-Nano-30B-A3B 共享同一預訓練基座，卻在几乎所有基準測試實現超越，直接證明 Cascade RL 加上 MOPD 訓練流水線之有效性。

Nemotron-Cascade 2 已完全開源模型權重、訓練資料與方法細節。當大模型軍備競賽仍持續升溫之際，這項工作證明後訓練方法論的精進，能讓小模型釋放出遠超其參數量級的能力——3B 激活參數触及 IMO 金牌線，這或許是 2025 年最具性價比的 AI 推理方案之一。

原文標題：Nemotron-Cascade 2: Post-Training LLMs with Cascade RL and Multi-Domain On-Policy Distillation
原文連結：https://research.nvidia.com/labs/nemotron/files/Nemotron-Cascade-2.pdf

#無影寺

NVIDIA Nemotron-Cascade 2 技術報告：3B 激活參數奪下 IMO 金牌，重新定義小模型極限

級聯式強化學習：讓 RL 環境分領域逐步推進

多領域在線蒸餾：以訓練過程最優檢查點為師

SFT 資料：涵蓋十大領域的大規模蒸餾

競賽級表現與基準測試全面領先

相關文章推薦

分享網址