Nemotron-Cascade 2 は、わずか 30 億(3B)の活性化パラメータを持つ混合専門家(MoE)モデルでありながら、2025 年国際数学オリンピック(IMO)では満点 42 点中 35 点という金メダル級の成績を収め、国際情報オリンピック(IOI)でも 439.28 点で金メダルを獲得しました。さらに、ICPC ワールドファイナルでは 12 問中 10 問を解く離れ業をやってのけています。これまで、こうした実績は数千億パラメータ規模のクローズドソースモデルにしか到達できないと考えられていました。NVIDIA が発表した Nemotron-Cascade 2 は、入念に設計されたトレーニング後(ポストトレーニング)のパイプラインにより、小規模モデルでありながら驚異的な「知能密度」を発揮することを証明しました。
カスケード強化学習:RL 環境を 1 つずつ段階的に
Nemotron-Cascade 2 の中核をなす手法は「カスケード RL(Cascaded Reinforcement Learning)」です。これは、すべてのタスクを一度に混合して学習するのではなく、ドメインごとに順を追って RL 訓練を行うアプローチです。前作である Nemotron-Cascade 1 から継承されたこのフレームワークには、主に 3 つの利点があります。(1) 各ドメインの RL 段階において「破滅的忘却」に対して極めて強く、すでに獲得した性能がほぼ劣化しないこと、(2) 各段階でハイパーパラメータやトレーニングカリキュラムを独立して調整可能なこと、(3) 同一ドメイン内での応答長や検証にかかる時間が均一化され、計算リソースを大幅に節約できることです。
[図 2: SFT 後、ドメインごとに順次実施される Nemotron-Cascade 2 のカスケード RL 訓練フロー] 論文では、SFT(教師あり微調整)に始まり、IF-RL、マルチドメイン RL、MOPD、RLHF、長文脈 RL、コード RL、そして SWE RL へと至る完全な訓練フローが示されています。各段階は、対応するドメインにおいて顕著な性能向上をもたらします。
具体的には、カスケード RL のパイプラインは以下の順序で実行されます。まず IF-RL(指示従順 RL)で基礎的な指示従順能力を確立し、次にマルチドメイン RL で STEM 分野の多肢選択問題、エージェントによるツール呼び出し、構造化出力を同時に強化します。続いて MOPD(マルチドメイン・オンポリシー蒸留)を行い、その後に RLHF による人間の選好への調整、長文脈 RL、コード RL と続き、最後に SWE RL でソフトウェアエンジニアリングエージェントタスクを処理します。
この段階の順序は固定的なものではなく、モデルの振る舞いによって動的に決定されます。その基本原則は、ドメインを横断した負の干渉を最小限に抑える配列を見つけることです。例えば、IF-RL は人間の選好との整合性(ArenaHard スコアなど)を損なう可能性がありますが、後続の RLHF は指示従順性にほとんど影響を与えないため、IF-RL は先に配置されます。
訓練全体では GRPO(Group Relative Policy Optimization)アルゴリズムが採用され、厳密なオンポリシー訓練が実施されています。各ステップで現在のポリシーからロールアウトを生成して 1 回の勾配更新を行い、重要度サンプリング比は常に 1 に保たれ、KL ダイバージェンス項は完全に除去されています。
マルチドメイン・オンポリシー蒸留:訓練過程での最適チェックポイントを「教師」として活用
カスケード RL は破滅的忘却を大幅に軽減しますが、RL 環境の数が増えるにつれ、性能の揺らぎは依然として存在します。そこで論文では、重要な安定化段階として MOPD を導入しています。その中核となる考え方は、カスケード RL の各段階から、各ベンチマークカテゴリで最高性能を示したチェックポイントを「ドメイン教師モデル」として選び出し、生徒モデルに対してオンライン蒸留を行うというものです。
[図 3: 訓練ダイナミクスと下流評価] 論文は、AIME25 における MOPD と GRPO の収束速度を比較しています。同一の数学的訓練設定の下、GRPO は 25 ステップで 89.9 から 91.0 へ向上したのに対し、MOPD は 30 ステップ以内に 92.0 に達し、教師モデルの水準を回復させるなど、顕著な訓練効率の優位性を示しました。
MOPD の魅力は 3 点あります。第一に、教師モデルをカスケード RL のパイプライン内部から直接選択するため、外部モデルを導入する必要がありません。第二に、すべての教師が同一のトークナイザを共有するため、分布のズレを低減できます。第三に、MOPD は GRPO のまばらなシーケンス単位の報酬に比べ、はるかに高密度なトークン単位の訓練信号を提供します。ArenaHard v2 においては、MOPD はわずか52 ステップで Hard Prompt のスコアを 71.5 から85.5へ向上させましたが、RLHF が 80.7 に達するには160 ステップを要しました。
[表 3: ArenaHard V2.0 における MOPD と RLHF の比較] 評価用チェックポイントの条件を揃えた場合、MOPD はより少ないステップ数で、Hard Prompt および Creative Writing の両方においてより高いスコアを達成しました。
SFT データ:10 大ドメインを網羅する大規模蒸留
SFT 段階はモデルに基礎能力を注入する役割を担います。Nemotron-Cascade 2 の SFT データは、数学(ツール呼び出しサンプル 180 万件、ツールなしサンプル 260 万件を含む)、コード推論(Python 190 万トレース、C++14 100 万トレース)、科学(270 万サンプル)、長文脈(23.4 万サンプル)、一般対話(約 1000 万サンプル)、指示従順、安全性、対話エージェント、SWE エージェント、ターミナルエージェントという 10 大ドメインを網羅しています。すべてのサンプルは最大256K トークンのシーケンスにパックされ、単一ステージでの訓練は約1.5 エポックで最適性能に達しました。
競技レベルの性能とベンチマークでの完全勝利
[表 1: 主要結果] Nemotron-Cascade-2-30B-A3B は、数学、コード推論、アライメント、指示従順など複数のカテゴリにおいて、Qwen3.5-35B-A3B や、さらに大規模な Nemotron-3-Super-120B-A12B を凌駕する性能を示しました。
[表 2: IMO 2025、IOI 2025、ICPC ワールドファイナルでの成績] 本モデルは IMO 2025 の最初の 5 問(P1-P5)で満点(各 7 点)を獲得。IOI 2025 では 600 点満点中 439.28 点という金メダル相当の成績を収め、ICPC ワールドファイナルでは 12 問中 10 問を正解させました。
数学分野では、AIME 2025 で92.4 点(ツール使用時は 98.6 点)、HMMT Feb25 で94.6 点を記録しました。コード推論分野では、LiveCodeBench v6 で87.2 点、Codeforces ELO 推定スコアで2320を達成。特筆すべきは、LiveCodeBench Pro Hard において、小規模モデルとして初めて 0% を超える正解率を達成した点です。アライメントタスクでは、ArenaHard v2 の平均スコアが83.5、IFBench が82.9となりました。また、100 万トークンの NIAH(Needle In A Haystack)テストでは99.0という驚異的なスコアを叩き出しています。
[表 6: 競技プログラミング総合ベンチマーク結果] 論文では、Nemotron-Cascade-2 を DeepSeek-V3.2-Speciale や GPT-OSS-120B を含む多数のベースラインモデルと比較しています。その結果、ツール統合推論を使用することで、総パラメータ数 3000 億を超えるトップクラスのオープンソースモデルに匹敵する性能を発揮することが示されました。
一方で、知識集約型タスクやエージェントタスクにおいては、いまだ Qwen3.5-35B-A3B に劣る場面があり、より強力な知識事前学習とエージェント RL が今後の改善課題であることが示唆されています。特筆すべきは、Nemotron-Cascade-2 が Nemotron-3-Nano-30B-A3B と同一の事前学習ベースを共有しながらも、ほぼすべてのベンチマークでこれを上回った事実です。これは、カスケード RL と MOPD からなる訓練パイプラインの有効性を直接的に証明するものです。
Nemotron-Cascade 2 は、モデル重み、訓練データ、手法の詳細に至るまで完全にオープンソース化されています。大規模モデル開発の軍拡競争が続く中、この研究は、トレーニング後手法の高度化により、小規模モデルがそのパラメータ規模を遥かに超える能力を解放しうることを証明しました。3B の活性化パラメータで IMO 金メダル圏内の性能に到達したことは、2025 年において最もコストパフォーマンスに優れた AI 推論ソリューションの一つと言えるでしょう。
原文タイトル:Nemotron-Cascade 2: Post-Training LLMs with Cascade RL and Multi-Domain On-Policy Distillation
原文リンク:https://research.nvidia.com/labs/nemotron/files/Nemotron-Cascade-2.pdf
#WuyingTemple