NVIDIAが8B小規模モデルを公開：GPT-5を上回り、コストは30%、速度は2.5倍！NVIDIA研究ディレクター「Agentのための単一LLMの最適化は完全に間違っている。小規模モデルが大規模モデルを管理する方が効果的」

編集 | 雲昭

昨日、NVIDIAの共同創業者であるジェンスン・フアン（黄仁勲）氏は、CESの会場で、驚くべきAgentシステムの構築フレームワーク「BluePrint」を発表しました。

その翌日には、NVIDIAのチームが自社のToolUseのオーケストレーションフレームワークを公開で共有しました！

そして、このフレームワークは、GAIAランキングで直接GPT-5を上回りました！

まさにその直前に、NVIDIA研究ディレクターのPavlo Molchanov氏が投稿を公開し、Nemotron-ToolOrchestraがGAIA Agentベンチマークで1位を獲得したと発表しました。平均スコア90.37%で、GPT-5やClaude Opusなどのツールを使用する競合を上回り、AIエージェント分野における協調アーキテクチャの可能性を浮き彫りにしました。

※GAIAは、AIアシスタントの真のAgent推論能力を評価するための専門ベンチマークです。

また、ToolOrchestraはすでに去年11月に公開されており、その時点でも非常に衝撃的な結果を出しています。

最も直感的な例の1つは、8Bの小規模モデルを使って、「人類最終試験」という高難易度ベンチマークで、GPT-5を37.1%の精度で破っただけでなく、全体的なコストは後者の30%未満で、速度は2.5倍も速いという点です。

Pavlo氏は非常に興奮して、事実として、より強力な超巨大モデルの推論能力を通じてではなく、小型モデルの優れた協調能力を通じて、巨大なエージェントシステムを超える、より優れた論理モデルを実現できることが証明されたと述べています。そして同時に、効率性とコストを保証しています。

一連のモデルとツールを管理するオーケストレーションフレームワーク

Pavlo氏はすぐに、このフレームワークの背後にある詳細な研究、ToolOrchestraを公開しました。

実際、このフレームワークは去年11月末に公開されていました。目を凝らせば、著者の8割以上が中国人であることがわかります。

ToolOrchestraは、専門的なオーケストレーションLLMをトレーニングするためのフレームワークおよびモデルであり、ツールや他のモデルを効率的に協調させることができます。

このフレームワークの核心的な革新は、8Bパラメータの小型オーケストレーターをトレーニングすることです。これは、複雑なタスクをサブタスクに分解し、適切なツールやモデルを選やモデルを選択し、効率的にシリアル実行し、単一の大型モデルに依存することを避けます。

簡単に言うと、ToolOrchestraは小規模なオーケストレーションモデルをトレーニングする方法であり、多様なツールと専門モデルを統一的にスケジューリングするために使用されます。

具体的な方法としては、NVIDIAのチームはエンドツーエンドの強化学習法を用いてOrchestratorをトレーニングしました。最終的な実験により、この方法能够让一個8Bモデルが、結果の質、効率、そして人間の嗜好報酬の共同引导下で、適応的なツール使用戦略を学べることが証明されました。

一言で言えば、強化学習を通じて「オーケストレーター」をトレーニングし、モデルに適応的なToolUse戦略を持たせるのです。

なぜHLEでGPT-5に勝てるのか？

8Bの小規模モデルが、どんなにトレーニングしても、超高難易度の課題で最高のGPT-5を超えることができるのでしょうか？

しかし、結果をよく見ると、直感に反しているように感じられます。

精度 —— Orchestrator-8B：37.1%、GPT-5：35.1%
コスト —— OrchestratorはGPT-5の僅か1/3

したがって、GPT-5の問題は「強さが足りない」ことではなく、「ことこまやかなことまで、すべて自分自身で、あるいは兄弟モデルで解決しようとしている」ことです。

多くのサブ問題は、本来：数学モデル、検索、コード実行によって、より安定し、より安価に解決できるのに、GPT-5はしばしばこう言います：

「私にできる、もう少し考えてみよう」

一方、Orchestratorは「スケジューラ」としての役割に專念します：

「この問題は私が考えるべきではない、より適切なやつに任せよう」

知性とは、最も多く思考することではなく、最も正確に判断することである。

核心思想：Agentのワークロードは階層化し、

小規模モデルが管理し、大規模モデルが作業を行う

NVIDIAチームのこのToolOrchestra研究のアイデアは非常に独特です。小規模モデルに作業の苦力としてではなく、多数の大規模モデル、小規模モデル、そして外部ツールの「指揮官」として役割を担わせるのです。

Pavlo氏は、そのフレームワークの核心思想は「Agentワークロードの階層化思想」であると述べています：

一、知性 ≠ 1つのモデルですべてを完了できる
二、知性 = ツール協調 + 専門モデル
三、難度の大きいサブタスクには大規模モデルを使用し、その他のすべてのタスクには小規模モデルを使用する
四、小型の指揮官が、何を呼び出すか、いつ呼び出すか、なぜ呼び出すかを決定する

平易な定義：

小規模モデルを专门的に判断と调度に担当させ、実際の作業を行うのは、必要に応じて呼び出される一連のモデルとツール群である。

システム全体には、3つの重要な役割があります：

Orchestrator（8Bモデル）：問題解決を担当せず、判断、调度、决策のみを担当：次は誰を使うべきか？
ツールプール、これには：複数のモデルと外部ツールが含まれる。主に：強力だが高価な大規模モデル、安価だが高速な小規模モデル、検索、関数、外部ツールなど。
報酬システム。目標は「正解」であることを報酬するだけでなく、節約的であること、合理的であること、人間らしいことにも報酬を与える。つまり、単に賢いだけでは不十分で、いつ誰にやらせるべきかを知っている必要がある。

デザイン哲学：オーケストレーションを優先し、手作業で書かれたルールに頼らない

Pavlo氏は投稿の中で次のように説明しています。

Orchestrator-8Bの報酬システムのデザイン理念は、従来的なAgentデザイン方法とは異なり、

あくまでオーケストレーションを優先する理念です。（これまでより一般的だった方法は、プロンプトによるヒューリスティックなルールや手作業で書かれた戦略などでした。）

その唯一のタスクは、 decisión を下すことだけです：

• ツールとモデルの選択

• マルチステップのワークフローの順序付け

• 正確性、コスト、待機時間の間のトレードオフを天秤にかける実行は完全に委任される。

ヒューリスティックな方法によるプロンプトは存在しない。手作業で書かれたポリシーは実行しない。オーケストレーションのためにトレーニングされたモデルだけである。

見逃されがちなデザインポイント：プロンプトではなくRLを使用する

ここに注目すべきは、它用的是「RLでオーケストレーションをトレーニング」し、プロンプト（ヒューリスティックなルールや手作業で書かれた戦略）は使用していない点です。

ここには、チームからの明確なシグナルが含まれています：

「プロンプトだけでモデルを指揮官に仕立て上げる」のは不可能である

理由には以下が含まれます：

自己増強バイアス（自分自身や兄弟モデルを呼び出すのが大好き）
デフォルトで最強モデルを選ぶ
コストや嗜好に敏感でない

これは、整個Agentコミュニティにとって非常に良いアイデアを提供しています：

真正にコントロール可能で、再現可能、かつコストをコントロールできるAgent行動を実現するためには、RL + 明確な報酬構造が有効であるという 것입니다。

報酬システムのデザインも研究する価値がある

さらに、この論文で最も重要な、そして最も核心的なデザインは、報酬システムのデザインです。

従来のAgentシステムにおける核心的な問題は、通常、以下の通りでした：

ツールを使えるか？

一方、ToolOrchestraが解決するのは、別のレベルの問題です：

このステップでは、GPT-5を使う価値があるか？それとも、他のモデルやツールを使う方が適切か？

そのため、論文ではトレーニング中に3種類の報酬シグナルを導入しています：

結果報酬：答えが正しいかどうか
コスト報酬：強力なモデルを呼び出すことが「必要な支出」かどうか
嗜好報酬：スケジューリング方式が、人間の「合理的な决策」に対する直感に合致しているかどうか

これは、これまでの業界の慣習とは異なる点です。元々、業界にはいくつかの誤解が存在していました。多くの人は、より賢いモデルほど、ToolUse能力が強いと默认していました。

もしAgentの出力品質が不高ければ、もっと強力なモデルに乗り換えれば良いというわけです。より強力なモデルは、より高品質な結果を意味するとされています。

しかし、実際には、NVIDIAのこの研究が示すのは：

単により強力な大規模モデルに乗り換えるだけでは、思ったほど信頼できず、かつより多くのお金を浪費する可能性が高いということです。

過去のAgentは「正解」することだけを気にしていたのに対し、ToolOrchestraのこの論文は、Agentの目標を3つのことに分解し、かつ同時に最適化しています：

次元	以前	ToolOrchestra
正確性	✔	✔
コスト	❌	✔
ユーザー嗜好	❌	✔

この細部に注意：最終的な答えが間違っている場合、コストや嗜好は一切考慮されません。

これは、非常に工学的で、非常に現実的な取捨選択の論理です：「節約するために節約」するのではなく、「正しい前提の下で、尽可能節約」するのです。

論文には、ここに暗黙の立場があります：

ツールのスケジューリングは、指示を実行する問題ではなく、戦略を最適化する問題である。

実験結果が示すところによると：GPT-5を呼び出すステップは約40%だけだったが、効果はより良くなった

あるベンチマークタスクの実験結果は非常に興味深いものです：

完全なタスクフローにおいて
約40%のステップだけがGPT-5を呼び出した
残りのステップでは、より安価なモデルやツールが使用された

私たちは、この関数呼び出しベンチマークであるτ²-Benchでテストを行いました。このタスクにおいて、Orchestratorは、多様なツールを効率的にスケジューリングする能力を示しました：フロー全体を通じて、約40%のステップでのみ大規模モデル（GPT-5）を呼び出し、残りのステップではコストが安いモデルやツールを使用しましたが、全体的な性能は、すべてのステップで大規模モデルを呼び出すエージェントを依然として上回りました。

複数の高難度タスクで、8B小規模モデル指揮官がGPT-5を完全に破る

さらに、高度な汎用推論能力を備える

より貴重なのは、チームの実験で、ToolOrchestraを通過して得られたOrchestratorが、「HLE」でGPT-5を破っただけでなく、専門的に「関数呼び出し型Agent」をテストするベンチマークであるτ²-Benchや、専門的に「事実推論」をテストするベンチマークであるFRAMESなど、複数の高難度推論ベンチマークで最高のスコアを獲得したことです。

注意：Orchestratorは、最先端モデルの計算資源と実際の所要時間の僅かな部分だけを使用してこの超越を実現し、同時に未曾有のタスクやツールに対して頑健な一般化能力（これは非常にすごい）を保持しています。

論文が示す結果そのものが、すでに十分目を引くものです：

高難度推論ベンチマークにおいて、8B Orchestrator > GPT-5
多ステップツール呼び出し、関数実行などのタスクにおいて、安定した性能、高い一般化能力を発揮
タスクやツールの組み合わせを変えても、戦略は依然として有効

しかし、真に重要なのは、「一度勝った」ことではありません。まとめると：

1.HLEという多分野にわたる高難度の問題をカバーするベンチマークにおいて、Orchestrator は、著しく低い計算コストで、従来の方法を大幅に上回りました。

2.τ²-Benchという関数呼び出しベンチマークにおいて、Orchestratorは多様なツールを効率的にスケジューリングする能力を示しました：フロー全体を通じて約40%のステップでのみ大規模モデル（GPT-5）を呼び出しましたが、残りのステップではより安価なモデルやツールを使用し、全体的な性能は依然としてすべてのステップで大規模モデルを呼び出すエージェントを上回りました。

3.さらに、FRAMESという事実推論ベンチマークタスクの評価においても、Orchestratorの汎用性と頑健性の追加証拠が提供されました。チームは、トレーニングタスクとテストタスクの性質に显著な差異があるにもかかわらず、強化学習を通過したOrchestratorが、新しい課題に対応するために適応的にそのツール使用戦略を調整できることを観察しました。これは、它がより高レベルの汎用推論能力を備えていることを示しています。

NVIDIA研究ディレクターの鋭い批評

Agentのための単一の大規模モデルを最適化するのは間違い

このような結果を、単なる「ベンチマーク対決」として捉えると、表面的すぎます。

より注目すべきは、それが物語の重心を静かに変えていることです。

NVIDIAの研究ディレクター自身が、この研究結果がAgent開発にもたらす意義を指摘しました。

なぜこれが重要なのか？
Agentのワークロードは本質的に： • マルチラウンド • マルチツール • マルチモデル
（したがって）再去って、巨大な単一のLLMを最適化するのは、間違った抽象化です。
ToolOrchestraは、異なる道を示しています：
• 小規模モデル • モジュール化されたシステム • 操作可能な行動 • パラメータではなく協調を通じて、より良い拡張を実現

Agent開発の新たな風潮：知性は、管理から生まれる

小規模モデルは、大規模モデルを管理できる

つまり、この研究は、以下のシグナルを放出しています：

Agentにとって、知性の限界は、もはやモデルの規模だけに依存せず、决策構造へと移行している。

つまり、モデルはもはや唯一のコア資産ではなくなりました。

「どう使うか、いつ使うか、どのモデルを選ぶか」そのものが、2026年以降の大家の争奪点となるかもしれません。

本文でNVIDIAが公開したこの奇妙な実験のように：

8Bの小規模モデルは、決して汎用的な専門家ではありませんが、GPT-5の「上級スケジューラ」となり、管理後の結果は、複雑なタスクでより正確に回答できるだけでなく、速度とコストの両方で圧倒的な優位性を獲得しました。

知性は、おそらく「算出」から「管理」へと変わりつつあるのです。

論文アドレス：

https://arxiv.org/abs/2511.21689

https://research.nvidia.com/labs/lpr/ToolOrchestra/

プロジェクトオープンソースアドレス：

https://github.com/NVlabs/ToolOrchestra