編輯 | 雲昭
昨天,NVIDIA創辦人黃仁勳在 CES 現場發布的一個驚豔的 Agentic 系統的建構框架「BluePrint」。
第二天,就有 NVIDIA 團隊公開分享自家的 ToolUse 的編排框架了!
而且這套框架,在 GAIA 排行榜上直接超過了 GPT-5!
就在剛剛,NVIDIA 研究總監 Pavlo Molchanov 發布貼文,宣布 Nemotron-ToolOrchestra 在 GAIA Agent 基準測試中排名第一,平均得分 90.37%,超越使用 GPT-5 和 Claude Opus 等工具的競爭對手,突顯協調架構在 AI 代理領域的潛力。
ps:GAIA 是專門用來評估 AI 助手的真實 Agent 推理能力的一項基準。
而且,早在去年 11 月,ToolOrchestra 就發布出來了。當時就取得了相當炸裂的成績。
最直觀的一項就是,它用一個 8B 的小模型,在「人類終極考試」的高難度基準上,不僅以 37.1% 的準確率上擊敗了 GPT-5,而整體成本,不到後者的 30%,同時速度要快 2.5 倍。
Pavlo 非常興奮地表示,事實證明,不透過更強大的超級大模型推理能力,而是透過小型模型更好的協調能力,就可以實現更棒的、超越巨型智慧體系統的邏輯模型!而且同時,還以保證效率和成本。
一套編排框架,管理一系列模型和工具
Pavlo 隨後就甩出了這套框架背後的詳細研究:ToolOrchestra。
其實,這套框架,在去年 11 月底就發布了。放眼望去,可以看出八成以上都是華人作者。
ToolOrchestra,是一個用於訓練專用編排 LLM 的框架和模型,可以高效地協調工具和其他模型。
該框架的核心創新是訓練一個小型 8B 參數的協調器,將複雜任務分解為子任務,選擇合適工具或模型,並高效序列執行,避免依賴單一大型模型。
簡單理解,ToolOrchestra 是一種用於訓練小規模編排模型的方法,用來統一排程多種工具和專用模型。
具體方法上,NVIDIA 團隊使用的是 端到端的強化學習方法來 訓練 Orchestrator,最後實驗證明:該方法能夠讓一個 8B 的模型在 結果品質、效率以及人類偏好獎勵 的共同引導下,學會規劃 自適應的工具使用策略。
一句話,透過強化學習來訓練「編排器」,讓模型具備自適應的 ToolUse 策略。
為什麼它在 HLE 上能打贏 GPT-5?
8B 的小模型不管再怎麼訓練,怎麼會在超高複雜難度上超過最牛的 GPT-5 呢?
但你仔細一看結果,就會覺得很反直覺。
準確率——Orchestrator-8B:37.1%,GPT-5:35.1%
成本——Orchestrator 只有 GPT-5 的 1/3
所以,GPT-5 的問題不是「不夠強」,而是「太想啥事都讓自己來、或者讓自己的兄弟模型來」。
很多子問題本來用:數學模型、搜尋、程式碼執行就能更穩、更便宜,但 GPT-5 常常:
「我覺得我行,我再想想」
而 Orchestrator 則專注於當好一個「排程官」:
「這題不該我想,交給更合適的那個」
智慧不是思考得最多,而是判斷得最準。
核心思想:Agent 工作負載要分層,
小模型管理,大模型幹活
NVIDIA 團隊的這項 ToolOrchestra 研究的思路很獨特,即讓小模型不去當幹活的苦力,而是讓他當一堆大模型、小模型和外部工具的「指揮官」。
Pavlo 表示,其框架的 核心思想是「Agent 的工作負載的分層思想」:
一、 智慧≠一個模型可以完成所有事情;
二、智慧 = 工具協調 + 專業模型;
三、 對於難度較大的子任務,使用大型模型;對於其他所有任務,使用小型模型。
四、一個小型指揮者決定調用什麼、何時調用以及為什麼調用。
白話版定義:
用一個小模型,專門負責判斷和排程;真正幹活的,是一組被它按需調用的模型和工具。
整個系統裡,有三個關鍵角色:
Orchestrator(8B 模型):不負責解題,只負責判斷、排程、決策:下一步該用誰?
工具池,包括:多款模型和外部工具。主要有:強但貴的大模型、便宜但快的小模型、搜尋、函數、外部工具等。
獎勵系統。目標不只獎勵「答對」,還獎勵:用得省、用得合理、用得像人。即,光聰明還不夠,你還得知道什麼時候該讓誰做。
設計理念:編排優先,不靠人工編寫規則
Pavlo 在貼文中解釋道,
Orchestrator-8B 的獎勵系統的設計理念跟之前的 Agent 設計方法不同,
主打一個編排優先的理念。(而之前更流行的方法則是提示啟發式規則、手寫策略等等。)
它的唯一任務就是做出決策:
• 選擇工具和模型
• 排序多步驟工作流程
• 權衡準確性、成本和延遲之間的利弊 執行完全委託。
沒有提示啟發式方法。 不實行手寫政策。 只是一個為編排而訓練的模型。
一個容易被忽略的設計點:用 RL,而非 Prompt
這裡值得注意,它用的是「RL 訓練 orchestration」,不是 prompt(啟發規則或手寫策略)
這裡暗含了團隊的一個明確訊號:
「單純用提示詞教模型當指揮官」是行不通的
原因包括:
自我增強偏置(更愛叫自己或兄弟模型)
預設選最強模型
對成本和偏好不敏感
這其實給整個 agent 社群一個很好的思路:
要想實現一個真正可控、可複製、且成本可控的 agent 行為,RL + 明確獎勵結構,是可以走通的。
獎勵系統的設計也值得研究
此外,這篇論文最關鍵、也最核心的設計莫過於獎勵系統的設計了。
以往的 Agent 系統,核心問題通常是:
能不能用工具?
而 ToolOrchestra 解決的是另一個層級的問題:
這一步,值不值得用 GPT-5?還是用其他模型或工具更合適?
為此,論文在訓練中引入了三類獎勵訊號:
結果獎勵:答案是否正確
成本獎勵:調用強模型是不是「必要支出」
偏好獎勵:排程方式是否符合人類對「合理決策」的直覺
這是跟以往大家的做法不一樣的地方。原來,業界其實一直存在一些誤區,大家往往默認:越聰明的模型,ToolUse 能力就越強。
如果 Agent 輸出的品質不高,換個更厲害的模型就好了,更強的模型就意味著更高品質的結果。
但其實,NVIDIA 的這項研究說明:
單純換更強的大模型,可能真沒想像的靠譜,而且還更浪費錢。
過去的 agent 只在乎「答對」,而 ToolOrchestra 這篇論文把 Agent 的目標拆成了三件事,並且 同時優化:
維度 | 以前 | ToolOrchestra |
|---|---|---|
正確性 | ✔ | ✔ |
成本 | ❌ | ✔ |
用戶偏好 | ❌ | ✔ |
注意這個細節:只要最終答案是錯的,成本和偏好一律作廢。
注意,這是一個非常工程化、非常現實的取捨邏輯:它不是「為了省錢而省錢」,而是「在正確前提下,盡量省」。
論文在這裡有一個隱含立場:
工具排程是一個策略優化問題,不是指令執行問題。
實驗結果表明:只有 40% 步驟調用了 GPT-5,效果卻更好了
一項基準任務的實驗的結果很有意思:
在完整任務流程中
只有約 40% 的步驟調用了 GPT-5
其餘步驟,用的是更便宜的模型或工具
我們在 τ²-Bench 這一函數調用基準上進行了測試,在該任務中,Orchestrator 展示了高效排程多種工具的能力:它在整個流程中僅約 40% 的步驟調用大型模型(GPT-5),其餘步驟則使用成本更低的模型或工具,但整體性能依然超過了在每一步都調用大型模型的智能體。
多項高難度任務,8B 小模型指揮官完勝 GPT-5
而且具備高階通用推理能力
更難能可貴的是,團隊實驗發現,透過 ToolOrchestra 訓練得到的 Orchestrator 不止在「HLE」上打敗了 GPT-5,而且還在多項高難度推理基準,如專門用來測試「函數調用型 Agent」的基準 τ²-Bench、專門用來測試「事實性推理」基準 FRAMES,都取得了最好的分數。
注意:Orchestrator 是在僅使用前沿模型一小部分計算資源與實際耗時的情況下實現的超越,同時能夠對未見過的任務與工具保持穩健的泛化能力(這就很厲害了)。
論文展示的結果,本身已經足夠扎眼:
在高難度推理基準上,8B Orchestrator > GPT-5
在多步工具調用、函數執行等任務中,表現穩定,泛化性強
換任務、換工具組合,策略依然成立
但真正重要的,不是「贏了一次」。總結一下:
1. HLE 這一涵蓋多學科高難度問題的基準上,Orchestrator 以顯著更低的計算成本,大幅優於以往方法。
2. τ²-Bench 這一函數調用基準上,Orchestrator 展示了 高效排程多種工具的能力:它在整個流程中 僅約 40% 的步驟調用大型模型(GPT-5),其餘步驟則使用成本更低的模型或工具,但整體性能 依然超過了在每一步都調用大型模型的智能體。
3. 此外,在 FRAMES 這一事實性推理基準任務評估中,也為 Orchestrator 的 通用性與穩健性 提供了額外證據。團隊觀察到,儘管訓練任務與測試任務在性質上存在顯著差異,但透過強化學習訓練得到的 Orchestrator 依然能夠 自適應地調整其工具使用策略 來應對新挑戰,這表明它具備較高層級的 通用推理能力。
NVIDIA 研究總監犀利點評
為 Agent 去優化單個大模型是個錯誤
這樣的結果,如果我們只是當成一個「基準 PK」的敘事,那就有點太表面了。
更值得注意的是,它在悄悄改變敘事重心。
NVIDIA 的研究總監親口點出了這項研究結果對於 Agent 開發的意義。
為什麼這很重要?
Agent 工作負載本質上具有: • 多輪次 • 多工具 • 多模型
(所以)再去為它去優化單個龐大的 LLM 是錯誤的抽象。
ToolOrchestra 展示了一條不同的路徑:
• 小模型 • 模組化系統 • 可控行為 • 透過協調而非參數實現更好的擴展
Agent 開發新風向:智慧,是管出來的
小模型可以管理大模型
即,這項研究釋放出一個訊號:
對於 Agent 而言,智慧的上限,不再唯一取決於模型的規模,而是轉移到決策結構。
也就是說,模型不再是唯一核心資產。
「怎麼用、何時用、選什麼模型」本身,或許將成為 2026 之後大家的角逐點。
就像本文中 NVIDIA 放出的這場奇妙的實驗:
一個 8B 的小模型,雖然不是一個通用的專家,卻可以成為 GPT-5 的「上級排程官」,管理之後的結果,不僅在複雜任務上回答的更準確,就連速度和成本都取得了碾壓性的優勢。
智慧,或許正在從「算出來」,變成「管出來」。
論文位址:
https://arxiv.org/abs/2511.21689
https://research.nvidia.com/labs/lpr/ToolOrchestra/
專案開源位址: