新智元報導
編輯:桃子 好困
【新智元導讀】OpenClaw 又迎重磅玩家!NVIDIA 深夜帶著 Nemotron 3 Super 炸場,1200 億參數專為 Agent 打造,性能直逼 Claude Opus 4.6。推理狂飆 3 倍,吞吐量猛漲 5 倍,「龍蝦」這是真要上天了。
全球市值一哥,也殺入 OpenClaw 戰場了!
昨夜,NVIDIA 重磅祭出新一代「開源模型」Nemotron 3 Super,專為大規模 AI 智能體打造。
它共有 1200 億參數,120 億激活參數,100 萬 token 上下文,推理狂飆 3 倍,吞吐量暴漲 5 倍。
Nemotron 3 Super 採用了創新的 Mamba-MoE 混合架構,徹底解決了多 Agent 協同中的性能瓶頸。
而且,它還是「Nemotron 3 家族」中,首個實現以下三大突破的模型:
原生採用 NVFP4 精度進行預訓練;
全新的 LatentMoE 混合專家架構,把「單位算力準確率」和「單位參數準確率」優化到了極致;
引入 MTP(多 Token 預測)層,通過原生「投機解碼」讓推理速度狂飆。
在 Pinchbench 基準上,Nemotron 3 Super 一騎絕塵,穩坐開源第一。
在 OpenClaw 任務成功率上,它拿下了 85.6% 的高分,性能直逼 Claude Opus 4.6、GPT-5.4。
可以說,完美適配 OpenClaw 的「最強開源模型」,誕生了!
今天,Nemotron 3 Super 超過 10 萬億 Token 的預訓練和後訓練數據集、完整訓練方法論,以及 15 個強化學習環境全部開源。
地址:https://huggingface.co/collections/nvidia/nvidia-nemotron-v3
NVIDIA 1200 億巨獸炸場 OpenClaw 絕配
如今,聊天機器人階段邁向多 Agent 應用,通常會裝上「兩堵牆」。
第一個是上下文爆炸。
多智能體工作流生成的 Token 數,比常規對話多出高達 15 倍。
因為每一次交互都需要重新發送完整的歷史記錄,包括工具輸出和中間的推理過程。
在執行長週期任務時,這種巨大的上下文數據量不僅推高了成本,還容易導致目標偏移(goal drift),即逐漸偏離了 Agent 最初設定的目標。
第二個是「思考稅」(thinking tax)。
複雜的 Agent 必須在每一步都進行推理,但如果在每個子任務上都調用 LLM,會讓多 Agent 應用的成本,變得極其高昂且反應遲緩,難以在實際應用中落地。
為此,NVIDIA 開源的 Nemotron 3 Super,徹底擊碎了 Agent 應用的「兩大枷鎖」。
論文地址:https://research.nvidia.com/labs/nemotron/files/NVIDIA-Nemotron-3-Super-Technical-Report.pdf
如上所述,Nemotron 3 Super 擁有 100 萬 Token 上下文。
尤其是在運行 OpenClaw 環境下,AI 能將整個工作流狀態完整保留在記憶體中,確保從第一步到最後一步的邏輯一致性。
在 Artificial Analysis 上,Nemotron 3 Super 刷新了 SOTA,登上了效率和開源榜一。
在同等規模開源模型中,新模型準確率也是遙遙領先。
同時,新模型加持的 NVIDIA AI-Q 研究型 AI 智能體,在 DeepResearch Bench 和 DeepResearch Bench II 排行榜上拿下第一。
未來五年,NVIDIA 將投入 260 億美元,用於打造全球頂尖的開源模型
混合架構革命,吞吐狂飆 5 倍
這一次,NVIDIA 對 Nemotron 3 Super 底層架構進行了重構。
88 層網路採用了週期性交替排列,其中 Mamba-2 層負責高效的序列建模,提供線性時間複雜度。
而少量 Transformer 注意力層則作為「全局錨點」穿插其中,負責跨位置的長距離信息路由和高精度推理。
結果,與上一代 Nemotron Super 模型相比,吞吐量提升高達 5 倍,準確率提升高達 2 倍。
與 GPT-OSS-120B、Qwen3.5-122B 對比,Nemotron 3 Super 均拿下了最高成績。
而且,在輸入序列長度為 8k、輸出序列長度為 64k 時,它的吞吐量分別比 GPT-OSS-120B 和 Qwen3.5-122B 高出多達 2.2 倍和 7.5 倍。
LatentMoE:懂硬件的專家設計,榨乾每一字節的準確率
更重要的是,Nemotron 3 Super 首次引入了「隱式 MoE」(Latent MoE)。
LatentMoE 的解法非常精巧,在路由和專家計算之前,先把 Token 從隱藏維度 d 投射到一個更小的潛在維度ℓ。路由和專家計算都在這個小得多的維度裡進行。
這意味著需要加載的專家參數和跨卡通信量,直接縮小了 d/ℓ倍!
省下來的這些資源,就可以用來把專家總數和每次激活的專家數放大同樣的倍數。等於「白嫖」了一波準確率,而推理成本幾乎沒變。
NVIDIA 官方博客的說法更直觀:花 1 個專家的計算成本,激活 4 個專家。
相比傳統的 MoE,LatentMoE 在參數利用率和算力利用率上都更勝一籌。
多 Token 預測:性能 + 推理效率一箭雙雕
Nemotron 3 Super 還加入了一個大殺器:多 Token 預測(MTP),模型質量和推理效率一舉兩得。
傳統的训练方式都是「預測下一個 token」(Next-token),但 MTP 要求模型在每個位置上一口氣預測未來好幾個 Token。
這其實是在逼著模型去理解多步之間的因果關係和更長遠的文本結構。
事實證明,這招非常管用,模型的驗證集 Loss 和下游跑分都迎來了實打實的提升。
除了變聰明,MTP 最大的妙用是實現了原生的投機解碼(Speculative Decoding)。
這些額外的預測頭就相當於在模型肚子裡內置了一個「草稿模型(Draft model)」。
在推理時,預測頭會先快速打個草稿(生成後續幾個 Token 候選),然後主模型在一次前向傳播中把這些草稿全部驗算一遍。
這招大幅降低了生成延遲,而且相對於外掛一個獨立的草稿模型,它帶來的額外算力開銷(FLOPs)微乎其微。
原生 NVFP4 精度預訓練
正如 NVIDIA 研究副總 Bryan Catanzaro 所言,Nemotron 3 Super 專為 Blackwell 設計。
預訓練階段,團隊在 Blackwell 平台上全程使用 NVFP4 精度運行,顯存需求大幅降低。
而且,在 0 準確率損失的前提下,新模型的推理速度比 Hopper 架構上的 FP8 還要快 4 倍。
25 萬億 Token + 21 個 RL 環境,瞄準 AI 智能體
和之前的 Nemotron 3 Nano 一樣,Nemotron 3 Super 也是吃着 25 萬億 Token 文本數據長大的。
整個預訓練分為兩步走:
第一階段吃掉 80% 的數據(20 萬億 Token),主打一個數據多樣性和知識面廣,語料涵蓋 16 大類,從網頁爬取到代碼、數學、學術論文、多語言數據一應俱全;
第二階段吃掉剩下的 20%(5 萬億 Token),這部分全是精挑細選的高質量數據,維基百科、高質量 PDF、STEM 推理數據的權重被大幅提升,專門用來拉升準確率。
最終練出來的「基礎模型」,在 MMLU 上跑到 86.01,MMLU-Pro 75.65,MATH 84.84,把同等體量的頂流模型遠遠甩在了身後。
上下滑動查看
後訓練方面,NVIDIA 更是把技能點狠狠點在了「AI 智能體能力」上。
SFT 階段,訓練了超過700 萬樣本、800 億 token。數據混合中,Agent 相關任務佔比高達 36%,遠超對話(23%)和推理(31%)。
Agent 訓練數據的規模提升尤其兇猛。僅對話式工具調用一項,就從上一代 Nano 的 5 個領域、15,588 條對話,暴漲到838 個領域、279,116 條對話。
RL 階段更是大手筆,分四步走:
第一步,多環境 RLVR。同時在 21 個環境、37 個數據集上訓練,覆蓋數學、代碼、STEM、安全、對話、指令遵循、長上下文、謎題和各類 Agent 任務。每步採樣 256 個 prompt,每個 prompt 生成 16 個 response。
第二步,SWE-RL。專門訓練軟體工程能力,投入 20B token。每次 rollout 啟動一個容器,在真實代碼倉庫中運行 Agent 循環,生成代碼補丁後用真實測試用例驗證。
第三步,RLHF。18B token,訓練了一個基於 Qwen3-235B 的 GenRM 獎勵模型,在身份認知和安全話題上精確調控行為。
第四步,MTP 恢復。凍結模型主幹,只訓練 MTP 預測頭,重新對齊投機解碼的準確率。
這套頂配的 AI 智能體訓練秘籍效果如何?幾個數字說明一切:
SWE-Bench(OpenHands)上拿到60.47%,大幅超過 GPT-OSS-120B 的 41.9%;
RULER@1M 長上下文測試中達到91.75%,而 GPT-OSS-120B 只有 22.3%;
AIME25 數學推理上跑到 90.21%,和 Qwen3.5-122B 的 90.36% 幾乎打平。
上下滑動查看
「龍蝦」玩家贏麻了 數千頁報告秒進記憶體
Nemotron 3 Super 高精度工具調用能力,可以讓 OpenClaw 智能體在多個領域,實現跨越式進化。
在軟體開發中,AI 智能體可以一次性將「整個代碼庫」加載到上下文中。
無需繁瑣的文檔切分,即可實現端到端的代碼生成、漏洞修復與自動化調試。
在財務分析場景下,Nemotron 3 Super 可將長達數千頁的報告直接加載到記憶體中。
這樣一來,直接省去了在冗長對話中反覆重新推理的麻煩,大幅提升了工作效率。
憑藉工具調用能力,Nemotron 3 Super 還能讓自主 Agent 在龐大的函數庫中可靠地導航操作,防止在諸如網路安全領域的自主安全編排等高風險、關鍵環境中出現執行錯誤。
如今,一大批玩龍蝦的人,可以直接用上了。
目前,Perplexity 已接入 Nemotron 3 Super 供用戶進行搜索,成為 Computer 中的 20 個編排模型之一。
還有 CodeRabbit、Factory、Greptile 提供軟體開發 AI 智能體的公司,已將其與自家模型集成到 AI 智能體中。
Edison Scientific 和 Lila Sciences 等生命科學與前沿 AI 機構,也將用 Nemotron 3 Super 為其智能體提供算力支持,用於深度文獻檢索、數據科學及分子結構理解。
NVIDIA 版 OpenClaw,要來了
光有模型還不夠,NVIDIA 這次連平台都一起端上來了。
據 WIRED 爆料,NVIDIA 正在秘密打造一款名為NemoClaw的開源 AI 智能體平台,專門面向企業市場。
聽這名字就知道,「Nemo」對應 Nemotron 模型家族,「Claw」直指 OpenClaw。
翻譯成人話就是,NVIDIA 要用自家模型,造一個企業級的 OpenClaw。
跟 OpenClaw 的最大區別在哪?安全。
OpenClaw 在個人玩家手裡玩得風生水起,但企業根本不敢碰。NemoClaw 就是衝著這個痛點來的。
據報道,NemoClaw 從一開始就內置了一套安全和隱私工具,給企業吃定心丸。
而且它是完全開源的,不管你的系統跑的是不是 NVIDIA 晶片,都能用。
為什麼要開源?邏輯很簡單。智能體用得越多,算力需求越大,NVIDIA 照樣賺。
Nemotron 3 Super 是引擎,NemoClaw 是底盤。模型 + 平台,雙管齊下。
NVIDIA 這次要給企業遞上一套「開箱即用」的 AI 智能體全家桶。
OpenClaw 讓個人玩家嘗到了甜頭,但企業市場這塊蛋糕,NVIDIA 顯然不打算讓給任何人。
參考資料:
https://blogs.nvidia.com/blog/nemotron-3-super-agentic-ai/
https://wccftech.com/nvidia-unveils-nemotron-3-super-as-an-open-agentic-ai-model/
https://research.nvidia.com/labs/nemotron/files/NVIDIA-Nemotron-3-Super-Technical-Report.pdf
秒追 ASI ⭐點贊、轉發、在看一鍵三連⭐
點亮星標,鎖定新智元極速推送!