DWDP:NVIDIA 的殺手鐧——MoE 推理移除同步鎖,NVL72 吞吐量飆升 8.8%

導讀:MoE 大模型推理最大的隱形殺手並非算力,而是同步等待。NVIDIA 最新論文 DWDP(arXiv:2604.01621)提出「分散式權重資料並行」,讓 72 張 GB200 各自獨立運作、專家權重非同步預取,徹底消除集體通訊屏障。DeepSeek-R1 實測顯示:輸出吞吐量提升 8.8%,疊代延遲降低 14.3%。SGLang 社群已跟進,這項技術路線正在改寫 MoE 推理規則。

問題根源:MoE 的同步陷阱

當前主流 MoE 推理框架(TensorRT-LLM、SGLang、vLLM)通常採用專家並行(EP)+ 張量並行(TP)的組合策略。其核心矛盾在於:

  • 每一層結束時,所有 GPU rank 必須在All-to-All / All-Gather同步屏障處集合等待。
  • 專家路由天然不均衡——部分 GPU 超載,其餘 GPU 則空轉等待。
  • NVLink 超高頻寬大部分時間被浪費,僅在集體通訊時瞬間爆發。

結果:72 張 B200 GPU 中只要有幾張稍慢一點,整個推理幀就會被拖慢。

DWDP 的破局思路

DWDP(Distributed Weight Data Parallelism,分散式權重資料並行)換了一種哲學:

不讓數據動,讓權重動。

每張 GPU 僅保存部分專家權重(本地專家),注意力層權重則全量複製。當推理計算需要某個「遠端專家」時,透過CUDA 複製引擎非同步預取,提前將權重搬運過來。

三大關鍵機制:

① 無集體通訊:關鍵推理路徑中完全移除 AllReduce/AllGather,72 個 rank 完全非同步獨立執行,互不等待。

② 雙緩衝預取:專用 CUDA 流並行預取下一批專家權重,與當前 GEMM 計算完全重疊,隱藏 NVLink 傳輸延遲。

③ 分組 GEMM 直接消費:修改底層 GroupedGEMM 算子以支援 TensorList,權重無需拼接成連續 buffer,省去一次記憶體拷貝。

實測數據:DeepSeek-R1 × GB200 NVL72

測試場景:8K 輸入 / 1K 輸出,20–100 TPS/用戶服務負載

指標基線(EP/TP)DWDP變化
輸出 TPS/GPU1.00×1.088×+8.8%
疊代延遲(上下文層)1.00×0.857×-14.3%

8.8% 的吞吐提升在集群規模上不容小覷——72 張 GPU 每張多擠出 8.8%,等同於憑空多出約 6 張 GPU 的算力,實現零成本擴容。

工業落地:SGLang 跟進,生態正在收斂

DWDP 已在 TensorRT-LLM 完成實作(PR #12136),並隨即引發 SGLang 社群關注——4 月 4 日 SGLang 開發者提出 Issue #22084,計劃將 DWDP 移植到 SGLang 框架。

這意味著兩大主流開源推理框架都將原生支援 DWDP,MoE 推理的並行範式正在從「同步集體通訊」向「非同步分散式權重」切換。

目前限制:僅支援單節點 NVLink 直連環境,跨節點 RDMA 版本開發中。

更深一層

DWDP 的本質是把通訊問題轉化為儲存問題:用 NVLink 頻寬換來對 All-to-All 同步的完全消除。這和 Mooncake 用 RDMA 炸穿推理瓶頸的思路同源——真正的推理加速戰場,永遠在通訊牆這一側

隨著 GB200 NVL72 成為新一代標準推理節點,DWDP 這類面向 NVLink 拓樸深度優化的技術將成為 MoE 推理的必選項。


來源:arXiv:2604.01621 | SGLang Issue #22084 | TensorRT-LLM PR #12136

相關文章推薦

分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.