DWDP：NVIDIA 的殺手鐧——MoE 推理移除同步鎖，NVL72 吞吐量飆升 8.8%

導讀：MoE 大模型推理最大的隱形殺手並非算力，而是同步等待。NVIDIA 最新論文 DWDP（arXiv:2604.01621）提出「分散式權重資料並行」，讓 72 張 GB200 各自獨立運作、專家權重非同步預取，徹底消除集體通訊屏障。DeepSeek-R1 實測顯示：輸出吞吐量提升 8.8%，疊代延遲降低 14.3%。SGLang 社群已跟進，這項技術路線正在改寫 MoE 推理規則。

問題根源：MoE 的同步陷阱

當前主流 MoE 推理框架（TensorRT-LLM、SGLang、vLLM）通常採用專家並行（EP）+ 張量並行（TP）的組合策略。其核心矛盾在於：

每一層結束時，所有 GPU rank 必須在All-to-All / All-Gather同步屏障處集合等待。
專家路由天然不均衡——部分 GPU 超載，其餘 GPU 則空轉等待。
NVLink 超高頻寬大部分時間被浪費，僅在集體通訊時瞬間爆發。

結果：72 張 B200 GPU 中只要有幾張稍慢一點，整個推理幀就會被拖慢。

DWDP 的破局思路

DWDP（Distributed Weight Data Parallelism，分散式權重資料並行）換了一種哲學：

不讓數據動，讓權重動。

每張 GPU 僅保存部分專家權重（本地專家），注意力層權重則全量複製。當推理計算需要某個「遠端專家」時，透過CUDA 複製引擎非同步預取，提前將權重搬運過來。

三大關鍵機制：

① 無集體通訊：關鍵推理路徑中完全移除 AllReduce/AllGather，72 個 rank 完全非同步獨立執行，互不等待。

② 雙緩衝預取：專用 CUDA 流並行預取下一批專家權重，與當前 GEMM 計算完全重疊，隱藏 NVLink 傳輸延遲。

③ 分組 GEMM 直接消費：修改底層 GroupedGEMM 算子以支援 TensorList，權重無需拼接成連續 buffer，省去一次記憶體拷貝。

實測數據：DeepSeek-R1 × GB200 NVL72

測試場景：8K 輸入 / 1K 輸出，20–100 TPS/用戶服務負載

指標	基線（EP/TP）	DWDP	變化
輸出 TPS/GPU	1.00×	1.088×	+8.8%
疊代延遲（上下文層）	1.00×	0.857×	-14.3%

8.8% 的吞吐提升在集群規模上不容小覷——72 張 GPU 每張多擠出 8.8%，等同於憑空多出約 6 張 GPU 的算力，實現零成本擴容。

工業落地：SGLang 跟進，生態正在收斂

DWDP 已在 TensorRT-LLM 完成實作（PR #12136），並隨即引發 SGLang 社群關注——4 月 4 日 SGLang 開發者提出 Issue #22084，計劃將 DWDP 移植到 SGLang 框架。

這意味著兩大主流開源推理框架都將原生支援 DWDP，MoE 推理的並行範式正在從「同步集體通訊」向「非同步分散式權重」切換。

目前限制：僅支援單節點 NVLink 直連環境，跨節點 RDMA 版本開發中。

更深一層

DWDP 的本質是把通訊問題轉化為儲存問題：用 NVLink 頻寬換來對 All-to-All 同步的完全消除。這和 Mooncake 用 RDMA 炸穿推理瓶頸的思路同源——真正的推理加速戰場，永遠在通訊牆這一側。

隨著 GB200 NVL72 成為新一代標準推理節點，DWDP 這類面向 NVLink 拓樸深度優化的技術將成為 MoE 推理的必選項。

來源：arXiv:2604.01621 | SGLang Issue #22084 | TensorRT-LLM PR #12136