導讀:MoE 大模型推理最大的隱形殺手並非算力,而是同步等待。NVIDIA 最新論文 DWDP(arXiv:2604.01621)提出「分散式權重資料並行」,讓 72 張 GB200 各自獨立運作、專家權重非同步預取,徹底消除集體通訊屏障。DeepSeek-R1 實測顯示:輸出吞吐量提升 8.8%,疊代延遲降低 14.3%。SGLang 社群已跟進,這項技術路線正在改寫 MoE 推理規則。
問題根源:MoE 的同步陷阱
當前主流 MoE 推理框架(TensorRT-LLM、SGLang、vLLM)通常採用專家並行(EP)+ 張量並行(TP)的組合策略。其核心矛盾在於:
- 每一層結束時,所有 GPU rank 必須在All-to-All / All-Gather同步屏障處集合等待。
- 專家路由天然不均衡——部分 GPU 超載,其餘 GPU 則空轉等待。
- NVLink 超高頻寬大部分時間被浪費,僅在集體通訊時瞬間爆發。
結果:72 張 B200 GPU 中只要有幾張稍慢一點,整個推理幀就會被拖慢。
DWDP 的破局思路
DWDP(Distributed Weight Data Parallelism,分散式權重資料並行)換了一種哲學:
不讓數據動,讓權重動。
每張 GPU 僅保存部分專家權重(本地專家),注意力層權重則全量複製。當推理計算需要某個「遠端專家」時,透過CUDA 複製引擎非同步預取,提前將權重搬運過來。
三大關鍵機制:
① 無集體通訊:關鍵推理路徑中完全移除 AllReduce/AllGather,72 個 rank 完全非同步獨立執行,互不等待。
② 雙緩衝預取:專用 CUDA 流並行預取下一批專家權重,與當前 GEMM 計算完全重疊,隱藏 NVLink 傳輸延遲。
③ 分組 GEMM 直接消費:修改底層 GroupedGEMM 算子以支援 TensorList,權重無需拼接成連續 buffer,省去一次記憶體拷貝。
實測數據:DeepSeek-R1 × GB200 NVL72
測試場景:8K 輸入 / 1K 輸出,20–100 TPS/用戶服務負載
| 指標 | 基線(EP/TP) | DWDP | 變化 |
|---|---|---|---|
| 輸出 TPS/GPU | 1.00× | 1.088× | +8.8% |
| 疊代延遲(上下文層) | 1.00× | 0.857× | -14.3% |
8.8% 的吞吐提升在集群規模上不容小覷——72 張 GPU 每張多擠出 8.8%,等同於憑空多出約 6 張 GPU 的算力,實現零成本擴容。
工業落地:SGLang 跟進,生態正在收斂
DWDP 已在 TensorRT-LLM 完成實作(PR #12136),並隨即引發 SGLang 社群關注——4 月 4 日 SGLang 開發者提出 Issue #22084,計劃將 DWDP 移植到 SGLang 框架。
這意味著兩大主流開源推理框架都將原生支援 DWDP,MoE 推理的並行範式正在從「同步集體通訊」向「非同步分散式權重」切換。
目前限制:僅支援單節點 NVLink 直連環境,跨節點 RDMA 版本開發中。
更深一層
DWDP 的本質是把通訊問題轉化為儲存問題:用 NVLink 頻寬換來對 All-to-All 同步的完全消除。這和 Mooncake 用 RDMA 炸穿推理瓶頸的思路同源——真正的推理加速戰場,永遠在通訊牆這一側。
隨著 GB200 NVL72 成為新一代標準推理節點,DWDP 這類面向 NVLink 拓樸深度優化的技術將成為 MoE 推理的必選項。
來源:arXiv:2604.01621 | SGLang Issue #22084 | TensorRT-LLM PR #12136