DWDP：NVIDIA の切り札、MoE 推論から同期ロックを排除し NVL72 のスループットを 8.8% 向上

はじめに：MoE 大規模モデルの推論において、真の隠れた敵は計算リソースではなく「同期待ち」である。NVIDIA の最新論文「DWDP」（arXiv:2604.01621）は、「分散重みデータ並列（Distributed Weight Data Parallelism）」を提案し、72 枚の GB200 がそれぞれ独立して動作し、エキスパート重みを非同期で先読みすることで、集団通信のバリアを完全に撤廃した。DeepSeek-R1 での実測値では、出力スループットが 8.8% 向上し、イテレーションレイテンシは 14.3% 短縮された。SGLang コミュニティもこれに追随しており、この技術ロードマップは MoE 推論の常識を書き換えつつある。

問題の根源：MoE における同期の罠

現在の主流である MoE 推論フレームワーク（TensorRT-LLM、SGLang、vLLM）は、通常エキスパート並列（EP）＋テンソル並列（TP）の組み合わせ戦略を採用している。ここでの核心的な矛盾は以下の点にある：

各レイヤーの終了時に、全 GPU ランクがAll-to-All / All-Gatherの同期バリア地点で集合し、待ち合わせなければならない。
エキスパートへのルーティングは本質的に不均衡であり、一部の GPU に過負荷がかかる一方で、他の GPU はアイドル状態で待機することを余儀なくされる。
NVLink の超高帯域幅の大部分は無駄に費やされ、集団通信時の瞬間的なバースト時にのみ利用されるに過ぎない。

その結果：72 枚の B200 GPU のうち、たった 1 枚でもわずかに遅れると、推論フレーム全体が足止めを食らうことになる。

DWDP による打開策

DWDP（Distributed Weight Data Parallelism）は、以下の哲学に基づきアプローチを転換した：

「データを動かすのではなく、重みを動かす」

各 GPU にはエキスパート重みの一部（ローカルエキスパート）のみを保持させ、アテンション層の重みは全て複製して保持する。推論計算において「リモートのエキスパート」が必要になった場合、CUDA コピーエンジンによる非同期先読みを用いて、事前に重みを転送しておく。

3 つの主要なメカニズムは以下の通り：

① 集団通信の排除：推論のクリティカルパスから AllReduce や AllGather を完全に排除。72 のランクが完全に非同期かつ独立して実行され、互いを待つ必要がなくなる。

② ダブルバッファリングによる先読み：専用の CUDA ストリームを使用して次バッチのエキスパート重みを並列で先読みし、現在の GEMM 計算と完全にオーバーラップさせることで、NVLink 転送による遅延を隠蔽する。

③ グループ化 GEMM による直接消費：下層の GroupedGEMM 演算子を修正して TensorList をサポート可能にし、重みを連続したバッファに結合する手間を省き、メモリのコピー操作を 1 回削減する。

実測データ：DeepSeek-R1 × GB200 NVL72

テストシナリオ：入力 8K トークン / 出力 1K トークン、ユーザーあたり 20〜100 TPS のサービス負荷

指標	ベースライン（EP/TP）	DWDP	変化
GPU あたりの出力 TPS	1.00×	1.088×	+8.8%
イテレーションレイテンシ（コンテキスト層）	1.00×	0.857×	-14.3%

スループットの 8.8% 向上という成果は、クラスター規模において軽視できない。72 枚の GPU それぞれが 8.8% の余力を捻出することは、実質的に約 6 枚分の GPU 計算リソースを無償で追加したのと等価である。

産業展開：SGLang が追随、エコシステムの収束

DWDP はすでに TensorRT-LLM において実装済み（PR #12136）であり、直ちに SGLang コミュニティの注目を集めた。4 月 4 日、SGLang の開発者が Issue #22084 を提起し、DWDP の SGLang フレームワークへの移植計画を明らかにしている。

これは、2 大オープンソース推論フレームワークが DWDP をネイティブサポートすることになり、MoE 推論の並列パラダイムが「同期的な集団通信」から「非同期分散重み」へとシフトしつつあることを意味する。

現状の制約：シングルノードかつ NVLink 直接接続環境のみ対応。ノード間を跨ぐ RDMA 版は現在開発中である。

さらに深掘りして

DWDP の本質は、通信問題をストレージ問題へと変換した点にある。All-to-All 同期を完全に排除する見返りとして、NVLink の帯域幅を利用しているのだ。これは、RDMA を用いて推論のボトルネックを打破しようとする Mooncake の思路と同源であり、真の推論加速の戦場は、常に「通信の壁」のこちら側にあることを示唆している。

GB200 NVL72 が次世代の標準推論ノードとなるにつれ、DWDP のような NVLink トポロジに深く最適化された技術は、MoE 推論において必須の選択肢となるだろう。

出典：arXiv:2604.01621 | SGLang Issue #22084 | TensorRT-LLM PR #12136