はじめに:MoE 大規模モデルの推論において、真の隠れた敵は計算リソースではなく「同期待ち」である。NVIDIA の最新論文「DWDP」(arXiv:2604.01621)は、「分散重みデータ並列(Distributed Weight Data Parallelism)」を提案し、72 枚の GB200 がそれぞれ独立して動作し、エキスパート重みを非同期で先読みすることで、集団通信のバリアを完全に撤廃した。DeepSeek-R1 での実測値では、出力スループットが 8.8% 向上し、イテレーションレイテンシは 14.3% 短縮された。SGLang コミュニティもこれに追随しており、この技術ロードマップは MoE 推論の常識を書き換えつつある。
問題の根源:MoE における同期の罠
現在の主流である MoE 推論フレームワーク(TensorRT-LLM、SGLang、vLLM)は、通常エキスパート並列(EP)+テンソル並列(TP)の組み合わせ戦略を採用している。ここでの核心的な矛盾は以下の点にある:
- 各レイヤーの終了時に、全 GPU ランクがAll-to-All / All-Gatherの同期バリア地点で集合し、待ち合わせなければならない。
- エキスパートへのルーティングは本質的に不均衡であり、一部の GPU に過負荷がかかる一方で、他の GPU はアイドル状態で待機することを余儀なくされる。
- NVLink の超高帯域幅の大部分は無駄に費やされ、集団通信時の瞬間的なバースト時にのみ利用されるに過ぎない。
その結果:72 枚の B200 GPU のうち、たった 1 枚でもわずかに遅れると、推論フレーム全体が足止めを食らうことになる。
DWDP による打開策
DWDP(Distributed Weight Data Parallelism)は、以下の哲学に基づきアプローチを転換した:
「データを動かすのではなく、重みを動かす」
各 GPU にはエキスパート重みの一部(ローカルエキスパート)のみを保持させ、アテンション層の重みは全て複製して保持する。推論計算において「リモートのエキスパート」が必要になった場合、CUDA コピーエンジンによる非同期先読みを用いて、事前に重みを転送しておく。
3 つの主要なメカニズムは以下の通り:
① 集団通信の排除:推論のクリティカルパスから AllReduce や AllGather を完全に排除。72 のランクが完全に非同期かつ独立して実行され、互いを待つ必要がなくなる。
② ダブルバッファリングによる先読み:専用の CUDA ストリームを使用して次バッチのエキスパート重みを並列で先読みし、現在の GEMM 計算と完全にオーバーラップさせることで、NVLink 転送による遅延を隠蔽する。
③ グループ化 GEMM による直接消費:下層の GroupedGEMM 演算子を修正して TensorList をサポート可能にし、重みを連続したバッファに結合する手間を省き、メモリのコピー操作を 1 回削減する。
実測データ:DeepSeek-R1 × GB200 NVL72
テストシナリオ:入力 8K トークン / 出力 1K トークン、ユーザーあたり 20〜100 TPS のサービス負荷
| 指標 | ベースライン(EP/TP) | DWDP | 変化 |
|---|---|---|---|
| GPU あたりの出力 TPS | 1.00× | 1.088× | +8.8% |
| イテレーションレイテンシ(コンテキスト層) | 1.00× | 0.857× | -14.3% |
スループットの 8.8% 向上という成果は、クラスター規模において軽視できない。72 枚の GPU それぞれが 8.8% の余力を捻出することは、実質的に約 6 枚分の GPU 計算リソースを無償で追加したのと等価である。
産業展開:SGLang が追随、エコシステムの収束
DWDP はすでに TensorRT-LLM において実装済み(PR #12136)であり、直ちに SGLang コミュニティの注目を集めた。4 月 4 日、SGLang の開発者が Issue #22084 を提起し、DWDP の SGLang フレームワークへの移植計画を明らかにしている。
これは、2 大オープンソース推論フレームワークが DWDP をネイティブサポートすることになり、MoE 推論の並列パラダイムが「同期的な集団通信」から「非同期分散重み」へとシフトしつつあることを意味する。
現状の制約:シングルノードかつ NVLink 直接接続環境のみ対応。ノード間を跨ぐ RDMA 版は現在開発中である。
さらに深掘りして
DWDP の本質は、通信問題をストレージ問題へと変換した点にある。All-to-All 同期を完全に排除する見返りとして、NVLink の帯域幅を利用しているのだ。これは、RDMA を用いて推論のボトルネックを打破しようとする Mooncake の思路と同源であり、真の推論加速の戦場は、常に「通信の壁」のこちら側にあることを示唆している。
GB200 NVL72 が次世代の標準推論ノードとなるにつれ、DWDP のような NVLink トポロジに深く最適化された技術は、MoE 推論において必須の選択肢となるだろう。
出典:arXiv:2604.01621 | SGLang Issue #22084 | TensorRT-LLM PR #12136