DWDP:NVIDIA の切り札、MoE 推論から同期ロックを排除し NVL72 のスループットを 8.8% 向上

はじめに:MoE 大規模モデルの推論において、真の隠れた敵は計算リソースではなく「同期待ち」である。NVIDIA の最新論文「DWDP」(arXiv:2604.01621)は、「分散重みデータ並列(Distributed Weight Data Parallelism)」を提案し、72 枚の GB200 がそれぞれ独立して動作し、エキスパート重みを非同期で先読みすることで、集団通信のバリアを完全に撤廃した。DeepSeek-R1 での実測値では、出力スループットが 8.8% 向上し、イテレーションレイテンシは 14.3% 短縮された。SGLang コミュニティもこれに追随しており、この技術ロードマップは MoE 推論の常識を書き換えつつある。

問題の根源:MoE における同期の罠

現在の主流である MoE 推論フレームワーク(TensorRT-LLM、SGLang、vLLM)は、通常エキスパート並列(EP)+テンソル並列(TP)の組み合わせ戦略を採用している。ここでの核心的な矛盾は以下の点にある:

  • 各レイヤーの終了時に、全 GPU ランクがAll-to-All / All-Gatherの同期バリア地点で集合し、待ち合わせなければならない。
  • エキスパートへのルーティングは本質的に不均衡であり、一部の GPU に過負荷がかかる一方で、他の GPU はアイドル状態で待機することを余儀なくされる。
  • NVLink の超高帯域幅の大部分は無駄に費やされ、集団通信時の瞬間的なバースト時にのみ利用されるに過ぎない。

その結果:72 枚の B200 GPU のうち、たった 1 枚でもわずかに遅れると、推論フレーム全体が足止めを食らうことになる。

DWDP による打開策

DWDP(Distributed Weight Data Parallelism)は、以下の哲学に基づきアプローチを転換した:

「データを動かすのではなく、重みを動かす」

各 GPU にはエキスパート重みの一部(ローカルエキスパート)のみを保持させ、アテンション層の重みは全て複製して保持する。推論計算において「リモートのエキスパート」が必要になった場合、CUDA コピーエンジンによる非同期先読みを用いて、事前に重みを転送しておく。

3 つの主要なメカニズムは以下の通り:

① 集団通信の排除:推論のクリティカルパスから AllReduce や AllGather を完全に排除。72 のランクが完全に非同期かつ独立して実行され、互いを待つ必要がなくなる。

② ダブルバッファリングによる先読み:専用の CUDA ストリームを使用して次バッチのエキスパート重みを並列で先読みし、現在の GEMM 計算と完全にオーバーラップさせることで、NVLink 転送による遅延を隠蔽する。

③ グループ化 GEMM による直接消費:下層の GroupedGEMM 演算子を修正して TensorList をサポート可能にし、重みを連続したバッファに結合する手間を省き、メモリのコピー操作を 1 回削減する。

実測データ:DeepSeek-R1 × GB200 NVL72

テストシナリオ:入力 8K トークン / 出力 1K トークン、ユーザーあたり 20〜100 TPS のサービス負荷

指標ベースライン(EP/TP)DWDP変化
GPU あたりの出力 TPS1.00×1.088×+8.8%
イテレーションレイテンシ(コンテキスト層)1.00×0.857×-14.3%

スループットの 8.8% 向上という成果は、クラスター規模において軽視できない。72 枚の GPU それぞれが 8.8% の余力を捻出することは、実質的に約 6 枚分の GPU 計算リソースを無償で追加したのと等価である。

産業展開:SGLang が追随、エコシステムの収束

DWDP はすでに TensorRT-LLM において実装済み(PR #12136)であり、直ちに SGLang コミュニティの注目を集めた。4 月 4 日、SGLang の開発者が Issue #22084 を提起し、DWDP の SGLang フレームワークへの移植計画を明らかにしている。

これは、2 大オープンソース推論フレームワークが DWDP をネイティブサポートすることになり、MoE 推論の並列パラダイムが「同期的な集団通信」から「非同期分散重み」へとシフトしつつあることを意味する。

現状の制約:シングルノードかつ NVLink 直接接続環境のみ対応。ノード間を跨ぐ RDMA 版は現在開発中である。

さらに深掘りして

DWDP の本質は、通信問題をストレージ問題へと変換した点にある。All-to-All 同期を完全に排除する見返りとして、NVLink の帯域幅を利用しているのだ。これは、RDMA を用いて推論のボトルネックを打破しようとする Mooncake の思路と同源であり、真の推論加速の戦場は、常に「通信の壁」のこちら側にあることを示唆している。

GB200 NVL72 が次世代の標準推論ノードとなるにつれ、DWDP のような NVLink トポロジに深く最適化された技術は、MoE 推論において必須の選択肢となるだろう。


出典:arXiv:2604.01621 | SGLang Issue #22084 | TensorRT-LLM PR #12136

関連記事

分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.