独占！DeepSeek が清華大学・北京大学と共同で「DualPath」システムを発表、AI 推論 Infra のスループットを平均 196% 向上

ちょうど今ほど前、DeepSeek V4 Lite のリークに続いて、DeepSeek チームは清華大学および北京大学と共に、エージェント LLM 推論におけるストレージ帯域幅のボトルネックを打破する画期的な AI 論文を発表しました。

2 月 26 日付のニュースによると、DeepSeek チームは清華大学および北京大学計算機科学学院と共同で、エージェント AI 大規模言語モデル（LLM）推論フレームワークシステム「DualPath」を開発しました。

DualPath は、二重パス KV-Cache ロードメカニズムを導入することで技術的ボトルネックを突破しました。さらに、KV-Cache をデコードエンジンに読み込み、その後コンピューティングネットワーク上の RDMA を介してプレフィルエンジンへ効率的に転送する、新しい「ストレージ・トゥ・デコード」パスもサポートしています。DualPath は、ネットワーク輻輳を効果的に回避し、レイテンシに敏感なモデル実通信を妨げないよう最適化されたこのデータパスを、プレフィルエンジンとデコードエンジン間の負荷を動的にバランスさせるグローバルスケジューラと組み合わせました。

3 つのエージェントテストにより、DualPath はオフラインネットワーク環境下での AI 推論において最大 1.87 倍のスループット向上を実現。オンライン環境では、平均スループット（online serving throughput）が 1.96 倍向上しました。

関連論文はすでに arxiv に公開されています。筆頭著者は、北京大学計算機科学学院博士課程に在籍し、DeepSeek-AI システムグループに所属する呉永彤（ウ・ヨンティョン）氏です。

これは DeepSeek が清華大学・北京大学の両大学と共同で発表した初かつ最新の研究成果であり、AI 推論におけるストレージボトルネックを解決する製品の初公開でもあります。

arxiv：https://arxiv.org/abs/2602.21548

実際、マルチターン・エージェント LLM 推論のパフォーマンスは、計算能力ではなく KV-Cache ストレージの I/O によって制限されつつあります。現在主流となっている分離型アーキテクチャでは、外部ストレージから大量の KV-Cache を読み込む際、根本的な不均衡が生じます。すなわち、プレフィルエンジン上のストレージ NIC 帯域幅は飽和する一方、デコードエンジン上のストレージ NIC はアイドル状態のままです。この非対称性がシステム全体のスループットを著しく制限しています。

論文によれば、AI データセンターは大規模生成 AI のトレーニングおよび推論ワークロードを処理するために設計された論理スーパーコンピューターです。例えば、標準的な NVIDIA DGX SuperPOD では、各ノードに 8 基の Hopper GPU が搭載され、高速 NVLink で相互接続されています。各 GPU には 400 Gbps の専用コンピューティング NIC が備わり、ノード間通信帯域幅を最大化しています。計算相互接続アーキテクチャに加え、各ノードには最大 400 Gbps のストレージ NIC（SNIC、南北方向 NIC とも呼ばれる）も装備されており、データセット、モデルチェックポイント、ディスク上の KV キャッシュへの高速アクセスを可能にしています。

しかしチームの観察によると、エージェントベースの AI 推論タスクでは GPU 利用率が著しく不足しており、その原因は各ノードに搭載された単一のストレージ NIC の帯域幅制限にある KV キャッシュの読み込み速度のボトルネックであることが判明しました。

したがって、分析の結果、以下の 3 つの決定的要因が相まってこのボトルネック問題を引き起こしていることが示されました。

第一に、エージェントワークロードは高い KV キャッシュヒット率を示し、その結果、計算よりも多くの I/O 操作が必要となり、深刻な I/O ボトルネックを引き起こします。エージェント型ワークロードは本来的に長いコンテキスト、短い追加、マルチターンの特性を持ちます。各ターンにおいて、GPU は永続ストレージからコンテキスト全体の KV キャッシュを読み込み、追加されたトークンに対してプレフィル計算を実行する必要があります。代表的なエンコーディングタスクから収集されたトレースデータによると、平均ターン数は 157 回であり、これは大規模言語モデルがマルチターン対話を好む傾向にあることを示しています。平均コンテキスト長は 32.7k であるのに対し、追加長の平均はわずか 429 であり、これは KV キャッシュヒット率が 98.7% であることを意味します。

この状況下で、KV キャッシュ量とその読み込み・計算に必要な量の比として定義される「キャッシュ・トゥ・コンピューション比」は、DeepSeek-V3.2 の場合約 22 GB/PFLOP となり、ストレージ帯域幅に対する顕著なボトルネックとなっています。なお、DeepSeek MLA モデルの KV キャッシュサイズはすでに高度に最適化されていますが、KV キャッシュサイズがより大きなモデルでは状況はさらに悪化します。DeepSeek-V3.2 のこの比率は、疎なアテンション設計により計算需要が低減されたおかげで、DeepSeek-V3 よりも高くなっています。

第二に、ハードウェア進化の傾向はエージェント推論ワークロードに必ずしも適していません。近年、ネットワーク帯域幅と HBM 容量の成長速度は GPU の浮動小数点演算能力の成長に遅れをとっており、その結果、エージェントワークロードにおいてメモリおよび通信ボトルネックが頻繁に発生しています。図 3 に示す通り、NVIDIA Ampere から Blackwell にかけて、I/O と計算の比率は 14.4 倍も低下しました。低い NIC 帯域幅が KV キャッシュの読み込み速度を制限し、GPU をアイドル状態に追い込んでいます。さらに、小さい HBM 容量は GPU カーネルのトークンバッチサイズを制限し、同時計算を不可能にし、テンソルコアなどの計算ユニットの十分な活用を阻害しています。

第三に、既存の大規模言語モデル推論システムでは、異なるエンジンタイプ間でストレージネットワーク利用率に深刻な不均衡が存在します。一般的なデータ分散型システムでは、ヒットしたトークンの KV キャッシュはすべてプレフィルエンジンがリモートストレージから直接読み込みます。この設計により、すべてのストレージ I/O 負荷がプレフィル側の SNIC に集中し、デコードエンジン上の SNIC は事実上アイドル状態となります。その結果、ストレージネットワークの全帯域幅が十分に活用されていません。

上記の分析から、PD 分解アーキテクチャに基づくエージェント推論が抱える根本的な性能問題は、KV キャッシュ検索における高い I/O 需要と、推論エンジン間でのストレージネットワーク帯域幅利用率の不均衡にあることが明らかになりました。同時に、計算ネットワークのトラフィック（その集約帯域幅はストレージネットワークを遥かに上回る）は、間欠的なパターンを示すことも観察されました。すなわち、モデル推論で使用される集合操作が、サブミリ秒間隔でバースト的に集中して発生するのです。

したがって、自然と機会が浮かび上がります。デコードノードの SNIC 帯域幅を利用してストレージから KV キャッシュを読み込み、それをプレフィルノードへ転送送回すことで、より高速な計算ネットワークの未使用帯域幅を活用できるのです。

そこで DeepSeek は北京大学・清華大学チームと共同で DualPath を開発しました。その中核的な革新点は以下の 3 点です。

1. 一般的な P/D 比率において本質的な輻輳を引き起こさない、最適化された二重パスロードデータパス設計の採用。

2. KV キャッシュトラフィックをレイテンシに敏感なモデル推論通信から分離するための、ネットワークインターフェースカード（NIC）中心のトラフィック管理手法の導入。

3. プレフィルエンジンとデコードエンジンの間で計算リソースとネットワーク利用率を協調的にバランスさせる、新しい動的スケジューリング戦略の採用。

最終的に、チームは AI 推論スタック上に DualPath を実装し、長いコンテキストと高いキャッシュ再利用性を特徴とする代表的なエージェントワークロードを用いて評価を行いました。実験結果、DualPath はシステムスループットと初トークン遅延を著しく向上させつつ、トークン間の遅延は維持することに成功しました。エージェント推論シナリオにおいて、DualPath はオフライン推論のエンドツーエンドスループットを最大 1.87 倍、オンラインサービススループットを平均 1.96 倍向上させました。

特筆すべきは、過去 48 時間、DeepSeek から未発表の新型モデル「V4」が AI 業界で熱烈な議論を巻き起こしていることです。複数の独立した情報筋によれば、DeepSeek V4 Lite のテスト結果は V3.2 バージョンと比較して大幅に向上しており、同モデルは1M コンテキスト＋ネイティブマルチモーダルをサポート。さらに、首批生成された SVG サンプルが流出し、広く拡散されました。現在、同モデルは華為（ファーウェイ）などのチップメーカーによってテストが行われている最中です。

複数の報道ソースによれば、パラメータ規模が 6600 億を超える「DeepSeek-V4」バージョンモデルは、早くとも来週発表される見込みです。

本論文の筆頭著者である呉永彤氏は、北京大学（PKU）の博士課程在籍者（00 世代と推測）で、システムソフトウェア、特に LLM インフラストラクチャ分野において金鑫教授の指導を受けています。此前、2025 年に北京大学にて情報学および計算機科学の学士号を取得。同大学計算機科学技術系助教の黄群氏の指導のもと、RDMA ミドルウェアの開発に従事していました。

2025 年 7 月、呉氏は DeepSeek システムグループに参加。次世代 DeepSeek モデル向けの推論インフラストラクチャ構築に主に従事しています。その中核業務の一つは、あらゆるハードウェアプラットフォーム上で最適パフォーマンスを発揮できるよう、大規模な内部ソフトウェアシステムの最適化（いわゆる Infra）です。

https://jokerwyt.github.io/

もう一人の論文著者：金鑫

北京大学博士課程指導教員、長聘准教授。2011 年に北京大学計算機科学系を卒業後、2015 年に香港中文大学にて博士号を取得。その後、華為未来ネットワーク理論実験室（2015-2017 年）、中国科学院計算技術研究所（2017-2020 年）を経て、2020 年 5 月より北京大学に勤務。

金氏の主な研究分野は分散ストリーム処理とネットワーク測定。ネットワークおよびシステム分野のトップカンファレンス（SIGCOMM、INFOCOM、VLDB、USENIX ATC など）にて多数の論文を発表。国家重点研究開発計画のサブプロジェクトや国家自然科学基金などのプロジェクトを主宰。

2025 年現在、金氏の指導するチームはビッグデータシステム設計とアルゴリズム最適化において複数の成果を上げており、ICDE 2023 での 2 本の会議論文採択や、全国大学生情報ストレージ技術コンクールでの最優秀賞などが含まれます。

独占！DeepSeek が清華大学・北京大学と共同で「DualPath」システムを発表、AI 推論 Infra のスループットを平均 196% 向上

関連記事

分享網址