就在剛剛,DeepSeek V4 Lite 外洩之後,DeepSeek 團隊又與清華大學、北京大學共同發表重磅 AI 論文:突破智慧體 LLM 推理中的儲存頻寬瓶頸。
2 月 26 日訊息,DeepSeek 團隊聯合清華大學、北京大學電腦科學學院共同研發出 Agentic AI 大型語言模型(LLM)推理框架系統——DualPath。
透過引入雙路徑 KV-Cache 載入機制,DualPath 成功突破技術瓶頸。同時,DualPath 還支援一種創新的「儲存到解碼」路徑,在該路徑中,KV-Cache 被載入至解碼引擎,接著透過計算網路上的 RDMA 高效傳輸至預填補(Prefill)引擎。DualPath 將這種優化的資料路徑(能有效避免網路擁塞,並避免干擾對延遲敏感的模型執行通訊)與一個全域排程器相結合,該排程器能動態平衡預填補引擎與解碼引擎之間的負載。
透過三項智慧體(Agent)測試,DualPath 在離線網路環境下的 AI 推理中實現了高達 1.87 倍的吞吐量提升;在線上服務方面,DualPath 的平均吞吐量(online serving throughput)提升了 1.96 倍。
相關論文已發表於 arxiv。該論文第一作者為北京大學電腦科學學院博士生、DeepSeek-AI 系統組的吳永彤。
這是 DeepSeek 首次、也是最新一次與清華、北大兩所頂尖學府聯合發布的科研成果,同時也是 DeepSeek 首款專門解決 AI 推理儲存瓶頸的產品。
arxiv:https://arxiv.org/abs/2602.21548
實際上,多輪次、智慧體 LLM 推理的效能越來越受限於 KV-Cache 儲存的 I/O,而非運算能力。在目前流行的解耦架構中,從外部儲存載入海量 KV-Cache 會造成根本性的不平衡:預填補引擎上的儲存網卡頻寬飽和,而解碼引擎上的儲存網卡則處於閒置狀態。這種不對稱性嚴重限制了系統的整體吞吐量。
論文指出,AI 資料中心是專為處理大規模生成式 AI 訓練與推理工作負載而設計的邏輯超級電腦。例如,在標準的 NVIDIA DGX SuperPOD 中,每個節點都配備了 8 個 Hopper GPU,並透過高速 NVLink 進行互連。每個 GPU 都配有一張專用的 400 Gbps 計算網卡,以最大化節點間的通訊頻寬。除了計算互連架構之外,每個節點還配備了一張儲存網卡(SNIC,也稱為南北向網卡),頻寬最高可達 400 Gbps,可快速存取資料集、模型檢查點以及磁碟上的 KV 快取。
然而團隊觀察到,在基於 Agent 智慧體的 AI 推理任務中,GPU 利用率嚴重不足。研究發現,KV 快取載入速度成為瓶頸,這是因為每個節點上單一儲存網卡的頻寬有限所致。
因此,分析表明,以下三個決定性因素共同導致了這一瓶頸問題:
首先,Agent 工作負載表現出較高的 KV 快取命中率,這需要更多的 I/O 操作和更少的計算,從而導致嚴重的 I/O 瓶頸。代理型工作負載天然具有長上下文、短追加和多輪次的特點。在每一輪次中,GPU 都需要從持久儲存中讀取整個上下文的 KV 快取,並對追加的標記執行預填補計算。我們從代表性編碼任務中收集的軌跡數據顯示,平均輪次數為 157,這表明大型語言模型傾向於進行多輪次互動。平均上下文長度為 32.7k,而追加長度的平均值僅為 429,這意味著 KV 快取命中率高達 98.7%。
在這種情況下,定義為 KV 快取與載入和計算所需量之比的「快取 - 計算比」,對於 DeepSeek-V3.2 約為 22 GB/PFLOP,這對儲存頻寬構成了顯著瓶頸。需要注意的是,DeepSeek MLA 模型的 KV 快取大小已經過高度優化;而對於 KV 快取大小更大的模型,情況會更加嚴峻。DeepSeek-V3.2 的這一比例高於 DeepSeek-V3,這得益於其稀疏注意力設計,降低了計算需求。
其次,硬體演進趨勢並不太適合代理推理工作負載。近年來,網路頻寬和 HBM 容量的增長速度落後於 GPU 浮點運算能力的增長,這導致我們在代理工作負載下頻頻遭遇記憶體和通訊瓶頸。如圖 3 所示,從 NVIDIA Ampere 到 Blackwell,I/O 與計算的比率下降了 14.4 倍。低網卡頻寬限制了 KV 快取的載入速度,使 GPU 陷入閒置狀態。此外,較小的 HBM 容量限制了 GPU 核心的 token 批次大小,從而無法同時進行計算,阻礙了張量核心等計算單元的充分使用。
第三,現有的大型語言模型推理系統在不同引擎類型之間存在嚴重的儲存網路利用率不平衡。在常見的按資料分佈的系統中,命中的標記 KV 快取完全由預填補引擎直接從遠端儲存載入。這種設計將所有儲存 I/O 壓力集中到了預填補側的 SNIC 上,而解碼引擎上的 SNIC 則基本處於閒置狀態。因此,儲存網路的總頻寬無法得到充分利用。
上述分析表明,基於 PD 分解架構的代理推理所面臨的根本效能問題,是 KV 快取檢索的高 I/O 需求以及推理引擎間儲存網路頻寬利用率不均衡。同時觀察到,計算網路的網路流量——其聚合頻寬遠大於儲存網路——呈現出一種間歇性模式:模型推理中使用的集體操作在亞毫秒級間隔內突發式地集中出現。
因此,一個機會自然顯現:可以利用解碼節點的 SNIC 頻寬,從儲存中載入 KV 快取,並將其傳輸回預填補節點,從而利用速度更快的計算網路的空閒頻寬。
因此,DeepSeek 聯合北大、清華團隊一同研發 DualPath,其核心創新點有三個:
- 採用優化的雙路徑載入資料路徑設計,在常見的 P/D 比例下不會引入固有的擁塞。
- 一種以網路介面卡為中心的流量管理方法,用於將 KV 快取流量與對延遲敏感的模型推理通訊隔離出來。
- 採用全新動態排程策略,可在預填補和解碼引擎之間協同平衡計算和網路利用率。
最終,團隊在 AI 推理堆疊之上實現了 DualPath,并使用具有長上下文和高快取重用的代表性代理工作負載對其進行評估。實驗表明,DualPath 顯著提高了系統吞吐量和首個標記延遲,同時保持了標記之間的延遲不變。在 Agent 推理場景中,DualPath 將離線推理的端到端吞吐量提高了多達 1.87 倍,平均將在線服務吞吐量提高了 1.96 倍。
值得一提的是,過去 48 小時,DeepSeek 未發布的 V4 新模型在 AI 圈引起了熱烈的討論。多家獨立信源稱,DeepSeek V4 Lite 測試效果相比 V3.2 版本大幅提升,模型支援1M 上下文 + 原生多模態;其首批生成的 SVG 範例流出並被大量傳播。目前,該模型正在讓華為等晶片廠商進行測試。
根據多個報導來源顯示,預計最快下週將會發布擁有超過 6600 億參數規模的 DeepSeek-V4 版本模型。
本論文第一作者吳永彤:北京大學(PKU)博士生(推測為 00 後),師從金鑫教授在系統軟體方面的指導,特別是 LLM 基礎設施方面的指導。此前,他於 2025 年在北京大學獲得資訊學與電腦科學學士學位,師從北京大學電腦科學技術系助理教授黃群,進行 RDMA 中介軟體開發。
2025 年 7 月,吳永彤加入 DeepSeek 系統組,主要致力於構建下一代 DeepSeek 模型的推理基礎設施。其中一項關鍵工作是優化大規模內部軟體系統,以確保其在各種硬體平台上都能達到最佳效能(可以理解為 Infra)。
另一位論文作者:金鑫
北京大學博士生導師,長聘助理教授,2011 年本科畢業於北京大學電腦系,2015 年獲香港中文大學博士學位,曾先後在華為未來網路理論實驗室(2015-2017 年)和中國科學院計算技術研究所(2017-2020 年)工作,2020 年 5 月起任職於北京大學。
金鑫主要研究方向為分散式串流處理和網路測量,在網路與系統領域頂級會議(包括 SIGCOMM、INFOCOM、VLDB、USENIX ATC)發表論文多篇,主持國家重點研發計劃子課題、國家自然科學基金等項目。
截至 2025 年,他指導的團隊在大數據系統設計與演算法優化方面取得多項成果,包括兩篇 ICDE 2023 會議論文,和全國大學生資訊儲存技術競賽一等獎等。