編輯 | 云昭
在 AI 工程界,長文字推理向來被視為一種「富貴病」。
為了讓大型語言模型(LLM)回應速度更快,業者們不得不將數千顆昂貴的 GPU 塞進同一座機房,並搭配天價的 InfiniBand 交換器。
原因只有一個:KVCache(鍵值快取)實在太龐大了。只要跨出機房、透過一般網路線傳輸,延遲就會瞬間拖垮系統,讓推理變成「慢動作」。
難道算力只能在昂貴的「孤島」上跳舞嗎?
近日,月之暗面(Moonshot AI)發表了一篇重磅論文,提出了PrfaaS(Prefill-as-a-Service,預填充即服務)架構。他們用一組驚人的數據證明:即便沒有天價網路,光靠普通的乙太網路線,也能實現萬億參數模型的跨中心調度!
劍指大規模 LLM 推理挑戰:KVCache 頻寬瓶頸
相信關注 AI 圈的朋友現在都已經知道了這個概念:PD 分離(Prefill-Decode Disaggregation)。
而月之暗面的這篇論文,簡單理解,就是將矛頭指向了大規模 LLM 服務中非常實際的問題:
如何在不同資料中心之間、異構硬體環境下,高效地將 Prefill(預填充)和 Decode(解碼)分離,而不被 KVCache 傳輸頻寬所限制?
過去,跨資料中心推理被視為「工程自殺」,是因為傳統模型的 KVCache 像海嘯一樣,會瞬間擠爆頻寬。
論文中指出了原因所在:傳統的 PD 分離架構雖然把計算密集的 Prefill 和記憶體頻寬密集的 Decode 分開,但 Prefill 階段產生的大量 KVCache 必須透過高頻寬網路(如 RDMA)快速傳輸給 Decode 節點,否則會阻塞推理。這導致:
Prefill 和 Decode 必須部署在同一個高頻寬網路域內(如單一資料中心)。
異構硬體(如 H100 用於 Prefill,H20 用於 Decode)很難獨立擴展,因為無法跨低頻寬網路高效傳輸 KVCache。
資源彈性差:一旦硬體比例固定,難以適應請求長度、快取命中率的變化。
單一資料中心設計問題大,跨資料中心又難,存在各種諸如頻寬等軟硬體擴展的瓶頸,如何解決呢?
關鍵觀察:混合注意力模型能大幅降低 KVCache
論文指出,新型混合注意力模型(如 Kimi Linear、SWA + GQA)中,只有少數全注意力層產生隨序列長度增長的 KVCache,多數線性複雜度層只產生固定大小的狀態。
透過建模分析,團隊發現:
KV Throughput(單位時間產生的 KVCache 大小)僅僅是稠密模型的 1/4,甚至最低可以達到 1/36。
這種數量級別的 KVCache 減少,就好比:以前傳輸數據像是在搬運一整座山,現在只需快遞一張光碟。堪比对 KVCache 來了一場演算法級的「物理瘦身」。
這使得 KVCache 透過普通乙太網路跨資料中心傳輸成為可能。
除了這一觀察,論文中 Kimi 團隊還提出了一個構建跨資料中心的萬億模型的核心思路:
跨資料中心 KVCache 的核心思路,並不是把所有 prefill 都外包,而是在「遠端 prefill 加速收益大於傳輸成本」時,有選擇性地將解耦後的 LLM 服務擴展到單一叢集之外。
PrfaaS 的核心思路:
如何把推理「海嘯」變成「溪流」?
那麼,理論上可行之外,實際工程方面,PrfaaS 是怎麼實現的呢?不得不說,團隊確實是做到了「演算法 + 系統」的雙重創新。
PrfaaS-PD 架構的整體思路很清晰,即將本地 PD 叢集和 PrfaaS 叢集的處理職責區分開:
專用的 PrfaaS 叢集:在高吞吐、成本更優的加速器上執行計算密集型長上下文 prefill(未命中字首的快取),並透過通用乙太網路將生成的 KVCache 串流傳輸到本地 PD 叢集;
本地 PD 叢集:處理短請求或已命中快取等對頻寬不友善的請求,負責 Decode。
注意:两者是透過普通乙太網路(如 VPC、專線)來傳輸 KVCache 的。
而專用 PrfaaS 叢集的靈魂設計就在於:混合字首快取池(Hybrid Prefix Cache Pool)的設計。
雖然混合注意力模型的 KVCache 變小了,但類型卻也多元了。
在混合模型中,線性注意力或 SWA 層的循環狀態是請求級別的:它們的大小與輸入長度無關,並且只有當快取長度完全匹配時才能被複用。
相比之下,全注意力層的 KVCache 是區塊級別的:它們隨輸入長度線性增長,並支援部分字首匹配。
這種異構性對傳統的全層統一 KVCache 儲存範式提出了挑戰。
顯然,混合字首快取池的設計解決的正是這個問題,同時也可以做到跨叢集、跨資料中心的 KVCache 高效傳輸與複用。
篇幅關係,這裡用簡單一點的話來解釋如何做到的:分開管理,記憶體統一。快取池將線性狀態和全注意力 KVCache 分開管理,但這些組具有對齊的區塊大小,允許所有組從一個共享的 KVCache 池中分配和釋放區塊。
多說一句,這個快取池是 Kimi 團隊基於 vLLM 的混合 KVCache 管理器發明的。感興趣的朋友可以翻閱相關的論文。
內建雙尺度調度,避免推理卡頓
解決了這個問題之後,還要解決的則是調度問題。PrfaaS 並非天真地外發所有任務。對此,研究團隊內建了聰明的「分流」邏輯:
選擇性卸載:只有增量長度 > 閾值的請求才發往 PrfaaS,避免短請求浪費跨叢集頻寬。「短請求本地消化,長請求異地處理」。系統會自動識別:只有當文字足夠長(比如超過 19.4K token),才派發給遠端的高算力中心。
頻寬感知:即時監控 egress 頻寬和佇列深度,動態調整路由。考慮快取親和性:如果某叢集已有部分字首快取,優先使用,必要時跨叢集傳輸快取。
就像手機導航會避開壅堵路段,排程器會監控網速。如果兩地之間的網線「堵車」了,它會自動調整路由,優先保證本地推理不卡頓。
此外,在調度策略上,團隊還給出了一種雙時間尺度調度策略:
短時:根據頻寬和快取分布動態路由請求。
長時:根據流量變化調整 PD 叢集內的 Prefill/Decode 實例比例,重新優化閾值 t。
硬體解構:讓 H200 專心「衝刺」
不僅如此,在實測中,Kimi 團隊用H200 組成 PrfaaS 叢集(專攻計算,負責 Prefill),而用H20 叢集負責 Decode(解碼)。
這種「跨機房合體」讓每顆晶片都跑在自己的舒適區,可以說為業界解決了「算力夠、頻寬不夠」的尷尬問題。
實測數據:1T 模型的「降維打擊」
在這項針對1 萬億參數級混合架構模型(類似 Kimi Linear)的實測中,PrfaaS 交出了一份足以重塑行業邏輯的成績單!
具體部署如下:
PrfaaS 叢集:32 × H200(高算力)
本地 PD 叢集:64 × H20(頻寬優化)
跨叢集頻寬:100 Gbps 乙太網路
首先,相比傳統部署,PrfaaS 系統吞吐量提升了54%。比無調度的異構 PD 提升32%。
這還沒完,結果顯示,如果在同等成本下,PrfaaS 系統吞吐量仍提升約15%。
其次,延遲也大幅降低:代表用戶體驗的 P90 首字延遲(TTFT)大幅降低64%。
更重要的是,成功實現了跨城市級別頂級算力調度。據介紹,PrfaaS 處理萬億模型時,跨中心頻寬佔用僅為13 Gbps(佔 100 Gbps 的 13%),遠低於稠密模型的需求。
這意味著,你用一根最普通的 100G 網線,就能在兩座城市之間調度頂級算力。
終結「唯顯卡論」:普通網線也能調度全球算力
大模型迎來「東數西算」時代
這是大模型狂奔的第四個年頭。在推理算力日益緊缺的語境之下,Kimi 團隊之一 PrfaaS 架構的出現,可謂恰逢其時。
這篇論文不止是提出了跨城市跨資料中心的分散式算力 AI 框架,還給出了許多關於未來 AI 推理的想像空間。
小編看來,有這樣幾點值得討論:
首先,Kimi 這篇研究讓「異地推理」的真正落地更近了一步。大模型領域的「東數西算」被它證明完全在工程上是可行的:以後 Prefill 可以放在電費便宜的西北,Decode 放在靠近用戶的北上廣。這一點就足夠 amazing。
其次,異構晶片也終於有了大規模採用的希望。推理非得全用 H100?當然不是。
大家同樣可以用國產大算力晶片做 Prefill 中心,用高頻寬晶片做 Decode 中心。而 PrfaaS 就像「黏合劑」,讓不同品牌、不同地域的晶片也可以很好地協同。
最後,則是二階影響。大家或許看到「吞吐量提升」、「延遲降低」這樣的術語感覺不深,但這背後其實都會真實反映到大家的「錢袋子」上。
因為這些指標的改進,折射到模型側,就意味着 1T 模型的處理效率翻倍,意味著處理千萬級上下文的成本將大幅下降,而折射到用戶側,則意味著 API 價格的實打實下降!
總之,不難預見,模型圈很快將會經歷「單體機房」向「分散式算力雲」的轉變。
而月之暗面的 PrfaaS 也再一次用實際效果向外間證明:透過演算法和工程的協同進化,用普通網線也可以調度全球算力!而大家的模型訂閱價格降下來的希望也更大了!
從這個維度上看,AI 的普及才真正開始。
論文地址:
https://arxiv.org/pdf/2604.15039v1
——好文推薦——
黃仁勳:整個世界正在被「重置」!AI 不會大規模摧毀就業,工作沒有消失,只是「任務被自動化」!美國夢信念正在消失!AI 本質是個五層結構
MCP 未來會死?Anthropic 工程師:2026,Agent 的核心能力是連接!三大改進解決 MCP 上下文膨脹問題,自曝 MCP 應用:Agent 不再寄生,可自帶 UI
Claude Code 工程師自曝:100 萬 token 上下文視窗是一把雙刃劍,上下文腐化,每一步都是個分叉點,曝內部最佳實踐:用回溯代替糾錯