普通網線也能跑萬億大模型！月之暗面拋出王炸架構，親證：不用全買 H100！1T 模型實測：延遲暴降 64%！大模型推理「圍城」攻破了！

編輯 | 云昭

在 AI 工程界，長文字推理向來被視為一種「富貴病」。

為了讓大型語言模型（LLM）回應速度更快，業者們不得不將數千顆昂貴的 GPU 塞進同一座機房，並搭配天價的 InfiniBand 交換器。

原因只有一個：KVCache（鍵值快取）實在太龐大了。只要跨出機房、透過一般網路線傳輸，延遲就會瞬間拖垮系統，讓推理變成「慢動作」。

難道算力只能在昂貴的「孤島」上跳舞嗎？

近日，月之暗面（Moonshot AI）發表了一篇重磅論文，提出了PrfaaS（Prefill-as-a-Service，預填充即服務）架構。他們用一組驚人的數據證明：即便沒有天價網路，光靠普通的乙太網路線，也能實現萬億參數模型的跨中心調度！

劍指大規模 LLM 推理挑戰：KVCache 頻寬瓶頸

相信關注 AI 圈的朋友現在都已經知道了這個概念：PD 分離（Prefill-Decode Disaggregation）。

而月之暗面的這篇論文，簡單理解，就是將矛頭指向了大規模 LLM 服務中非常實際的問題：

如何在不同資料中心之間、異構硬體環境下，高效地將 Prefill（預填充）和 Decode（解碼）分離，而不被 KVCache 傳輸頻寬所限制？

過去，跨資料中心推理被視為「工程自殺」，是因為傳統模型的 KVCache 像海嘯一樣，會瞬間擠爆頻寬。

論文中指出了原因所在：傳統的 PD 分離架構雖然把計算密集的 Prefill 和記憶體頻寬密集的 Decode 分開，但 Prefill 階段產生的大量 KVCache 必須透過高頻寬網路（如 RDMA）快速傳輸給 Decode 節點，否則會阻塞推理。這導致：

Prefill 和 Decode 必須部署在同一個高頻寬網路域內（如單一資料中心）。
異構硬體（如 H100 用於 Prefill，H20 用於 Decode）很難獨立擴展，因為無法跨低頻寬網路高效傳輸 KVCache。
資源彈性差：一旦硬體比例固定，難以適應請求長度、快取命中率的變化。

單一資料中心設計問題大，跨資料中心又難，存在各種諸如頻寬等軟硬體擴展的瓶頸，如何解決呢？

關鍵觀察：混合注意力模型能大幅降低 KVCache

論文指出，新型混合注意力模型（如 Kimi Linear、SWA + GQA）中，只有少數全注意力層產生隨序列長度增長的 KVCache，多數線性複雜度層只產生固定大小的狀態。

透過建模分析，團隊發現：

KV Throughput（單位時間產生的 KVCache 大小）僅僅是稠密模型的 1/4，甚至最低可以達到 1/36。

這種數量級別的 KVCache 減少，就好比：以前傳輸數據像是在搬運一整座山，現在只需快遞一張光碟。堪比对 KVCache 來了一場演算法級的「物理瘦身」。

這使得 KVCache 透過普通乙太網路跨資料中心傳輸成為可能。

除了這一觀察，論文中 Kimi 團隊還提出了一個構建跨資料中心的萬億模型的核心思路：

跨資料中心 KVCache 的核心思路，並不是把所有 prefill 都外包，而是在「遠端 prefill 加速收益大於傳輸成本」時，有選擇性地將解耦後的 LLM 服務擴展到單一叢集之外。

PrfaaS 的核心思路：

如何把推理「海嘯」變成「溪流」？

那麼，理論上可行之外，實際工程方面，PrfaaS 是怎麼實現的呢？不得不說，團隊確實是做到了「演算法 + 系統」的雙重創新。

PrfaaS-PD 架構的整體思路很清晰，即將本地 PD 叢集和 PrfaaS 叢集的處理職責區分開：

專用的 PrfaaS 叢集：在高吞吐、成本更優的加速器上執行計算密集型長上下文 prefill（未命中字首的快取），並透過通用乙太網路將生成的 KVCache 串流傳輸到本地 PD 叢集；

本地 PD 叢集：處理短請求或已命中快取等對頻寬不友善的請求，負責 Decode。

注意：两者是透過普通乙太網路（如 VPC、專線）來傳輸 KVCache 的。

而專用 PrfaaS 叢集的靈魂設計就在於：混合字首快取池（Hybrid Prefix Cache Pool）的設計。

雖然混合注意力模型的 KVCache 變小了，但類型卻也多元了。

在混合模型中，線性注意力或 SWA 層的循環狀態是請求級別的：它們的大小與輸入長度無關，並且只有當快取長度完全匹配時才能被複用。

相比之下，全注意力層的 KVCache 是區塊級別的：它們隨輸入長度線性增長，並支援部分字首匹配。

這種異構性對傳統的全層統一 KVCache 儲存範式提出了挑戰。

顯然，混合字首快取池的設計解決的正是這個問題，同時也可以做到跨叢集、跨資料中心的 KVCache 高效傳輸與複用。

篇幅關係，這裡用簡單一點的話來解釋如何做到的：分開管理，記憶體統一。快取池將線性狀態和全注意力 KVCache 分開管理，但這些組具有對齊的區塊大小，允許所有組從一個共享的 KVCache 池中分配和釋放區塊。

多說一句，這個快取池是 Kimi 團隊基於 vLLM 的混合 KVCache 管理器發明的。感興趣的朋友可以翻閱相關的論文。

內建雙尺度調度，避免推理卡頓

解決了這個問題之後，還要解決的則是調度問題。PrfaaS 並非天真地外發所有任務。對此，研究團隊內建了聰明的「分流」邏輯：

選擇性卸載：只有增量長度 > 閾值的請求才發往 PrfaaS，避免短請求浪費跨叢集頻寬。「短請求本地消化，長請求異地處理」。系統會自動識別：只有當文字足夠長（比如超過 19.4K token），才派發給遠端的高算力中心。
頻寬感知：即時監控 egress 頻寬和佇列深度，動態調整路由。考慮快取親和性：如果某叢集已有部分字首快取，優先使用，必要時跨叢集傳輸快取。

就像手機導航會避開壅堵路段，排程器會監控網速。如果兩地之間的網線「堵車」了，它會自動調整路由，優先保證本地推理不卡頓。

此外，在調度策略上，團隊還給出了一種雙時間尺度調度策略：

短時：根據頻寬和快取分布動態路由請求。
長時：根據流量變化調整 PD 叢集內的 Prefill/Decode 實例比例，重新優化閾值 t。

硬體解構：讓 H200 專心「衝刺」

不僅如此，在實測中，Kimi 團隊用H200 組成 PrfaaS 叢集（專攻計算，負責 Prefill），而用H20 叢集負責 Decode（解碼）。

這種「跨機房合體」讓每顆晶片都跑在自己的舒適區，可以說為業界解決了「算力夠、頻寬不夠」的尷尬問題。

實測數據：1T 模型的「降維打擊」

在這項針對1 萬億參數級混合架構模型（類似 Kimi Linear）的實測中，PrfaaS 交出了一份足以重塑行業邏輯的成績單！

具體部署如下：

PrfaaS 叢集：32 × H200（高算力）

本地 PD 叢集：64 × H20（頻寬優化）

跨叢集頻寬：100 Gbps 乙太網路

首先，相比傳統部署，PrfaaS 系統吞吐量提升了54%。比無調度的異構 PD 提升32%。

這還沒完，結果顯示，如果在同等成本下，PrfaaS 系統吞吐量仍提升約15%。

其次，延遲也大幅降低：代表用戶體驗的 P90 首字延遲（TTFT）大幅降低64%。

更重要的是，成功實現了跨城市級別頂級算力調度。據介紹，PrfaaS 處理萬億模型時，跨中心頻寬佔用僅為13 Gbps（佔 100 Gbps 的 13%），遠低於稠密模型的需求。

這意味著，你用一根最普通的 100G 網線，就能在兩座城市之間調度頂級算力。

終結「唯顯卡論」：普通網線也能調度全球算力

大模型迎來「東數西算」時代

這是大模型狂奔的第四個年頭。在推理算力日益緊缺的語境之下，Kimi 團隊之一 PrfaaS 架構的出現，可謂恰逢其時。

這篇論文不止是提出了跨城市跨資料中心的分散式算力 AI 框架，還給出了許多關於未來 AI 推理的想像空間。

小編看來，有這樣幾點值得討論：

首先，Kimi 這篇研究讓「異地推理」的真正落地更近了一步。大模型領域的「東數西算」被它證明完全在工程上是可行的：以後 Prefill 可以放在電費便宜的西北，Decode 放在靠近用戶的北上廣。這一點就足夠 amazing。

其次，異構晶片也終於有了大規模採用的希望。推理非得全用 H100？當然不是。

大家同樣可以用國產大算力晶片做 Prefill 中心，用高頻寬晶片做 Decode 中心。而 PrfaaS 就像「黏合劑」，讓不同品牌、不同地域的晶片也可以很好地協同。

最後，則是二階影響。大家或許看到「吞吐量提升」、「延遲降低」這樣的術語感覺不深，但這背後其實都會真實反映到大家的「錢袋子」上。

因為這些指標的改進，折射到模型側，就意味着 1T 模型的處理效率翻倍，意味著處理千萬級上下文的成本將大幅下降，而折射到用戶側，則意味著 API 價格的實打實下降！

總之，不難預見，模型圈很快將會經歷「單體機房」向「分散式算力雲」的轉變。

而月之暗面的 PrfaaS 也再一次用實際效果向外間證明：透過演算法和工程的協同進化，用普通網線也可以調度全球算力！而大家的模型訂閱價格降下來的希望也更大了！

從這個維度上看，AI 的普及才真正開始。

論文地址：

https://arxiv.org/pdf/2604.15039v1

MCP 未來會死？Anthropic 工程師：2026，Agent 的核心能力是連接！三大改進解決 MCP 上下文膨脹問題，自曝 MCP 應用：Agent 不再寄生，可自帶 UI

Claude Code 工程師自曝：100 萬 token 上下文視窗是一把雙刃劍，上下文腐化，每一步都是個分叉點，曝內部最佳實踐：用回溯代替糾錯