Nvidia 的研究人員開發出一項新技術,可將大型語言模型(LLM)推理時的記憶體成本降低高達八倍。這項名為動態記憶體稀疏化(Dynamic Memory Sparsification, DMS)的技術,能夠壓縮鍵值快取(KV cache),也就是 LLM 在處理提示詞、進行問題推理與文件分析時產生並儲存的暫時性記憶體。
雖然先前已有研究者提出多種壓縮此快取的方法,但大多數難以在不損害模型智慧的前提下完成壓縮。Nvidia 的方法成功地在捨棄大量快取資料的同時,維持(甚至在某些情況下提升)模型的推理能力。
實驗顯示,DMS 讓 LLM 能夠「思考」更長時間,並探索更多解決方案,而不會在速度或記憶體成本上付出以往那樣的高昂代價。
推理效能的瓶頸
大型語言模型透過產生「思維鏈」(chain-of-thought)token 來提升在複雜任務上的表現,本質上就是在得出最終答案前,先將推理步驟寫出來。推論時間擴充(inference-time scaling)技術利用這一點,賦予模型更大的預算來產生這些思考用的 token,或是平行探索多種潛在的推理路徑。
然而,這種改進的推理能力伴隨著可觀的運算成本。當模型產生更多 token 時,會建立KV 快取。
在實際應用中,KV 快取是主要的瓶頸。隨著推理鏈增長,快取呈線性成長,消耗 GPU 上大量記憶體。這迫使硬體花費更多時間從記憶體讀取資料,而非實際進行運算,因而減慢了生成速度並增加延遲。這也限制了系統能同時服務的使用者數量,因為 VRAM 用盡會導致系統當機或速度變得極慢。
Nvidia 的研究人員認為這不僅是技術上的障礙,對企業來說更是根本的經濟問題。
「問題不只是硬體數量;而是你的基礎設施以同樣成本,是要處理 100 條推理執行緒,還是 800 條,」Nvidia 資深深度學習工程師 Piotr Nawrot 在接受 VentureBeat 訪問時表示。
先前的解決方案多聚焦於基於啟發式的方法。這些方法使用硬性規則,例如「滑動視窗」(sliding window),只快取最近的 token 並刪除其餘部分。雖然這能降低記憶體使用量,但往往迫使模型捨棄解決問題所需的關鍵資訊,導致輸出準確度下降。
「標準的驅逐方法試圖利用啟發式規則選擇老舊且未使用的 token 進行驅逐,」研究人員表示。「他們簡化了問題,期望只要模擬模型內部機制,答案就能保持正確。」
其他解決方案使用分頁(paging)技術,將 KV 快取中未使用的部分卸載到較慢的記憶體,但持續的資料交換作業會帶來延遲開銷,讓即時應用程式變得遲鈍。
動態記憶體稀疏化
DMS 採取不同做法,為現有 LLM 進行「改造」(retrofitting),讓其智慧地管理自身記憶體。不同於套用固定的刪除規則,DMS 訓練模型識別哪些 token 對未來推理至關重要,哪些則可捨棄。

「這不只是猜測重要性;它學習的是一個能明確保留模型最終輸出分布的策略,」Nawrot 表示。
這個過程將標準的預訓練 LLM(如 Llama 3 或 Qwen 3)轉變為自我壓縮模型。關鍵在於,這不需要從頭訓練模型(那將昂貴到無法負擔)。相反地,DMS 重新利用模型注意力層中現有的神經元,為每個 token 輸出「保留」或「驅逐」的信號。
對於擔心改造複雜度的團隊,研究人員指出此流程設計為輕量級。「為了提升此流程的效率,可以凍結模型的權重,這使得此過程類似於低秩適應(LoRA),」Nawrot 表示。這意味著像 Qwen3-8B 這樣的標準企業模型「可以在單台 DGX H100 上用數小時完成 DMS 改造。」
DMS 的重要機制之一是「延遲驅逐」(delayed eviction)。在標準稀疏化中,若 token 被認為不重要,會立即刪除。這有風險,因為模型可能需要片刻時間將該 token 的上下文整合到當前狀態。
DMS 透過標記 token 為待驅逐,但在短時間內(例如數百個步驟)仍保持可存取,來緩解此問題。這段延遲讓模型能從該 token「提取」任何剩餘的必要資訊,並在 token 從 KV 快取中抹除前,將其合併到當前上下文中。
「『延遲驅逐』機制至關重要,因為並非所有 token 都單純是『重要』(永遠保留)或『無用』(立即刪除)。許多介於兩者之間——它們帶有些許資訊,但不足以證明佔用整個記憶體位置是合理的,」Nawrot 表示。「這就是冗餘所在之處。透過在驅逐前將這些 token 保留在本地視窗中短暫時間,我們允許模型關注它們,並將其資訊重新分配到未來的 token 中。」
研究人員發現這個改造流程非常高效。他們只需 1,000 個訓練步驟就能為預訓練的 LLM 配備 DMS,這僅是原始訓練所需運算資源的一小部分。產生的模型使用標準核心,可直接導入現有高效能推論堆疊,無需客製化硬體或複雜的軟體重寫。
DMS 實測表現
為驗證此技術,研究人員將 DMS 應用於多個推理模型,包括 Qwen-R1 系列(從 DeepSeek R1 蒸餾而來)和 Llama 3.2,並在困難的基準測試如 AIME 24(數學)、GPQA Diamond(科學)和 LiveCodeBench(程式編寫)上進行測試。
結果顯示 DMS 有效推進了帕累托前沿(Pareto frontier),也就是成本與效能之間的最佳權衡。在 AIME 24 數學基準測試中,配備 DMS 的 Qwen-R1 32B 模型在相同記憶體頻寬預算限制下,比標準模型的分數高出 12.0 分。透過壓縮快取,模型得以在相同記憶體與運算預算下,比標準模型「思考」得更深更廣。

DMS 在相同運算預算下,於推理任務上的表現優於原始 LLM(資料來源:arXiv)
或許最令人驚訝的是,DMS 打破了「壓縮會損害長上下文理解」的常見觀念。在「大海撈針」(needle-in-a-haystack)測試中,這項測試衡量模型在大型文件中找到特定資訊的能力,DMS 變體實際上表現優於標準模型。透過主動管理記憶體而非被動累積雜訊,模型維持了更乾淨、更有用的上下文。
對於企業基礎設施,效率提升直接轉化為吞吐量與硬體節省。因為記憶體快取顯著縮小,GPU 花費更少時間擷取資料,減少了使用者的等待時間。在 Qwen3-8B 模型的測試中,DMS 在維持與原始模型相同準確度的同時,提供了高達 5 倍的吞吐量。這表示單一伺服器每秒可處理五倍多的客戶查詢,而品質不會下降。
記憶體的未來
Nvidia 已將 DMS 作為其Model Optimizer 框架的一部分釋出。關於企業如何開始使用 DMS,Nawrot 強調進入門檻很低。「『最低可行基礎設施』就是標準的 Hugging Face 流程——不需要客製化的 CUDA 核心,」Nawrot 表示,並指出程式碼與標準 FlashAttention 完全相容。
展望未來,團隊認為 DMS 是更大趨勢的一部分,其中記憶體管理將成為 AI 堆疊中一個獨立的智慧層級。Nawrot 也確認 DMS 與多頭潛在注意力機制(Multi-Head Latent Attention, MLA)等新架構「完全相容」,而 MLA 正是 DeepSeek 模型所使用的技術,這暗示結合這些方法可能帶來更大的效率提升。
隨著企業從簡單的聊天機器人轉向需要長時間推理的複雜代理系統,推論成本正成為首要考量。像 DMS 這樣的技術為永續擴展這些能力提供了一條路徑。
「我們才剛剛觸及可能性的表面,」Nawrot 表示,「我們預期推論時間擴充將進一步演進。」