Nvidia 全新技術讓大型語言模型推理成本降低 8 倍，準確度毫不妥協

Nvidia 的研究人員開發出一項新技術，可將大型語言模型（LLM）推理時的記憶體成本降低高達八倍。這項名為動態記憶體稀疏化（Dynamic Memory Sparsification, DMS）的技術，能夠壓縮鍵值快取（KV cache），也就是 LLM 在處理提示詞、進行問題推理與文件分析時產生並儲存的暫時性記憶體。

雖然先前已有研究者提出多種壓縮此快取的方法，但大多數難以在不損害模型智慧的前提下完成壓縮。Nvidia 的方法成功地在捨棄大量快取資料的同時，維持（甚至在某些情況下提升）模型的推理能力。

實驗顯示，DMS 讓 LLM 能夠「思考」更長時間，並探索更多解決方案，而不會在速度或記憶體成本上付出以往那樣的高昂代價。

推理效能的瓶頸

大型語言模型透過產生「思維鏈」（chain-of-thought）token 來提升在複雜任務上的表現，本質上就是在得出最終答案前，先將推理步驟寫出來。推論時間擴充（inference-time scaling）技術利用這一點，賦予模型更大的預算來產生這些思考用的 token，或是平行探索多種潛在的推理路徑。

然而，這種改進的推理能力伴隨著可觀的運算成本。當模型產生更多 token 時，會建立KV 快取。

在實際應用中，KV 快取是主要的瓶頸。隨著推理鏈增長，快取呈線性成長，消耗 GPU 上大量記憶體。這迫使硬體花費更多時間從記憶體讀取資料，而非實際進行運算，因而減慢了生成速度並增加延遲。這也限制了系統能同時服務的使用者數量，因為 VRAM 用盡會導致系統當機或速度變得極慢。

Nvidia 的研究人員認為這不僅是技術上的障礙，對企業來說更是根本的經濟問題。

「問題不只是硬體數量；而是你的基礎設施以同樣成本，是要處理 100 條推理執行緒，還是 800 條，」Nvidia 資深深度學習工程師 Piotr Nawrot 在接受 VentureBeat 訪問時表示。

先前的解決方案多聚焦於基於啟發式的方法。這些方法使用硬性規則，例如「滑動視窗」（sliding window），只快取最近的 token 並刪除其餘部分。雖然這能降低記憶體使用量，但往往迫使模型捨棄解決問題所需的關鍵資訊，導致輸出準確度下降。

「標準的驅逐方法試圖利用啟發式規則選擇老舊且未使用的 token 進行驅逐，」研究人員表示。「他們簡化了問題，期望只要模擬模型內部機制，答案就能保持正確。」

其他解決方案使用分頁（paging）技術，將 KV 快取中未使用的部分卸載到較慢的記憶體，但持續的資料交換作業會帶來延遲開銷，讓即時應用程式變得遲鈍。

動態記憶體稀疏化

DMS 採取不同做法，為現有 LLM 進行「改造」（retrofitting），讓其智慧地管理自身記憶體。不同於套用固定的刪除規則，DMS 訓練模型識別哪些 token 對未來推理至關重要，哪些則可捨棄。

「這不只是猜測重要性；它學習的是一個能明確保留模型最終輸出分布的策略，」Nawrot 表示。

這個過程將標準的預訓練 LLM（如 Llama 3 或 Qwen 3）轉變為自我壓縮模型。關鍵在於，這不需要從頭訓練模型（那將昂貴到無法負擔）。相反地，DMS 重新利用模型注意力層中現有的神經元，為每個 token 輸出「保留」或「驅逐」的信號。

對於擔心改造複雜度的團隊，研究人員指出此流程設計為輕量級。「為了提升此流程的效率，可以凍結模型的權重，這使得此過程類似於低秩適應（LoRA），」Nawrot 表示。這意味著像 Qwen3-8B 這樣的標準企業模型「可以在單台 DGX H100 上用數小時完成 DMS 改造。」

DMS 的重要機制之一是「延遲驅逐」（delayed eviction）。在標準稀疏化中，若 token 被認為不重要，會立即刪除。這有風險，因為模型可能需要片刻時間將該 token 的上下文整合到當前狀態。

DMS 透過標記 token 為待驅逐，但在短時間內（例如數百個步驟）仍保持可存取，來緩解此問題。這段延遲讓模型能從該 token「提取」任何剩餘的必要資訊，並在 token 從 KV 快取中抹除前，將其合併到當前上下文中。

「『延遲驅逐』機制至關重要，因為並非所有 token 都單純是『重要』（永遠保留）或『無用』（立即刪除）。許多介於兩者之間——它們帶有些許資訊，但不足以證明佔用整個記憶體位置是合理的，」Nawrot 表示。「這就是冗餘所在之處。透過在驅逐前將這些 token 保留在本地視窗中短暫時間，我們允許模型關注它們，並將其資訊重新分配到未來的 token 中。」

研究人員發現這個改造流程非常高效。他們只需 1,000 個訓練步驟就能為預訓練的 LLM 配備 DMS，這僅是原始訓練所需運算資源的一小部分。產生的模型使用標準核心，可直接導入現有高效能推論堆疊，無需客製化硬體或複雜的軟體重寫。

DMS 實測表現

為驗證此技術，研究人員將 DMS 應用於多個推理模型，包括 Qwen-R1 系列（從 DeepSeek R1 蒸餾而來）和 Llama 3.2，並在困難的基準測試如 AIME 24（數學）、GPQA Diamond（科學）和 LiveCodeBench（程式編寫）上進行測試。

結果顯示 DMS 有效推進了帕累托前沿（Pareto frontier），也就是成本與效能之間的最佳權衡。在 AIME 24 數學基準測試中，配備 DMS 的 Qwen-R1 32B 模型在相同記憶體頻寬預算限制下，比標準模型的分數高出 12.0 分。透過壓縮快取，模型得以在相同記憶體與運算預算下，比標準模型「思考」得更深更廣。

DMS 在相同運算預算下，於推理任務上的表現優於原始 LLM（資料來源：arXiv）

或許最令人驚訝的是，DMS 打破了「壓縮會損害長上下文理解」的常見觀念。在「大海撈針」（needle-in-a-haystack）測試中，這項測試衡量模型在大型文件中找到特定資訊的能力，DMS 變體實際上表現優於標準模型。透過主動管理記憶體而非被動累積雜訊，模型維持了更乾淨、更有用的上下文。

對於企業基礎設施，效率提升直接轉化為吞吐量與硬體節省。因為記憶體快取顯著縮小，GPU 花費更少時間擷取資料，減少了使用者的等待時間。在 Qwen3-8B 模型的測試中，DMS 在維持與原始模型相同準確度的同時，提供了高達 5 倍的吞吐量。這表示單一伺服器每秒可處理五倍多的客戶查詢，而品質不會下降。

記憶體的未來

Nvidia 已將 DMS 作為其Model Optimizer 框架的一部分釋出。關於企業如何開始使用 DMS，Nawrot 強調進入門檻很低。「『最低可行基礎設施』就是標準的 Hugging Face 流程——不需要客製化的 CUDA 核心，」Nawrot 表示，並指出程式碼與標準 FlashAttention 完全相容。

展望未來，團隊認為 DMS 是更大趨勢的一部分，其中記憶體管理將成為 AI 堆疊中一個獨立的智慧層級。Nawrot 也確認 DMS 與多頭潛在注意力機制（Multi-Head Latent Attention, MLA）等新架構「完全相容」，而 MLA 正是 DeepSeek 模型所使用的技術，這暗示結合這些方法可能帶來更大的效率提升。

隨著企業從簡單的聊天機器人轉向需要長時間推理的複雜代理系統，推論成本正成為首要考量。像 DMS 這樣的技術為永續擴展這些能力提供了一條路徑。

「我們才剛剛觸及可能性的表面，」Nawrot 表示，「我們預期推論時間擴充將進一步演進。」

Nvidia 全新技術讓大型語言模型推理成本降低 8 倍，準確度毫不妥協

相關文章推薦

分享網址