長文縮減六成＋稀疏度 95%：今日雙重突破，創下推理運算效率新紀錄

導讀：推理速度過慢、Token 用量過大，向來是大型語言模型落地應用的兩塊硬骨頭。4 月 13 日，兩篇全新論文同日登陸 arXiv，分別從不同面向給出了高品質解答——CSAttention 讓 128K 長上下文注意力機制加速4.6 倍；STACK 則將推理鏈 Token 壓縮59.9%，準確率反而提升 4.8%。一個解決「慢」的問題，一個攻克「長」的難題，兩者互補性極強，對產業界的意義不容小覷。

注意力計算的難題：95% 稀疏度下真能維持精度嗎？

長上下文推理的瓶頸，向來集中在注意力計算與 KV Cache 的讀寫效率上。稀疏注意力（Sparse Attention）雖是公認的解方，但業界長期卡在一個矛盾點：稀疏度越高，精度損失越嚴重。像是 H2O、SnapKV 等方法，一旦稀疏度超過 80%，往往就會出現明顯的效能劣化。

來自 arXiv 編號 2604.08584 的CSAttention（質心評分注意力機制），直接正面破解了這項難題。其核心洞察在於：長文本中的 Query 分佈並不均勻，可透過質心聚類（Centroid Clustering）預先判斷哪些 Key 具備高價值。

具體做法是採取「以儲存換取運算」策略——將一次性較重的預填充（Prefill）計算離線完成，為每個請求建立固定大小的查詢 - 質心對照表；在線上解碼（Decoding）階段，只需直接查表，將原本需掃描全文上下文的運算，轉化為 O(1) 等級的查找，同時保持對 GPU 友善的分數累積機制。

實驗結果顯示：

在128K上下文環境下，相比現有最精準的稀疏基線模型，加速達4.6 倍
在95% 稀疏度下，精度與完整注意力機制（Full Attention）幾乎持平
無需任何額外訓練，真正做到即插即用

這代表：過去「一稀疏就掉精度」的魔咒，在 CSAttention 手中已被徹底打破。

推理鏈過長：多達 60% 的 Token 其實是廢話

另一方面，推理模型（如 DeepSeek-R1 系列）雖透過長鏈式思維（Chain-of-Thought, CoT）提升了準確率，卻也帶來新的困擾——「過度思考」（Overthinking）。模型會反覆自我驗證，導致 Token 用量爆炸性成長。

arXiv 編號 2604.09150 提出的STACK 框架（State-Aware Reasoning Compression with Knowledge Guidance），提供了一套細粒度的解決方案。

STACK 的核心判斷在於：推理鏈中的冗餘並非均勻分佈，而是集中在特定「狀態」。它能動態識別當前的推理狀態：

不確定／存在偏差 → 呼叫檢索增強（RAG），注入外部知識引導
過長但已收斂 → 觸發自我提示壓縮＋提前終止（Early Stopping）

這兩種模式會依據置信心度動態切換，並透過 PPO 與 DPO 聯合訓練，讓模型真正學會「何時該停」。

實驗結果（基於三項數學推理基準測試）：

平均回應長度縮短59.9%
準確率反而提升4.8%（並非以精度換效率，而是雙贏局面）

兩篇論文的互補價值

	CSAttention	STACK
目標	注意力/KV Cache 加速	推理鏈 Token 壓縮
方法	質心聚類＋離線查表	狀態感知雙模壓縮
訓練需求	無需訓練	PPO+DPO
核心效益	延遲降低 4.6 倍	Token 用量減少 60%
適用階段	預填充＋解碼	推理生成

兩者分別針對不同的推理瓶頸，理論上可疊加使用：CSAttention 負責掌控注意力效率，STACK 則管理推理鏈長度，形成端到端的提速組合。

對於部署於長上下文、高頻調用情境（如智能代理、RAG 系統、法律文件分析）的工程師而言，這兩篇論文絕對值得重點追蹤。

來源：arXiv:2604.08584（CSAttention）、arXiv:2604.09150（STACK / Think Less, Know More）

長文縮減六成＋稀疏度 95%：今日雙重突破，創下推理運算效率新紀錄

注意力計算的難題：95% 稀疏度下真能維持精度嗎？

推理鏈過長：多達 60% 的 Token 其實是廢話

兩篇論文的互補價值

相關文章推薦

分享網址