長文縮減六成+稀疏度 95%:今日雙重突破,創下推理運算效率新紀錄

導讀:推理速度過慢、Token 用量過大,向來是大型語言模型落地應用的兩塊硬骨頭。4 月 13 日,兩篇全新論文同日登陸 arXiv,分別從不同面向給出了高品質解答——CSAttention 讓 128K 長上下文注意力機制加速4.6 倍;STACK 則將推理鏈 Token 壓縮59.9%,準確率反而提升 4.8%。一個解決「慢」的問題,一個攻克「長」的難題,兩者互補性極強,對產業界的意義不容小覷。

注意力計算的難題:95% 稀疏度下真能維持精度嗎?

長上下文推理的瓶頸,向來集中在注意力計算與 KV Cache 的讀寫效率上。稀疏注意力(Sparse Attention)雖是公認的解方,但業界長期卡在一個矛盾點:稀疏度越高,精度損失越嚴重。像是 H2O、SnapKV 等方法,一旦稀疏度超過 80%,往往就會出現明顯的效能劣化。

來自 arXiv 編號 2604.08584CSAttention(質心評分注意力機制),直接正面破解了這項難題。其核心洞察在於:長文本中的 Query 分佈並不均勻,可透過質心聚類(Centroid Clustering)預先判斷哪些 Key 具備高價值

具體做法是採取「以儲存換取運算」策略——將一次性較重的預填充(Prefill)計算離線完成,為每個請求建立固定大小的查詢 - 質心對照表;在線上解碼(Decoding)階段,只需直接查表,將原本需掃描全文上下文的運算,轉化為 O(1) 等級的查找,同時保持對 GPU 友善的分數累積機制。

實驗結果顯示

  • 128K上下文環境下,相比現有最精準的稀疏基線模型,加速達4.6 倍
  • 95% 稀疏度下,精度與完整注意力機制(Full Attention)幾乎持平
  • 無需任何額外訓練,真正做到即插即用

這代表:過去「一稀疏就掉精度」的魔咒,在 CSAttention 手中已被徹底打破。

推理鏈過長:多達 60% 的 Token 其實是廢話

另一方面,推理模型(如 DeepSeek-R1 系列)雖透過長鏈式思維(Chain-of-Thought, CoT)提升了準確率,卻也帶來新的困擾——「過度思考」(Overthinking)。模型會反覆自我驗證,導致 Token 用量爆炸性成長。

arXiv 編號 2604.09150 提出的STACK 框架(State-Aware Reasoning Compression with Knowledge Guidance),提供了一套細粒度的解決方案。

STACK 的核心判斷在於:推理鏈中的冗餘並非均勻分佈,而是集中在特定「狀態」。它能動態識別當前的推理狀態:

  • 不確定/存在偏差 → 呼叫檢索增強(RAG),注入外部知識引導
  • 過長但已收斂 → 觸發自我提示壓縮+提前終止(Early Stopping)

這兩種模式會依據置信心度動態切換,並透過 PPO 與 DPO 聯合訓練,讓模型真正學會「何時該停」。

實驗結果(基於三項數學推理基準測試):

  • 平均回應長度縮短59.9%
  • 準確率反而提升4.8%(並非以精度換效率,而是雙贏局面)

兩篇論文的互補價值

CSAttentionSTACK
目標注意力/KV Cache 加速推理鏈 Token 壓縮
方法質心聚類+離線查表狀態感知雙模壓縮
訓練需求無需訓練PPO+DPO
核心效益延遲降低 4.6 倍Token 用量減少 60%
適用階段預填充+解碼推理生成

兩者分別針對不同的推理瓶頸,理論上可疊加使用:CSAttention 負責掌控注意力效率,STACK 則管理推理鏈長度,形成端到端的提速組合。

對於部署於長上下文、高頻調用情境(如智能代理、RAG 系統、法律文件分析)的工程師而言,這兩篇論文絕對值得重點追蹤。


來源:arXiv:2604.08584(CSAttention)、arXiv:2604.09150(STACK / Think Less, Know More)

相關文章推薦

分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.