TIP×AsyncTLS:蒸餾訓練省下一半 Token,稀疏注意力推理效能飆升 4.7 倍

導讀:一邊訓練,一邊推理——今日兩篇分別來自普林斯頓大學(Princeton)與美團/華為實驗室的研究論文,針對「蒸餾訓練」與「長上下文推理」這兩大賽道,提出了系統層級的解答。TIP 方法僅需 50% 的 token 即可復現全量蒸餾的效果,記憶體用量更直接下降 47%;AsyncTLS 則結合雙層稀疏架構與非同步卸載技術,讓端到端吞吐量最高飆升 4.7 倍。這兩項突破恰恰擊中了 AI 基礎建設(AI Infra)中,訓練與推理一體化效率困境的核心。


訓練面:TIP——蒸餾並非越多越好

來源arXiv:2604.14084,普林斯頓大學/多機構聯合研究,2026 年 4 月 15 日

大型語言模型知識蒸餾的主流做法,是將學生模型(Student Model)輸出的所有 token 與教師模型(Teacher Model)進行對齊,追求「越多越好」?TIP 的研究團隊給出了明確答案:錯了

普林斯頓團隊提出了一個雙軸分類框架:學生熵(模型不確定程度)乘以師生分歧(教師與學生意輸出的差異)。研究發現,token 的重要性並非均勻分佈:

  • 高熵 Token:學生模型對此不確定,充滿探索性訊號。
  • 低熵 + 高分歧 Token:學生模型過度自信卻出錯,此類 token 蘊含極高密度的糾正訊號——而這類關鍵 token 往往被傳統的熵採樣方法所遺漏。

核心實驗數據

  • 僅使用50% token即可匹配全量蒸餾的效果,尖峰記憶體用量降低 47%
  • 使用少於 10% 的精準糾錯 token,其表現即接近全量基線。
  • 在長時序規劃任務(DeepPlanning)上,使用少於 20% token的表現甚至反超全量訓練——這是因為去除噪聲後,有效訊號更為純淨。

測試涵蓋 Qwen3、Llama、Qwen2.5 等三組師生模型對,並通過 MATH-500 以及 AIME 2024/2025 數學推理基準的全面驗證。


推理面:AsyncTLS——稀疏注意力的雙層革命

來源arXiv:2604.07815,多機構聯合(包含美團),2026 年 4 月 9 日

長上下文 LLM 推理面臨兩座大山:O(n²) 的注意力複雜度以及KV Cache 的爆炸式記憶體需求。Token 級別的稀疏化精度高但索引開銷大;Block 級別的稀疏化速度快但精度較差。AsyncTLS 選擇兩策並行:

雙層稀疏注意力架構

  1. 粗粒度 Block 過濾:快速剔除無關區塊。
  2. 細粒度 Token 選擇:保留關鍵 token 進行精確計算。

同時配套非同步卸載引擎:利用時間局部性,讓 KV Cache 的傳輸與計算並行執行,消除空閒等待時間。

核心實驗數據(Qwen3 + GLM-4.7-Flash,48K~96K 上下文)

  • 算子級加速:1.2 倍 ~ 10.0 倍
  • 端到端吞吐量提升:1.3 倍 ~ 4.7 倍
  • 精度接近全注意力水平,並同時支援 GQA 與 MLA 雙架構。

為何這兩篇研究值得並排閱讀

維度TIP(蒸餾訓練)AsyncTLS(推理)
問題根源盲目使用全量 token 效率低落樸素稀疏法無法兼顧速度與精度
核心洞察token 重要性不均,可分類利用稀疏粒度不均,粗細結合方為上策
關鍵數據50% token,記憶體 -47%吞吐量最高 +4.7 倍
落地門檻標準 OPD 框架可直接接入支援 Qwen3/GLM,兼容 GQA+MLA

這兩篇論文指向了同一個底層邏輯:大模型 AI 基礎建設的下一波效率紅利,不在於堆疊更多算力,而在於用更少的資訊進行更精確的計算。無論是訓練還是推理,「所有 token 等價」的假設正被系統性地顛覆。


來源:arXiv:2604.14084(TIP,普林斯頓)| arXiv:2604.07815(AsyncTLS)

相關文章推薦

分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.