TIP×AsyncTLS：蒸餾訓練省下一半 Token，稀疏注意力推理效能飆升 4.7 倍

導讀：一邊訓練，一邊推理——今日兩篇分別來自普林斯頓大學（Princeton）與美團／華為實驗室的研究論文，針對「蒸餾訓練」與「長上下文推理」這兩大賽道，提出了系統層級的解答。TIP 方法僅需 50% 的 token 即可復現全量蒸餾的效果，記憶體用量更直接下降 47%；AsyncTLS 則結合雙層稀疏架構與非同步卸載技術，讓端到端吞吐量最高飆升 4.7 倍。這兩項突破恰恰擊中了 AI 基礎建設（AI Infra）中，訓練與推理一體化效率困境的核心。

訓練面：TIP——蒸餾並非越多越好

來源：arXiv:2604.14084，普林斯頓大學／多機構聯合研究，2026 年 4 月 15 日

大型語言模型知識蒸餾的主流做法，是將學生模型（Student Model）輸出的所有 token 與教師模型（Teacher Model）進行對齊，追求「越多越好」？TIP 的研究團隊給出了明確答案：錯了。

普林斯頓團隊提出了一個雙軸分類框架：學生熵（模型不確定程度）乘以師生分歧（教師與學生意輸出的差異）。研究發現，token 的重要性並非均勻分佈：

高熵 Token：學生模型對此不確定，充滿探索性訊號。
低熵 + 高分歧 Token：學生模型過度自信卻出錯，此類 token 蘊含極高密度的糾正訊號——而這類關鍵 token 往往被傳統的熵採樣方法所遺漏。

核心實驗數據：

僅使用50% token即可匹配全量蒸餾的效果，尖峰記憶體用量降低 47%。
使用少於 10% 的精準糾錯 token，其表現即接近全量基線。
在長時序規劃任務（DeepPlanning）上，使用少於 20% token的表現甚至反超全量訓練——這是因為去除噪聲後，有效訊號更為純淨。

測試涵蓋 Qwen3、Llama、Qwen2.5 等三組師生模型對，並通過 MATH-500 以及 AIME 2024/2025 數學推理基準的全面驗證。

推理面：AsyncTLS——稀疏注意力的雙層革命

來源：arXiv:2604.07815，多機構聯合（包含美團），2026 年 4 月 9 日

長上下文 LLM 推理面臨兩座大山：O(n²) 的注意力複雜度以及KV Cache 的爆炸式記憶體需求。Token 級別的稀疏化精度高但索引開銷大；Block 級別的稀疏化速度快但精度較差。AsyncTLS 選擇兩策並行：

雙層稀疏注意力架構：

粗粒度 Block 過濾：快速剔除無關區塊。
細粒度 Token 選擇：保留關鍵 token 進行精確計算。

同時配套非同步卸載引擎：利用時間局部性，讓 KV Cache 的傳輸與計算並行執行，消除空閒等待時間。

核心實驗數據（Qwen3 + GLM-4.7-Flash，48K~96K 上下文）：

算子級加速：1.2 倍 ~ 10.0 倍。
端到端吞吐量提升：1.3 倍 ~ 4.7 倍。
精度接近全注意力水平，並同時支援 GQA 與 MLA 雙架構。

為何這兩篇研究值得並排閱讀

維度	TIP（蒸餾訓練）	AsyncTLS（推理）
問題根源	盲目使用全量 token 效率低落	樸素稀疏法無法兼顧速度與精度
核心洞察	token 重要性不均，可分類利用	稀疏粒度不均，粗細結合方為上策
關鍵數據	50% token，記憶體 -47%	吞吐量最高 +4.7 倍
落地門檻	標準 OPD 框架可直接接入	支援 Qwen3/GLM，兼容 GQA+MLA

這兩篇論文指向了同一個底層邏輯：大模型 AI 基礎建設的下一波效率紅利，不在於堆疊更多算力，而在於用更少的資訊進行更精確的計算。無論是訓練還是推理，「所有 token 等價」的假設正被系統性地顛覆。

來源：arXiv:2604.14084（TIP，普林斯頓）| arXiv:2604.07815（AsyncTLS）

TIP×AsyncTLS：蒸餾訓練省下一半 Token，稀疏注意力推理效能飆升 4.7 倍

訓練面：TIP——蒸餾並非越多越好

推理面：AsyncTLS——稀疏注意力的雙層革命

為何這兩篇研究值得並排閱讀

相關文章推薦

分享網址