TIP×AsyncTLS：蒸留訓練でトークン量を半減、疎なアテンションによる推論を 4.7 倍に高速化

はじめに：訓練と推論を同時に最適化する――本日紹介するプリンストン大学および美団（メイトゥアン）／華為（ファーウェイ）研究所からの 2 本の論文は、それぞれ「蒸留訓練」と「長文脈推論」という 2 つの分野において、システムレベルでの解決策を提示しています。TIP はトークンの 50% を使用するだけで全量蒸留と同等の効果を再現し、メモリ使用量を 47% 削減。一方、AsyncTLS は 2 段構えの疎化と非同期アンロードにより、エンドツーエンドのスループットを最大 4.7 倍に向上させました。この 2 本を併せることで、AI インフラにおいて最も中核的な課題である「訓練と推論の統合効率」の困境に対する包括的な答えが得られます。

訓練編：TIP――蒸留は多ければ多いほど良いわけではない

出典：arXiv:2604.14084、プリンストン大学／複数機関共同、2026 年 4 月 15 日

大規模言語モデル（LLM）における知識蒸留の主流手法は、生徒モデルの出力トークンを全て教師モデルと揃えるという「多ければ多いほど良い」というアプローチでした。しかし、TIP の答えは明確です。それは誤りです。

プリンストン大学の研究チームは、生徒のエントロピー（モデルの不確実性の度合い）と师生間の相違（教師と生徒の出力の差異）という 2 軸からなる分類フレームワークを提案しました。その結果、トークンの重要性は均一ではないことが判明しました。

高エントロピー・トークン：生徒が不確実であり、探索的な信号が密集している領域。
低エントロピーかつ高相違トークン：生徒が過信して誤りを犯している領域。ここには極めて高密度の修正信号が含まれますが、従来のエントロピーサンプリング手法では見落とされていました。

主要な実験データ：

トークン量の 50% で全量蒸留と同等の効果を達成し、ピークメモリ使用量を 47% 削減。
全トークンの 10% 未満 の精密な修正用トークンで、ほぼ全量ベースラインと同等の性能を発揮。
全トークンの 20% 未満 で、長時系列計画タスク（DeepPlanning）において全量訓練を凌駕。ノイズを除去することで信号の純度が向上しました。

テストは Qwen3、Llama、Qwen2.5 を含む 3 組の师生ペアで実施され、MATH-500 および AIME 2024/2025 といった数学推論ベンチマークにて包括的に検証済みです。

推論編：AsyncTLS――疎なアテンションにおける 2 段構えの革命

出典：arXiv:2604.07815、複数機関共同（美団を含む）、2026 年 4 月 9 日

長文脈 LLM 推論には 2 つの巨大な壁が存在します。O(n²) のアテンション計算量と、KV キャッシュの爆発的なメモリ消費です。トークン単位の疎化は精度が高いもののインデックス作成のオーバーヘッドが大きく、ブロック単位の疎化は高速だが精度が劣ります。AsyncTLS はこの両立を選びました。

2 段構えの疎なアテンション構造：

粗粒度ブロックフィルタリング：無関係なブロックを迅速に除外。
細粒度トークン選択：重要なトークンを保持し、精密に計算を実行。

これに加え、非同期アンロードエンジンを併用。時間の局所性を活用し、KV キャッシュの転送と計算を並列実行することで、アイドル待機時間を完全に排除しました。

主要な実験データ（Qwen3 + GLM-4.7-Flash、コンテキスト長 48K〜96K）：

オペレータレベルでの高速化：1.2 倍〜 10.0 倍
エンドツーエンドのスループット向上：1.3 倍〜 4.7 倍
精度はフルアテンションに匹敵し、GQA および MLA の両アーキテクチャをサポート。

なぜこの 2 本を併せて読むべきか

次元	TIP（蒸留訓練）	AsyncTLS（推論）
問題の根源	全トークンの盲目的な使用は非効率	単純な疎化では速度と精度の両立が困難
中核的な洞察	トークンの重要性は不均一。分類して活用可能	疎化の粒度も不均一。粗と細の組み合わせが最適
主要データ	トークン 50% でメモリ -47%	スループット最大 +4.7 倍
実装の敷居	標準的な OPD フレームワークで即時導入可能	Qwen3/GLM をサポート。GQA および MLA と互換

これら 2 本の論文が指し示す根底のロジックは同一です。大規模モデル AI インフラにおける次なる効率化の波は、より多くの計算資源を積み上げることではなく、より少ない情報でより精密な計算を行うことから生まれるということです。訓練においても推論においても、「すべてのトークンは等価である」という前提は、今まさに体系的に覆されようとしています。

出典：arXiv:2604.14084（TIP、プリンストン大学）| arXiv:2604.07815（AsyncTLS）

TIP×AsyncTLS：蒸留訓練でトークン量を半減、疎なアテンションによる推論を 4.7 倍に高速化

訓練編：TIP――蒸留は多ければ多いほど良いわけではない

推論編：AsyncTLS――疎なアテンションにおける 2 段構えの革命

なぜこの 2 本を併せて読むべきか

関連記事

分享網址