長文を 6 割削減＋スパース化 95%：本日発表の 2 大手法が推論の計算効率で新記録を樹立

解説：推論速度の遅さと Token 数の膨大さは、大規模言語モデル（LLM）の実用化における長年の課題です。4 月 13 日、arXiv に 2 本の新しい論文が同時に投稿され、それぞれ異なる角度から画期的な解決策を提示しました。1 つ目は「CSAttention」で、128K という長いコンテキストにおける注意力機構の処理を4.6 倍高速化します。2 つ目は「STACK」で、推論チェーンの Token 数を59.9%圧縮しながら、精度を逆に 4.8% 向上させました。一方は「遅さ」を、もう一方は「長さ」を解決するものであり、両者は相互補完的で、業界への影響は計り知れません。

注意力計算の難題：95% のスパース化でも精度は落ちないのか？

長いコンテキストにおける推論のボトルネックは、常に注意力計算（Attention Calculation）と KV Cache の読み書きに集中しています。スパースな注意力（Sparse Attention）は周知の解決策ですが、業界では「スパース度を高めるほど、精度の低下が大きくなる」という矛盾に直面し続けています。H2O や SnapKV などの既存手法でも、スパース度が 80% を超えると顕著な精度の劣化が見られていました。

arXiv:2604.08584 で発表されたCSAttention（Centroid Scoring Attention：質心スコアリング注意力）は、この矛盾に真正面から挑み、これを打破しました。その中核となる洞察は、「長文テキストにおける Query の分布は均一ではなく、質心クラスタリングによって事前にどの Key が高価値かを予測可能である」という点です。

具体的なアプローチは「記憶域で計算量を換算する」ものです。比較的重いプレフィル計算をオフラインで事前実行し、各リクエストに対して固定サイズの「クエリ - 質心」検索テーブルを構築します。オンラインでのデコード時にはこのテーブルを直接参照することで、コンテキスト全体のスキャンを O(1) レベルの検索に置き換えつつ、GPU に親和性の高いスコア累積を維持しています。

実験結果：

128K のコンテキストにおいて、最も精度の高い既存のスパースベースラインと比較して4.6 倍の高速化を達成
95% のスパース度において、フルアテンション（Full Attention）とほぼ同等の精度を維持
追加の学習は一切不要で、プラグアンドプレイ型で利用可能

これは、従来の「スパース化すれば必ず精度が落ちる」という呪縛が、CSAttention によって破られたことを意味します。

推論チェーンが長すぎる：Token の 6 割は無駄だった

一方で、DeepSeek-R1 シリーズなどの推論モデルは、長い連鎖的思考（Chain of Thought: CoT）によって精度を向上させましたが、別の悩みももたらしました。それが「考えすぎ（Overthinking）」です。モデルが自らを何度も検証し続けることで、Token 数が爆発的に増大してしまうのです。

arXiv:2604.09150 で発表されたSTACK フレームワーク（State-Aware Reasoning Compression with Knowledge Guidance：知識誘導による状態認識型推論圧縮）は、この問題に対するきめ細かい解決策を提示しています。

STACK の中核となる判断基準は、「推論チェーン内の冗長性は均一に分布しているのではなく、特定の「状態」に集中している」という点です。推論中の状態を動的に識別し、以下のように動作します。

不確実性がある／バイアスが存在する場合 → 検索拡張（RAG 等）を呼び出し、外部知識を注入して誘導
長すぎるが既に収束している場合 → 自己圧縮プロンプトと早期終了（Early Stopping）を発動

これら 2 つのモードを信頼度に応じて動的に切り替え、PPO（Proximal Policy Optimization）と DPO（Direct Preference Optimization）を組み合わせた学習により、モデルに「いつ停止すべきか」を本当に理解させます。

実験結果（3 つの数学的推論ベンチマークにて）：

平均応答長を59.9%短縮
精度が逆に4.8%向上（トレードオフではなく、双方での勝利）

2 本の論文がもたらす相乗効果

	CSAttention	STACK
目的	注意力/KV Cache の高速化	推論チェーン Token の圧縮
手法	質心クラスタリング＋オフライン検索	状態認識型デュアルモード圧縮
学習の必要性	不要	PPO＋DPO
中核的な利点	レイテンシ 4.6 倍減	Token 量 60% 減
対象フェーズ	プレフィル＋デコード	推論生成

これらは異なる推論のボトルネックに作用するため、理論的には併用可能です。CSAttention が注意力の効率を管理し、STACK が推論チェーンの長さを管理することで、エンドツーエンドの高速化コンビネーションが形成されます。

長いコンテキストや高頻度呼び出しを要するシナリオ（エージェント、RAG、法律文書の分析など）での導入を検討しているエンジニアにとって、この 2 本の論文は注視に値するものです。

出典：arXiv:2604.08584（CSAttention）、arXiv:2604.09150（STACK / Think Less, Know More）

長文を 6 割削減＋スパース化 95%：本日発表の 2 大手法が推論の計算効率で新記録を樹立

注意力計算の難題：95% のスパース化でも精度は落ちないのか？

推論チェーンが長すぎる：Token の 6 割は無駄だった

2 本の論文がもたらす相乗効果

関連記事

分享網址