解説:推論速度の遅さと Token 数の膨大さは、大規模言語モデル(LLM)の実用化における長年の課題です。4 月 13 日、arXiv に 2 本の新しい論文が同時に投稿され、それぞれ異なる角度から画期的な解決策を提示しました。1 つ目は「CSAttention」で、128K という長いコンテキストにおける注意力機構の処理を4.6 倍高速化します。2 つ目は「STACK」で、推論チェーンの Token 数を59.9%圧縮しながら、精度を逆に 4.8% 向上させました。一方は「遅さ」を、もう一方は「長さ」を解決するものであり、両者は相互補完的で、業界への影響は計り知れません。
注意力計算の難題:95% のスパース化でも精度は落ちないのか?
長いコンテキストにおける推論のボトルネックは、常に注意力計算(Attention Calculation)と KV Cache の読み書きに集中しています。スパースな注意力(Sparse Attention)は周知の解決策ですが、業界では「スパース度を高めるほど、精度の低下が大きくなる」という矛盾に直面し続けています。H2O や SnapKV などの既存手法でも、スパース度が 80% を超えると顕著な精度の劣化が見られていました。
arXiv:2604.08584 で発表されたCSAttention(Centroid Scoring Attention:質心スコアリング注意力)は、この矛盾に真正面から挑み、これを打破しました。その中核となる洞察は、「長文テキストにおける Query の分布は均一ではなく、質心クラスタリングによって事前にどの Key が高価値かを予測可能である」という点です。
具体的なアプローチは「記憶域で計算量を換算する」ものです。比較的重いプレフィル計算をオフラインで事前実行し、各リクエストに対して固定サイズの「クエリ - 質心」検索テーブルを構築します。オンラインでのデコード時にはこのテーブルを直接参照することで、コンテキスト全体のスキャンを O(1) レベルの検索に置き換えつつ、GPU に親和性の高いスコア累積を維持しています。
実験結果:
- 128K のコンテキストにおいて、最も精度の高い既存のスパースベースラインと比較して4.6 倍の高速化を達成
- 95% のスパース度において、フルアテンション(Full Attention)とほぼ同等の精度を維持
- 追加の学習は一切不要で、プラグアンドプレイ型で利用可能
これは、従来の「スパース化すれば必ず精度が落ちる」という呪縛が、CSAttention によって破られたことを意味します。
推論チェーンが長すぎる:Token の 6 割は無駄だった
一方で、DeepSeek-R1 シリーズなどの推論モデルは、長い連鎖的思考(Chain of Thought: CoT)によって精度を向上させましたが、別の悩みももたらしました。それが「考えすぎ(Overthinking)」です。モデルが自らを何度も検証し続けることで、Token 数が爆発的に増大してしまうのです。
arXiv:2604.09150 で発表されたSTACK フレームワーク(State-Aware Reasoning Compression with Knowledge Guidance:知識誘導による状態認識型推論圧縮)は、この問題に対するきめ細かい解決策を提示しています。
STACK の中核となる判断基準は、「推論チェーン内の冗長性は均一に分布しているのではなく、特定の「状態」に集中している」という点です。推論中の状態を動的に識別し、以下のように動作します。
- 不確実性がある/バイアスが存在する場合 → 検索拡張(RAG 等)を呼び出し、外部知識を注入して誘導
- 長すぎるが既に収束している場合 → 自己圧縮プロンプトと早期終了(Early Stopping)を発動
これら 2 つのモードを信頼度に応じて動的に切り替え、PPO(Proximal Policy Optimization)と DPO(Direct Preference Optimization)を組み合わせた学習により、モデルに「いつ停止すべきか」を本当に理解させます。
実験結果(3 つの数学的推論ベンチマークにて):
- 平均応答長を59.9%短縮
- 精度が逆に4.8%向上(トレードオフではなく、双方での勝利)
2 本の論文がもたらす相乗効果
| CSAttention | STACK | |
|---|---|---|
| 目的 | 注意力/KV Cache の高速化 | 推論チェーン Token の圧縮 |
| 手法 | 質心クラスタリング+オフライン検索 | 状態認識型デュアルモード圧縮 |
| 学習の必要性 | 不要 | PPO+DPO |
| 中核的な利点 | レイテンシ 4.6 倍減 | Token 量 60% 減 |
| 対象フェーズ | プレフィル+デコード | 推論生成 |
これらは異なる推論のボトルネックに作用するため、理論的には併用可能です。CSAttention が注意力の効率を管理し、STACK が推論チェーンの長さを管理することで、エンドツーエンドの高速化コンビネーションが形成されます。
長いコンテキストや高頻度呼び出しを要するシナリオ(エージェント、RAG、法律文書の分析など)での導入を検討しているエンジニアにとって、この 2 本の論文は注視に値するものです。
出典:arXiv:2604.08584(CSAttention)、arXiv:2604.09150(STACK / Think Less, Know More)