多くのユーザーがDeepSeek-V4の登場を心待ちにしている中、ある新しい論文がネット上で大きな注目を集めています。
この論文では、新しい疎な注意機構(Sparse Attention)であるHISA(Hierarchical Indexing Sparse Attention:階層的インデックス疎注意)を提案しています。これにより、64Kコンテキストにおけるインデックスのボトルネックを突破し、DeepSeekが現在採用しているDSA(DeepSeek Sparse Attention)と比較して2〜4倍の高速化を実現しました。
大幅な高速化を実現しただけでなく、精度低下がほぼなく、再学習不要でプラグアンドプレイ的に導入可能である点が特徴です。
論文では、DeepSeek-V3.2およびGLM-5においてインデクサーを直接置き換えており、微調整(ファインチューニング)は一切行われていません。
また、重要情報の抽出や長文読解などのタスクにおいて、精度は元の手法とほぼ同等であることが確認されています。
コンテキストインデックスのボトルネックを解消する2ステップ
この論文が解決しようとしている問題は明確です。それは、大言語モデルの疎な注意機構に、より効率的な「リトリーバー(検索器)」を導入することです。
DSAなどの主要なトークンレベルの疎注意メカニズムは、重要なトークンのみの注意を計算することで、計算コストを削減しています。
しかし、この設計には致命的な潜在的問題があります。関連する文字を選び出すための「インデクサー」が、照会する各文字について、それ以前のすべての文字と個別にスコアリングを行う必要があるためです。
テキストの長さ $L$ が増えるにつれ、このスコアリングの計算量は$L$ の2乗($O(L^2)$)で増加します。例えば、長さが2倍になれば、計算量は4倍になります。
超長文を扱う場合、このインデクサーの2乗コストが速度低下の主因となり、場合によっては実際の注意計算よりも時間がかかることさえあります。
そこで研究チームは、「最終的な疎注意の結果を変えずに、インデクサーの検索コストを下げられないか」と考えました。
そして提案されたのがHISA(階層的インデックス疎注意)です。その核心的なアイデアは非常にシンプルです。
「一つずつスコアリングするのが時間がかかるなら、まずブロック単位で大部分の無関係な内容を切り捨て、残った小さなブロックの中から詳細に選択すればいい」ということです。
最終的に選択される文字は元の手法と完全に同一であるため、その後の注意計算は一切変更する必要がありません。いわば「より効率的なふるい(フィルター)に替えただけで、ふるい分けられた結果は変わらない」状態です。
具体的には以下の2ステップで行われ、すべて元のモデルのスコアリングルールを再利用するため、学習コストはゼロです。
ステップ1:ブロックレベルの粗いフィルタリング
- 長文を固定サイズの「文字ブロック」(例:128文字で1ブロック)に分割し、各ブロックに「全体特徴ベクトル」(ブロックごとの総ラベルのようなもの)を計算します。
- 元のインデクサーの方式を用いて、これらのブロックラベルのみにスコアリングを行います。
- スコアの高い上位 $m$ 個のブロック(例:64個)を選択し、残りのすべてのブロックを破棄します。ブロック数は文字数よりも遥かに少ないため、効率的です。
このステップで、大部分の計算量を削減できます。
ステップ2:ブロック内での文字精査
ステップ1で選ばれた $m$ 個のブロック内でのみ、元のインデクサーのルールに従って個々の文字にスコアリングを行い、最終的に必要な $k$ 個の関連文字を選び出します。
さらに最適化として、テキストの最初と最後のブロックは必ず選択するようにしています。これにより、冒頭の背景情報や末尾の最新コンテキストが誤って除外されるのを防ぎ、テキスト結合時の境界問題にも対応しています。
HISAの最大の利点は、計算複雑度の劇的な低下と「シームレスな置き換え」にあります。
HISAは、元のインデクサーの各層における $O(L^2)$ の計算コストを、$O(L^2/B + L imes m imes B)$ ($B$ はブロックサイズ、$m$ は選択ブロック数)まで削減しました。
テキストが長くなればなるほど、またブロック選択が正確であるほど、高速化の効果は顕著になります。
さらに、エンジニアリング上の親和性も極めて高いです:
- 出力が元のインデクサーと完全に一致するため、下流の注意計算モジュールを変更する必要がありません。
- モデルの再学習やKVキャッシュ構造の調整は不要で、インデクサーを直接置き換えるだけで動作します。
- 短文の場合は自動的に元の手法へと「退化」し、超長文の場合のみ階層フィルタリングが作動する適応的な設計となっています。
実測で圧倒的な高速化、精度はほぼ維持
論文では、DeepSeek-V3.2およびGLM-5という2つの主要な大規模モデルで包括的なテストが行われ、目覚ましい結果が出ました。
速度面では、64Kのテキスト長において、HISAは元のDSAインデクサーより最大3.75倍高速化し、標準的な設定でも2倍以上の高速化を達成しました。
インデクサーの処理時間は5.6msから約1.5msへと短縮され、ボトルネック問題が完全に解消されました。コンテキスト長が長くなるほどHISAの加速効果は顕著であり、超長コンテキスト(128K/1M)の実用的ニーズに完全に合致しています。
精度面においても、HISAは元のDSAの精度をほぼ完全に保持しており、純粋なブロック疎手法(Block Sparse methods)よりも有意に優れた結果を示しました。
論文では、超長文の無関係なテキストの中から指定位置の重要情報を正確に検索できるかを測る「Needle In A Haystack(干し草の中の針)」テストが実施されました。
その結果、HISAはDSAとほぼ同等の精度を示し、すべての長さおよび挿入深度において、DSAのほぼ満点に近い検索精度を維持しました。
長文読解(LongBenchベンチマーク)においても、HISAのスコアはDSAとほぼ同等でした。一部のシナリオ(合成検索や少ショット学習など、トークン選択の精度が要求されるタスク)では、HISAがわずかにDSAを上回る結果さえ出ました。
また、ハイパーパラメータのテストにおいて、異なるブロックサイズや選択ブロック数を用いてもHISAのパフォーマンスは非常に安定しており、DSAと高度に一致し、有意な性能差は見られませんでした。
これは、HISAがハイパーパラメータの選択に鈍感であり、堅牢性(ロバスト性)が高いため、実用化の際に詳細なチューニングを必要としないことを示しています。
ただし、現状のHISAにはいくつかの改善点があり、著者は今後の方向性を提示しています:
- 第一に、現在はブロックサイズが固定であるため、一つのブロックに無関係な内容と関連する内容が混在している場合、「全体ラベル」の精度が低下する可能性があります。今後は適応的ブロック(Adaptive Block)やオーバーラップブロックの導入、あるいはより優れたブロック特徴計算手法を検討しています。
- 第二に、現在は推論時に直接適用していますが、今後はブロックフィルタリングをモデルと一緒に学習させ、フィルタリングの精度をさらに高めることが考えられます。
- 第三に、現在はインデクサーの速度のみを測定していますが、今後は大規模モデルのサービスフレームワークに統合し、エンドツーエンドのスループットとレイテンシを測定する予定です。
チーム背景
この論文は、北京大学の張牧涵(Zhang Muhan)教授のチームによるものです。
張教授は、北京大学人工知能研究院の終身 tenure-track 助教授および博士課程指導教授を務めています。中国に戻る前は、Facebook AI(現 Meta AI)の研究員として、大規模グラフ学習システムおよび関連問題の研究に従事していました。
Google Scholarにおける総引用回数は13,000回を超え、筆頭著者としての論文2本はそれぞれ3,100回以上、2,400回以上の引用数を記録しています。また、Elsevierの「世界トップ2%の科学者(生涯影響力ランキング)」に数年連続で選出されています。
Yufei Xu(徐宇飛)氏とFanxu Meng(孟繁続)氏が共同第一著者となっています。