Nvidia、精度を損なわずにLLM推論コストを8倍に削減する新技術を発表

Nvidiaの研究者たちは、大規模言語モデル（LLM）の推論におけるメモリコストを最大8倍まで削減できる技術を開発しました。この技術は動的メモリスパース化（Dynamic Memory Sparsification、DMS）と呼ばれ、プロンプトの処理や問題・文書の推論中にLLMが生成・保存する一時的なメモリであるキーバリュー（KV）キャッシュを圧縮します。

これまでにこのキャッシュを圧縮する様々な方法が提案されてきましたが、多くはモデルの知性を損なわずに圧縮することに苦労しています。Nvidiaのアプローチは、キャッシュの大部分を破棄しながら、モデルの推論能力を維持（あるいは場合によっては向上）することに成功しています。

実験によると、DMSによりLLMは通常の速度やメモリコストのペナルティなしに、より長く「考え」、より多くの解決策を探索できるようになります。

推論のボトルネック

LLMは複雑なタスクでのパフォーマンスを向上させるために、「Chain of Thought（思考の連鎖）」トークンを生成し、本質的に最終的な答えにたどり着く前に推論のステップを書き出します。推論時間スケーリング技術は、モデルにこれらの思考用トークンを生成したり、複数の潜在的な推論パスを並列に探索したりするためのより大きな予算を与えることでこれを活用します。

しかし、この改善された推論には大きな計算コストが伴います。モデルがより多くのトークンを生成するにつれて、KVキャッシュが構築されます。

実世界のアプリケーションでは、KVキャッシュは主要なボトルネックです。推論チェーンが成長するにつれて、キャッシュは線形に成長し、GPU上の膨大な量のメモリを消費します。これにより、ハードウェアは実際の計算よりもメモリからデータを読み出すことに時間を費やすことになり、生成を遅くし、レイテンシーを増加させます。また、VRAMが尽きるとシステムがクラッシュしたり爬行速度になったりするため、システムが同時にサービスできるユーザー数にも上限がかかります。

Nvidiaの研究者たちは、これを単なる技術的障害ではなく、エンタープライズにとっての根本的な経済的問題として捉えています。

「問題はハードウェアの量だけではありません。インフラストラクチャが同じコストで100の推論スレッドを処理するか、800スレッドを処理するか、それが問題なのです」と、NvidiaのシニアディープラーニングエンジニアであるPiotr Nawrot氏はVentureBeatに語りました。

これを解決するための従来の試みは、ヒューリスティックベースのアプローチに焦点を当てていました。これらの方法は、最新のトークンのみをキャッシュし、残りを削除する「スライディングウィンドウ」などの硬直したルールを使用します。これによりメモリ使用量は減少しますが、問題解決に必要な重要な情報を破棄させることが多く、出力の精度を低下させます。

「標準的な追い出し方法は、ヒューリスティックを使用して古く使用されていないトークンを追い出し対象として選択しようとします」と研究者たちは語りました。「彼らは問題を単純化し、モデルの内部メカニズムを近似できれば答えは正しく保たれるだろうと期待しています。」

他の解決策は、KVキャッシュの未使用部分をより遅いメモリにオフロードするページングを使用しますが、データの絶え間ない交換はレイテンシーオーバーヘッドをもたらし、リアルタイムアプリケーションを鈍化させます。

動的メモリスパース化

DMSは異なるアプローチを取り、既存のLLMを「改造」（retrofitting）して独自のメモリを知的に管理させます。削除するものに対して固定ルールを適用するのではなく、DMSはモデルに対して、将来の推論に必要なトークンと破棄可能なトークンを識別するよう訓練します。

「これは単に重要性を推測するのではなく、モデルの最終的な出力分布を明示的に保持するポリシーを学習するのです」とNawrot氏は述べました。

このプロセスは、Llama 3やQwen 3などの標準的な事前学習済みLLMを自己圧縮モデルに変換します。重要なのは、これはゼロからモデルを訓練する必要がなく（それは途方もなく高価です）、DMSはモデルのアテンション層内の既存のニューロンを再利用して、各トークンに対して「保持」または「追い出し」の信号を出力します。

改造の複雑さを心配するチームに対し、研究者たちはこのプロセスが軽量に設計されていると指摘しました。「このプロセスの効率を向上させるために、モデルの重みをフリーズすることができ、これによりプロセスは低ランク適応（LoRA）に似たものになります」とNawrot氏は述べました。これは、Qwen3-8Bのような標準的なエンタープライズモデルが「単一のDGX H100上で数時間以内にDMSを備えた改造が可能であることを意味します。」

DMSの重要な部分の1つは、「遅延追い出し」（delayed eviction）と呼ばれるメカニズムです。標準的なスパース化では、トークンが重要でないと見なされると、即座に削除されます。これはリスキーです。なぜなら、モデルはそのトークンのコンテクストを現在の状態に統合するために瞬間を必要とするかもしれないからです。

DMSは、トークンを追い出し対象としてフラグ付けしつつ、短い時間ウィンドウ（例えば数百ステップ）の間アクセス可能に保つことでこれを緩和します。この遅延により、モデルはトークンから残りの必要な情報を「抽出」し、トークンがKVキャッシュから消去される前に現在のコンテクストにマージできます。

「『遅延追い出し』メカニズムは重要です。なぜなら、すべてのトークンが単純に『重要』（永遠に保持）または『無用』（直ちに削除）というわけではないからです。多くはその中間にあり—何らかの情報を持っていますが、メモリのスロット全体を占有するほどではないのです」とNawrot氏は述べました。「ここに冗長性があります。追い出し前にこれらのトークンをローカルウィンドウで短時間保持することで、モデルがそれらに注目し、その情報を将来のトークンに再分配できるようにします。」

研究者たちは、この改造プロセスが非常に効率的であることを発見しました。彼らは事前学習済みのLLMにDMSを装備するのにわずか1,000の訓練ステップで済み、これは元の訓練に必要な計算資源のほんの一部です。結果として生じるモデルは標準的なカーネルを使用し、カスタムハードウェアや複雑なソフトウェア書き換えなしで、既存の高パフォーマンス推論スタックに直接投入できます。

DMSの実働

この技術を検証するため、研究者たちはDMSを複数の推論モデルに適用しました。これにはDeepSeek R1から蒸留されたQwen-R1シリーズやLlama 3.2が含まれ、AIME 24（数学）、GPQA Diamond（科学）、LiveCodeBench（コーディング）などの困難なベンチマークでテストされました。

結果は、DMSがコストとパフォーマンスの間の最適なトレードオフであるパレートフロンティアを効果的に前進させることを示しています。AIME 24数学ベンチマークでは、DMSを装備したQwen-R1 32Bモデルが、同じメモリ帯域予算の制約下で標準モデルより12.0ポイント高いスコアを達成しました。キャッシュを圧縮することで、モデルは同じメモリと計算予算で標準モデルよりもはるかに深く広く「考える」ことができました。

DMSは同等の計算予算で、バニラLLMよりも推論タスクでのモデルパフォーマンスを改善する（出典：arXiv）

おそらく最も驚くべきことに、DMSは「圧縮が長いコンテクストの理解を損なう」という既存の常識を覆しました。大きな文書に埋もれた特定の情報を見つける能力を測定する「needle-in-a-haystack（干し草の中の針）」テストでは、DMSバリアントが実際に標準モデルを上回りました。受動的にノイズを蓄積するのではなくメモリを能動的に管理することで、モデルはよりクリーンで有用なコンテクストを維持しました。

エンタープライズインフラストラクチャでは、効率性の向上がスループットとハードウェア節約に直接変わります。メモリキャッシュが大幅に小さくなるため、GPUはデータのフェッチにかかる時間が短縮され、ユーザーの待ち時間が短縮されます。Qwen3-8Bモデルを用いたテストでは、DMSはバニラモデルの精度と一致させながら、最大5倍のスループットを実現しました。これは、1台のサーバーが品質を落とすことなく、1秒あたり5倍もの顧客クエリを処理できることを意味します。

メモリの未来

NvidiaはDMSをModel Optimizerフレームワークの一部としてリリースしました。エンタープライズがDMSをどのように始められるかについて、Nawrot氏は参入障壁が低いことを強調しました。「『最小限の実行情報基盤（minimum viable infrastructure）』は標準的なHugging Faceパイプラインであり—カスタムCUDAカーネルは必要ありません」とNawrot氏は述べ、コードが標準的なFlashAttentionと完全に互換性があることに言及しました。

将来を見据えると、チームはDMSを、メモリ管理がAIスタックの独自の知的レイヤーとなる大きな変化の一部として見ています。Nawrot氏はまた、DMSがDeepSeekのモデルで使用されているMulti-Head Latent Attention（MLA）のような新しいアーキテクチャと「完全に互換性がある」を確認し、これらのアプローチを組み合わせることでさらなる効率性向上が得られる可能性を示唆しました。

企業が単純なチャットボットから長期的な推論を必要とする複雑なエージェンティックシステムに移行するにつれて、推論コストが主要な懸念事項となっています。DMSのような技術は、これらの能力を持続可能にスケールするための道を提供します。

「私たちは可能なことの表面をかすっただけです」とNawrot氏は述べ、「推論時間スケーリングはさらに進化すると予想しています。」

Nvidia、精度を損なわずにLLM推論コストを8倍に削減する新技術を発表

関連記事

分享網址