NVIDIAとSakana AIが共同開発した「スパースLLM」の核心技術を徹底解説

AI開発の現場では、「スケーリングの法則」がほぼ絶対的な真理として扱われている。モデルが大きくなればなるほど性能は向上するというものだ。しかし、この「高性能」には明確な代償が伴う。数千億〜数兆パラメータ規模のモデルは、推論コスト（VRAM使用量やレイテンシ）を天文学的な数字に膨れ上がらせるだけでなく、環境負荷やエネルギー消費も無視できない問題となっている。

これまでAI研究者たちが長年注目してきたのは、Transformerアーキテクチャの中で最も「肥大化」している部分であるフィードフォワードネットワーク（FFN）だ。現代の大規模言語モデル（LLM）において、FFNはパラメータ総数の3分の2以上を占め、計算量の実に80%超を消費している。

興味深いことに、生物の脳は極めて省電力な仕組みを持っており、特定の瞬間に活動するのはごく一部のニューロンだけだ。実は大規模モデルもこうした潜在能力を秘めている。ReLU活性化関数を採用したモデルでは、どのような入力に対しても、実際に発火するニューロンはごくわずかで済むのである。

ここで浮上するのが、産業界を長年悩ませてきた「スパースのパラドックス」だ。理論上は計算の大部分がゼロ（無視可能）なのに、なぜGPU上でスパース演算を実行すると、むしろ密（デンス）演算よりも遅くなってしまうのだろうか？

近年、Sakana AIとNVIDIAが共同で発表した最新研究論文『Sparser, Faster, Lighter Transformer Language Models』は、この難題に真っ向から挑むものだ。

この研究では、モデルが性能劣化をほぼゼロに抑えながら99%以上のスパース性（疎性）を達成できることを実証しただけでなく、最下層のCUDAカーネルレベルから「TwELL」と呼ばれる新規データフォーマットを設計することで、理論上の「スパース」を実際の「高速化」へと見事に結びつけた。

1. なぜGPU上では「スパース演算」が高速化しないのか？

このイノベーションの真価を理解するには、まず従来のアプローチがどこで行き詰まっていたかを把握する必要がある。GPUの最大の特長は極限まで最適化された並列計算能力にあり、GEMM（汎用行列積）のように構造が整っており密なデータ処理を前提として設計されている。ELLPACKなどの従来型スパースフォーマットでは、スパース行列を処理する際に非ゼロ要素のインデックスと位置を逐一記録する必要があった。

「ハードウェアとソフトウェアスタックが密計算用に重度に最適化されているため、異種ワークロードの実行やスパースインデックスの実体化・管理に伴うオーバーヘッドこそが、汎用計算の省リソース化を阻む核心的な課題となってきた」

Gated FFN（Llamaなどで採用される構造）では、スパースパターンはGate層の活性化値によって決定される。従来のスパース演算子を適用しようとすれば、まずGate処理を実行し、非ゼロ要素を数え上げてインデックスを再配列し、その後に続く行列積演算に進む必要がある。この「再配列」プロセス（変換オーバーヘッド）にかける時間は、往々にして短縮できた計算時間よりも長くなってしまう。つまり、GPUはコマンドの待機と断片的なデータの搬送に多大なリソースを浪費していたのである。

2. TwELLフォーマット：GPUタイルのために生み出された「パズル」

このパラドックスを打破するため、研究チームは「TwELL（Tile-wise ELLPACK）」という新たなフォーマットを提案した。

これは極めて巧みなエンジニアリング上の改良だ。GPUがタイル（Tile）単位で処理を実行することを好む特性に着目し、疎性化処理もタイル内部に限定して行うことにしたのだ。TwELLでは、行列全体に対してグローバルな圧縮やインデックスの再配列を行うのではなく、各タイル内で独立して非ゼロ要素の収集を行う。

この設計の中核的な強みは、演算子の融合（Operator Fusion）にある：

・Gate行列積を実行するCUDAカーネルの末尾（エピローグ）段階で、直接TwELLフォーマットへの実体化が可能となる。

・グローバルな同期処理や、中間メモリへの読み書きが不要となる。

・後続のUp投影およびDown投影演算子を同一パイプラインに融合し、局所的にアラインされたスパースデータを直接読み取れる。

平易な表現を借りれば、TwELLは「製品が完成してからラインを止めて仕分けをする」のではなく、「製造ライン上で部品を直接選別して箱詰めする」ようなものだ。この「タイルレベル」の局所的処理は、現代のNVIDIA GPUのハードウェア特性に完璧に適合している。

3. 推論と学習における二重の進化

推論面におけるTwELL融合演算子に加え、本論文は学習（トレーニング）面でも切り札を披露している。

大規模モデルの学習において、VRAM（ビデオメモリ）容量は常に最大のボトルネックだ。中間層の活性化値を圧縮せずに保持すれば、膨大なメモリ空間を消費する。しかし、スパース学習には「不均一性」という深刻な罠が潜んでいる。あるトークンはニューロンを500個も発火させる一方、別のトークンはわずか5個しか発火しないケースがある。500個分のメモリを確保すれば省スペース化の意味がなくなり、平均値で確保すれば発火数の多いトークンでメモリ不足（オーバーフロー）を引き起こす。

研究チームはこの問題に対処するため、「ハイブリッド（混合）フォーマット」を考案した：

・スパース性が期待できる大部分の行は、コンパクトなスパース行列として格納される。

・活性化が異常に高いごく一部の「ロングテール」行は、密（デンス）なバックアップバッファへ誘導される。

・本方式は、Tensor Coreの密計算能力で「重い処理」をこなしつつ、カスタマイズしたスパースカーネルで「軽い処理」に対応することで、メモリ効率と処理速度の両立を実現している。

4. 実験結果：99%の疎性率が示す奇跡

著者らは正則化を適用してモデルにスパース性を誘発させた。実験結果は極めて刺激的なものだ：

データから読み取れる核心的な結論は以下の通りだ：

・規模効果：モデルが大きくなるほど、スパース化による恩恵は顕著になる。2B（20億パラメータ）モデルでは、推論速度が20.5％、学習速度が21.9％向上した。

・メモリの極小化：1Bモデルの学習時ピークメモリは44.5GBから33.1GBへ削減され、削減率は25.5％に達した。

・性能の忠実な維持：微弱な正則化を導入した後も、モデルの平均タスク精度はほとんど低下せず（例：1Bモデルが44.6％からわずかに44.7％へ上昇）、むしろ安定した。

「LLMのスパース性に関する定量的研究を通じて、シンプルな正則化によって99％を超えるスパース性を誘発可能であり、且つダウンストリーム性能への影響は極めて軽微であることを実証した」

これはつまり、モデルを高速実行できるだけでなく、より低コストでVRAM容量が小さいグラフィックカード（RTX 6000など）上でも、従来では学習不可能だったモデルのトレーニングが可能になることを意味する。

5. 疎性の背後にある論理：モデルも「要点を押さえる」術を知る

さらに興味深いことに、本論文はLLMが「どこで」スパース化するかという実態についても明らかにしている。

研究チームは、スパース性が入力文の「情報エントロピー」と強く相関していることを突き止めた。予測が容易なトークン（URL内の「doi」や「gov」、一般的な略語など）に対しては、モデルが発火させるニューロン数は極めて少ない。一方、重要な文脈情報を担う単語（特定の地名「バーモント」や、専門的な化学用語「ホルムアルデヒド」など）に対しては、モデルの活性化レベルが大幅に上昇する。

さらに、シーケンス内の位置も影響を及ぼす。シーケンスの初期段階に位置するいくつかのトークンは、文脈の構築のために最も多くのニューロンを必要とする。一方で、シーケンスが長くなるにつれてスパース性は指数的に上昇する。これは、スパースLLMが計算資源を動的に配分し、まさに「ここぞ」という部分に演算能力を集中させることを実際に学習している証だ。

6. 制限と将来展望

もちろん、この技術には代償や課題も存在する。現在提供されているカーネル実装は、NVIDIAのHopperアーキテクチャ（H100など）に高度に最適化されており、特にTensor Memory Accelerator（TMA）などの新機能を前提としている。このため、旧世代のハードウェアやNVIDIA以外の環境では、期待される恩恵が減少する可能性がある。加えて、正則化係数の選定には綿密なチューニングが必要となり、過度の正則化は「死んだニューロン」問題を引き起こす恐れがある。

しかし、欠点を差し引いてもなお、Sakana AIとNVIDIAによる本取り組みが示す方向性は明確だ。大規模モデルの未来は、計算資源の無尽蔵な投入ではなく、より精緻な計算配分へ向かって進化していくことだろう。

著者らがこれらのコードとカーネルをオープンソースとして公開した背景には、スパース性が現代の基盤モデル設計における新たな次元となることを願っている。少ないエネルギー、少ないメモリ、より高速な推論で同等の性能を達成できるようになるその時こそ、スケーリングの法則が真に次の段階へ進化したと言えるのだ。

NVIDIAとSakana AIが共同開発した「スパースLLM」の核心技術を徹底解説

関連記事

分享網址