Transformerは99%スパースでも高速化可能？「Attention Is All You Need」の著者が新手法を発表

『Attention Is All You Need』の著者の一人であるLlion Jones氏が参加した新たな研究で、L1正則化とCUDAカーネルにより、FFNの99%スパース性を実際の高速化に結びつけました。

2017年に発表された『Attention Is All You Need』は、Transformerを深層学習の主役へと押し上げました。現在、主流の大規模言語モデルのほとんどはこのアーキテクチャ上に構築されており、推論、学習、メモリ使用量、エネルギー消費といったコストもモデルの規模拡大に伴い増加の一途を辿っています。

大規模モデルが動作する際、Transformer内部のFFN（フィードフォワードネットワーク）の隠れ層における活性化関数は、すべてが等しく重要なわけではありません。現在処理中のトークンに対し、実際に寄与するのはごく一部であり、大多数の活性化関数の出力はゼロに近い値を示します。

軽量なL1正則化を導入することで、このスパース性は99%以上に達する可能性があります。

非ゼロの活性化がこれほど少ないにもかかわらず、なぜモデルの実行速度は依然として制限されているのでしょうか？これらのゼロ活性化をスキップして計算リソースを節約しようとすると、GPU上ではなぜかえってパフォーマンスが低下する（負の最適化）可能性があるのでしょうか？

このICML 2026採択論文は、Sakana AIとNVIDIAによる共同研究です。著者の一人であるLlion Jones氏は、『Attention Is All You Need』の著者の一人としても知られています。

本研究は複雑なアーキテクチャの改良を導入するのではなく、FFN活性化のスパース性に着目しています。シンプルなL1正則化によって高いスパース性を誘導し、新しいスパースパッキング形式とCUDAカーネルを組み合わせることで、多数のゼロ活性化を実際にスキップすることを可能にしています。

論文タイトル：

Sparser, Faster, Lighter Transformer Language Models

論文リンク：

http://arxiv.org/abs/2603.23198

コードリンク：

https://github.com/SakanaAI/sparser-faster-llms

下流タスクの性能にほとんど影響を与えることなく、この手法は数十億パラメータ規模のモデルにおいて、最大20.5%の順伝播計算の高速化と21.9%の学習ステップの高速化を達成しました。推論時のエネルギー消費も同時に削減され、スパース学習の実験ではピーク時のメモリ使用量も大幅に減少しました。

これにより、これまで理論上のFLOPs削減に留まっていたスパース性が、現代的なGPU上で測定可能な実利益へと変換されたのです。

〓異なるスパース性における推論・学習の高速化と下流タスク性能

スパース化が直接的な高速化に繋がらない理由

より大規模な現代のLLMでは、FFNがパラメータ全体の3分の2以上を占め、総FLOPsの80%以上に寄与します。

〓Gated FFNのアッププロジェクション、ゲート、ダウンプロジェクション

標準的なGated FFNの計算フローは、一般的に次のように表現されます：

活性化関数σとしてReLUを用いると、自然に非構造化スパース性が生じます。しかし、現代のGPUのハードウェアおよびソフトウェアスタックは、長年にわたり規則的かつ連続的な密な計算に最適化されてきました。

従来のELLPACK形式は行全体のパッキングとパディングに依存しており、現代のGPUで一般的に使用されるタイル化行列積（tiled matmul）とは適合しません。

〓従来のELLPACK形式では行単位での整列ストレージが必要

完全なゲート活性化行列を生成してからスパース形式に変換すると、余分なカーネル起動やグローバルメモリの読み書き、同期のオーバーヘッドが発生します。理論上の計算量は削減されるものの、形式変換、インデックス管理、メモリアクセスのオーバーヘッドが利益を相殺しがちです。

TwELLによる変換オーバーヘッドの削減

推論フェーズ向けに、研究チームはTwELL（Tile-wise ELLPACK）形式を設計しました。この形式はグローバルな行の整列を放棄し、行列の列を、密な計算と適合する局所的な1Dデータブロック（タイル）に分割します。

〓TwELL形式は列方向をタイルに分割し、行列積カーネルとの融合に適している

ゲート活性化を計算する際、TwELL形式は演算子のエピローグで直接生成できるため、形式変換用のカーネルを個別に起動することを回避し、追加のグローバルメモリアクセスも削減します。

〓TwELLストレージ生成を含む、ゲートプロジェクションのコアロジック

後続の計算では、カスタマイズされたCUDAカーネルが一度の走査で、アッププロジェクションとダウンプロジェクションの両方を同期的に実行します。

この中核的なロジックは、2つの行列積を融合させることで、中間状態hへのメモリアクセスオーバーヘッドを回避することにあります：

ここでです。この融合により、中間活性化のためのグローバルメモリ読み書きを削減し、スパース化による理論上の恩恵を実際の速度向上に繋げやすくしています。

Hybrid形式による不均一なスパース性への対応

学習フェーズでは、GPUメモリ容量が重要なボトルネックとなります。トークンごとに非ゼロ活性化の数は大きく異なるため、単一のコンパクトな形式では、少数の非ゼロ要素が多い行に足を引っ張られる可能性があります。

研究チームは、ハイブリッドルーティングメカニズムを開発しました。ほとんどの低活性化トークンは高圧縮率のELL行列に送られ、散発的に発生する高活性化トークンは動的に密なバックアップチャネルへと迂回させられ、Tensor Coreによって処理されます。

〓ハイブリッドフォーマットに基づくスパース行列演算子のルーティング計算ロジック

この設計により、学習中の密な計算と中間活性化の保存に関わるオーバーヘッドが削減され、スパース学習によるピークメモリへの圧力も低減されます。

数百億トークン規模での実測効果

規模比較実験では、著者らは0.5Bから2Bパラメータのモデルを学習させました。これは、それぞれ100億から400億トークンのデータに対応します。スパース学習で使用された主要な正則化項は以下の通りです：

実験によると、適度なL1正則化により、平均非ゼロ活性化数を数桁も低く抑えられます。保守的な設定では、下流タスクのパフォーマンスは密なベースラインモデルとほぼ同等に保たれました。

〓異なるL1正則化係数におけるタスク精度と非ゼロ活性化数

複数の下流タスクのベンチマーク評価では、実際の実行において推論速度が最大30%向上し、メモリ要件が24%以上削減されたことが示されました。

〓推論の順伝播高速化率とエネルギー消費削減の統計

〓学習ステップの高速化率とピークメモリ使用量削減の統計

実験データは、モデル規模が大きくなるほど、このスパースアクセラレーションメカニズムによるスループット向上とメモリ節約の効果が顕著になることをさらに裏付けています。

〓異なるパラメータ規模における実行効率とメモリ消費量の比較

スパース性の観点から見る計算リソース配分

スパース活性化は、モデル内の計算リソース配分を観察するための新たな窓口を提供します。ネットワークの深さで見ると、最初の2層は比較的静かですが、ネットワークの中間層が最も活発で、推論や知識検索といった中核的なタスクを担っています。

〓ネットワーク層の深さごとの非ゼロ活性化数の分布

トークンの特徴で見ると、活性化の低いトークンは、一般的なウェブリンクの断片や、高度に予測可能な単語形態素の断片であることが多いです。一方、高い活性化を示すトークンは、より強い文脈情報を含む動詞、名詞、地名、物質名などです。

〓特定のトークンとそのシーケンス位置ごとの非ゼロ活性化数の統計

この研究は、Transformerを置き換えようとするものでも、複雑なアーキテクチャ変更に依存するものでもありません。

その価値は、FFN活性化のスパース性を実際のGPU実行フローに接続し、スパース形式とCUDAカーネルを用いて、理論上の計算量削減の一部を、測定可能な速度、エネルギー効率、メモリ節約の利益へと転換したことにあります。

さらに読む

Transformerは99%スパースでも高速化可能？「Attention Is All You Need」の著者が新手法を発表

『Attention Is All You Need』の著者の一人であるLlion Jones氏が参加した新たな研究で、L1正則化とCUDAカーネルにより、FFNの99%スパース性を実際の高速化に結びつけました。

関連記事

分享網址