ここ数年、大規模モデル業界で業界を阻んでいるポイントは、パラメータ規模から推論効率へと移行してきた。
モデルが大規模化するにつれ、演算力とVRAMの圧力は壁のようになり、実用化の前に立ちはだかっている。
特にアプリケーションが単純な対話から長文書理解、コードリポジトリレベルの分析、長期間のエージェントタスクへと移行すると、従来のアーキテクチャのボトルネックが次第に明らかになってきた。
多くのチームが学習手法の最適化、重みの圧縮、蒸留に取り組んでいるが、基盤となるアテンション構造を直接変更するチームは少ない。なぜなら、それはTransformerパラダイム全体を見直すことを意味するからだ。
ModelBest(面壁智能)が今回公開したLinear-Sparseハイブリッドアテンションアーキテクチャ「SALA」と対応モデル「MiniCPM-SALA」は、コア構造層の技術ルートにおいて、異なる答えを示した。
新モデルの能力向上は今や珍しくないが、もしそれがアーキテクチャルートレベルの再定義ならばどうだろうか。
年の瀬が近づいているが、多くの企業の賑やかなマーケティング手法に比べ、ModelBestのような堅実な技術的推進の方が、より注目に値すると考える。
01. 長文脈需要の爆発が、アテンション機構の進化を迫っている
大規模モデルの初期の商用シナリオは質問応答、文章作成、要約に集中しており、このようなタスクの文脈長は通常数千から数万トークンの範囲で、従来のフルアテンション機構でも対応できた。
アプリケーション形態の変化に伴い、モデルはコードリポジトリ分析、契約審査、研究資料の整理、長リンクエージェントタスクの計画などの作業を担うようになった……
入力規模は数十万から百万トークンレベルにまで跳ね上がり、このような需要はエンタープライズ側とエッジ側で同時に増大している。
エンタープライズ側はモデルにナレッジベースやコードベース全体を一度に読み込み、一貫した理解を保持してほしいと考えている。一方、エッジ側デバイスには大量のユーザーのプライベートデータが保存されている。
例えば、チャット履歴、過去の行動、位置軌跡など、このような情報はローカル処理によってのみプライバシー要件を満たすため、エッジ側の長文脈能力は徐々に必須指標となりつつある。
従来のTransformerの問題は、このようなシナリオで無限に拡大される。
フルアテンション機構の計算複雑度はシーケンス長の二乗に比例して増加し、シーケンスが10倍になると演算需要は約100倍に上昇し、同時にKV Cacheも膨張する。
推論段階でのVRAM占有量は継続して増加し、モデルのパラメータ規模が変わらなくても、文脈が長くなるだけでVRAMが暴走する。これは多くのエンジニアリングチームが口にする「KV Cacheのジレンマ」である。
以前は、このようなジレンマは「不可能のトライアングル」のようであった。
業界ではこの問題を解決するために、線形アテンション、状態空間モデル、スパースアテンション構造など、複数の経路を試みてきた。それぞれは特定の次元で優れた性能を示すが、常に明確な短所が存在する。
線形アテンションとSSM系の手法は複雑度を線形レベルに抑え、速度とリソース消費の面で理想的な性能を示す。しかし、この構造は過去の情報を固定容量の状態に圧縮する必要があり、シーケンスが長くなるほど初期情報の重みが低下し、複雑な推論や長鎖の論理シナリオで記憶減衰現象が発生しやすい。
スパースアテンションは別のルートを進んでいる。
重要な位置のアテンションのみを計算することで演算需要を削減し、推論速度が明確に向上する。しかし、過去のKVは完全に保存する必要があり、そうでなければ長距離依存を遡ることができない。
これによりVRAMは依然としてシーケンスに比例して線形に増加し、ストレージ圧力は根本的に解決されていない。
業界は常に、線形構造の効率性を保持しつつ、スパース構造の精密な認知能力も持つ構造を探してきた。
MiniCPM-SALAが採用するTransformer-to-Hybrid低コスト構築手法(HALO)
02. SALAのハイブリッドアテンションアーキテクチャ
SALAのコア設計思想は非常に直接的で、2種類のアテンションの利点を同一のアーキテクチャ体系に組み合わせ、異なるモジュールに異なるタスクを担当させる。
全体構造の約75%はLightning Attention線形モジュールを使用し、局所的な重要な意味の捕捉を担当する;
残り25%はInfLLM v2スパースアテンションモジュールを使用し、大域的情報のモデリングを担当する。
この比率は複数回の実験調整の後に確定され、効率と精度の間の安定したバランスポイントを見つけることを目標としている。
線形部分は推論の複雑度の安定した増加を保証し、スパース部分は高価値情報の精密なモデリングを担当する。両者が共同で完全な文脈理解パスを構成する。
この設計が本当に解決するのは、長シーケンスタスクの構造的矛盾である。
純粋な線形モデルはシーケンスが極めて長い場合に詳細を失いやすく、純粋なスパースモデルはシーケンスが増長するにつれてVRAM圧力が継続して拡大する。SALAは計算密度と情報密度を分離処理し、計算リソースを重要な領域に集中させつつ、大局的な状態の追跡可能性を保証する。
言い換えれば、モデルは百万トークンの入力を処理する際に、すべてのトークンに対して同じ強度の計算を同時に行うのではなく、自動的に演算力の重みを割り当てる。これによりリソース利用効率が明確に向上する。
もう一つの重要な革新は、学習手法HALOから来ている。
従来のハイブリッドアーキテクチャをゼロから学習する場合、コストは驚異的に高くなる。なぜなら、新しい構造は言語知識と推論能力全体を再学習する必要があるからだ。
HALOの戦略は、既存のフルアテンションモデルをベースに構造変換を行い、継続的な学習を行うことである。この方式は元のモデルの能力を継承しつつ、新しいアーキテクチャが新しいアテンションモードに徐々に適応できるようにする。
エンジニアリングの観点から見ると、このルートは演算力投入を許容可能な範囲に抑え、ハイブリッドアテンションモデルに大規模学習の実行可能性を与え、業界全体に現実的な参考価値を持たせる。
現在の主流アーキテクチャを同一の座標系に置いて観察すると、明確な進化経路が見える:
フルアテンションモデルは安定した知能レベルを提供し、線形モデルは極限の効率性を提供し、スパースモデルは長シーケンス能力を提供する。SALAはこの3つのルートを統一した解に統合しようと試みている。
Kimi KDA、DeepSeek NSA、InfLLM v2などは、異なる方向で長文脈能力を推進している。SALAの登場により、業界は初めて統一構造で複数の利点を重ね合わせる可能性を見ることができた。
関連論文の参考:
・スパース-線形ハイブリッドアテンション:https://arxiv.org/pdf/2601.22156
・InfLLM v2:https://arxiv.org/pdf/2509.24663
03. MiniCPM-SALAの実測パフォーマンス、アーキテクチャの実行可能性を検証
どんなアーキテクチャ上の革新も、最終的にはモデルのパフォーマンスに帰結する。
MiniCPM-SALAは、この構造に基づいて大規模学習を完了した初めてのテキストモデルとして、複数の次元で比較的明確なデータ結果を示している。
モデルのパラメータ規模は9Bで、軽量級の範囲に位置するが、百万トークンの文脈推論をサポートできる。
重要な点は、KV Cacheが6GB以下に制御されていることであり、これは一般的なコンシューマー向けGPUでも推論タスクを完了できることを意味する。開発者にとって、これはデプロイメントのハードルを直接的に下げ、長文脈モデルをデータセンター専用の能力から個人ハードウェアで実行可能な段階に引き上げる。
長テキスト評価において、このモデルは安定した優位性を示し、特に章をまたぐ情報統合、長鎖推論、コード構造理解などのタスクで顕著な性能を示している。
さらに注目すべきは、知識質問応答、数学的推論、コード生成などの一般的な能力テストにおいても、同規模のフルアテンションモデルと同等のレベルを維持しており、性能損失の現象が見られないことである。これはハイブリッド構造が汎用知能能力を犠牲にしていないことを示している。
モデルは同時にHyPEハイブリッド位置エンコーディングメカニズムを導入し、短テキストと長テキストの処理能力を一致させ、短い入力での性能低下が発生しないようにしている。
推論速度に関するデータは、エンジニアリング実装にとって非常に価値がある。
クラウド推論チップのテストにおいて、文脈長が256Kトークンに達した際、MiniCPM-SALAの推論速度は同規模のフルアテンションモデルの約3.5倍に達した。また、テストでは投機的サンプリングや追加の加速テクニックを使用しておらず、結果は完全にアーキテクチャ自体から来ている。
エンタープライズデプロイメントにとって、このような性能向上はコストの直接的な削減を意味し、単位時間あたりに処理可能なリクエスト数が明確に増加するからである。
エッジ側のパフォーマンスも同様に良好である。
現在、多くのモデルは8B規模で256K文脈を実行する際にVRAMの限界に達するが、MiniCPM-SALAはコンシューマー向けGPUで百万文脈の推論を完了し、スマートフォン、車載システム、ロボットなどのエンドデバイスで汎用モデルを実行する余地を開いた。
エッジ側モデルが長文脈能力を持つようになれば、パーソナルアシスタント製品はユーザーの履歴データを継続的に読み込み、長期記憶を維持でき、体験が質的変化を起こす。これは業界が一般的に次世代スマート端末競争の主要指標と考えているものでもある。
04. アーキテクチャルートの競争が、大規模モデル競争のコア変数となりつつある
大規模モデル業界の初期の競争はパラメータ規模と学習データ量に集中していたが、次に推論コストとデプロイメント効率へと移行し、現在は基盤構造設計に焦点が移りつつある。
アーキテクチャ層でより優れた解を見つけられるかどうかが、同等の演算力条件でより高い性能を発揮できるかどうかを決定する。
SALAの登場により、未来のモデル競争はどのモデルがより大きいかだけでなく、どの構造がより合理的かも重要だという新しい可能性を見た。
この変化が業界構造に対して、ドミノのような連鎖反応を引き起こすかもしれないと考えている。
ハードウェア適合ロジックの変化がある:
モデルのVRAM需要が低下すると、デプロイメント環境の選択範囲が広がり、GPUは唯一の選択肢ではなくなり、エッジコンピューティングデバイスもより多くのタスクを担えるようになる。
さらに、アプリケーションエコシステムの再編ももたらすだろう:
長文脈能力が成熟すると、本来データベースや検索システムに依存していた大量のアプリケーションが、モデルによって直接完了される可能性がある。なぜなら、モデルはすべての資料を一度に読み込み、結果を生成できるからだ。
また、学習戦略も変化する。HALOのような移行学習手法は新しいアーキテクチャの実験コストを下げ、より多くのチームが基盤革新を試せる能力を持つようにする。
技術トレンドから見ると、アテンション機構はおそらくハイブリッド化の段階に入るだろう。
単一路線では効率性、精度、拡張性の3つの指標を同時に満たすことは難しく、複数構造の協働が主流の設計方向となるだろう。
未来のモデルはタスクに応じてアテンションモードを動的に切り替える可能性があり、複雑な推論には高精度モジュールを、大規模スキャンには高効率モジュールを使用する。このような適応型構造が研究の重点となるだろう。
最後に良いニュースがある:ModelBest、OpenBMB、SGLang、NVIDIAが共同でコンペティションを開催したことを知った。
コンテスト名は「SOAR 2026 スパース演算子加速グランプリ」で、正式に応募を開始した。
大会はハイブリッドアテンションアーキテクチャの推論性能最適化を中心に展開し、重点方向は演算子融合、コンパイラ最適化、ハードウェア協調スケジューリングを含む。目標はコンシューマー向けGPU上でリソース占有をさらに圧縮し、百万トークンの推論速度を向上させることである。
しかもグローバルの開発者に向けて開放されており、公式サイトの応募入口は:https://soar.openbmb.cn/
推論効率、システム最適化、モデルアーキテクチャに注目するエンジニアリングチームにとって、これは次世代推論ベースラインの定義プロセスに直接参加する機会である。
特別懸賞賞の賞金は、なんと28万元にも達する!
興味のある方は、ぜひ試してみてほしい~
参考資料:
GitHubリンク:https://github.com/openbmb/minicpm
HuggingFaceリンク:https://huggingface.co/openbmb/MiniCPM-SALA
Model Scopeリンク:https://www.modelscope.cn/models/OpenBMB/MiniCPM-SALA
GitCodeリンク:https://ai.gitcode.com/OpenBMB/MiniCPM-SALA
MiniCPM-SALA技術報告:https://github.com/OpenBMB/MiniCPM/blob/main/docs/MiniCPM_SALA.pdf