編集 | 雲昭
AI エンジニアリング界において、長文脈の推論はいわば「贅沢病」でした。
大規模言語モデル(LLM)の応答速度をわずかにでも向上させるため、企業は何千個もの高価な GPU を同一のデータセンターに詰め込み、法外な価格の InfiniBand スイッチを導入することを余儀なくされてきました。
その理由はただ一つ。KVCache(キー・バリューキャッシュ)の重さにあります。データセンターの境界を越え、通常の LAN ケーブル(イーサネット)を経由しようとすれば、伝送遅延が瞬時にシステムを麻痺させ、推論を「スローモーション」に変えてしまうのです。
演算資源は、高価な「孤島」の上でしか踊れないのでしょうか?
このほど、中国の AI 企業・月之暗面(Moonshot AI)が画期的な論文を発表し、PrfaaS(Prefill-as-a-Service:事前処理のサービス化)アーキテクチャを提案しました。彼らは驚異的なデータによって、高価な専用ネットワークがなくても、普通のイーサネットケーブルさえあれば、1 兆パラメータ規模のモデルをデータセンター間でスケジューリング可能であることを証明してみせました。
大規模 LLM 推論の課題に鋭く切り込む:KVCache の帯域幅ボトルネック
AI 業界に関心のある方なら、「PD 分離(Prefill と Decode の分離)」という概念は既にご存知でしょう。
月之暗面による今回の論文は、大規模 LLM サービスにおける極めて現実的な問題、つまり「異なるデータセンター間かつ異種混在するハードウェア環境下で、いかに KVCache の転送帯域幅に制約されることなく、効率的に Prefill(事前処理)と Decode(生成処理)を分離するか」という点にメスを入れています。
従来、データセンターをまたぐ推論は「エンジニアリング的な自殺行為」と見なされていました。従来のモデルにおける KVCache は津波のごとく膨大であり、帯域幅を一瞬で枯渇させてしまうからです。
論文ではその原因をこう指摘しています。従来の PD 分離アーキテクチャでは、計算集約型の Prefill とメモリ帯域幅集約型の Decode を分離してはいますが、Prefill 段階で生成された膨大な KVCache を、推論のブロックを防ぐために RDMA などの高帯域ネットワーク経由で Decode ノードへ瞬時に転送する必要があります。このことが以下の問題を引き起こしていました。
Prefill と Decode を同一の高帯域ネットワークドメイン内(単一のデータセンターなど)に配置せざるを得ない。
異種ハードウェア(例:Prefill に H100、Decode に H20 を使用など)の独立した拡張が困難。帯域幅の低いネットワークを介して KVCache を効率的に転送できないためです。
リソースの弾力性に欠ける:ハードウェアの比率が一度固定されると、リクエストの長さやキャッシュヒット率の変化に適応することが難しい。
単一データセンター設計の限界と、越えられない帯域幅の壁。解決策は?
重要な発見:ハイブリッド注意機構モデルが KVCache を劇的に削減
論文によれば、Kimi Linear や SWA+GQA といった新しいハイブリッド注意機構モデルでは、シーケンス長に比例して増加する KVCache を生成するのは、ごく一部のフルアテンション層のみです。多くの線形複雑度を持つ層は、固定サイズの状態しか生成しません。
モデリング分析を通じて、チームは以下の事実を発見しました。
KV スループット(単位時間あたりに生成される KVCache のサイズ)は、稠密モデルのわずか 1/4、場合によっては 1/36 にまで低減可能なのです。
この桁違いの KVCache 削減は、かつて山ごとデータを運んでいたのが、今は CD 盤 1 枚を配送するだけで済むようになったのに匹敵します。まさに KVCache に対するアルゴリズムレベルでの「物理的なダイエット」成功と言えるでしょう。
これにより、普通のイーサネットを介したデータセンター間での KVCache 転送が現実的なものとなりました。
越境する KVCache の核心:すべての Prefill を外部委託するのではない
この発見に加え、Kimi チームはデータセンターをまたぐ 1 兆パラメータモデル構築の核心となる思路を提示しました。それは「すべての Prefill を外部化する」のではなく、「リモートでの Prefill 加速による恩恵が、転送コストを上回る場合」に限り、デカップリングされた LLM サービスを単一クラスタの外へ拡張するというものです。
PrfaaS の核心:推論の「津波」を「小川」に変えるには?
理論的に可能であるだけでなく、実際のエンジニアリングにおいて PrfaaS はどのように実現されたのでしょうか。チームが「アルゴリズム」と「システム」の双方でイノベーションを成し遂げた点は特筆すべきです。
PrfaaS-PD アーキテクチャ全体の思路は明確で、ローカルの PD クラスタと PrfaaS クラスタの役割を明確に区別しています。
専用 PrfaaS クラスタ:高スループットかつコスト効率に優れたアクセラレータ上で、計算集約型となる長文脈の Prefill(プレフィックスキャッシュがミスした場合など)を実行し、生成された KVCache を汎用イーサネット経由でストリーミング転送してローカルの PD クラスタへ供給します。
ローカル PD クラスタ:短いリクエストや、すでにキャッシュがヒットしているなど帯域幅への負荷が問題とならないリクエストを処理し、Decode(生成)を担当します。
注目すべきは、これら 2 つが普通のイーサネット(VPC や専用線など)を介して KVCache を転送している点です。
専用 PrfaaS クラスタの魂:ハイブリッドプレフィックスキャッシュプール
専用 PrfaaS クラスタの真骨頂は、ハイブリッドプレフィックスキャッシュプール(Hybrid Prefix Cache Pool)の設計にあります。
ハイブリッド注意機構モデルでは KVCache が小規模になっただけでなく、その種類も多様化しています。
ハイブリッドモデルにおいて、線形アテンション層や SWA 層の循環状態はリクエストレベルのものです。これらは入力長に依存せず、キャッシュ長が完全に一致する場合にのみ再利用可能です。
対照的に、フルアテンション層の KVCache はブロックレベルのものです。これらは入力長に比例して線形に増加し、プレフィックスの部分一致をサポートします。
この異種混合性は、従来の全層統一型の KVCache 保存パラダイムに課題を突きつけました。
明らかに、ハイブリッドプレフィックスキャッシュプールの設計はこの問題解決のために存在し、クラスタ間およびデータセンター間をまたぐ KVCache の効率的な転送と再利用を可能にしています。
簡潔に説明すると、仕組みは「管理は分離、メモリは統合」です。キャッシュプールは線形状態とフルアテンション用 KVCache を別々に管理しますが、これらのグループはブロックサイズが整列されており、すべてのグループが共有の KVCache プールからブロックの割り当てと解放を行えるようになっています。
余談ですが、このキャッシュプールは Kimi チームが vLLM のハイブリッド KVCache マネージャを基に発明したものです。関心のある方は関連論文を参照してみてください。
内蔵された 2 段階スケジューリングで推論の停滞を防止
この問題が解決されたとしても、次はスケジューリングの問題が残ります。PrfaaS は無闇にすべてのタスクを外部へ振り分けたりはしません。研究チームは巧妙な「選別」ロジックを内蔵しています。
選択的なオフロード:増分長が閾値を超えたリクエストのみを PrfaaS へ送信し、短いリクエストによるクラスタ間帯域幅の浪費を防ぎます。「短いリクエストはローカルで消化し、長いリクエストは遠隔地で処理する」のです。システムは自動的にテキスト長を判別し、十分長い(例:19.4K トークン以上)場合のみ、遠隔地の高演算センターへ割り振ります。
帯域幅の認識:出力帯域幅とキューの深さをリアルタイムで監視し、経路を動的に調整します。キャッシュの親和性も考慮します。あるクラスタにプレフィックスキャッシュの一部が既に存在する場合はそれを優先利用し、必要な場合にのみクラスタ間でのキャッシュ転送を行います。
まるでスマートフォンのナビゲーションが渋滞を避けるのと同様、スケジューラはネットワーク速度を監視します。拠点間の回線が「渋滞」していれば、自動的に経路を変更し、ローカルでの推論が止まらないよう最優先で制御します。
さらにスケジューリング戦略として、チームは 2 つの時間スケールに基づく戦略も提示しています。
短期:帯域幅とキャッシュの分布状況に基づき、リクエストの経路を動的に決定します。
長期:トラフィックの変動に応じて、PD クラスタ内の Prefill インスタンスと Decode インスタンスの比率を調整し、閾値 t を再最適化します。
ハードウェアの再構築:H200 に「スプリント」を集中させる
それだけではありません。実証実験において Kimi チームは、H200 で構成された PrfaaS クラスタ(計算特化・Prefill 担当)と、H20 クラスタ(Decode 担当)を組み合わせて使用しました。
この「データセンターをまたぐ連携」により、各チップが最も得意とする領域で動作することが可能になり、「演算能力はあるが帯域幅が追いつかない」という業界のジレンマを解消する形となりました。
実測データ:1 兆パラメータモデルへの「次元の違う」打撃
1 兆パラメータ規模のハイブリッドアーキテクチャモデル(Kimi Linear に類似)を対象とした今回の実証実験において、PrfaaS は業界の常識を覆すに足る成果を叩き出しました。
具体的な構成は以下の通りです。
PrfaaS クラスタ:H200 × 32 基(高演算力)
ローカル PD クラスタ:H20 × 64 基(帯域幅最適化)
クラスタ間帯域幅:100 Gbps イーサネット
まず、従来の構成と比較し、PrfaaS システムのスループットは54%向上しました。スケジューリングを行わない異種混合 PD 構成と比較しても32%の向上です。
不仅如此、同等のコスト条件下でも、PrfaaS システムのスループットは約15%向上しました。
次に、遅延も劇的に改善されました。ユーザー体験を左右する P90 初字遅延(TTFT)が、何と64%も削減されたのです。
さらに重要なのは、都市圏をまたぐトップクラスの演算資源スケジューリングに成功した点です。説明によれば、PrfaaS が 1 兆パラメータモデルを処理する際、データセンター間の帯域幅使用量はわずか13 Gbps(100 Gbps の 13%)に留まり、稠密モデルの必要量をはるかに下回りました。
これはつまり、至って普通の 100G 対応 LAN ケーブル 1 本で、2 つの都市にまたがるトップクラスの演算資源をスケジューリングできることを意味します。
「GPU 信仰」の終焉:普通の LAN ケーブルで世界の演算資源を制御可能に
大規模モデルが迎える「東のデータ、西の演算」の時代
大規模モデルの発展が加速して 4 年目になります。推論用演算資源の逼迫が叫ばれる中、Kimi チームによる PrfaaS アーキテクチャの登場はまさに時宜を得たものでした。
この論文は、都市間・データセンター間をまたぐ分散型 AI 演算フレームワークを提案しただけでなく、将来の AI 推論に対する多くの可能性も示唆しています。
筆者の視点から、議論に値する点は以下の 3 点です。
第一に、Kimi による今回の研究で、「遠隔地での推論」の実用化が現実のものとなりました。大規模モデル分野における「東のデータ、西の演算(中国の国家プロジェクト名。データ需要の多い東部に対し、資源豊富な西部で処理する構想)」が、工学的に完全に実行可能であることが証明されたのです。今後は Prefill を電力単価の安い中国北西部に配置し、Decode をユーザーに近い北京や上海、広州などの大都市圏に配置することが可能になります。これだけでも驚異的です。
第二に、異種チップの本格的な採用に希望が見えてきました。推論には H100 一択なのか?もちろん違います。
今後は Prefill 拠点には中国製の高性能チップを、Decode 拠点には高帯域幅チップをそれぞれ使い分けることも可能になります。PrfaaS は「接着剤」としての役割を果たし、異なるブランド、異なる地域のチップ同士を円滑に連携させることができます。
最後に、二次的な影響についてです。「スループットの向上」や「遅延の低減」といった用語だけ聞くとピンとこないかもしれませんが、その裏側では確実に人々の「財布」に直結する変化が起きています。
これらの指標の改善は、モデル側で見れば 1 兆パラメータモデルの処理効率が倍増し、数千万トークンに及ぶコンテキスト処理のコストが劇的に低下することを意味します。そしてユーザー側、つまり我々にとっては、API 利用料の実質的な値下げとして跳ね返ってくるのです。
総じて言えるのは、間もなくモデル業界は「単一データセンター型」から「分散型演算クラウド」へと変容を遂げるだろうということです。
月之暗面の PrfaaS は、アルゴリズムとエンジニアリングの共進化によって、普通の LAN ケーブルでさえ世界の演算資源をスケジューリング可能であることを再び実証しました。そして、モデルのサブスクリプション料金が下がることへの希望も、これまでになく大きくなったのです。
この観点から見れば、AI の真の普及はまだ始まったばかりだと言えるでしょう。
論文URL:
https://arxiv.org/pdf/2604.15039v1
——あわせて読みたい——