vLLM、怒涛の 4 連発!2026 年 3 月の大規模アップデートを完全解説

こんにちは、AI 学習を担当的老章(ラオチャン)です。

これまでにも vLLM については何度か記事を書いてきました。

今回は、2026 年 3 月に矢継ぎ早に公開された 4 つの大型アップデート、Semantic Router v0.2 AthenaNVIDIA Nemotron 3 Super の登場P-EAGLE 並列推測デコード、そしてModel Runner V2 架构の大規模リファクタリングについて詳しく見ていきましょう。今回のアップデートは、基盤エンジンから上層のオーケストレーションに至るまで、vLLM が 2026 年において大規模モデル推論の基盤としての地位を盤石のものとするための「総仕上げ」とも言える内容です。


一、Semantic Router v0.2 Athena:単なるルーティングから「システムの頭脳」へ

トップバッターを飾るのは、vLLM Semantic Router v0.2 Athena(アテナ)です。

Semantic Router についてご存知ない方のために簡単に説明すると、これはモデルそのものではなく、「このリクエストをどのモデルで処理すべきか」を判断するインテリジェントなルーティングレイヤーです。

v0.1 Iris から v0.2 Athena へのアップグレードは、その規模において非常に大きなものとなりました。

以下の図は Athena の全体像を示すアーキテクチャ概要で、シグナル抽出から意思決定ルーティング、そしてモデル選択までの完全なフローを確認できます。

Athena 全体アーキテクチャ
Athena 全体アーキテクチャ

1. モデルスタックの総入れ替え

Athena では、基盤部分が新しい多言語・長文脈対応モデルである mmbert-embed-32k-2d-matryoshka へと刷新されました。これは 1800 以上の言語と 32K トークンのコンテキストウィンドウをサポートします。その上には、意図分類、ジェイルブレイク検出、PII 検出、ファクトチェック、フィードバック検出をカバーする分類器ファミリー mom-multilingual-class が構築されています。

下の図は、新しいクロスモーダル埋め込みモデル multi-modal-embed-small を示しており、テキスト、画像、音声をすべて同一の 384 次元のセマンティックスペースにマッピングすることができます。

クロスモーダル埋め込みモデル
クロスモーダル埋め込みモデル

パフォーマンスの向上は劇的です。AMD MI300X 上でのエンドツーエンドテストの結果は以下の通りです。

リクエストサイズONNX+GPU 平均レイテンシONNX+CPU 平均レイテンシCandle+CPU 平均レイテンシ
~500 tokens22 ms853 ms1053 ms
~2000 tokens31 ms1814 ms1805 ms
~8000 tokens128 ms4796 ms1830 ms

ONNX+GPU は CPU ベースのソリューションと比較して 40 倍も高速でした。これは理論上の数値ではなく、Envoy→ext_proc→SR という実際のルーティングパスを通過した実測値です。

下の図は Athena v0.2 のモデルスタック全体像で、新旧の基盤がどのように置き換わったかを直感的に理解できます。

Athena モデルスタック全体像
Athena モデルスタック全体像

2. ClawOS:ルーターを AI 用 OS へ

これが Athena における最も野心的な試みです。ClawOS により、Semantic Router は複数の OpenClaw エージェントチームをオーケストレーションできるオペレーティングレイヤーへと進化しました。自然言語での対話を通じてチームを作成し、ワーカーを割り当て、リアルタイムに調整することが可能になります。まるで AI エージェントのための「OS」を構築したかのようです。

下の図は ClawOS ダッシュボードのマルチエージェントオーケストレーション画面です。チーム管理、ワーカーの割り当て、リアルタイムチャット連携までの完全なインターフェースを確認できます。

ClawOS マルチエージェントオーケストレーション画面
ClawOS マルチエージェントオーケストレーション画面

まだ実験的な段階ではありますが、その方向性は明確です。これからの AI 推論は単に「モデルを選ぶ」ことではなく、「チームを管理する」ことになるのです。

3. 設定不要でスタート+ダッシュボード駆動

これまでの Semantic Router では、最初に大量の YAML 設定を書く必要がありました。しかし、今やコマンド 1 行で完了します。

curl -fsSL https://vllm-semantic-router.com/install.sh | bash

インストール後、自動的にダッシュボードが起動し、そこでモデルを設定するだけで利用可能です。下の図は、新しいダッシュボードの初回起動時のガイド画面です。

ダッシュボード初回起動ガイド
ダッシュボード初回起動ガイド

現在のダッシュボードでは、単なるルーティング設定だけでなく、トポロジの可視化、ルーティング決定の再生、評価テストの実行も可能です。まさに「システムの頭脳」と言えるでしょう。

システムの頭脳としてのダッシュボード
システムの頭脳としてのダッシュボード

4. AMD ROCm にも対応!

AMD ユーザーもようやく二等市民扱いから脱却できます。

Athena では ROCm が正式なデプロイパスとしてサポートされました。

vllm-sr serve --platform amd

下の図は、GPU ダイレクトパススルー、ONNX 加速、CK Flash Attention サポートなどを含む AMD ROCm のエンドツーエンドデプロイパスを示しています。

AMD ROCm デプロイ構成
AMD ROCm デプロイ構成

老章のコメント:Semantic Router の野望は拡大する一方です。v0.1 での「リクエストルーティング」から v0.2 での「システムの頭脳」へと進化し、vLLM はもはや単なる推論エンジンではなく、上層のオーケストレーションをも担う存在になりつつあります。本番環境で複数のモデルを運用する必要がある場合、この技術は注目に値するでしょう。


二、NVIDIA Nemotron 3 Super:マルチエージェントのために生まれた MoE モデル

NVIDIA が本気を出した、新モデルが OpenClaw 成功率ランキングでトップ 5 入り、現在無料で利用可能

NVIDIA と vLLM は提携し、Nemotron 3 Super の公式サポートを開始しました。まずは驚異的な数値をご覧ください。

  • 総パラメータ数:1200 億
  • アクティブパラメータ数:わずか 120 億(MoE アーキテクチャ。Latent MoE により、4 つの専門家の推論コストが 1 つ分と同等に)
  • コンテキストウィンドウ:100 万トークン
  • 対応 GPU:B200、H100、DGX Spark、RTX 6000

下の図は Artificial Analysis による評価比較で、Nemotron 3 Super は同クラスのオープンソースモデルの中で、知能レベルとオープン性の両方でリードしています。

Nemotron 3 Super Artificial Analysis 比較
Nemotron 3 Super Artificial Analysis 比較

なぜ「マルチエージェントのために生まれた」と言えるのか?

マルチエージェントシステムには、これまで解決が難しかった 2 つの大きな課題がありました。

  1. コンテキストの爆発:複数のエージェント間で履歴、ツール出力、推論ステップが絶え間なく送受信され、トークン数が雪だるま式に増大します。Nemotron 3 Super は 100 万トークンという巨大なコンテキストウィンドウでこれを強引に解決します。過去の履歴をすべて保持できるため、目標がブレることも激減します。

  2. 推論コストの重税:サブタスクごとに大規模モデルを使用すると、遅く高価になります。MoE アーキテクチャでは、アクティブになるパラメータは 120 億のみ。スループットは前世代比で最大 5 倍向上し、Blackwell 上での NVFP4 精度は H100 の FP8 よりも 4 倍高速でありながら、精度の劣化はほぼありません。

下の図は、Nemotron 3 Super が効率性と精度の両面でいかに優位にあるかを示しています。

Nemotron 3 Super 効率性 vs 精度
Nemotron 3 Super 効率性 vs 精度

クイックスタート

vLLM をインストール後、以下のコマンド 1 行でデプロイ可能です。

pip install vllm==0.17.1

# BF16 精度、4 枚の H100 構成
vllm serve nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16 \ --kv-cache-dtype fp8 \ --tensor-parallel-size 4 \ --trust-remote-code \ --served-model-name nemotron \ --enable-auto-tool-choice \ --tool-call-parser qwen3_coder \ --reasoning-parser nemotron_v3

その後は、標準的な OpenAI SDK を使用して呼び出せます。

from openai import OpenAI
client = OpenAI(base_url="http://127.0.0.1:5000/v1", api_key="null")

resp = client.chat.completions.create(
    model="nemotron",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Give me 3 bullet points about vLLM"}
    ],
    temperature=0.7,
    max_tokens=256,
)
print("Reasoning:", resp.choices[0].message.reasoning_content, 
"\nContent:", resp.choices[0].message.content)

特筆すべきは、Nemotron 3 Super がThinking Budget(思考予算)をサポートしている点です。推論時のトークン消費量を細かく制御でき、すべてのタスクに深い思考が必要なわけではないため、単純なタスクでは節約して使用できます。

老章のコメント:Nemotron 3 Super の位置づけは非常に的確です。一点突破の最強性能を追求するのではなく、「効率×精度」のパレート最適解を見つけることに注力しています。1200 億のパラメータを持ちながらアクティブなのは 120 億のみ。これに 100 万トークンのコンテキストを組み合わせることで、マルチエージェントワークフローのためにカスタマイズされたモデルとなっています。エージェントのオーケストレーションやツール呼び出しパイプラインを構築しているなら、このモデルは真剣に評価する価値があるでしょう。


三、P-EAGLE:推測デコードをさらに高速化、1 回の前方伝播ですべてのドラフトトークンを生成

推測デコード(Speculative Decoding)は現在、大規模モデルの推論を高速化する最も効果的な技術の一つです。EAGLE シリーズはこの分野における SOTA(State of the Art)な手法であり、vLLM も深く統合を進めてきました。しかし、EAGLE には避けられないボトルネックがありました。それはドラフト生成が自己回帰的であるという点です。K 個のトークンを予測するには、K 回の前方伝播を実行する必要があります。より多くの予測を行おうとすると、ドラフトモデル自体のレイテンシが新たなボトルネックとなってしまうのです。

まずはその効果をご覧ください。下の図は NVIDIA B200 上での P-EAGLE の SPEED-BENCH によるパフォーマンス比較です。その差は歴然としています。

P-EAGLE SPEED-BENCH パフォーマンス比較
P-EAGLE SPEED-BENCH パフォーマンス比較

P-EAGLE の解決策は極めてシンプルです。自己回帰的なドラフト生成を並列生成に変更し、1 回の前方伝播で K 個すべてのドラフトトークンを出力するのです。

どのように実現したのか?

下の図は P-EAGLE のアーキテクチャ原理図です。左側が従来の EAGLE による自己回帰方式、右側が P-EAGLE による並列方式を示しています。

P-EAGLE アーキテクチャ原理
P-EAGLE アーキテクチャ原理

P-EAGLE はプリフィル段階では通常の EAGLE と同様に、ターゲットモデルの隠れ状態をキャプチャします。重要なのは次のステップ、ドラフト生成段階です。

  • 次のトークン(NTP)については、入力標準 EAGLE と完全に同一です。
  • 2 番目から K 番目の位置(MTP)については、トークン埋め込みと隠れ状態がまだ存在しません。そこで P-EAGLE は、共有マスクトークン埋め込みと共有隠れ状態 h_shared という 2 つの学習可能パラメータをプレースホルダーとして導入します。

これにより、すべての位置が N 層の Transformer を一度に通過し、すべてのドラフトトークンを一度に出力することが可能になります。

長系列トレーニングの課題

P-EAGLE のトレーニングにおける最大の課題はメモリです。下の図は UltraChat データセットにおける GPT-OSS 120B のシーケンス長さの分布を示しています。中央値は 3891 トークン、P90 は 10800 トークンに達しています。

シーケンス長さの分布
シーケンス長さの分布

長さ N のシーケンス上で K 個の並列グループをトレーニングする場合、N×K 個の位置が発生します。N=8192、K=8 の場合、1 つのトレーニングサンプルで 65536 個の位置となり、アテンション行列だけで 8GB を消費します。P-EAGLE はシーケンスパーティショニングアルゴリズムによってこの問題を解決しました。

実測パフォーマンス

3 つのベンチマークテストの詳細結果は以下の通りです。

MT-Bench における異なる並行処理数でのスループット比較。P-EAGLE はすべての並行度でリードしています。

MT-Bench スループット比較
MT-Bench スループット比較

HumanEval コード生成タスク。P-EAGLE の優位性は高並行時にも明確です。

HumanEval スループット比較
HumanEval スループット比較

SPEED-Bench 長文コード生成タスク。P-EAGLE は c=1 の場合、最大 1.69 倍の高速化を達成しました。

Speed-Bench スループット比較
Speed-Bench スループット比較

非常に興味深い発見として、P-EAGLE は K=7 でピークパフォーマンスに達するのに対し、EAGLE-3 は K=3 で頭打ちになりました。並列生成であれば K が何であれ前方伝播は 1 回で済むため、推測が深ければ深いほど P-EAGLE の優位性は大きくなるのです。

受理長(AL)の比較もこれを裏付けています。K=7 の場合:

  • HumanEval:P-EAGLE 3.94 vs EAGLE-3 3.03(30% 高)
  • SPEED-Bench:3.38 vs 2.59(31% 高)
  • MT-Bench:3.70 vs 3.27(13% 高)

使用方法

手順は 2 つだけです。

  1. 並列版ドラフトヘッドをダウンロード(またはトレーニング)します。HuggingFace には GPT-OSS 120B、GPT-OSS 20B、Qwen3-Coder 30B の事前学習済みバージョンが公開されています。
  2. 設定パラメータを 1 つ追加します。
vllm serve openai/gpt-oss-20b \
  --speculative-config '{"method": "eagle3", "model": "amazon/gpt-oss-20b-p-eagle", "num_speculative_tokens": 5, "parallel_drafting": true}'

これだけです。"parallel_drafting": true の 1 行を追加するだけで完了です。

老章のコメント:P-EAGLE の発想は非常にエレガントです。ドラフトモデルのシーケンス生成がボトルネックなら、シーケンス生成を辞めればいい。学習可能なプレースホルダーと並列 Transformer を使って一度に片付けてしまうのです。ドラフトヘッドの再トレーニングが必要という代償はありますが、Amazon が複数の事前学習済みバージョンを公開してくれています。本番環境で極限のレイテンシ削減を目指す場合、このアップグレードは試す価値が十分にあります。


四、Model Runner V2:vLLM コアエンジンの完全なるリファクタリング

これまでの 3 つのアップデートが「vLLM の上に乗っかる機能」だとすれば、Model Runner V2(MRV2)はvLLM コアエンジンの完全なる書き直しです。

これは昨年の vLLM V1 公開以来、最大のアーキテクチャアップグレードとなります。公式には「V1 のモデルランナーには膨大な技術的負債が蓄積していた」と断言しています。永続的な状態とモデル入力の結合、後付けのアスケジュール、CPU 側で GPU が行うべき処理まで行っていたこと、そしてコードの保守性の低下などが問題視されていました。

MRV2 はモジュール性、GPU ネイティブ、非同期優先という 3 つのコア原則の元に再構築されました。

1. より良い永続的バッチ処理と GPU ネイティブな入力準備

V1 では永続的な状態を直接モデル入力として扱っていたため、レイアウトの制約や複雑な状態管理を引き起こしていました。下の図は、V1 においてリクエスト順序とブロックテーブルのレイアウトが密結合していた問題を示しています。

V1 永続的バッチ処理設計
V1 永続的バッチ処理設計

MRV2 では永続的なリクエスト状態と各ステップの入力テンソルを分離しました。各アクティブなリクエストは固定サイズのステートテーブル内で安定した行を持ち、各ステップで現在の順序に従ってそこから入力を抽出します。下の図は、新しい設計がギャザー操作によっていかにして正しくソートされた入力を生成するかを明確に示しています。

MRV2 永続的バッチ処理設計
MRV2 永続的バッチ処理設計

さらに重要なのは、入力準備が GPU 上へ移行し、Triton カーネルによって実行されるようになった点です。input_idspositionsquery_start_locseq_lens といったテンソルは、もはや CPU を経由せず、GPU 上で直接構築されます。

2. 非同期優先設計

V1 の非同期スケジューリングは「後付け」のものでしたが、MRV2 ではこれを中核的な設計制約として位置づけ、CPU と GPU の間の同期をゼロにすることを目指しています。

下の図は標準的な非同期スケジューリングのタイムラインです。CPU がステップ N+1 の準備をしている間に、GPU はステップ N を実行します。

非同期スケジューリングのタイムライン
非同期スケジューリングのタイムライン

最も直接的なメリットは、非同期スケジューリングと推測デコードがクリーンに共存できるようになったことです。下の図は、MRV2 が GPU 上での入力準備によってリジェクションサンプリングの結果を直接消費し、すべての同期ポイントを排除する方法を示しています。

MRV2 推測デコードの非同期最適化
MRV2 推測デコードの非同期最適化

3. Triton ネイティブなサンプラー

MRV2 ではサンプリングロジックを書き直しました。

  • Gumbel-Max サンプリングカーネルにより、明示的な softmax 計算を回避
  • より効率的な top-k logprobs。logits で top-k を特定してから logprobs を計算
  • メモリ効率の良いプロンプト logprobs。単一プロンプト内でのチャンク処理をサポート
  • より良い推測デコードとの互換性

4. 強化されたモジュール性

V1 の gpu_model_runner.py6700 行にまで膨れ上がっていました。MRV2 では ModelState という抽象インターフェースを導入しました。

class ModelState(ABC):
    def add_request(self, ...):
    def remove_request(self, ...):
    def get_mm_embeddings(self, ...):
    def prepare_inputs(self, ...):
    def prepare_attn(self, ...):
    def prepare_dummy_inputs(self, ...):
    ...

これにより、モデル固有のロジック(マルチモーダル埋め込み、追加入力、アテンションメタデータ)と汎用的な実行者パスが分離されました。最大のファイルでも1300 行以内に収まっています。

これは DeepSeek、Qwen、Kimi といった異なるモデルシリーズの開発者にとって極めて重要です。自社のモデルの ModelState のみに関心を持てばよく、数千行もの無関係なコードを読む必要がなくなったからです。

パフォーマンス実測

小規模モデル Qwen3-0.6B を GB200 で実行(CPU オーバーヘッドの影響を強調するためあえて小規模モデルを選択)。スループットは 16K から 25K へと急上昇しました。

MRV2 スループット 56.2% 向上
MRV2 スループット 56.2% 向上

推測デコードシナリオ:4 枚の GB200 + GLM-4.7-FP8 + MTP=1 の場合、TPOT が 6.3% 低下。

MRV2 TPOT 比較
MRV2 TPOT 比較

この向上はゼロ同期設計によるものです。推測デコードを有効にすると、CPU-GPU 間の同期ポイントが完全に排除されます。

今すぐ試す

export VLLM_USE_V2_MODEL_RUNNER=1
# その後、コードを変更することなく通常通り vLLM を使用可能

ただし、MRV2 は現在も実験的機能です。v0.18.0 ではいくつかの機能が未サポートです(線形アテンションモデル(Qwen3.5、Nemotron 3 Super)、Eagle/Eagle3/MTP 以外の推測デコード手法、LoRA など)。

老章のコメント:MRV2 は「骨を砕く」ような大規模なリファクタリングですが、その方向性は完全に正しいものです。入力準備の GPU 化、ゼロ同期非同期スケジューリングの実現、ModelState による分離の導入。これらの改善は「花を添える」ようなものではなく、将来の異種混合モデル、推測デコード、マルチモーダルが併存する複雑なシナリオのための基盤を築くものです。56% のスループット向上は序の口に過ぎず、より多くの機能が MRV2 へ移行するにつれ、さらに恩恵が解放されていくでしょう。


まとめ:vLLM 2026 年 3 月の全体像

アップデート公開日一言で要約
Semantic Router v0.2 Athena3 月 10 日単なるルーターからマルチモデルオーケストレーションの「システムの頭脳」へ進化
Nemotron 3 Super3 月 11 日総計 1200 億/アクティブ 120 億。マルチエージェントのために設計された MoE モデル
P-EAGLE3 月 13 日1 回の前方伝播ですべてのドラフトトークンを生成。推測デコードにもはやシーケンスのボトルネックは存在しない
Model Runner V23 月 24 日vLLM コアエンジンの完全なる再構築。GPU ネイティブ、ゼロ同期、強力なモジュール性

この 4 連発を総合的に見ると、vLLM の戦略的意図は極めて明確です。

  • 基盤:MRV2 によるエンジン基盤の再構築。より複雑な推論ニーズへの準備。
  • 加速:P-EAGLE による推測デコードという重要最適化分野での限界突破。
  • モデル:Nemotron 3 Super による効率的 MoE モデルのエコシステム補完。
  • 上層:Semantic Router Athena によるマルチモデルオーケストレーションとエージェントスケジューリングの開始。

「推論エンジン」から「推論プラットフォーム」へ。vLLM はツールからエコシステムへの飛躍を遂げようとしています。

関連リンク:

#vLLM #大規模モデル推論 #推測デコード #Nemotron #SemanticRouter

作成には多大な労力を要しました。この記事が少しでもお役に立てたなら、フォロー、高評価、シェア、そして「あとで読む」の 3 つのアクションをいただけますと幸いです。さらにスターマークもつけていただけると、筆者としてこれ以上の喜びはありません。次回の記事でお会いしましょう!

画像

分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.