Nvidia GTC 2026 キーノートレビュー

TL;DR

恒例の GTC が今年も開催され、今年は CUDA 登場からちょうど 20 周年の節目となりました。ジェン・スン氏はキーノート全体で CUDA エコシステムの振り返りを行い、その後に推論時代の到来と推論市場の持続的な成長予測について語りました。最も注目すべきハードウェア発表のセクションでは、Groq 3 LPU や Rubin シリーズ全体など、いくつかの新しい変更点が紹介されました。さらに OpenClaw および Nvidia 独自の NemoClaw の発表があり、最後は Physical AI とロボティクスについての言及で締めくくられました。以下、キーノート全体を章立てして詳しく振り返っていきます。動画の再生はこちらからご覧いただけます：《GTC 2026 Keynote》^[1]

1. CUDA 20 年

今年は CUDA が発表されてからちょうど 20 周年にあたります。

ジェン氏は 2001 年にさかのぼり、プログラマブルなピクセルシェーダーからの歩みを振り返りました。この歴史に詳しくない読者は、以前私が整理した《GPU アーキテクチャ進化史》という特集もあわせてご参照ください。

次に CUDA 関連のエコシステムがいくつか紹介されました。最初の例は RTX 関連の DLSS 5 デモです。DLSS 5 はリアルタイムニューラルレンダリングモデルを導入し、ピクセルに現実的な照明やマテリアル効果を付与します。DLSS 5 によってレンダリングと現実の溝が埋まり、ゲーム開発者はこれまでにないほどリアルなコンピュータグラフィックス、いわばハリウッド級の VFX を実現できるようになりました。

続いて、構造化データの処理に用いられる CuDF の紹介がありました。

また、非構造化データの処理には cuVS（ベクトル検索）が紹介されました。

GCP/AWS/Azure/Oracle/CoreWeave およびそれらの顧客事例を通じて、ソフトウェアスタック全体が紹介されました。主要クラウド各社には均等に光を当てる必要があります。以下、各クラウドとその代表的な顧客です。

さらに Dell と連携したオンプレミス構成の導入事例も紹介されました。

その後は複数の業界での活用事例が紹介され、特に興味深かったのは、クオンツ分野における従来の特徴量エンジニアリングから、AI モデルによる特徴因子の自動発見への移行について詳しく語られた点です。一方、通信（Telco）の説明では少し詰まる場面もありましたが、これは AI RAN の進捗が順調でないことと関係があるのでしょうか。

さらにジェン氏は「友人たち」として一連の AI ネイティブ企業を紹介。興味深いことに、中国のモデル企業からは Deepseek、Kimi、Qwen の 3 社が取り上げられましたが、すでに上場している智譜 AI や MiniMax が含まれていなかった理由が気になります。

2. 推論の時代

ジェン氏はここ 2〜3 年の代表的な転換点として、ChatGPT による LLM 時代、o1 による LRM 時代、そして Claude Code によるエージェント時代を振り返りました。また「Inference Inflection（推論の転換点）」という表現も印象的でした。今後さらに 100 倍の成長が待っているのでしょうか。

これで推論の時代が完全に到来したことが宣言された形です。2026 年の受注状況についても触れられ、株価は一時的に急騰しましたが、すぐに下落。高頻度アルゴリズム取引の影響の大きさを如実に示していました。

市場の持続的な成長も予測されています。

Blackwell でもたらされた NVL72 や nvfp4 といった変化と、推論最適化が改めて強調されました。消費電力の削減、性能向上、そして推論コストの急速な低下が挙げられています。

推論速度に関する下の図ですが、モデルに Kimi K2.5 を使用しながらも下位にランクインしているのはどういう意味でしょうか。高性能な GPU が中国向けに輸出されていないことの証左なのでしょうか。

さらに「AI ファクトリー」の概念も再度強調されました。

3. ハードウェア

ジェン氏は初期の DGX から始まり、Volta、Ampere、Hopper、Blackwell と、この 10 年間の発展を映像で振り返りながら導入部を飾りました。そして Rubin シリーズの全体像も明らかになり、今回のハイライトは Groq 3 LPU となりました。

次に Groq 3 LPU コンピュートトレイ、NVL6 スイッチトレイ、Rubin コンピュートトレイが示されました。

Groq 3 LPU については後ほど詳しく説明します。そのほか CX9+Vera で構成される BF4 ストレージサーバー、Vera CPU トレイ、CPO スイッチも紹介されました。

サーバーについてですが、当初は CX9 と Grace を統合した DPU と発表されていましたが、実物は CX9 と独立した Grace チップの組み合わせでした。最近のストレージ密度の需要や Grace の PCIe レーン数の制約から、CX9 と Vera CPU を組み合わせた構成に変更されたと見られます。しかし、通常の x86 CPU＋CX9 の構成と何が異なるのか、また Nvidia のストレージ分野での知見がまだ十分でなく、DPU によるストレージアプリケーションのサポートには課題が残っているようにも見えます。

Vera のコンピュートトレイはエージェント型ワークロード向けで、1 つのトレイに Vera プロセッサを 8 個搭載。各プロセッサは 88 コアで、8 チャネルの LPDDR5x メモリをサポートし、ソケットあたり 1.2TB/s のメモリ帯域を実現します。また、BF4-DPU を 2 枚搭載しています。

CPO スイッチの詳細については後ほど分析します。

興味深い点として、ジェン氏はケーブルトレイと液冷を組み合わせた Orben ラック構造が迅速な導入に寄与すると述べ、Ethernet 256 バージョンも用意されたと説明しました。これはスイッチトレイをイーサネットスイッチに置き換えたもので、ラック全体で 32 個の Vera コンピュートトレイ、合計 256 CPU の接続を可能にします。技術的には BF4 DPU を使用し、ケーブルトレイで接続。CX8/CX9 で導入されたマルチプレーン技術（1 つの 800Gbps ポートを 8 つの 112G ポートに分割し、8 つのスイッチトレイに接続）が採用されていると推測されます。成熟した Orben ラック構造（ただし図面間で矛盾があり、この段階では 2 つのスイッチトレイ、ロードマップでは 8 つと表示）を活用することで、複雑な光ファイバー配線を回避し、光モジュールの消費電力も抑えられます。

なお、この ETH256 はケーブルトレイを介して Vera CPU を接続するフロントエンドネットワークであり、標準的なイーサネットを使用しています。

下図左側は Vera CPU をサポートする Orben ETH256 ラックの構造で、上下に Vera コンピュートトレイを各 16 個配置。右側は BF4 ストレージ向けの Orben ラックで、バックプレーンにケーブルトレイ用のコネクタは見られず、電源インターフェースのみ確認できます。

続いて Rubin Ultra および Kyber ラックのミッドプレーンが発表されました。

Rubin Ultra のダイサイズは発表内容と一致していないように見えます。提示された 2 つのボードはデモ版で、コンピュートトレイには Rubin Ultra が 4 個、Vera CPU が 2 個、CX9 が 4 個、BF4 DPU が 1 枚、さらに NVMe スロットが 4 つ装備されていました。

コンピュートトレイは縦置きで、Kyber のミッドバックプレーンに接続されます。よく見ると、最大 18 個のコンピュートトレイを搭載可能な構造です。

最後にスイッチバックプレーンですが、こちらも垂直配置で、正交型のバックプレーンレス構造は採用されていません。

これは、前世代のケーブルトレイでは配線距離が長すぎたため、ミッドバックプレーン構造を採用してシャッフル回線を構築し、前面の 18 個のコンピュートトレイの SerDes を背面の別々のスロットにグループ接続するためです。

次に Rubin NVL72 による性能向上と、電力制約下での収益拡大が強調され、Rubin の販売促進が図られました。

さらに、消費電力の削減と推論速度の要求から Groq 買収の経緯が語られ、Groq 3 LPX による収益拡大も示されました。同一消費電力条件下では、Vera-Rubin＋Groq 3 LPX により、Rubin 単体と比べてエネルギー効率が 2 倍向上するとされています。

Rubin による Prefill、Groq 3 による Decode という構成も紹介されました。Groq 3 LPU 1 個あたりの SRAM は 500MB に増量され、帯域幅も 150TB/s に向上しています。

Groq のアーキテクチャ詳細については《NV に 200 億ドルと評価された Groq について》もご参照ください。Prefill は計算量とメモリ容量に、Decode はメモリ帯域幅にそれぞれボトルネックを持つため、Decode 側ではメモリ帯域の強化が特に重要です。Groq 3 LPU の SRAM は第 1 世代の 220MB から 500MB へ、帯域幅も 80TB/s から 150TB/s へと大幅に向上しました。ただし、現状は FP8 のみのサポートで、今後は nvfp4 に対応した Groq L35 も登場する見込みです。

ジェン氏は Rubin GPU と、8 個の Groq 3 LPU で構成されるコンピュートトレイを比較。Prefill ノードではより高い演算性能と大容量メモリを、Decode ノードではメモリ帯域の強化がそれぞれ重視される傾向が明確です。 Prefill と Decode の比較

また、従来の Rubin CPX 方式は事実上廃止された模様です。DDR 価格の高騰や、1:1 構成自体の課題が影響したと見られます。詳細は《Nvidia Rubin CPX の詳細分析》をご覧ください。Agentic LLM のワークロードを考えると、コンテキスト長が 200K を超え、将来的には 1M に達する見込みであるため、KVCache の転送にはより大きな帯域が必要となります。PCIe ベースの Rubin CPX では対応が難しい場面も出てくるでしょう。

興味深いのは、PD 分離構成において Groq をどう使うかという点で、ジェン氏は AFD（Attention-FFN Decomposition）を示しました。Rubin が Attention を、Groq 3 LPU が FFN をそれぞれ担当します。ただし、いくつか疑問点もあります。まず、EP（Expert Parallelism）のトラフィックをラック間で転送する際、どのネットワークを使うのかという問題です。スケールアウトを想定しているなら、LPX コンピュートトレイには BF4 が 1 つしかない点が気になります。次に、Groq の決定論的実行が MoE（Mixture of Experts）をどうサポートするかという点です。Rubin の Attention ノードで MoE のゲートインデックスを計算後、そのインデックスをデータパケットに記述して LPX ラック全体に 1 つだけ送信し、ラック内でディスパッチと結合を行うなら、ラック間接続の帯域要求は抑えられます。あるいは Groq 内部でマスク処理を行い、計算不要な Expert はスキップさせることも考えられます。もう一つのアプローチとして、Rubin からディスパッチし、トークンごとに該当する LPU へ直接 FFN を実行させ、LPU の外部 I/O バッファに未計算トークンを一時保存し、計算後に結合する方法もありますが、この場合ラック間の相互接続帯域はより高く必要となり、かつ LPU C2C と NVLink はプロトコルが異なるため、スケールアップ接続も存在しない点も課題です。

さらに、1T を超える大規模モデルの場合、LPX ラック 1 基（LPU 256 個）の SRAM 合計は 128GB に過ぎず、専門家パラメータ全体を格納できません（現状 Groq 3 は FP8 のみ）。したがって、AFD 構成には依然として課題が残っていると言わざるを得ません。Nvidia がこれらの問題をどう解決するのか、注目です。

Groq 3 LPX のコンピュートトレイ構造は以下の通りで、LPU C2C インターフェースを継続使用しており、NVLink や専用スイッチチップは未採用です。将来的に NVLink へ移行する過渡期と見られます。

最後に製品ラインナップの全体像が再び示され、Rubin はすでに点灯し、Microsoft へ納入されテスト中であることが明かされました。

さらにストレージの重要性が再強調され、従来の人間による CuDF/CuVS 利用から、AI 自体がストレージを活用する時代へ移行。特に KVCache の需要増や、AI 処理の高速化要請から、ストレージへの需要はさらに高まるとの見解が示されました。

次にロードマップについて言及がありました。

Rubin 世代では、NVFP4 をサポートする Groq 3.5（LP35）が Rubin Ultra と連携して早期に投入される見込みです。CX9 については、実態は 800Gbps の ASIC でありながら 1.6Tbps と表記されるなど、依然として誤解を招く表現が見られます。大きな変化として、ジェン氏は NVL576 への執念を再び示し、Oberon シャーシでは 8 ラックを並列接続する構成が計画されています。ただし、これには NVLink による光相互接続が必要となり、信頼性の確保や、故障領域拡大に伴う MTBF 低下への対策など、工学的課題は依然として残ります。ETH256 接続については、改めて強調しますが、これは Vera CPU 間をケーブルトレイで接続する標準 800Gbps イーサネットであり、中国で一般的な ETH-ScaleUP とは異なります。

Kyber 世代の ScaleUP においても 8 ラック並列接続がサポートされる見込みで、光接続の信頼性問題をどう克服するかが注目されます。Huawei の UB による数千カード規模の ScaleUP 圧力が、ジェン氏にも影響しているのでしょうか。

Feynman 世代については、3D 積層を採用すると明言されましたが、Groq LPU を積層するのではなく、カスタム HBM の積層が主目的です。また、この世代から LPU C2C は NVLink へ移行し、CPO 光相互接続による ScaleUP/ScaleOut にも全面対応する見込みです。CX10 および BF5 は 2028 年とされています。

CPO に関する私の見解は、これまでの分析と概ね一致しています。詳細は《光相互接続に関する課題について》もご参照ください。

最後に、地球上の電力不足を見据え、宇宙空間でも動作可能な耐放射線仕様の Vera/Rubin アーキテクチャの研究も進められていることが明かされました。

4. エージェント・コンピューティング

ジェン氏は「ロブスター養殖」の話題から話を始めました。

エージェント・コンピューティングは、Linux や HTTP、HTML と同様に大きな変革をもたらすとされました。この点については、献涛氏（JVS Claw 責任者、アリババクラウド端末インテリジェント計算事業部総裁）も同様の見解を示しており、20 年以上 Linux カーネルに携わってきた技術者として、OpenClaw への評価は的確です。OpenClaw の発表当初から、ロブスター（Agent）の安全な実行とネイティブな対話体験に注目しており、最近では JVS Claw も発表されました（《安全かつシンプルにロブスターを育てたい方へ：JVS Claw を選ぼう》）。ジェン氏の見解や NemoClaw の方向性は JVS Claw とほぼ一致しており、安全性と導入のしやすさを重視し、エージェント中心のエコシステム構築を強調しています。

さらに、企業 IT が SaaS から「Agent-as-a-Service」へ移行すると宣言。SaaS の終焉を告げるものなのでしょうか。

その後は Nvidia のオープンソースモデルやパートナー企業群が紹介されました。

5. ロボティクスと Physical AI

自動運転では BYD、吉利（ジーリー）、現代、日産などが RoboTaxi に参画し、Uber とも連携。ロボティクス分野では KUKA、FANUC、ABB などが参画し、多数のロボット・ドローンプラットフォームも紹介されました。これらを支えるソフトウェア・ハードウェアプラットフォーム（シミュレーションなど）も言及され、GB300 による学習、RTX6000 によるシミュレーション、Thor によるエッジ実行というハードウェアスタックが改めて強調されました。

最後の彩蛋として、エンディングのまとめミュージックビデオが紹介されました。楽曲も歌詞も優れており、一聴の価値があります。

参考資料

[1] GTC 2026 Keynote: https://www.youtube.com/watch?v=jw_o0xr8MWU&t=4438s