画像はAI生成
文:暁静
編集:徐青陽
日本時間5月20日未明、Google CEOのサンダー・ピチャイは、Google I/O 2026のステージ上で試算を披露した。Googleの大口顧客は1日あたり約1兆トークンを処理しており、そのワークロードの80%を他の最先端モデルからGoogleの新モデル「Gemini 3.5 Flash」に切り替えると、年間10億ドル以上のコスト削減になるという。
2026年のGoogle I/Oのメインテーマは、相変わらずAIエージェントだ。エージェントプラットフォーム「Antigravity」から、消費者向けエージェント「Spark」、検索エージェントに至るまで、Googleはエージェントをフルスタックの能力として提供しようとしている。
2時間に及ぶ基調講演で、Googleは次世代「Gemini 3.5」シリーズモデル、全モダリティ世界モデル「Gemini Omni」、第8世代TPUデュアルチップアーキテクチャ、そしてコーディングツールからエージェント管理プラットフォームへと進化した「Antigravity 2.0」を発表した。
同時に、新たな大きな流れもより鮮明になった。エージェントAIの時代は中盤に差し掛かり、最先端モデルの主戦場は、「最強で最も賢い」モデルを競う段階から、エージェントの運用コストを企業が大規模導入に踏み切れる水準まで引き下げる段階へと移行しつつある。
01 最前線の知能、極致の速度、そして半額?
Googleは今回、Gemini 3.5シリーズモデルを発表した。先陣を切ったのは、発表当日に利用可能となった「Gemini 3.5 Flash」だ。
過去数年間、企業は生成AIの活用において、悩ましい選択を迫られてきた。最も高性能なモデルは、通常、サイズが大きく速度も遅く、クエリコストも高かった。一方で、より高速で安価なモデルは、往々にして精度を犠牲にしていた。
Gemini 3.5 Flashは、この状況を変えると謳っている。
ピチャイCEOは、これをGoogle社内における「ゲームチェンジャー」と表現し、使うのが「信じられないほど快適」だと述べた。
彼は直感的な比較を示した。Gemini 3.5 Flashの総合的なパフォーマンスは、4~5ヶ月前までGoogleのトップフラッグシップだったGemini 3.1 Proを全面的に凌駕しているという。ピチャイの弁だ。「Gemini 3.5 Flashは、Gemini 3.1 Proよりも優れています。その性能は最前線モデルの約9割に達し、速度は4倍、Antigravityプラットフォーム上では最大12倍にもなります。一方、コストは従来の3分の1から半分です。」
毎秒の出力トークン数において、Gemini 3.5 Flashは、他の同クラスの最前線モデルの4倍に達する。Google DeepMindのCTOでGoogleチーフAIアーキテクトのコライ・カヴクジュオール氏は、最適化版であれば同品質で最大12倍の速度が可能であり、このバージョンは米国時間5月19日よりGoogleのエージェント開発プラットフォーム「Antigravity」で公開されたと補足した。
一連の高難度テストにおいて、Gemini 3.5 Flashは強力なエージェント能力とプログラミング能力を示した。Terminal-Bench 2.1テストで76.2%、GDPval-AAで1656 Elo、MCP Atlasで83.6%のスコアを記録した。マルチモーダル理解も突出しており、CharXiv推論スコアは84.2%だった。
第三者機関「Artificial Analysis」の知能・速度指数グラフ上で、Gemini 3.5 Flashは、現時点で他者が到達できていない、右上の領域を占めている。
ピチャイの言葉を借りれば、これは「もはや品質と速度の二者択一をする必要はない」ことの証明である。
02 デモ:複雑タスク、マルチモーダル、インタラクション
カンファレンスでのいくつかのデモは、Gemini 3.5 Flashの複雑なタスク処理能力を直感的に示していた。
あるデモでは、Gemini 3.5 Flashは動的な基準に基づき、散らかった大量のアセットファイルを自動でリネームし分類するよう指示された。これは単純なキーワードマッチングではない。モデルは各ファイルの内容を読み取り、実際の用途を理解した上で、事前設定された分類ロジックに沿って整理する必要がある。全プロセスには複数の判断と実行ステップが含まれるが、Gemini 3.5 Flashは数秒でこれを完了した。
この能力は、アップグレードされたAntigravityプラットフォームによって駆動されており、背後では複数の協調するサブエージェントが並行処理を行っている。これまで、この種の作業は開発者がスクリプト作成に数日を費やすか、監査担当者が手作業で整理するのに数週間を要する可能性があった。
別のデモでは、Gemini 3.5 Flashのマルチモーダル生成能力が示された。AI Studio上で、研究者が学術論文をアップロードすると、モデルは論文の内容を読み解いた後、核となる概念を説明するインタラクティブなアニメーションを直接生成した。
図表はもはや静的なものではなく、視聴者はパラメーターをドラッグしたり、視点を切り替えたりして、データ間の動的な関係を観察できる。このテキストからインタラクティブなビジュアルコンテンツへの直接変換は、Gemini 3の基盤にあるマルチモーダル能力によるものだ。
検索に関するデモも同様に印象的だった。ある事例では、ユーザーが検索ボックスにジャイロイド構造に関する質問を入力した。Gemini 3.5 Flashによって強化されたエージェントのプログラミング能力により、検索結果は従来の10個の青色のリンクではなく、インタラクティブな可視化ページになった。
ユーザーはページ上で3次元構造を回転させたり、異なる断面の形状を確認したりでき、全プロセスで他のウェブサイトに移動する必要はない。Googleの検索事業を統括するリズ・リード氏は、この新しい検索ボックスは「私たちの象徴的な検索ボックスが初めて登場して以来の最大のアップグレード」だと述べた。
03 1,900億ドルの設備投資と、企業に10億ドルを節約させるモデル
こうした能力を基盤として、AIインフラに巨額を投じている企業にとって、Gemini 3.5 Flashは最も直接的な影響をもたらす可能性がある。
ピチャイ氏は、多くの企業がすでに年間のトークン予算を使い果たしていると指摘し、「しかも今はまだ5月を過ぎたばかりだ」と述べた。彼はGemini 3.5 Flashを、AIの大規模展開においてコストが制御不能に陥っている企業にとっての「財政上の救命索」と位置づけている。
エージェントワークフローは特にトークンを消費する。GoogleのモデルAPIは毎分約190億トークンを処理し、自社製品では毎月3,200兆トークン以上を処理しており、ここ1年で7倍に成長した。2年前のI/Oでは、この数字はまだ毎月9.7兆トークンに過ぎなかった。
このような背景から、Gemini 3.5 Flashの価格は、同クラスの最先端モデルの半分未満に設定されている。ピチャイ氏は試算を明かした。Google Cloud上で1日あたり約1兆トークンを処理するトップクライアントの場合、ワークロードの80%をFlashと最先端モデルの組み合わせに移行すれば、年間10億ドル以上のコストを節約できるという。この数字は、企業の購買決定やプロジェクトの投資利益率(ROI)の計算方法を変える可能性がある。
Gemini 3.5 Flashのコスト優位性の基盤は、Googleのインフラ投資にある。ピチャイCEOによれば、Googleの2026年の設備投資は1,800億ドルから1,900億ドルに達する見込みで、これは4年前の310億ドルの約6倍にあたる。
重要な投資分野の一つがカスタムチップだ。第8世代TPUは、トレーニング用(TPU v8o)と推論用(TPU v8i)に特化したデュアルチップアーキテクチャを初めて採用した。推論に最適化されたTPU v8iにより、Googleは汎用GPUに依存する競合他社よりも低コストでモデルを実行でき、その削減分は顧客に還元される。ピチャイ氏は、「これは、数カ月ではなく数週間で、より大規模で高能力なモデルをトレーニングできることを意味する」と語った。
04 Gemini Spark:パーソナルAI執事
モデルが十分に高速かつ安価になると、受動的に質問に答える存在から、能動的に物事を進めるエージェントへと変貌を遂げる。Googleはその実現のため、「Gemini Spark」を発表した。
Google LabsとGeminiアプリを担当するバイスプレジデント、ジョシュ・ウッドワード氏の説明によると、Gemini SparkはGoogle Cloud上の専用仮想マシンで24時間365日稼働するAIだという。ユーザーがデバイスをオフにしても、バックグラウンドで作業を継続できる。Gemini Sparkは、Gmail、ドキュメント、スプレッドシート、スライドと深く統合されている。
ウッドワード氏は次のように説明する。「これを使うと、まるで自分が後ろに物を放り投げ、Sparkがそれを受け止めて仕事を仕上げてくれるような感覚を覚えます。」
Sparkが具体的に何ができるかについて、ウッドワード氏はテスターによるいくつかの利用シーンを明らかにした。パーティーの計画、学校のスケジュール管理、受信箱の問題の監視などだ。
安全性の面では、Gemini Sparkはリスクの高い操作を実行する前に、ユーザーの明示的な承認を必要とする。決済行為については、Googleはエージェント決済プロトコルを導入し、承認するブランドの設定、利用上限額の設定、許可する加盟店の限定など、厳格な利用範囲の設定を可能にする。Googleは今年夏までに接続機能を拡張し、Gemini SparkがChromeブラウザを通じて、より多くのサードパーティ製アプリやウェブサイトを操作できるようにする計画だ。
信頼できるテスターの一団が今週、アクセス権を取得した。来週、Gemini Sparkは米国の「Google AI Ultra」サブスクリプションユーザー向けにベータ版が提供される。AI Ultraは、Googleが同時に発表した月額100ドルの新サブスクリプションプランで、開発者、技術責任者、上級クリエイターを対象としており、Antigravityへの優先アクセス、より高い利用制限、Omni Flashへのバンドルアクセスを提供する。
Gemini Sparkを中心として、Googleの一般消費者向けの布石も存在する。
まずユーザー規模を見てみよう。Geminiアプリの月間アクティブユーザーは、1年前の4億人から9億人以上に増加した。検索における「AIモード」は、開始からわずか1年で月間アクティブユーザーが10億人を突破し、四半期ごとのクエリ数は倍増している。
これと同時に、Googleは2つの新サービスも発表した。一つは、Webを24時間監視する情報エージェントで、ユーザーが関心を持つ価格、株価、トピックの変動を能動的に追跡し、適時に通知する。もう一つは、GoogleウォレットをベースにしたAIユニバーサルショッピングカートで、異なるECサイトを横断した統一管理と決済をサポートし、個別にログインしたり個別に支払ったりする手間を省く。
05 Gemini Omni:新たな種族
Gemini 3.5 FlashやGemini Sparkと共に登場したのが、「Gemini Omni」だ。Googleにとって初の真のネイティブ・マルチモーダルモデルとなる。
カヴクジュオールCTOは、これを既存の動画生成モデル「Veo」と明確に区別した。「Veoはテキストから動画へのモデルですが、Gemini Omniは真のマルチモーダル入力・マルチモーダル出力モデルです。」Gemini Omniは、テキスト、画像、音声、動画の任意の組み合わせを入力として受け付け、同様のモダリティで出力を生成できる。すべての処理は、複数のシステムを寄せ集めるのではなく、単一の統一されたモデル内で完結する。
ユーザーは対話を通じて、動画を段階的に編集・生成できる。各指示は前の指示に基づいており、動画は対話の進行につれて一貫して変化していく。Google幹部によるデモンストレーションでは、いくつかの具体的な編集シナリオが示された。
ユーザーが屋外サイクリングの動画をアップロードし、「背景を雪景色に変えて」と指示すると、Gemini Omniはサイクリストと自転車の動きの軌跡を維持したまま、環境全体を置き換えた。続いてユーザーが「側面からの追跡ショットに変えて」と言うと、画面のカメラアングルがそれに合わせて調整された。最後にユーザーが「このルートを説明するナレーションを追加して」と要求すると、モデルは音楽と解説を生成した。全プロセスが同じ会話スレッド内で完了し、ファイルの書き出し、ツールの切り替え、再アップロードは不要だ。
カヴクジュオール氏は、さらに広範な応用の可能性についても言及した。「何かを探索しているときに、これはチュートリアルのような能力を非常に上手く構築できると想像してみてください。」Googleは物理効果の改善を特に強調した。重力、運動エネルギー、流体力学といった、動画が実写かAI生成かを決定づける細部の数々である。
OpenAIが年初に計算リソース確保のため動画生成ツール「Sora」を諦めたという背景の中、このタイミングでGoogleがGemini Omniを発表したのは、自社のインフラストラクチャの実力を公に誇示するものだ。カヴクジュオール氏はさらに、チームが過去にエージェントを使ってゼロから動作可能なOS(名称は非公開)を構築させ、Gemini 3.5 Flashの能力の限界をテストしたと明かした。
コンテンツの安全性に関しては、Gemini Omniが生成するすべてのコンテンツに、GoogleのSynthIDデジタル透かしが付与され、C2PAコンテンツ来歴も拡張中である。Antigravityプラットフォームでは、AIコンテンツ検出APIが公開された。Googleは、OpenAI、Kakao、ElevenLabsもSynthIDを採用すると発表した。厳格なコンプライアンスが求められる企業にとって、このツール群は追跡可能な監査証跡を提供する。
Gemini Omniは、本日より米国のGemini有料ユーザーに提供され、今後数週間でVertex AI APIを通じて開発者に公開される。また、Googleは「パーソナルアバター」プログラムも発表し、クリエイターが短い動画を録画し、生成コンテンツ内で自分の声や肖像を使用することを許可できるようにした。Google社員が同日に投稿したI/O関連の投稿では、AI生成された彼らの肖像がデモとして使用されていた。
06 Antigravity 2.0:自律AIエージェントチームの開発・管理プラットフォーム
モデルには、それを動かすプラットフォームが必要だ。それに合わせて、Googleは「Antigravity 2.0」を同時発表した。わずか半年前には単なるコーディング環境に過ぎなかったものが、今では「自律AIエージェントチームを開発し管理するためのプラットフォーム」へと変貌を遂げた。
カヴクジュオールCTOは、チームが「私たちのエージェント開発プラットフォームGoogle Antigravityと共にGemini 3.5 Flashを開発した」と指摘した。Flashの速度、ツール使用、長文コンテキスト推論、コード生成能力は、すべて開発者がプラットフォーム上で行うワークロードに特化して最適化されている。
Antigravityは、スタンドアロンのデスクトップアプリケーションとして提供され、コマンドラインやSDKからも利用可能だ。開発者は複数のエージェントを同時にスケジューリングできる。すなわち、一つはウェブサイトのコードを書き、もう一つはブランド素材を生成し、三つ目は製品アーキテクチャを計画する、といった具合にだ。これらのエージェントは並行して作業し、統合管理される。
同時に発表されたのが、「マネージドエージェント」と「CodeMender」だ。マネージドエージェントは、一回のAPI呼び出しで隔離されたLinux環境で起動し、推論、ツールの使用、コードの実行を行うことができる。CodeMenderはセキュリティエージェントであり、Geminiの高度な推論能力を活用して、重要なコードの脆弱性を自動的に発見し修正する。カヴクジュオール氏は、エージェントシステムが書くコードが増え続ける中で、この種の能力は不可欠だと考えている。
これらすべてを支えているのが、データのフライホイールだ。今年3月、開発者がAntigravity上で1日に処理するトークン数は約0.5兆だった。5月中旬までに、この数字は3兆を超え、約10週間で6倍に急増した。ピチャイ氏によると、利用量は「ほぼ数週間ごとに」倍増しているという。
フライホイールのロジックは明確だ。エンジニアが使えば使うほど、モデルチームはより多くのリアルなシグナルを収集できる。これらのシグナルはフィードバックとしてモデルの改良に活かされ、モデルをより有用にし、ひいてはより多くの人々の利用を促進する。ピチャイ氏はこれを、「3.5シリーズモデルを継続的に改善することを可能にする強力なフィードバックループ」と呼び、Googleの焦点は一貫して「モデルの知能を高め、ツール使用、指示追従、長周期タスク、エージェントデコードなど、すべての機能がうまく機能することを確実にすること」だと述べた。
07 6カ月ごとのイテレーション
Gemini 3.5 Flashは、ほんの始まりに過ぎない。
カヴクジュオール氏によると、Gemini 3.5 Proは現在社内テスト中であり、来月リリース予定だという。彼はまた、Googleの主要モデルのアップデートリズムを明らかにした。約6カ月に一度である。振り返ってみると、Gemini 3は昨年11月に、Gemini 3.5は今年5月に発表されており、このリズムは安定しつつある。バージョン番号の決定方法を問われると、彼はこう説明した。「ナンバリングの更新を決定づけるのは、実際には私たちの研究で見られる進歩と、それらの進歩がモデルにどのように体現され、影響を与えるかです。」
買い手にとって、この予測可能な高速イテレーションは、計画サイクルを変える。わずか3分の1のコストで前世代のフラッグシップを凌駕するモデルが半年ごとに登場するということは、今日逼迫しているトークン予算が、年末にはすでにかなり余裕のあるものに見えるかもしれないことを意味する。企業は技術ロードマップを策定する際、もはや静的な視点でコストパフォーマンスを評価することはできない。
もちろん、10億ドルという数字は、まだプレゼン資料上の机上の空論だ。レガシーシステム、コンプライアンス要件、組織の慣性。これらの言葉は、あらゆる技術の変遷期に登場し、往々にして、机上のコスト曲線を実運用の段階で「大幅に値引き」させる。しかしGoogleは、日々3兆トークン、しかも数週間ごとに倍増するという社内利用量をもって、どの顧客も試したことのない規模で、この賭けを自ら実践しているとも表明している。
1年後、AIは再びどのような新たな相貌を見せているのだろうか。