Googleが自ら証明：GUIは死んだ、しかし死体はまだ動いている

Google DeepMindがブラウザを公開した。Gemini 3.1 Flash-Liteを使ってウェブサイト全体をリアルタイムで生成できる。

一言入力すれば、その場でウェブページを「書き出して」くれる。

Flash-Lite Browser ホームページ

Googleは今回、一つのデモで私の以前の主張を証明してしまった。

まずはデモを見てみよう

GoogleのFlash-Lite Browserは一見普通のブラウザのように見えるが、アドレスバーが入力ボックスになっている。URLを入力する必要はなく、見たいものを直接伝えるだけでいい。

Googleのエンジニアは動画の中でこう説明している：

このブラウザで見ているものは、本物のウェブサイトではありません。すべてGemini 3.1 Flash-Liteがゼロから生成したものです。

デモでは、ユーザーが「a guide to watering my cheese plant」（モンステラの水やりガイド）と入力した。

ユーザー入力クエリ

すると……ブラウザが「生成」を始めた。

タブには「Generating...」と表示され、アドレスバーには「PlantCare > Watering Your Monstera」と表示される。1,068トークン、1.93秒で、完全な植物ケアウェブページが無から画面上に現れた。

ウェブページのリアルタイム生成中

生成されたページにはナビゲーションバー、アイコン、マルチカラムレイアウトがあり、水やりの頻度、温度要件、土壌チェックまで完備されている。

重要な詳細はここだ：

ナビゲーションの「Search」をクリックすると、その場で検索ページが生成される。しかしこの検索ボックスの背後には、本当の検索機能はない。エンジニアはこう説明する：

検索ボックスには本当の検索機能はありません。現在のページと入力されたテキストをモデルに送ると、モデルが次に何を表示すべきか理解し、完全なコードを書き直して「次のステップを想像」するのです。

つまり、ページ上のすべてのクリック、すべての入力が、モデルにページ全体のコードを再生成させるトリガーになる。

事前に生成されたデータも、履歴もない。モデルは現在のページとユーザーが相互作用する要素に基づいて、次のページがどうあるべきかを推論する。

植物検索ページ

2,122トークン、4.86秒。

完全なマルチページウェブサイトが、意図からレンダリングまで、すべてリアルタイムで。

サイト内ナビゲーションと検索

最も面白かったのは、最後のデモだ：ユーザーが「the most annoying website on the internet」（インターネット上で最も迷惑なウェブサイト）を生成させた。

最も迷惑なウェブサイト

本当に「WELCOME TO THE CHAOS」と書かれたページが生成された。赤い点線のボーダー、「CLICK ME IF YOU CAN!」と書かれた緑の大きなボタン、上部には「DON'T CLICK ANYTHING!」という紫色のバナー警告まである。

2,031トークン、5.24秒。AIらしいユーモアも備わっている。

しかも、コードをストリーミング出力することで、生成中にレンダリングが始まり、ユーザーが知覚する遅延は実際の生成時間より短くなる。

エンジニアは、より精細なUIが必要な場合はFlashやProモデルを使えばいいが、このようなリアルタイム対応のシナリオでは、Flash-Liteの速度優位性があまりにも明らかだと述べた。

Gemini チャットインターフェース生成

三層への分化

以前の記事『GUIは死ぬ、CLIこそがすべて』で、CLI-AnythingプロジェクトがいかにしてAgentにコマンドラインでデスクトップソフトウェアを操作させるかについて語った。先週は『OpenCLI：万物はCLIになりうる』で、このアプローチをウェブサイトやElectronアプリに拡張した。

この二つの記事での中核となる主張は：

GUIは本質的に翻訳層であり、人類は40年かけてコンピュータにグラフィカルインターフェースを被せたが、Agentにはこの翻訳層は全く必要ない。

Googleの今回のデモは、別の方向からこれを検証した。

証明されたのは：GUIは「事前に設計される」ことさえ必要ない。

従来のWebとは何か？開発者が事前にHTML/CSS/JavaScriptを書き、サーバーにデプロイし、ユーザーのリクエスト後に静的または動的ページを返す。

このプロセスの前提は：誰かが事前にインターフェースを設計している。

Flash-Lite Browserはこの前提を取り払った。ページはもう「サーバーから取得する」ものではなく、「目の前でその場で書かれる」ものになった。

このことをCLIの復興と一緒に見てみると、インターフェースが三層に分化していることがわかる：

インターフェースの三層分化

最下層：CLIがAgentのランタイムになる。 Agentはコマンドラインでコンピュータを操作する。テキスト入力、構造化出力、コンポーザブル、決定論的強度。これはAgentの母語だ。

中間層：プロトコルがAgentの通信標準になる。 MCPはAgentとツールを接続し、AG-UIはAgentとユーザーを接続し、A2AはAgentとAgentを接続する。プロトコルの三角形が形成されつつある。

最上層：GUIがAIの出力物になる。 インターフェースはもう人間のデザイナーが事前に描いたものではなく、AIが意図に基づいてリアルタイムで生成する。欲しいものを言えば、それを提供する。

誰がまだGUIを必要とするのか

ここで明確にしておくべきことは：GUIが本当に「死んだ」わけではない。

ただ、持ち主が変わっただけだ。

以前、GUIは人間のためのものだった。人間はボタンをクリックし、フォームに記入することでコンピュータを操作していた。今はどうか？人間はAIに自然言語で話しかけるだけでいい。

CLIはAgentが使い、GUIは逆にAIが人間に見せるものになった。

相互作用の方向の反転

この反転は、かなり興味深く、面白い。

Claude Codeで使われるAskUserQuestionのように、Agentがタスク実行中に人間の確認を必要とする場合、どうするか？テキストの質問をポップアップし、人間に入力させる。

これは本質的に極めてシンプルなGUIであり、発信者が人間からAIに変わっただけだ。

GoogleのFlash-Lite Browserはこのロジックを極限まで押し進めた：AIは単に質問をポップアップするだけでなく、完全なウェブページインターフェースを直接生成する。

植物の水やりガイドが見たいと言えば、ナビゲーション、検索、マルチカラムレイアウトを備えた完全な植物ケアウェブサイトをレンダリングする。

以前は人間がGUIを操作してコンピュータに指示していた。今はAIがGUIを生成して人間に情報を提示する。

相互作用の方向が、逆になった。

あなたのターミナルはすでにAIランタイムだ

2025年のStack Overflow開発者調査によると、78%のプロ開発者が半分以上の時間をターミナルで過ごしている。

2023年、この数字はまだ62%だった。

Claude Codeは2025年2月にリリースされ、11月までに10億ドルのARRに達した。SemiAnalysisの2026年2月のレポートによると、GitHubの公開コミットの4%がClaude Code生成だ。

Faros AIが99人のプロ開発者を調査したところ、59%がClaude Codeを使用しており、満足度は1位だった。

これらの数字の背後にあるトレンドは：ターミナルが「コマンドを実行する場所」から「仕事をAIに委任する場所」に変わっている。

IDEは「提案」のために設計されている。あなたがコードを書き、それが補完を提案する。CLI Agentは「委任」のために設計されている。要件を言えば、それが実行する。これは二つの異なるカテゴリーだ。

また、開発者がCLIを使うかGUIを使うかを決定する要因は、専門レベルではなく、タスクの種類であるという研究もある。CRUDとデバッグにはCLI、モニタリングにはWebコンソール。

言い換えれば、タスクの種類が相互作用の形式を決定し、ユーザーの好みではない。

この発見をAI時代に当てはめても、理屈は同じだ。Agentがタスクを実行するにはCLIを使う。なぜならテキストプロトコルが母語だからだ。人間に結果を提示するには？GUIを使う。人間は視覚で情報を理解する効率が最も高いからだ。

プロトコルの三角形

しかし、CLIとGUIだけでは不十分だ。Agentはツールと対話し、ユーザーと対話し、他のAgentとも対話する必要がある。これには標準プロトコルが必要だ。

現在、業界で「プロトコルの三角形」が形成されつつある：

MCP（Model Context Protocol）：Anthropicが発起し、2024年末に公開、2025年末にLinux財団に寄贈。OpenAIも正式に採用した。AgentがツールやAPIに接続する方法を解決する。

AG-UI（Agent-User Interaction Protocol）：CopilotKitが発起したオープンソースプロトコル。MicrosoftのAgent Frameworkがすでに対応、Google ADKも統合済み。週200万回以上のAgentとユーザーの相互作用。AgentがフロントエンドUIと通信する方法を解決する。

A2UI（Agent-to-UI）：Googleがオープンソース化した宣言型UI仕様。AgentがJSONを生成してインターフェースコンポーネントを記述し、クライアントがネイティブコンポーネントでレンダリングする。実行可能コードを送信せず、信頼できるコンポーネントディレクトリでインターフェースを構成するため、セキュリティが保証される。

三つのプロトコル、三つの線が、Agent世界のインフラを構築している。

Flash-Lite Browserが示すリアルタイムUI生成は、本質的にA2UIのアプローチの極端なデモンストレーションだ：Agentはインターフェースを記述するだけでなく、完全なHTML/CSS/JavaScriptを直接書く。

まだ信頼性に欠ける

もちろん、現時点ではまだ概念的であり、信頼性に欠ける。

The DecoderはFlash-Lite Browserについてこう評価している：

結果は不安定で、内容はすぐに主題から逸れて意味不明になる。

結局のところ、LLMに完全なウェブページをリアルタイムで生成させるのだから、毎回結果が異なる可能性がある。同じページにナビゲートしても、前回は3カラムレイアウトだったのが、今回は2カラムになるかもしれない。同じキーワードで検索しても、返される内容は天と地ほど違うかもしれない。

ある人は「model-generated UI in production? the debugging stories alone will be legendary」（AI生成UIを本番環境に？デバッグの話だけで伝説になる）と皮肉った。

また別の人は「what phishing pages? uncatchable?」（フィッシングページは？捕まえようがないのでは？）と指摘した。

確かに、ウェブページのコンテンツが完全にAI生成になると、従来のURL検証、証明書チェック、ドメインブラックリスト……

これらのセキュリティメカニズムが、すべて無効になる。

Flash-Liteの速度は毎秒360+トークン、Gemini 2.5 Flashより2.5倍速い。価格は安く、入力0.25ドル/100万トークン、出力1.50ドル/100万トークン。

しかし、「速い」と「安い」は「信頼できる」とイコールではない。

少なくとも現段階では、リアルタイム生成UIはプロトタイピングやアイデアの可視化に適しており、本番環境まではまだ距離がある。

第五の移行

『Karpathy：すべてのソフトウェアはAgentのために書き直される』の記事で、「四回の移行」というフレームワークを提示した：

メインフレーム時代、ソフトウェアのユーザーはオペレーターだった。

PC時代、ユーザーは一般の人になった。

モバイル時代、ユーザーはすべての人になった。

Agent時代、ユーザーはAIになった。

ソフトウェアインターフェースの五回の移行

振り返ってみると、もう一層追加すべきだと思う。

第五の移行：インターフェースのユーザーが、「人間の操作」から「AI生成」に変わる。

最初の四回の移行が変えたのは「誰がソフトウェアを使うか」だ。第五の移行が変えるのは「誰がインターフェースを作るか」だ。

以前は、デザイナーがプロトタイプを描き、フロントエンドがコードを書き、テストが検収してリリースした。一つのページが設計からリリースまで、速くて一週間、遅ければ一ヶ月。

今、AIは2,000トークン、5秒で完全なページを生成できる。

もちろん、この二つの「インターフェース」の品質は天と地ほど違う。しかし、方向は明確だ：インターフェースは「人間が事前に設計した製品」から「AIが意図に基づいてリアルタイム生成するサービス」に変わっている。

ウェブサイトはもう文書ではなく、対話だ。ブラウザはもうリーダーではなく、レンダリングエンジンだ。フロントエンドエンジニアはもうインターフェースを書く人ではなく、コンポーネントライブラリとセーフティガードを定義する人だ。

「プレハブページ」から「即時生成」への移行は、デジタル状態という概念に対する根本的な変化だ。UIが相互作用の瞬間に初めて創造されるなら、「静的ウェブサイト」という概念は、歴史的遺物になる。

意志駆動

すべての糸を繋ぎ合わせると、明確な方向が見えてくる：

インターフェースの終着点は、固定されたボタンやページではなく、意図に従って動的に生成されるものだ。

人間はAIに自然言語で話しかける。AIはCLIとAPIでタスクを実行する。AIはリアルタイム生成GUIで人間に結果を提示する。

このサイクルの中で、CLIもGUIも消滅していない。それぞれが新しい位置を見つけただけだ。

CLIはAgentに奉仕する。GUIは人間に奉仕する。自然言語が両者を繋ぐ。

Googleのこのデモはまだ荒削りだが、ある可能性を示している：もしブラウザがもうページを「取得」するのではなく、「生成」する場所になれば……

ならば、私たちが30年かけて構築したWebインフラ全体——CDNからSEO、キャッシュ戦略、レスポンシブデザインまで——

すべて考え直す必要があるのではないか？

Web全体が、「情報のアーカイブ」から、「意図のレンダラー」へと変わろうとしているのかもしれない。