Google 親手證明：GUI 已死，但屍體還在動

Google DeepMind 發布了一個瀏覽器，能用 Gemini 3.1 Flash-Lite 即時生成整個網站。

你輸入一句話，它當場把網頁給你「寫」出來。

Flash-Lite Browser 首頁

Google 這次，算是用一個 demo 把我此前的觀點給坐實了。

先看 Demo

Google 的 Flash-Lite Browser 長得就像一個普通瀏覽器，但網址列變成了輸入框。你不用輸網址，而是直接告訴它你想看什麼。

Google 工程師在影片裡稱：

你在這個瀏覽器裡看到的，不是真正的網站。它是由 Gemini 3.1 Flash-Lite 從零開始生成的。

演示裡，使用者輸入了「a guide to watering my cheese plant」（龜背竹澆水指南）。

使用者輸入查詢

然後……瀏覽器開始「生成」了。

分頁上寫著「Generating...」，網址列顯示 PlantCare > Watering Your Monstera。1,068 個 token，1.93 秒，一個完整的植物護理網頁就這麼從無到有地出現在螢幕上。

網頁即時生成中

生成出來的頁面有導覽列、有圖示、有分欄版面，澆水頻率、溫度要求、土壤檢查一應俱全。

關鍵細節在於：

你點擊導覽裡的「Search」，它又會當場生成一個搜尋頁面。但這個搜尋框背後，其實沒有任何真正的搜尋功能。工程師解釋說：

搜尋框裡並沒有真正的搜尋功能。我們把當前頁面和輸入的文字一起發給模型，它理解接下來該展示什麼，然後重寫完整的程式碼來「想像」下一步。

也就是說，你在頁面上的每一次點擊、每一次輸入，都會觸發模型重新生成整個頁面的程式碼。

沒有預先產生的資料，沒有歷史紀錄，模型根據當前頁面和你互動的元素來推理下一頁該長什麼樣。

植物搜尋頁面

2,122 個 token，4.86 秒。

一個完整的多頁面網站，從意圖到渲染，全程即時。

站內導覽和搜尋

最有意思的，是最後一個 demo：使用者讓它生成「the most annoying website on the internet」（網際網路上最煩人的網站）。

最煩人的網站

它真的生成了一個寫著「WELCOME TO THE CHAOS」的頁面，紅色虛線邊框，一個綠色大按鈕寫著「CLICK ME IF YOU CAN!」，頂部還有紫色橫幅警告「DON'T CLICK ANYTHING!」。

2,031 個 token，5.24 秒。還自帶一點 AI 風格的幽默感。

而且，透過串流輸出程式碼，頁面在生成過程中就開始渲染了，使用者感知到的延遲比實際生成時間更短。

工程師也提到，如果想要更精細的 UI，可以改用 Flash 或 Pro 模型，但對於這種即時回應的場景，Flash-Lite 的速度優勢實在太明顯了。

Gemini 聊天介面生成

三層分化

之前我的文章《GUI 將死，CLI 才是一切》中聊到 CLI-Anything 專案如何讓 Agent 用命令列操控一切桌面軟體。上週又寫了《OpenCLI：萬物皆可 CLI》，把這個思路擴展到了網站和 Electron 應用程式。

這兩篇文章裡，我的核心觀點是：

GUI 本質上是一個翻譯層，人類花了 40 年給電腦套上圖形介面，但 Agent 根本不需要這層翻譯。

Google 這次的 demo，則從另一個方向驗證了這件事。

它證明的是：GUI 連「被預先設計」都不需要了。

傳統的 Web 是什麼？是開發者提前寫好 HTML/CSS/JavaScript，部署到伺服器，使用者請求後返回靜態或動態頁面。

整個過程的前提是：有人提前把介面設計好了。

而 Flash-Lite Browser 把這個前提給取消了，頁面不再是「從伺服器取回來的」，而是「在你面前現場寫出來的」。

如果把這件事和 CLI 的復興放在一起看，你會發現介面正在發生一次三層分化：

介面的三層分化

底層：CLI 成為 Agent 的執行環境。 Agent 操控電腦用命令列，文字輸入、結構化輸出、可組合、確定性強。這是 Agent 的母語。

中層：通訊協定成為 Agent 的溝通標準。 MCP 連接 Agent 和工具，AG-UI 連接 Agent 和使用者，A2A 連接 Agent 和 Agent。一整套協定三角正在成形。

表層：GUI 變成 AI 的輸出物。 介面不再是人類設計師提前畫好的，而是 AI 根據意圖即時生成的。你要什麼，它就給你什麼。

誰還需要 GUI

這裡需要說清楚的是：GUI 並沒有真正「死掉」。

它只是換了一個主人。

以前 GUI 是給人用的，人透過點擊按鈕、填寫表單來操控電腦。而現在呢？人對著 AI 說自然語言就行了。

CLI 給 Agent 用，GUI 反過來變成了 AI 給人看的東西。

互動方向反轉

這個反轉，其實蠻耐人尋味，且有意思的。

好像我們在 Claude Code 裡用的 AskUserQuestion，Agent 在執行任務的過程中如果需要人確認，它會怎麼做呢？彈一個文字提問出來，讓人類輸入回答。

這本質上就是一個極簡的 GUI，只不過發起方從人變成了 AI。

Google 的 Flash-Lite Browser 把這個邏輯推到了極致：AI 不只是彈個問題，而是直接給你生成一整個網頁介面。

你說想看植物澆水指南，它就給你渲染一個完整的植物護理網站，帶導覽、帶搜尋、帶分欄。

以前是人操作 GUI 來指揮電腦。現在是 AI 生成 GUI 來向人展示資訊。

互動方向，反過來了。

你的終端機已經是 AI 執行環境了

2025 年 Stack Overflow 開發者調查顯示，78% 的專業開發者超過一半工作時間在終端機裡度過。

2023 年這個數字還是 62%。

Claude Code 2025 年 2 月發布，到 11 月達到 10 億美元 ARR。SemiAnalysis 2026 年 2 月的報告顯示，GitHub 公開 commit 中有 4% 是 Claude Code 生成的。

Faros AI 調查了 99 名專業開發者，59% 在用 Claude Code，滿意度排第一。

這些數字背後的趨勢表明：終端機正在從「執行命令的地方」變成「你把工作委派給 AI 的地方」。

IDE 是為「建議」設計的，你寫程式碼，它給你補全。CLI Agent 是為「委託」設計的，你說需求，它去幹活。這是兩個品類。

還有研究指出，發現決定開發者用 CLI 還是 GUI 的因素，不在於專業程度，而在於任務類型。CRUD 和除錯用 CLI，監控用 Web 控制台。

換句話說，任務類型決定了互動形式，而不是使用者的偏好。

這個發現放到 AI 時代，道理是一樣的。Agent 執行任務用 CLI，因為文字協定是它的母語。向人類展示結果？那用 GUI，因為人類靠視覺理解資訊的效率最高。

協定三角

不過光有 CLI 和 GUI 還不夠。Agent 需要跟工具對話，跟使用者對話，還要跟其他 Agent 對話。這就需要一套標準協定。

現在業界裡正在形成一個「協定三角」：

MCP（Model Context Protocol）：Anthropic 發起，2024 年底發布，2025 年底捐給了 Linux 基金會。OpenAI 也已經正式採用。它解決的是 Agent 怎麼連接工具和 API 的問題。

AG-UI（Agent-User Interaction Protocol）：CopilotKit 發起的開源協定。微軟的 Agent Framework 已經相容，Google ADK 也已整合。每週超過 200 萬次 agent 與使用者的互動。它解決的是 Agent 怎麼跟前端 UI 溝通的問題。

A2UI（Agent-to-UI）：Google 開源的宣告式 UI 規範。Agent 生成 JSON 來描述介面元件，用戶端用原生元件渲染。不發送可執行程式碼，透過可信元件目錄組合介面，安全性有保障。

三個協定，三條線，搭起了 Agent 世界的基礎建設。

Flash-Lite Browser 展示的即時生成 UI，本質上就是 A2UI 思路的一個極端演示：Agent 不只是描述介面，而是直接寫出完整的 HTML/CSS/JavaScript。

不夠可靠

當然，目前還有些偏概念，還不夠可靠。

The Decoder 對 Flash-Lite Browser 的評價是：

結果並不穩定，內容很快就會偏離主題變得不知所云。

畢竟，你讓一個 LLM 即時生成完整網頁，每次生成的結果都可能不一樣。導航到同一個頁面，上次顯示的是三欄版面，這次可能變成了兩欄。搜尋同一個關鍵字，返回的內容也可能天差地遠。

有人吐槽稱「model-generated UI in production? the debugging stories alone will be legendary」（AI 生成的 UI 放到正式環境？光除錯故事就夠寫一本書了）。

還有人指出：「what phishing pages? uncatchable?」（釣魚頁面呢？這不是抓都沒法抓？）

確實，當網頁內容完全由 AI 生成，傳統的 URL 驗證、憑證檢查、網域名稱黑名單……

這些安全機制，就全都失效了。

Flash-Lite 的速度是每秒 360+ token，比 Gemini 2.5 Flash 快 2.5 倍。定價倒是不貴，輸入 $0.25/百萬 token，輸出 $1.50/百萬 token。

但「快」和「便宜」不等於「可靠」。

至少在現階段，即時生成的 UI 更適合做原型探索和想法視覺化，離正式環境還有一段不短的路。

第五次遷移

我在《Karpathy：一切軟體，都將為 Agent 重寫》的文章裡提過一個框架，叫「四次遷移」：

大型主機時代，軟體的使用者是操作員。

PC 時代，使用者變成了普通人。

行動時代，使用者變成了所有人。

Agent 時代，使用者變成了 AI。

軟體介面的五次遷移

現在回頭看，我覺得應該再加一層。

第五次遷移：介面的使用者，從「人操作」變成「AI 生成」。

前四次遷移改變的是「誰在用軟體」。第五次遷移改變的是「誰在做介面」。

以前，設計師畫原型，前端寫程式碼，測試驗收上線。一個頁面從設計到上線，快的話一週，慢的話一個月。

現在，AI 用 2,000 個 token、5 秒鐘，就能生成一個完整的頁面。

當然，這兩種「介面」的品質天差地遠。但方向是：介面正在從「人提前設計的產品」變成「AI 根據意圖即時生成的服務」。

網站不再是文件，而是對話。瀏覽器不再是閱讀器，而是渲染引擎。前端工程師不再是寫介面的人，而是定義元件庫和安全護欄的人。

從「預製頁面」到「即時生成」的轉變，是對數位狀態這個概念的根本性改變。如果 UI 在互動的那一刻才被創造出來，那「靜態網站」這個概念，就成了一個歷史遺物。

意圖驅動

把所有這些線索串在一起，你會看到一個清晰的走向：

介面的終局，不再是固定的按鈕和頁面，而是跟著意圖走的動態生成。

人對 AI 說話，用自然語言。AI 執行任務，用 CLI 和 API。AI 給人展示結果，用即時生成的 GUI。

這個循環裡，CLI 和 GUI 都沒有消失。只是各自找到了新的位置。

CLI 服務 Agent。GUI 服務人類。自然語言連接兩者。

而 Google 這個 demo，雖然還有些粗糙，但它展示了一種可能性：如果瀏覽器不再是去「獲取」頁面，而是去「生成」頁面……

那我們花了 30 年建起來的整個 Web 基礎建設，從 CDN 到 SEO 到快取策略到響應式設計……

是不是全部都要重新想一遍了？

整個 Web，可能正在從「資訊的檔案館」，

變成「意圖的渲染器」。

相關連結：

Google DeepMind Flash-Lite Browser：https://aistudio.google.com/flashlite-browser
Google DeepMind 推文：https://x.com/GoogleDeepMind/status/2036483295983100314
Gemini 3.1 Flash-Lite：https://deepmind.google/models/gemini/flash-lite/
AG-UI 協定：https://www.copilotkit.ai/ag-ui
A2UI 協定：https://developers.googleblog.com/introducing-a2ui-an-open-project-for-agent-driven-interfaces/