Google 親手證明:GUI 已死,但屍體還在動

Google DeepMind 發布了一個瀏覽器,能用 Gemini 3.1 Flash-Lite 即時生成整個網站。

圖片

你輸入一句話,它當場把網頁給你「寫」出來。

Flash-Lite Browser 首頁

Google 這次,算是用一個 demo 把我此前的觀點給坐實了。

先看 Demo

Google 的 Flash-Lite Browser 長得就像一個普通瀏覽器,但網址列變成了輸入框。你不用輸網址,而是直接告訴它你想看什麼。

Google 工程師在影片裡稱:

你在這個瀏覽器裡看到的,不是真正的網站。它是由 Gemini 3.1 Flash-Lite 從零開始生成的。

演示裡,使用者輸入了「a guide to watering my cheese plant」(龜背竹澆水指南)。

使用者輸入查詢

然後……瀏覽器開始「生成」了。

分頁上寫著「Generating...」,網址列顯示 PlantCare > Watering Your Monstera。1,068 個 token,1.93 秒,一個完整的植物護理網頁就這麼從無到有地出現在螢幕上。

網頁即時生成中

生成出來的頁面有導覽列、有圖示、有分欄版面,澆水頻率、溫度要求、土壤檢查一應俱全。

關鍵細節在於:

你點擊導覽裡的「Search」,它又會當場生成一個搜尋頁面。但這個搜尋框背後,其實沒有任何真正的搜尋功能。工程師解釋說:

搜尋框裡並沒有真正的搜尋功能。我們把當前頁面和輸入的文字一起發給模型,它理解接下來該展示什麼,然後重寫完整的程式碼來「想像」下一步。

也就是說,你在頁面上的每一次點擊、每一次輸入,都會觸發模型重新生成整個頁面的程式碼。

沒有預先產生的資料,沒有歷史紀錄,模型根據當前頁面和你互動的元素來推理下一頁該長什麼樣。

植物搜尋頁面

2,122 個 token,4.86 秒。

一個完整的多頁面網站,從意圖到渲染,全程即時。

站內導覽和搜尋

最有意思的,是最後一個 demo:使用者讓它生成「the most annoying website on the internet」(網際網路上最煩人的網站)。

最煩人的網站

它真的生成了一個寫著「WELCOME TO THE CHAOS」的頁面,紅色虛線邊框,一個綠色大按鈕寫著「CLICK ME IF YOU CAN!」,頂部還有紫色橫幅警告「DON'T CLICK ANYTHING!」。

2,031 個 token,5.24 秒。還自帶一點 AI 風格的幽默感。

而且,透過串流輸出程式碼,頁面在生成過程中就開始渲染了,使用者感知到的延遲比實際生成時間更短。

工程師也提到,如果想要更精細的 UI,可以改用 Flash 或 Pro 模型,但對於這種即時回應的場景,Flash-Lite 的速度優勢實在太明顯了。

Gemini 聊天介面生成

三層分化

之前我的文章《GUI 將死,CLI 才是一切》中聊到 CLI-Anything 專案如何讓 Agent 用命令列操控一切桌面軟體。上週又寫了《OpenCLI:萬物皆可 CLI》,把這個思路擴展到了網站和 Electron 應用程式。

這兩篇文章裡,我的核心觀點是:

GUI 本質上是一個翻譯層,人類花了 40 年給電腦套上圖形介面,但 Agent 根本不需要這層翻譯。

Google 這次的 demo,則從另一個方向驗證了這件事。

它證明的是:GUI 連「被預先設計」都不需要了。

傳統的 Web 是什麼?是開發者提前寫好 HTML/CSS/JavaScript,部署到伺服器,使用者請求後返回靜態或動態頁面。

整個過程的前提是:有人提前把介面設計好了。

而 Flash-Lite Browser 把這個前提給取消了,頁面不再是「從伺服器取回來的」,而是「在你面前現場寫出來的」。

如果把這件事和 CLI 的復興放在一起看,你會發現介面正在發生一次三層分化:

介面的三層分化

底層:CLI 成為 Agent 的執行環境。 Agent 操控電腦用命令列,文字輸入、結構化輸出、可組合、確定性強。這是 Agent 的母語。

中層:通訊協定成為 Agent 的溝通標準。 MCP 連接 Agent 和工具,AG-UI 連接 Agent 和使用者,A2A 連接 Agent 和 Agent。一整套協定三角正在成形。

表層:GUI 變成 AI 的輸出物。 介面不再是人類設計師提前畫好的,而是 AI 根據意圖即時生成的。你要什麼,它就給你什麼。

誰還需要 GUI

這裡需要說清楚的是:GUI 並沒有真正「死掉」。

它只是換了一個主人。

以前 GUI 是給人用的,人透過點擊按鈕、填寫表單來操控電腦。而現在呢?人對著 AI 說自然語言就行了。

CLI 給 Agent 用,GUI 反過來變成了 AI 給人看的東西。

互動方向反轉

這個反轉,其實蠻耐人尋味,且有意思的。

好像我們在 Claude Code 裡用的 AskUserQuestion,Agent 在執行任務的過程中如果需要人確認,它會怎麼做呢?彈一個文字提問出來,讓人類輸入回答。

這本質上就是一個極簡的 GUI,只不過發起方從人變成了 AI。

Google 的 Flash-Lite Browser 把這個邏輯推到了極致:AI 不只是彈個問題,而是直接給你生成一整個網頁介面。

你說想看植物澆水指南,它就給你渲染一個完整的植物護理網站,帶導覽、帶搜尋、帶分欄。

以前是人操作 GUI 來指揮電腦。現在是 AI 生成 GUI 來向人展示資訊。

互動方向,反過來了。

你的終端機已經是 AI 執行環境了

2025 年 Stack Overflow 開發者調查顯示,78% 的專業開發者超過一半工作時間在終端機裡度過。

2023 年這個數字還是 62%。

Claude Code 2025 年 2 月發布,到 11 月達到 10 億美元 ARR。SemiAnalysis 2026 年 2 月的報告顯示,GitHub 公開 commit 中有 4% 是 Claude Code 生成的。

Faros AI 調查了 99 名專業開發者,59% 在用 Claude Code,滿意度排第一。

這些數字背後的趨勢表明:終端機正在從「執行命令的地方」變成「你把工作委派給 AI 的地方」。

IDE 是為「建議」設計的,你寫程式碼,它給你補全。CLI Agent 是為「委託」設計的,你說需求,它去幹活。這是兩個品類。

還有研究指出,發現決定開發者用 CLI 還是 GUI 的因素,不在於專業程度,而在於任務類型。CRUD 和除錯用 CLI,監控用 Web 控制台。

換句話說,任務類型決定了互動形式,而不是使用者的偏好。

這個發現放到 AI 時代,道理是一樣的。Agent 執行任務用 CLI,因為文字協定是它的母語。向人類展示結果?那用 GUI,因為人類靠視覺理解資訊的效率最高。

協定三角

不過光有 CLI 和 GUI 還不夠。Agent 需要跟工具對話,跟使用者對話,還要跟其他 Agent 對話。這就需要一套標準協定。

現在業界裡正在形成一個「協定三角」:

MCP(Model Context Protocol):Anthropic 發起,2024 年底發布,2025 年底捐給了 Linux 基金會。OpenAI 也已經正式採用。它解決的是 Agent 怎麼連接工具和 API 的問題。

AG-UI(Agent-User Interaction Protocol):CopilotKit 發起的開源協定。微軟的 Agent Framework 已經相容,Google ADK 也已整合。每週超過 200 萬次 agent 與使用者的互動。它解決的是 Agent 怎麼跟前端 UI 溝通的問題。

A2UI(Agent-to-UI):Google 開源的宣告式 UI 規範。Agent 生成 JSON 來描述介面元件,用戶端用原生元件渲染。不發送可執行程式碼,透過可信元件目錄組合介面,安全性有保障。

三個協定,三條線,搭起了 Agent 世界的基礎建設。

Flash-Lite Browser 展示的即時生成 UI,本質上就是 A2UI 思路的一個極端演示:Agent 不只是描述介面,而是直接寫出完整的 HTML/CSS/JavaScript。

不夠可靠

當然,目前還有些偏概念,還不夠可靠。

The Decoder 對 Flash-Lite Browser 的評價是:

結果並不穩定,內容很快就會偏離主題變得不知所云。

畢竟,你讓一個 LLM 即時生成完整網頁,每次生成的結果都可能不一樣。導航到同一個頁面,上次顯示的是三欄版面,這次可能變成了兩欄。搜尋同一個關鍵字,返回的內容也可能天差地遠。

有人吐槽稱「model-generated UI in production? the debugging stories alone will be legendary」(AI 生成的 UI 放到正式環境?光除錯故事就夠寫一本書了)。

還有人指出:「what phishing pages? uncatchable?」(釣魚頁面呢?這不是抓都沒法抓?)

確實,當網頁內容完全由 AI 生成,傳統的 URL 驗證、憑證檢查、網域名稱黑名單……

這些安全機制,就全都失效了。

Flash-Lite 的速度是每秒 360+ token,比 Gemini 2.5 Flash 快 2.5 倍。定價倒是不貴,輸入 $0.25/百萬 token,輸出 $1.50/百萬 token。

但「快」和「便宜」不等於「可靠」。

至少在現階段,即時生成的 UI 更適合做原型探索和想法視覺化,離正式環境還有一段不短的路。

第五次遷移

我在《Karpathy:一切軟體,都將為 Agent 重寫》的文章裡提過一個框架,叫「四次遷移」:

大型主機時代,軟體的使用者是操作員。

PC 時代,使用者變成了普通人。

行動時代,使用者變成了所有人。

Agent 時代,使用者變成了 AI。

軟體介面的五次遷移

現在回頭看,我覺得應該再加一層。

第五次遷移:介面的使用者,從「人操作」變成「AI 生成」。

前四次遷移改變的是「誰在用軟體」。第五次遷移改變的是「誰在做介面」。

以前,設計師畫原型,前端寫程式碼,測試驗收上線。一個頁面從設計到上線,快的話一週,慢的話一個月。

現在,AI 用 2,000 個 token、5 秒鐘,就能生成一個完整的頁面。

當然,這兩種「介面」的品質天差地遠。但方向是:介面正在從「人提前設計的產品」變成「AI 根據意圖即時生成的服務」。

網站不再是文件,而是對話。瀏覽器不再是閱讀器,而是渲染引擎。前端工程師不再是寫介面的人,而是定義元件庫和安全護欄的人。

從「預製頁面」到「即時生成」的轉變,是對數位狀態這個概念的根本性改變。如果 UI 在互動的那一刻才被創造出來,那「靜態網站」這個概念,就成了一個歷史遺物。

意圖驅動

把所有這些線索串在一起,你會看到一個清晰的走向:

介面的終局,不再是固定的按鈕和頁面,而是跟著意圖走的動態生成。

人對 AI 說話,用自然語言。AI 執行任務,用 CLI 和 API。AI 給人展示結果,用即時生成的 GUI。

這個循環裡,CLI 和 GUI 都沒有消失。只是各自找到了新的位置。

CLI 服務 Agent。GUI 服務人類。自然語言連接兩者。

而 Google 這個 demo,雖然還有些粗糙,但它展示了一種可能性:如果瀏覽器不再是去「獲取」頁面,而是去「生成」頁面……

那我們花了 30 年建起來的整個 Web 基礎建設,從 CDN 到 SEO 到快取策略到響應式設計……

是不是全部都要重新想一遍了?

整個 Web,可能正在從「資訊的檔案館」,

變成「意圖的渲染器」。


相關連結:


分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.