Google DeepMind 發布了一個瀏覽器,能用 Gemini 3.1 Flash-Lite 即時生成整個網站。
你輸入一句話,它當場把網頁給你「寫」出來。
Google 這次,算是用一個 demo 把我此前的觀點給坐實了。
先看 Demo
Google 的 Flash-Lite Browser 長得就像一個普通瀏覽器,但網址列變成了輸入框。你不用輸網址,而是直接告訴它你想看什麼。
Google 工程師在影片裡稱:
你在這個瀏覽器裡看到的,不是真正的網站。它是由 Gemini 3.1 Flash-Lite 從零開始生成的。
演示裡,使用者輸入了「a guide to watering my cheese plant」(龜背竹澆水指南)。
然後……瀏覽器開始「生成」了。
分頁上寫著「Generating...」,網址列顯示 PlantCare > Watering Your Monstera。1,068 個 token,1.93 秒,一個完整的植物護理網頁就這麼從無到有地出現在螢幕上。
生成出來的頁面有導覽列、有圖示、有分欄版面,澆水頻率、溫度要求、土壤檢查一應俱全。
關鍵細節在於:
你點擊導覽裡的「Search」,它又會當場生成一個搜尋頁面。但這個搜尋框背後,其實沒有任何真正的搜尋功能。工程師解釋說:
搜尋框裡並沒有真正的搜尋功能。我們把當前頁面和輸入的文字一起發給模型,它理解接下來該展示什麼,然後重寫完整的程式碼來「想像」下一步。
也就是說,你在頁面上的每一次點擊、每一次輸入,都會觸發模型重新生成整個頁面的程式碼。
沒有預先產生的資料,沒有歷史紀錄,模型根據當前頁面和你互動的元素來推理下一頁該長什麼樣。
2,122 個 token,4.86 秒。
一個完整的多頁面網站,從意圖到渲染,全程即時。
最有意思的,是最後一個 demo:使用者讓它生成「the most annoying website on the internet」(網際網路上最煩人的網站)。
它真的生成了一個寫著「WELCOME TO THE CHAOS」的頁面,紅色虛線邊框,一個綠色大按鈕寫著「CLICK ME IF YOU CAN!」,頂部還有紫色橫幅警告「DON'T CLICK ANYTHING!」。
2,031 個 token,5.24 秒。還自帶一點 AI 風格的幽默感。
而且,透過串流輸出程式碼,頁面在生成過程中就開始渲染了,使用者感知到的延遲比實際生成時間更短。
工程師也提到,如果想要更精細的 UI,可以改用 Flash 或 Pro 模型,但對於這種即時回應的場景,Flash-Lite 的速度優勢實在太明顯了。
三層分化
之前我的文章《GUI 將死,CLI 才是一切》中聊到 CLI-Anything 專案如何讓 Agent 用命令列操控一切桌面軟體。上週又寫了《OpenCLI:萬物皆可 CLI》,把這個思路擴展到了網站和 Electron 應用程式。
這兩篇文章裡,我的核心觀點是:
GUI 本質上是一個翻譯層,人類花了 40 年給電腦套上圖形介面,但 Agent 根本不需要這層翻譯。
Google 這次的 demo,則從另一個方向驗證了這件事。
它證明的是:GUI 連「被預先設計」都不需要了。
傳統的 Web 是什麼?是開發者提前寫好 HTML/CSS/JavaScript,部署到伺服器,使用者請求後返回靜態或動態頁面。
整個過程的前提是:有人提前把介面設計好了。
而 Flash-Lite Browser 把這個前提給取消了,頁面不再是「從伺服器取回來的」,而是「在你面前現場寫出來的」。
如果把這件事和 CLI 的復興放在一起看,你會發現介面正在發生一次三層分化:
底層:CLI 成為 Agent 的執行環境。 Agent 操控電腦用命令列,文字輸入、結構化輸出、可組合、確定性強。這是 Agent 的母語。
中層:通訊協定成為 Agent 的溝通標準。 MCP 連接 Agent 和工具,AG-UI 連接 Agent 和使用者,A2A 連接 Agent 和 Agent。一整套協定三角正在成形。
表層:GUI 變成 AI 的輸出物。 介面不再是人類設計師提前畫好的,而是 AI 根據意圖即時生成的。你要什麼,它就給你什麼。
誰還需要 GUI
這裡需要說清楚的是:GUI 並沒有真正「死掉」。
它只是換了一個主人。
以前 GUI 是給人用的,人透過點擊按鈕、填寫表單來操控電腦。而現在呢?人對著 AI 說自然語言就行了。
CLI 給 Agent 用,GUI 反過來變成了 AI 給人看的東西。
這個反轉,其實蠻耐人尋味,且有意思的。
好像我們在 Claude Code 裡用的 AskUserQuestion,Agent 在執行任務的過程中如果需要人確認,它會怎麼做呢?彈一個文字提問出來,讓人類輸入回答。
這本質上就是一個極簡的 GUI,只不過發起方從人變成了 AI。
Google 的 Flash-Lite Browser 把這個邏輯推到了極致:AI 不只是彈個問題,而是直接給你生成一整個網頁介面。
你說想看植物澆水指南,它就給你渲染一個完整的植物護理網站,帶導覽、帶搜尋、帶分欄。
以前是人操作 GUI 來指揮電腦。現在是 AI 生成 GUI 來向人展示資訊。
互動方向,反過來了。
你的終端機已經是 AI 執行環境了
2025 年 Stack Overflow 開發者調查顯示,78% 的專業開發者超過一半工作時間在終端機裡度過。
2023 年這個數字還是 62%。
Claude Code 2025 年 2 月發布,到 11 月達到 10 億美元 ARR。SemiAnalysis 2026 年 2 月的報告顯示,GitHub 公開 commit 中有 4% 是 Claude Code 生成的。
Faros AI 調查了 99 名專業開發者,59% 在用 Claude Code,滿意度排第一。
這些數字背後的趨勢表明:終端機正在從「執行命令的地方」變成「你把工作委派給 AI 的地方」。
IDE 是為「建議」設計的,你寫程式碼,它給你補全。CLI Agent 是為「委託」設計的,你說需求,它去幹活。這是兩個品類。
還有研究指出,發現決定開發者用 CLI 還是 GUI 的因素,不在於專業程度,而在於任務類型。CRUD 和除錯用 CLI,監控用 Web 控制台。
換句話說,任務類型決定了互動形式,而不是使用者的偏好。
這個發現放到 AI 時代,道理是一樣的。Agent 執行任務用 CLI,因為文字協定是它的母語。向人類展示結果?那用 GUI,因為人類靠視覺理解資訊的效率最高。
協定三角
不過光有 CLI 和 GUI 還不夠。Agent 需要跟工具對話,跟使用者對話,還要跟其他 Agent 對話。這就需要一套標準協定。
現在業界裡正在形成一個「協定三角」:
MCP(Model Context Protocol):Anthropic 發起,2024 年底發布,2025 年底捐給了 Linux 基金會。OpenAI 也已經正式採用。它解決的是 Agent 怎麼連接工具和 API 的問題。
AG-UI(Agent-User Interaction Protocol):CopilotKit 發起的開源協定。微軟的 Agent Framework 已經相容,Google ADK 也已整合。每週超過 200 萬次 agent 與使用者的互動。它解決的是 Agent 怎麼跟前端 UI 溝通的問題。
A2UI(Agent-to-UI):Google 開源的宣告式 UI 規範。Agent 生成 JSON 來描述介面元件,用戶端用原生元件渲染。不發送可執行程式碼,透過可信元件目錄組合介面,安全性有保障。
三個協定,三條線,搭起了 Agent 世界的基礎建設。
Flash-Lite Browser 展示的即時生成 UI,本質上就是 A2UI 思路的一個極端演示:Agent 不只是描述介面,而是直接寫出完整的 HTML/CSS/JavaScript。
不夠可靠
當然,目前還有些偏概念,還不夠可靠。
The Decoder 對 Flash-Lite Browser 的評價是:
結果並不穩定,內容很快就會偏離主題變得不知所云。
畢竟,你讓一個 LLM 即時生成完整網頁,每次生成的結果都可能不一樣。導航到同一個頁面,上次顯示的是三欄版面,這次可能變成了兩欄。搜尋同一個關鍵字,返回的內容也可能天差地遠。
有人吐槽稱「model-generated UI in production? the debugging stories alone will be legendary」(AI 生成的 UI 放到正式環境?光除錯故事就夠寫一本書了)。
還有人指出:「what phishing pages? uncatchable?」(釣魚頁面呢?這不是抓都沒法抓?)
確實,當網頁內容完全由 AI 生成,傳統的 URL 驗證、憑證檢查、網域名稱黑名單……
這些安全機制,就全都失效了。
Flash-Lite 的速度是每秒 360+ token,比 Gemini 2.5 Flash 快 2.5 倍。定價倒是不貴,輸入 $0.25/百萬 token,輸出 $1.50/百萬 token。
但「快」和「便宜」不等於「可靠」。
至少在現階段,即時生成的 UI 更適合做原型探索和想法視覺化,離正式環境還有一段不短的路。
第五次遷移
我在《Karpathy:一切軟體,都將為 Agent 重寫》的文章裡提過一個框架,叫「四次遷移」:
大型主機時代,軟體的使用者是操作員。
PC 時代,使用者變成了普通人。
行動時代,使用者變成了所有人。
Agent 時代,使用者變成了 AI。
現在回頭看,我覺得應該再加一層。
第五次遷移:介面的使用者,從「人操作」變成「AI 生成」。
前四次遷移改變的是「誰在用軟體」。第五次遷移改變的是「誰在做介面」。
以前,設計師畫原型,前端寫程式碼,測試驗收上線。一個頁面從設計到上線,快的話一週,慢的話一個月。
現在,AI 用 2,000 個 token、5 秒鐘,就能生成一個完整的頁面。
當然,這兩種「介面」的品質天差地遠。但方向是:介面正在從「人提前設計的產品」變成「AI 根據意圖即時生成的服務」。
網站不再是文件,而是對話。瀏覽器不再是閱讀器,而是渲染引擎。前端工程師不再是寫介面的人,而是定義元件庫和安全護欄的人。
從「預製頁面」到「即時生成」的轉變,是對數位狀態這個概念的根本性改變。如果 UI 在互動的那一刻才被創造出來,那「靜態網站」這個概念,就成了一個歷史遺物。
意圖驅動
把所有這些線索串在一起,你會看到一個清晰的走向:
介面的終局,不再是固定的按鈕和頁面,而是跟著意圖走的動態生成。
人對 AI 說話,用自然語言。AI 執行任務,用 CLI 和 API。AI 給人展示結果,用即時生成的 GUI。
這個循環裡,CLI 和 GUI 都沒有消失。只是各自找到了新的位置。
CLI 服務 Agent。GUI 服務人類。自然語言連接兩者。
而 Google 這個 demo,雖然還有些粗糙,但它展示了一種可能性:如果瀏覽器不再是去「獲取」頁面,而是去「生成」頁面……
那我們花了 30 年建起來的整個 Web 基礎建設,從 CDN 到 SEO 到快取策略到響應式設計……
是不是全部都要重新想一遍了?
整個 Web,可能正在從「資訊的檔案館」,
變成「意圖的渲染器」。
相關連結:
Google DeepMind Flash-Lite Browser:https://aistudio.google.com/flashlite-browser
Google DeepMind 推文:https://x.com/GoogleDeepMind/status/2036483295983100314
Gemini 3.1 Flash-Lite:https://deepmind.google/models/gemini/flash-lite/
AG-UI 協定:https://www.copilotkit.ai/ag-ui
A2UI 協定:https://developers.googleblog.com/introducing-a2ui-an-open-project-for-agent-driven-interfaces/