WebMCP：Google 在 Chrome 146 中埋下的一顆炸彈

AI 代理人不用再「假裝人類」瀏覽網頁了。

Google 在 Chrome 146 中悄悄上線了 WebMCP 的早期預覽版，透過 flag 即可開啟。

而這個東西，可能會徹底改寫 AI 代理人與網頁互動的方式。

Chrome 146 包含了 WebMCP 的早期預覽，透過 flag 開啟，允許 AI 代理人直接查詢和執行服務，而無需像使用者一樣瀏覽網頁。服務可以透過命令式的 navigator.modelContext API 或宣告式的表單來宣告。

而這，用開發者 Alex Volkov 的話說，就像是 UI 裡的 API。

這真的很有意思。

WebMCP 是一個新標準，允許網頁開發者為 AI 代理人 / 智慧瀏覽器暴露一套直接的工具集，這樣它們就不用再點按鈕了，而是直接存取網站上的函數！

現在的代理人

目前 AI 代理人操作網頁的方式，本質上就是在模擬一個人類使用者：截圖、識別按鈕在哪、點擊、填表、等頁面載入……

這就好比你請了一個天才助手，結果讓他矇著眼睛去操作電腦，只能靠不停截圖來「看」螢幕上有什麼。

結果就是：又慢，又貴，又脆弱……

網站一改版，代理人就懵了。

一個簡單的搜尋操作，可能要消耗上千個 token 來處理截圖圖片和 DOM 解析。

而 WebMCP 的思路則完全不同：讓網站主動告訴代理人「我能做什麼」。

兩種暴露方式

WebMCP 給開發者提供了兩條路。

命令式 API

透過 JavaScript 的 navigator.modelContext.registerTool() 註冊工具函數。比如一個電商網站可以註冊一個 search_products 工具，AI 代理人發現後直接傳入關鍵詞呼叫，拿到結構化的商品資料——不需要截圖，不需要解析 DOM，不需要模擬點擊搜尋框。

宣告式表單

透過標註 HTML 表單元素，讓代理人自動理解頁面上的互動能力。這種方式更簡單，適合輕量級場景。

兩種方式可以混用。

老練的開發者用命令式做精細控制，簡單的網站用宣告式快速接入，靈活度拉滿。

極其節省 token

據實測數據，WebMCP 的結構化工具呼叫相比截圖式的代理人互動，token 消耗最多可節省 89%。

這意味著，原來要花 2000 個 token 處理一張截圖才能「看懂」頁面，現在一個 JSON 回應 20-100 個 token 就搞定了。

而且不需要驗證截圖，工具的返回值直接就是確認結果。

微軟和 Google 聯手

並且，WebMCP 並不只是 Google 一家在玩。

微軟的 Edge 團隊獨立提出了「WebModel Context」方案，Chrome 團隊也有一個類似的「Script Tools」提案。

結果，雙方一碰頭發現撞車了，於是決定在 W3C Web Machine Learning 社群組 下合併為統一的 WebMCP 提案。

微軟 Edge 平台的產品經理 Kyle Pflug 稱：

WebMCP 讓網頁暴露 MCP 工具給代理人，類似於傳統 MCP 伺服器暴露的工具，但不需要單獨的伺服器元件。這對「人在迴路」的場景是天然適配的，因為它執行在瀏覽器的 browsing context 中，可以簡化狀態和認證——而這在傳統的瀏覽代理人方案中非常棘手。

簡單說就是：網頁本身變成了 MCP 伺服器，但不需要真的跑一個伺服器。

如何認證

你可能想問：認證怎麼搞？會不會複用使用者已有的登入會話？

答案是：對，就是這樣。

WebMCP 執行在瀏覽器的 browsing context 中，天然繼承使用者當前的認證會話和瀏覽器的同源安全模型。代理人呼叫的工具和使用者手動操作在權限上完全一致，不需要額外的 OAuth 流程或 API Key。

這比傳統的伺服器端 MCP 方案簡單太多了。

Kyle Pflug 也確認，他們預計「一些網站會同時使用 WebMCP 和傳統 MCP 伺服器」，因為兩者服務的場景不同：WebMCP 適合有使用者在場的瀏覽器場景，傳統 MCP 適合無頭的伺服器端場景。

人與 AI

WebMCP 的設計哲學有一條很明確的紅線：代理人是輔助，不是替代。

官方文件列了幾條原則：

網頁的人類介面仍然是主體，WebMCP 不會替代你的 UI
AI 代理人是增強而不是取代人類互動
使用者對代理人的所有操作保持可見和可控
人和 AI 協作，而不是 AI 單幹

所以 WebMCP 不支援 無頭瀏覽、完全自主的代理人、也不支援後端服務整合。它就是為「使用者坐在瀏覽器前，代理人在旁邊幫忙」這個場景設計的。

兩層 Web 的未來

當主流瀏覽器開始原生支援 AI 代理人與網頁的結構化互動，一個有趣的變化正在發生：網站可能要分出兩層。

面向人類的層：視覺化、品牌化、敘事驅動。

面向代理人的層：結構化、Schema 驅動、快速回應。

或許，是時候討論「代理人 SEO」了：

你的網站對 AI 代理人友不友好，可能成為新的競爭維度；那些不暴露 WebMCP 工具的網站，可能會逐漸變得對代理人「不可見」。

雖然目前的 WebMCP 還處於非常早期的階段，API 設計仍在迭代，Chrome 146 中的實現需要手動開啟 flag，但方向或許已經不言而喻：

瀏覽器不再只是人類的工具，它正在同時成為 AI 代理人的作業系統。

相關連結：

Chrome 開發者文件：https://developer.chrome.com/docs/ai/join-epp
W3C WebMCP 提案：https://github.com/webmachinelearning/webmcp
WebMCP 文件：https://docs.mcp-b.ai/introduction
The New Stack 深度報導：https://thenewstack.io/how-webmcp-lets-developers-control-ai-agents-with-javascript/