最近 AI 圈最火的一個新詞,叫「SaaSpocalypse」,SaaS 末日。
這兩週,Claude Code 上線了 COBOL 現代化功能,IBM 當天暴跌 13%;又上線了安全掃描功能,一口氣找出 500 多個此前藏了幾十年的高危漏洞,網安股集體跳水。彭博社甚至專門做了一期播客討論「哪些 SaaS 公司能活下來」。
恐慌的核心邏輯只有一句話:
Agent 不是 SaaS 的使用者,Agent 是 SaaS 的替代者。
傳統 SaaS 賣的是什麼,把工作流程做成介面,讓人坐在那裡點擊。收費邏輯是按座位數──你有多少員工使用,就收多少錢。
Agent 出現之後,這件事變了:Agent 可以直接調用 API,自動完成任務,根本不需要有人打開介面。給人使用的介面價值就被壓縮了。
市場的恐慌並非空穴來風。
這是一張 AI Agent 領域從 2020 年到 2026 年初的態勢統計圖。
藍色柱狀圖──每月新增的 Agent 相關搜尋詞數量。從 2023 年逐步上漲,2025 年中達到峰值(單月接近 80 個新詞)。
粉色折線──Google Scholar 上每年關於 Agent 的論文數量。從 2024 年開始陡峭上升,到 2025-2026 年已接近每年 1800 篇。
三種圓點──標注了各類 Agent 產品的實際發布節點。可以看到 2024 年下半年到 2025 年是集中爆发期,各類 Agent 產品密集上線。(具體看下面這張圖)
從趨勢數據看,Agent 賽道在 2024-2025 年進入了爆发期。學術研究、產品發布、市場關注度,三者同步在一路上升,而且還沒有明顯見頂的跡象。
Agent 爆发是事實,但是,Agent 現在到底發展到哪一步了?它真正能做什麼、有多自主、誰在控制它、出了事誰負責?
這兩天,看到 MIT 發了一篇系統性的報告,正好能對這個問題帶來一些更深的理解。
所以本文的目的是在滿屏講 Agent 的資訊流裡,給大家對抗一下雜訊。不聊哪個 Agent 更強、跑分更高,用這個報告裡的數據,帶你認清 Agent 存在的問題,而不是只停留在它能幫我幹活這一層。
首先,這篇報告是 MIT 聯合劍橋、史丹佛、哈佛法學院等機構,發布的一份 2025 AI Agent Index 報告,對 30 個當前最主流的頂級 AI Agent 做了全面分析。
在進入數據之前,有一個認知基礎要先建立──「Agent」這個詞現在被濫用得厲害,凡是能調用工具的 AI 都敢叫自己 Agent。
MIT 這份報告給出了目前最嚴格也最清晰的入選門檻,四個條件缺一不可:
1. 自主性:能在沒有持續人工干預的情況下運行,自己做有實質影響的決策。
2. 目標複雜度:能拆解高層級目標,做長鏈路規劃,至少能連續自主調用 3 次以上工具,不需要你手把手給步驟。
3. 環境交互:有寫入權限,能真正改變外部世界──不是只說話,是真的動手。
4. 通用性:能處理模糊指令,適應新任務,不是只會一招的窄域工具。
滿足這四條,還要有足夠的市場影響力(搜尋量、估值,或簽署了前沿 AI 安全承諾),才能進入這份名單。
從 95 個候選系統裡,最終篩出 30 個。
研究團隊把 30 個 Agent 分成三類,每類的技術架構和風險特徵都完全不同。團隊對全部 Agent 設計了 45 個維度,一共統計了 1350 個數據字段,劃分成六大維度。
維度一:Agent 分類──能做什麼?
Chat 類(12 個)──對話介面 + 工具調用
Anthropic Claude、Claude Code、Google Gemini、Gemini CLI、Kimi OK Computer、Manus AI、MiniMax Agent、OpenAI ChatGPT、ChatGPT Agent、OpenAI Codex、Perplexity、Z.ai AutoGLM 2.0
瀏覽器類(5 個)──直接控制電腦和網頁
Alibaba MobileAgent、ByteDance Agent TARS、OpenAI ChatGPT Atlas、Opera Neon、Perplexity Comet
企業工作流類(13 個)──自動化業務流程
Browser Use、Glean Agents、Google Gemini Enterprise、HubSpot Breeze Studio、IBM watsonx Orchestrate、Microsoft Copilot Studio、OpenAI AgentKit、SAP Joule Studio、Salesforce Agentforce、ServiceNow AI Agents、WRITER Action Agent、Zapier AI Agents、n8n Agents
30 個 Agent 裡,21 個來自美國,5 個來自中國,剩下 4 個分布在德國、挪威和開曼群島。
中國產品上榜 5 個──Kimi、MiniMax、Z.ai、Alibaba MobileAgent、ByteDance TARS。Manus 註冊在開曼群島,但團隊和產品來自中國。如果算上,國產佔比 20%。
23 個完全閉源。
只有前沿實驗室和中國開發者在跑自研模型,其餘全部依賴 GPT、Claude、Gemini 御三家。
30 個 Agent 的宣傳用途高度集中在三件事上:
12 個在做 研究與資訊整合,從消費者聊天助手到企業知識平台都有;11 個在做 業務流程自動化(HR、銷售、客服、IT),主要集中在企業類產品;7 個在做 GUI 操作,替你填表、下單、訂票
這三個方向疊加在一起,基本覆蓋了一個普通知識工作者一天的大部分工作內容。
值得注意的是,中國的 GUI 類 Agent 有一個明顯特點:更多針對手機端和電腦端的操作(3/5),而不是純網頁瀏覽。Alibaba MobileAgent、Kimi OK Computer、ByteDance TARS 都走這條路線,和美國產品側重網頁瀏覽有所不同。
企業類最多(13 個),但存在感最弱──因為這些產品不直接面向消費者,搜尋量低,但實際部署規模和商業影響力遠超前兩類。像 Microsoft Copilot Studio、Salesforce Agentforce、ServiceNow 背後是真實的企業合同和數據。
維度二:自主程度──五級框架
這份報告裡用了一個目前最清晰的 Agent 自主度分級框架,五個等級:
L1:人主導,Agent 只負責執行具體指令
L2:人與 Agent 協作規劃,共同執行
L3:Agent 主導執行,人在關鍵節點審批
L4:Agent 自主執行大部分,人只作為審批者
L5:Agent 完全自主,人只是旁觀者
結論是:瀏覽器類 Agent 普遍在 L4-L5。
L4-L5 意味著什麼?意味著你啟動任務之後,中間基本沒有干預機會。Agent 會自己決策、自己執行、自己處理異常,你能做的只是等結果,或者在某系統裡點一個「確認」按鈕。
但是,正因為如此,經常有 Agent 刪庫跑路的事件。比如最近 Meta 的安全總監被 Openclaw 刪光了郵件。
雖然很多企業級 Agent 在產品宣傳材料裡普遍強調 L1-L2,但真正部署到企業環境運行時,實際自主度就失控飆到 L3-L5...
以為買進來一個輔助工具,實際上在運行一個自主決策者。
維度三:誰在給 Agent 當地基?
技術架構層面,這份報告提到了一個高度集中的底層依賴結構。
除了 Anthropic、Google、OpenAI 自家的產品,以及中國廠商(用自研模型),剩下幾乎所有 Agent 都壓在 GPT、Claude、Gemini 三個底層上。
這意味著──
這三家底層模型廠商對整個 Agent 生態握有隱性的控制權──他們的模型策略、定價、服務條款變動,會同時影響十幾個甚至更多的上層 Agent 產品。例如,Anthropic 斷供...
也只有 9/30 的企業 Agent 明確支援使用者自選底層模型,一定程度上對沖了這種集中風險。
維度四:記憶黑盒──它記住了什麼,你不知道
45 個字段裡有一項叫「Memory Architecture」(記憶架構),記錄 Agent 如何跨任務、跨會話保留上下文。
這一欄在整份報告裡是灰色字段(未找到任何公開資訊)最密集的區域之一。
大多數開發者完全沒有公開說明:Agent 記住了什麼?保存多久?會不會把一個任務裡獲取的資訊,帶到下一個完全不相關的任務裡?使用者能不能查看或刪除這些記憶?
在 Agent 能接觸到郵件、日曆、CRM 數據、文件系統的情況下,記憶機制的透明度意味著什麼,不需要解釋太多。
維度五:行動空間的差異──手能伸多長
不同類型 Agent 的「手」伸得不一樣遠。
「行動空間」是這份報告裡最直接描述 Agent 能力的維度──它的「手」能伸到哪裡,決定了它能幹什麼、也決定了它能造成什麼。
CLI 類(Claude Code、Gemini CLI):直接讀寫文件系統、執行終端命令。這意味著它能編譯程式碼、跑腳本、修改配置檔案、刪除文件。這是最接近「有根伺服器權限」的 Agent 形態,也是為什麼 Claude Code 能翻出幾十年前的漏洞──它真的在跑程式碼,不是在描述程式碼。
瀏覽器類:透過點擊、輸入、導航操控整個網頁介面。訂機票、填表單、登入帳戶、發郵件──只要人能用瀏覽器做的,它理論上都能做。
而且,瀏覽器類 Agent 帶來了一個此前從未存在的問題:
AI 在使用者身份訪問網站時,網站根本無法分辨。
大多數瀏覽器 Agent 直接無視 robots.txt(網站聲明不希望被爬取的協議檔案),理由是「我是代替真實使用者操作,不是傳統爬蟲」。這個理由在技術上有一定道理,但網站方沒有任何機制來驗證或拒絕。
整個 30 個 Agent 裡,只有 ChatGPT Agent 一家使用了加密簽名來證明自己的訪問身份,讓網站能夠識別並選擇是否允許。其他 Agent 的網絡行為,對內容提供方來說是完全不透明的黑盒。
這不只是技術問題。當 Agent 代替你在某平台完成操作時,法律責任在哪一方?平台的和使用者簽的服務條款,不是和 Agent 簽的。現有法律框架完全沒有為這種情況做好準備。
企業工作流類:主要透過 CRM 連接器操作業務記錄。8/30 的 Agent 可以直接讀寫 Salesforce、HubSpot 等系統的客戶數據、銷售記錄、工單資訊。
一個重要發現:20/30 的 Agent 支援 MCP(Model Context Protocol)協議,這是 Anthropic 推動的開放工具集成標準。但有意思的是,幾乎所有廠商在文件裡都主推自己的專有連接器,MCP 作為開放標準反而被淡化處理。
維度六:能力在飛奔,安全在裸奔
回到安全透明度這個話題。
30 個 Agent 裡,只有 4 個披露了 Agent 專屬的 system card(系統說明文件,詳細說明自主度、行為邊界、風險分析)──分別是 ChatGPT Agent、OpenAI Codex、Claude Code 和 Gemini 2.5 Computer Use。
25/30 的 Agent 不披露內部安全測試結果,23/30 沒有任何第三方測試數據。5 個中國 Agent 裡,只有 1 個(智譜)發布了任何安全框架或合規標準。
研究團隊特別說明,這可能只是中文文件沒有被納入統計,不代表內部沒有做──但對外部研究者和使用者來說,結果是一樣的:看不見。
當前 Agent 的典型部署是四層結構:
基礎模型廠商(Anthropic/OpenAI/Google)→ Agent 開發商(Salesforce/ServiceNow)→ 企業客戶(某銀行/某零售商)→ 最終使用者。
每一層都在某種程度上宣稱自己只是平台或工具,對上下游行為不負責。出了問題,四層都可以往旁邊推。
出了事,找誰?
研究者把這個叫做「accountability fragmentation」,問責碎片化。
這個問題在一個細節上體現得很清楚:
研究團隊聯繫了全部 30 家開發商,給了四周時間讓他們核查數據並回應。結果只有 23% 給了任何形式的回覆,其中只有 4 家提供了實質性意見。
換句話說,當一個學術機構帶著具體問題去敲門,76% 的 Agent 開發商選擇了沉默。
Agent 生態正在經歷的,不只是產品數量的爆炸。它在快速建立一套新的基礎設施,但這套基礎設施的治理框架幾乎是空白的。
McKinsey 估計 AI Agent 到 2030 年能為美國經濟創造 2.9 萬億美元價值。但同一份報告也顯示,企業目前還沒看到多少實質性回報。
MIT 這份報告,本質上是一次外部審計,用公開資訊,把 30 個 Agent 的底細翻出來。
但有一個問題它回答不了:這些 Agent 在真實世界裡,實際跑起來是什麼狀態?
Claude Code 使用報告
恰好在 MIT 報告發布的同一週,Anthropic 也發了一篇報告:統計了 Claude Code 的百萬次真實的人機交互數據,告訴大家是怎麼用 Claude Code 的。
Claude Code 是最成功的 Agent,沒有之一,這次也一起看看 Anthropic 內部視角的 Agent 走到哪一步了。兩者加一起,我覺得才算一個 Agent 生態比較完整的截面。
Anthropic 數據來源是兩組:公共 API 的上百萬次工具調用,加上 Claude Code 的約 50 萬次會話。
需要說在前面的是:Claude Code 本身就是程式設計工具,API 早期使用者也以技術人群為主,所以這份數據天然偏向開發者群體,不等於整個 AI Agent 市場。
帶著這個前提,程式設計的需求佔了接近一半。
剩下的包括商業智慧、客服、銷售、金融、電商等,沒有任何一個超過十個百分點。醫療、金融和網安被描述為「萌芽中的」。
即便考慮到樣本偏向開發者,程式設計和其他行業之間也是數量級的差距。
回頭看開頭那些新聞就對上了:Claude Code 安全掃描讓網安股暴跌、COBOL 現代化讓 IBM 閃崩,全是程式設計場景的力量向外出溢。
幾個最有價值的發現:
自主運行時間在飛速增長。
2025 年 10 月到 2026 年 1 月,Claude Code 最長任務的不中斷運行時長從不到 25 分鐘漲到了超過 45 分鐘,三個月內近乎翻倍。
大部分人還是短平快地用,但有一小撮使用者已經開始把越來越大的任務丟給 Agent 了。
跟任務變大一起變化的,是使用者和 Agent 之間的信任關係。
新使用者(不到 50 次會話):大約 20% 開全自動批准,隨便 Agent 怎麼來。只有 5% 會中途打斷。
老使用者(超過 750 次會話):超過 40% 開全自動批准,信任確實漲了。但打斷率也漲到了約 9%,反而比新使用者高一倍。
越老練的使用者,控制方式越反直覺。
Anthropic 自己的解讀是:新使用者在「全信」和「全不信」之間二選一,給了權限就不管了。老使用者更像是「放手跑大任務,同時盯著關鍵節點,該接管就接管」。
從操作風險看,Agent 的動作確實以低風險為主。約 80% 的工具調用有安全防護兜底,73% 保持著某種形式的人類參與。真正不可逆的操作(比如發了一封客戶郵件出去就收不回來了)只佔約 0.8%。
風險整體可控,但 Agent 的能力邊界還在快速擴張。
Anthropic 內部數據顯示,2025 年 8 月到 12 月,Claude 在最具挑戰性的內部程式設計基準任務上,成功率翻了一倍。同期人工干預從每次 5.4 次降到了 3.3 次。
還有個細節:在最複雜的任務上,Claude 主動找使用者問:你確定要這樣嗎的頻率,是人類主動打斷 AI 的兩倍以上。
這就有意思了。不是人類在單方面監督 AI,AI 也在反過來確認人類的意圖。
把兩份報告放一起,你會看到什麼?
這兩份報告的統計口徑確實不同──MIT 數的是產品數量,Anthropic 數的是調用量。
MIT 報告看的是外部──30 個 Agent 產品的公開文件裡寫了什麼、沒寫什麼;
Anthropic 這篇看的是內部──Agent 在真實使用中實際怎麼跑的。程式設計佔了接近 50%,其他領域各只有幾個百分點。
MIT 報告說的是開發商不透明──安全文件缺失、自主度被低報、問責鏈斷裂。言下之意是:我們對這些 Agent 知道得太少。
Anthropic 報告說的是自主度在現實裡飛速增長──不中斷運行時長三個月翻倍,使用者主動把審批權交出去,高風險場景已經出現。言下之意是:這些 Agent 正在以超出預期的速度獲得真實權力。
兩個結論疊在一起,指向同一件事:我們對 Agent 了解得越來越少,而它們做的事越來越多。
程式設計為什麼跑在前面?
Agent 產品在快速增長,但深度使用仍然高度集中在程式設計這一個領域。
半導體分析機構 SemiAnalysis 的創始人 Doug O'Laughlin 把程式設計稱為 AI 進入 15 兆美元資訊工作市場的「灘頭陣地」(beachhead);Anthropic CEO Dario Amodei 在今年達沃斯的概括更簡潔:「軟體工程就是最清晰的測試場景──結構化、數位化、可衡量。」
前 OpenAI 聯創 Andrej Karpathy 還點出了一層更深的邏輯:程式設計是唯一一個 AI 的產出能直接加速 AI 自身進步的領域。AI 寫程式碼讓下一代 AI 更強,形成了其他行業不存在的自我加速飛輪。
綜合來看:程式設計是阻力最小的 AI 落地場景,同時又是唯一能自我加速的領域。這兩個特質疊在一起,讓它遠遠跑在其他行業前面。
程式設計跑通了,但跑通之後呢?
程式設計領先的原因講清楚了,但還有一個問題值得想:在程式設計這個已經跑通的場景裡,人和 Agent 之間的關係到底長什麼樣?
前面 Anthropic 那組信任數據其實已經給了指針。
新使用者和老使用者的行為差異說明,信任的建立不是簡單的「越用越放手」,更像是從「要嘛全信要嘛全不信」的粗放模式,逐漸長出了「放手跑大任務,同時盯著關鍵節點,該接管就接管」的精細模式。
目前,73% 的 Agent 調用還保持著人類參與,乍一看像「自動化不徹底」,但換個角度想:在現階段,人機協作本身可能就是正確答案,而不是通往「完全自動化」的終極狀態。
如果是這樣的話,醫療、法律這些容錯空間更小的行業,人類參與比例可能需要比 73% 更高,審批節點需要更密。程式設計場景驗證的是人機協作這個框架本身,但框架搬到別的場景,參數得根據行業特點重新校準。
有沒有變化正在發生?
有,雖然還很早。
Anthropic 經濟指數顯示,教育類任務在 Claude 上的佔比從 2025 年 1 月的 9% 漲到了 15%,是增長最快的非程式設計品类。企業 API 客戶中,與行政支援類任務佔比也上升了 3 個百分點達到 13%。
行業端也出現了具體案例。
Thomson Reuters 的 CoCounsel 背靠公司 170 多年積累的分類編輯經驗和 4500 位主題專家的知識庫,讓律師在幾分鐘內完成過去要花好幾小時的判例檢索。eSentire 在網安領域把威脅分析從 5 小時壓到 7 分鐘,準確率對齊高級專家 95%。
這些變化不算小了。但說爆發,還太早。
這兩份報告畫出的,是 AI Agent 在此刻的一張快照。
供給側已經很熱鬧了,巨頭擠在企業工作流賽道裡摩拳擦掌,華爾街已經在恐懼「SaaSpocalypse」了。需求側的熱度還擠在程式設計這一個領域。
SemiAnalysis 管程式設計叫「灘頭陣地」。灘頭陣地的意思是:已經打下來了,但內陸還沒開始打。
但灘頭陣地終究只是灘頭。根據 Microsoft AI Economy Institute 的數據,截至 2025 年,全球只有 0.04% 的人試過用 AI 程式設計,為 AI 工具付費的比例也只有 0.3%,84% 的人甚至從未真正使用過 AI。
程式設計確實跑在最前面,但它仍然只是一個極小眾的前鋒部隊,內陸市場,幾乎還沒有真正開戰。