AI Agent的現況與困境：MIT、劍橋、史丹佛等聯合發布分析報告

最近 AI 圈最火的一個新詞，叫「SaaSpocalypse」，SaaS 末日。

這兩週，Claude Code 上線了 COBOL 現代化功能，IBM 當天暴跌 13%；又上線了安全掃描功能，一口氣找出 500 多個此前藏了幾十年的高危漏洞，網安股集體跳水。彭博社甚至專門做了一期播客討論「哪些 SaaS 公司能活下來」。

恐慌的核心邏輯只有一句話：

Agent 不是 SaaS 的使用者，Agent 是 SaaS 的替代者。

傳統 SaaS 賣的是什麼，把工作流程做成介面，讓人坐在那裡點擊。收費邏輯是按座位數──你有多少員工使用，就收多少錢。

Agent 出現之後，這件事變了：Agent 可以直接調用 API，自動完成任務，根本不需要有人打開介面。給人使用的介面價值就被壓縮了。

市場的恐慌並非空穴來風。

這是一張 AI Agent 領域從 2020 年到 2026 年初的態勢統計圖。

藍色柱狀圖──每月新增的 Agent 相關搜尋詞數量。從 2023 年逐步上漲，2025 年中達到峰值（單月接近 80 個新詞）。

粉色折線──Google Scholar 上每年關於 Agent 的論文數量。從 2024 年開始陡峭上升，到 2025-2026 年已接近每年 1800 篇。

三種圓點──標注了各類 Agent 產品的實際發布節點。可以看到 2024 年下半年到 2025 年是集中爆发期，各類 Agent 產品密集上線。（具體看下面這張圖）

從趨勢數據看，Agent 賽道在 2024-2025 年進入了爆发期。學術研究、產品發布、市場關注度，三者同步在一路上升，而且還沒有明顯見頂的跡象。

Agent 爆发是事實，但是，Agent 現在到底發展到哪一步了？它真正能做什麼、有多自主、誰在控制它、出了事誰負責？

這兩天，看到 MIT 發了一篇系統性的報告，正好能對這個問題帶來一些更深的理解。

所以本文的目的是在滿屏講 Agent 的資訊流裡，給大家對抗一下雜訊。不聊哪個 Agent 更強、跑分更高，用這個報告裡的數據，帶你認清 Agent 存在的問題，而不是只停留在它能幫我幹活這一層。

首先，這篇報告是 MIT 聯合劍橋、史丹佛、哈佛法學院等機構，發布的一份 2025 AI Agent Index 報告，對 30 個當前最主流的頂級 AI Agent 做了全面分析。

在進入數據之前，有一個認知基礎要先建立──「Agent」這個詞現在被濫用得厲害，凡是能調用工具的 AI 都敢叫自己 Agent。

MIT 這份報告給出了目前最嚴格也最清晰的入選門檻，四個條件缺一不可：

1. 自主性：能在沒有持續人工干預的情況下運行，自己做有實質影響的決策。

2. 目標複雜度：能拆解高層級目標，做長鏈路規劃，至少能連續自主調用 3 次以上工具，不需要你手把手給步驟。

3. 環境交互：有寫入權限，能真正改變外部世界──不是只說話，是真的動手。

4. 通用性：能處理模糊指令，適應新任務，不是只會一招的窄域工具。

滿足這四條，還要有足夠的市場影響力（搜尋量、估值，或簽署了前沿 AI 安全承諾），才能進入這份名單。

從 95 個候選系統裡，最終篩出 30 個。

研究團隊把 30 個 Agent 分成三類，每類的技術架構和風險特徵都完全不同。團隊對全部 Agent 設計了 45 個維度，一共統計了 1350 個數據字段，劃分成六大維度。

維度一：Agent 分類──能做什麼？

Chat 類（12 個）──對話介面 + 工具調用

Anthropic Claude、Claude Code、Google Gemini、Gemini CLI、Kimi OK Computer、Manus AI、MiniMax Agent、OpenAI ChatGPT、ChatGPT Agent、OpenAI Codex、Perplexity、Z.ai AutoGLM 2.0

瀏覽器類（5 個）──直接控制電腦和網頁

Alibaba MobileAgent、ByteDance Agent TARS、OpenAI ChatGPT Atlas、Opera Neon、Perplexity Comet

企業工作流類（13 個）──自動化業務流程

Browser Use、Glean Agents、Google Gemini Enterprise、HubSpot Breeze Studio、IBM watsonx Orchestrate、Microsoft Copilot Studio、OpenAI AgentKit、SAP Joule Studio、Salesforce Agentforce、ServiceNow AI Agents、WRITER Action Agent、Zapier AI Agents、n8n Agents

30 個 Agent 裡，21 個來自美國，5 個來自中國，剩下 4 個分布在德國、挪威和開曼群島。

中國產品上榜 5 個──Kimi、MiniMax、Z.ai、Alibaba MobileAgent、ByteDance TARS。Manus 註冊在開曼群島，但團隊和產品來自中國。如果算上，國產佔比 20%。

23 個完全閉源。

只有前沿實驗室和中國開發者在跑自研模型，其餘全部依賴 GPT、Claude、Gemini 御三家。

30 個 Agent 的宣傳用途高度集中在三件事上：

12 個在做研究與資訊整合，從消費者聊天助手到企業知識平台都有；11 個在做業務流程自動化（HR、銷售、客服、IT），主要集中在企業類產品；7 個在做 GUI 操作，替你填表、下單、訂票

這三個方向疊加在一起，基本覆蓋了一個普通知識工作者一天的大部分工作內容。

值得注意的是，中國的 GUI 類 Agent 有一個明顯特點：更多針對手機端和電腦端的操作（3/5），而不是純網頁瀏覽。Alibaba MobileAgent、Kimi OK Computer、ByteDance TARS 都走這條路線，和美國產品側重網頁瀏覽有所不同。

企業類最多（13 個），但存在感最弱──因為這些產品不直接面向消費者，搜尋量低，但實際部署規模和商業影響力遠超前兩類。像 Microsoft Copilot Studio、Salesforce Agentforce、ServiceNow 背後是真實的企業合同和數據。

維度二：自主程度──五級框架

這份報告裡用了一個目前最清晰的 Agent 自主度分級框架，五個等級：

L1：人主導，Agent 只負責執行具體指令

L2：人與 Agent 協作規劃，共同執行

L3：Agent 主導執行，人在關鍵節點審批

L4：Agent 自主執行大部分，人只作為審批者

L5：Agent 完全自主，人只是旁觀者

結論是：瀏覽器類 Agent 普遍在 L4-L5。

L4-L5 意味著什麼？意味著你啟動任務之後，中間基本沒有干預機會。Agent 會自己決策、自己執行、自己處理異常，你能做的只是等結果，或者在某系統裡點一個「確認」按鈕。

但是，正因為如此，經常有 Agent 刪庫跑路的事件。比如最近 Meta 的安全總監被 Openclaw 刪光了郵件。

雖然很多企業級 Agent 在產品宣傳材料裡普遍強調 L1-L2，但真正部署到企業環境運行時，實際自主度就失控飆到 L3-L5...

以為買進來一個輔助工具，實際上在運行一個自主決策者。

維度三：誰在給 Agent 當地基？

技術架構層面，這份報告提到了一個高度集中的底層依賴結構。

除了 Anthropic、Google、OpenAI 自家的產品，以及中國廠商（用自研模型），剩下幾乎所有 Agent 都壓在 GPT、Claude、Gemini 三個底層上。

這意味著──

這三家底層模型廠商對整個 Agent 生態握有隱性的控制權──他們的模型策略、定價、服務條款變動，會同時影響十幾個甚至更多的上層 Agent 產品。例如，Anthropic 斷供...

也只有 9/30 的企業 Agent 明確支援使用者自選底層模型，一定程度上對沖了這種集中風險。

維度四：記憶黑盒──它記住了什麼，你不知道

45 個字段裡有一項叫「Memory Architecture」（記憶架構），記錄 Agent 如何跨任務、跨會話保留上下文。

這一欄在整份報告裡是灰色字段（未找到任何公開資訊）最密集的區域之一。

大多數開發者完全沒有公開說明：Agent 記住了什麼？保存多久？會不會把一個任務裡獲取的資訊，帶到下一個完全不相關的任務裡？使用者能不能查看或刪除這些記憶？

在 Agent 能接觸到郵件、日曆、CRM 數據、文件系統的情況下，記憶機制的透明度意味著什麼，不需要解釋太多。

維度五：行動空間的差異──手能伸多長

不同類型 Agent 的「手」伸得不一樣遠。

「行動空間」是這份報告裡最直接描述 Agent 能力的維度──它的「手」能伸到哪裡，決定了它能幹什麼、也決定了它能造成什麼。

CLI 類（Claude Code、Gemini CLI）：直接讀寫文件系統、執行終端命令。這意味著它能編譯程式碼、跑腳本、修改配置檔案、刪除文件。這是最接近「有根伺服器權限」的 Agent 形態，也是為什麼 Claude Code 能翻出幾十年前的漏洞──它真的在跑程式碼，不是在描述程式碼。

瀏覽器類：透過點擊、輸入、導航操控整個網頁介面。訂機票、填表單、登入帳戶、發郵件──只要人能用瀏覽器做的，它理論上都能做。

而且，瀏覽器類 Agent 帶來了一個此前從未存在的問題：

AI 在使用者身份訪問網站時，網站根本無法分辨。

大多數瀏覽器 Agent 直接無視 robots.txt（網站聲明不希望被爬取的協議檔案），理由是「我是代替真實使用者操作，不是傳統爬蟲」。這個理由在技術上有一定道理，但網站方沒有任何機制來驗證或拒絕。

整個 30 個 Agent 裡，只有 ChatGPT Agent 一家使用了加密簽名來證明自己的訪問身份，讓網站能夠識別並選擇是否允許。其他 Agent 的網絡行為，對內容提供方來說是完全不透明的黑盒。

這不只是技術問題。當 Agent 代替你在某平台完成操作時，法律責任在哪一方？平台的和使用者簽的服務條款，不是和 Agent 簽的。現有法律框架完全沒有為這種情況做好準備。

企業工作流類：主要透過 CRM 連接器操作業務記錄。8/30 的 Agent 可以直接讀寫 Salesforce、HubSpot 等系統的客戶數據、銷售記錄、工單資訊。

一個重要發現：20/30 的 Agent 支援 MCP（Model Context Protocol）協議，這是 Anthropic 推動的開放工具集成標準。但有意思的是，幾乎所有廠商在文件裡都主推自己的專有連接器，MCP 作為開放標準反而被淡化處理。

維度六：能力在飛奔，安全在裸奔

回到安全透明度這個話題。

30 個 Agent 裡，只有 4 個披露了 Agent 專屬的 system card（系統說明文件，詳細說明自主度、行為邊界、風險分析）──分別是 ChatGPT Agent、OpenAI Codex、Claude Code 和 Gemini 2.5 Computer Use。

25/30 的 Agent 不披露內部安全測試結果，23/30 沒有任何第三方測試數據。5 個中國 Agent 裡，只有 1 個（智譜）發布了任何安全框架或合規標準。

研究團隊特別說明，這可能只是中文文件沒有被納入統計，不代表內部沒有做──但對外部研究者和使用者來說，結果是一樣的：看不見。

當前 Agent 的典型部署是四層結構：

基礎模型廠商（Anthropic/OpenAI/Google）→ Agent 開發商（Salesforce/ServiceNow）→ 企業客戶（某銀行/某零售商）→ 最終使用者。

每一層都在某種程度上宣稱自己只是平台或工具，對上下游行為不負責。出了問題，四層都可以往旁邊推。

出了事，找誰？

研究者把這個叫做「accountability fragmentation」，問責碎片化。

這個問題在一個細節上體現得很清楚：

研究團隊聯繫了全部 30 家開發商，給了四周時間讓他們核查數據並回應。結果只有 23% 給了任何形式的回覆，其中只有 4 家提供了實質性意見。

換句話說，當一個學術機構帶著具體問題去敲門，76% 的 Agent 開發商選擇了沉默。

Agent 生態正在經歷的，不只是產品數量的爆炸。它在快速建立一套新的基礎設施，但這套基礎設施的治理框架幾乎是空白的。

McKinsey 估計 AI Agent 到 2030 年能為美國經濟創造 2.9 萬億美元價值。但同一份報告也顯示，企業目前還沒看到多少實質性回報。

MIT 這份報告，本質上是一次外部審計，用公開資訊，把 30 個 Agent 的底細翻出來。

但有一個問題它回答不了：這些 Agent 在真實世界裡，實際跑起來是什麼狀態？

Claude Code 使用報告

恰好在 MIT 報告發布的同一週，Anthropic 也發了一篇報告：統計了 Claude Code 的百萬次真實的人機交互數據，告訴大家是怎麼用 Claude Code 的。

Claude Code 是最成功的 Agent，沒有之一，這次也一起看看 Anthropic 內部視角的 Agent 走到哪一步了。兩者加一起，我覺得才算一個 Agent 生態比較完整的截面。

Anthropic 數據來源是兩組：公共 API 的上百萬次工具調用，加上 Claude Code 的約 50 萬次會話。

需要說在前面的是：Claude Code 本身就是程式設計工具，API 早期使用者也以技術人群為主，所以這份數據天然偏向開發者群體，不等於整個 AI Agent 市場。

帶著這個前提，程式設計的需求佔了接近一半。

剩下的包括商業智慧、客服、銷售、金融、電商等，沒有任何一個超過十個百分點。醫療、金融和網安被描述為「萌芽中的」。

即便考慮到樣本偏向開發者，程式設計和其他行業之間也是數量級的差距。

回頭看開頭那些新聞就對上了：Claude Code 安全掃描讓網安股暴跌、COBOL 現代化讓 IBM 閃崩，全是程式設計場景的力量向外出溢。

幾個最有價值的發現：

自主運行時間在飛速增長。

2025 年 10 月到 2026 年 1 月，Claude Code 最長任務的不中斷運行時長從不到 25 分鐘漲到了超過 45 分鐘，三個月內近乎翻倍。

大部分人還是短平快地用，但有一小撮使用者已經開始把越來越大的任務丟給 Agent 了。

跟任務變大一起變化的，是使用者和 Agent 之間的信任關係。

新使用者（不到 50 次會話）：大約 20% 開全自動批准，隨便 Agent 怎麼來。只有 5% 會中途打斷。

老使用者（超過 750 次會話）：超過 40% 開全自動批准，信任確實漲了。但打斷率也漲到了約 9%，反而比新使用者高一倍。

越老練的使用者，控制方式越反直覺。

Anthropic 自己的解讀是：新使用者在「全信」和「全不信」之間二選一，給了權限就不管了。老使用者更像是「放手跑大任務，同時盯著關鍵節點，該接管就接管」。

從操作風險看，Agent 的動作確實以低風險為主。約 80% 的工具調用有安全防護兜底，73% 保持著某種形式的人類參與。真正不可逆的操作（比如發了一封客戶郵件出去就收不回來了）只佔約 0.8%。

風險整體可控，但 Agent 的能力邊界還在快速擴張。

Anthropic 內部數據顯示，2025 年 8 月到 12 月，Claude 在最具挑戰性的內部程式設計基準任務上，成功率翻了一倍。同期人工干預從每次 5.4 次降到了 3.3 次。

還有個細節：在最複雜的任務上，Claude 主動找使用者問：你確定要這樣嗎的頻率，是人類主動打斷 AI 的兩倍以上。

這就有意思了。不是人類在單方面監督 AI，AI 也在反過來確認人類的意圖。

把兩份報告放一起，你會看到什麼？

這兩份報告的統計口徑確實不同──MIT 數的是產品數量，Anthropic 數的是調用量。

MIT 報告看的是外部──30 個 Agent 產品的公開文件裡寫了什麼、沒寫什麼；

Anthropic 這篇看的是內部──Agent 在真實使用中實際怎麼跑的。程式設計佔了接近 50%，其他領域各只有幾個百分點。

MIT 報告說的是開發商不透明──安全文件缺失、自主度被低報、問責鏈斷裂。言下之意是：我們對這些 Agent 知道得太少。

Anthropic 報告說的是自主度在現實裡飛速增長──不中斷運行時長三個月翻倍，使用者主動把審批權交出去，高風險場景已經出現。言下之意是：這些 Agent 正在以超出預期的速度獲得真實權力。

兩個結論疊在一起，指向同一件事：我們對 Agent 了解得越來越少，而它們做的事越來越多。

程式設計為什麼跑在前面？

Agent 產品在快速增長，但深度使用仍然高度集中在程式設計這一個領域。

半導體分析機構 SemiAnalysis 的創始人 Doug O'Laughlin 把程式設計稱為 AI 進入 15 兆美元資訊工作市場的「灘頭陣地」（beachhead）；Anthropic CEO Dario Amodei 在今年達沃斯的概括更簡潔：「軟體工程就是最清晰的測試場景──結構化、數位化、可衡量。」

前 OpenAI 聯創 Andrej Karpathy 還點出了一層更深的邏輯：程式設計是唯一一個 AI 的產出能直接加速 AI 自身進步的領域。AI 寫程式碼讓下一代 AI 更強，形成了其他行業不存在的自我加速飛輪。

綜合來看：程式設計是阻力最小的 AI 落地場景，同時又是唯一能自我加速的領域。這兩個特質疊在一起，讓它遠遠跑在其他行業前面。

程式設計跑通了，但跑通之後呢？

程式設計領先的原因講清楚了，但還有一個問題值得想：在程式設計這個已經跑通的場景裡，人和 Agent 之間的關係到底長什麼樣？

前面 Anthropic 那組信任數據其實已經給了指針。

新使用者和老使用者的行為差異說明，信任的建立不是簡單的「越用越放手」，更像是從「要嘛全信要嘛全不信」的粗放模式，逐漸長出了「放手跑大任務，同時盯著關鍵節點，該接管就接管」的精細模式。

目前，73% 的 Agent 調用還保持著人類參與，乍一看像「自動化不徹底」，但換個角度想：在現階段，人機協作本身可能就是正確答案，而不是通往「完全自動化」的終極狀態。

如果是這樣的話，醫療、法律這些容錯空間更小的行業，人類參與比例可能需要比 73% 更高，審批節點需要更密。程式設計場景驗證的是人機協作這個框架本身，但框架搬到別的場景，參數得根據行業特點重新校準。

有沒有變化正在發生？

有，雖然還很早。

Anthropic 經濟指數顯示，教育類任務在 Claude 上的佔比從 2025 年 1 月的 9% 漲到了 15%，是增長最快的非程式設計品类。企業 API 客戶中，與行政支援類任務佔比也上升了 3 個百分點達到 13%。

行業端也出現了具體案例。

Thomson Reuters 的 CoCounsel 背靠公司 170 多年積累的分類編輯經驗和 4500 位主題專家的知識庫，讓律師在幾分鐘內完成過去要花好幾小時的判例檢索。eSentire 在網安領域把威脅分析從 5 小時壓到 7 分鐘，準確率對齊高級專家 95%。

這些變化不算小了。但說爆發，還太早。

這兩份報告畫出的，是 AI Agent 在此刻的一張快照。

供給側已經很熱鬧了，巨頭擠在企業工作流賽道裡摩拳擦掌，華爾街已經在恐懼「SaaSpocalypse」了。需求側的熱度還擠在程式設計這一個領域。

SemiAnalysis 管程式設計叫「灘頭陣地」。灘頭陣地的意思是：已經打下來了，但內陸還沒開始打。

但灘頭陣地終究只是灘頭。根據 Microsoft AI Economy Institute 的數據，截至 2025 年，全球只有 0.04% 的人試過用 AI 程式設計，為 AI 工具付費的比例也只有 0.3%，84% 的人甚至從未真正使用過 AI。

程式設計確實跑在最前面，但它仍然只是一個極小眾的前鋒部隊，內陸市場，幾乎還沒有真正開戰。

AI Agent的現況與困境：MIT、劍橋、史丹佛等聯合發布分析報告

相關文章推薦

分享網址