想像一個真實的工作日:專案經理要更新專案狀態,財務人員要整理客戶帳單,醫療管理員要核對預約和保險資訊。
這些並不是高階專家任務,很多時候,一個認真一點的實習生照著流程也能完成。
但對今天的 AI Agent 來說,這些「日常工作」卻遠沒有看起來那麼簡單。
它需要理解業務目標、跨應用查找資訊、保持狀態一致,還要在幾十甚至上百步操作後,把所有細節正確落到系統裡。
這也是 SaaS-Bench 想揭示的現實:Agent 不只是要會點按鈕、填表格,更要能完成真實辦公室裡的長流程工作。
如果連實習生日常能做的任務都無法穩定完成,那我們就需要重新審視:距離真正可用的 Agent,還有多遠。
- Blog 連結:https://unipat.ai/blog/SaaS-Bench
- GitHub 連結:https://github.com/UniPat-AI/SaaS-Bench
- 論文連結:https://arxiv.org/abs/2605.15777
Computer-Use Agent 的「奇點」沒有來,現實的冷水先潑下來了。
過去一年,各家 GUI Agent 爭先恐後地宣稱能替人類幹活。Benchmark 成績一路飆升,投資人興奮,媒體狂歡,「全自動辦公」似乎就在眼前。
但 UniPat AI 剛剛用一組數據證明:這一切,都建立在沙子上!
排行榜
23 個真系統,106 個任務,一場殘酷的實戰考試
現有的 Agent 評測,說白了就是:模擬環境、簡單任務、最多幾十步搞定。
跟真實工作完全是兩回事。
真實辦公長什麼樣?一個醫療管理員寫完 SOAP 病歷→填病例上報→生成正式文件。一個財務收到報銷申請→審批→撥款→記帳。跨好幾個系統,步驟動輒幾百步。
SaaS-Bench 的思路很直接:直接把真系統搬進 Docker,讓 Agent 在真實的前後端邏輯、資料庫狀態和業務約束中幹活。
SaaS-Bench 任務 —— 真實工作場景任務
SaaS-Bench 精心挑選了 23 個開源 SaaS (Software-as-a-Service) 系統,全部透過 Docker 本地部署,保留了完整的前後端邏輯、資料庫狀態和業務約束。覆蓋六個專業領域:
- 軟體研發:OpenProject、Baserow、Code-Server、Metabase
- 業務財務:Twenty CRM、BigCapital、HRMS、Pretix
- 醫療管理:OpenEMR、OpnForm、OnlyOffice
- 團隊協作:SiYuan、Roundcube、Mattermost、ownCloud
- 農業供應鏈:FarmOS、Grocy、Recipya、E-Label
- 獨立媒體:PhotoPrism、MediaCMS、BookLore、Watcharr
更重要的是,這些系統不是「空殼網頁」:每個軟體裡都填充了真實業務的數據,包括使用者、專案、訂單、文件等實體記錄。Agent 進入的不是一個空白的測試頁面,而是一個有歷史數據、有干擾項、有跨系統關聯的真實工作環境。
任務模態、領域、App 三層分布
106 個任務中,93.4% 跨越至少兩個應用,三應用任務佔了一半(53 個)。純文字任務 74 個,涉及多模態理解的 32 個。以 Claude Opus 4.6 的執行軌跡估算,97.3% 的文字任務操作步數超過 100 步,最長軌跡達 300+ 步。
任務難度分析 —— 大多數任務是 Cross-App + Long-Horizon 的
這些任務是怎麼來的?如何評估 Agent 的操作能力?
SaaS-Bench 採用「LLM 生成 + 專家把關」的方式完成任務建構:
- 先由 LLM 圍繞六大專業領域和具體職業角色生成任務,明確任務目標、跨應用依賴和驗證要求,並透過多輪修改減少歧義和漏洞。
- 隨後,專家會對任務進行人工篩選和真實執行檢查,重點判斷任務是否專業、自然、可完成、可驗證。對於堆砌步驟、邏輯混亂或驗證不準的任務,會被修改或剔除,最終確保每個任務都能真實運行,並能被驗證器準確評估。
任務建構流程圖 —— 四個階段保證任務品質
SaaS-Bench 允許 Agent 使用 Browser-Use 在 SaaS 環境中操作電腦,並給出了兩個指標:
- Resolved Score(完全通過分數,嚴苛):全部檢查點通過才算 1,否則為 0
- Checkpoint Score(檢查點分數,寬鬆):按權重計算部分檢查點完成比例
Agent → Browser-Use → 執行 → 驗證 → 打分總覽圖
後面的結果會表明 —— 這兩個數字之間的巨大落差,恰好暴露了 Agent 最核心的問題。
榜單出爐:全軍覆沒
來看這組數字 ——
主要結果 (DeepSeek V4 、M2.7 和 GLM5.1 為單模態模型,僅評測 Text-Only Domain)
最強的 Claude Opus 4.7,檢查點分數 43.9%,端到端完全通過分數只有 3.8%——106 個任務,只完整通過了 4 個。Kimi K2.5 和 Gemini 3.1 Pro?完全通過分數為零。一個任務都沒走完。
這組數字的含義極其殘酷:Agent 可以推進工作的部分中間環節,但幾乎沒有能力將一個完整的長程工作流走完。
多跑幾次能救嗎?
四個模型的 Pass@k 結果
把每個模型在同一任務上獨立跑 3 次,對一次就算通過。pass@3 相比 pass@1 整體提升約 8 個百分點。
Sonnet 4.6 在多模態任務上從 33.9% 跳到 52.1%(+18.2pp)—— 它並非完全不行,而是執行極不穩定。
這不是環境隨機性。每次運行的初始狀態完全相同。這是路徑依賴 —— 模型在某個決策點的微小差異,導致後續軌跡完全分岔。
多跑幾次有幫助,但遠不是解決方案。
越複雜,分越低
三個結構維度全部單調遞減:
分數 vs 應用數 / 分數 vs 步長 / 分數 vs 檢查點個數
- 跨應用數 1→4:平均分從 53% 降至 20%
- 操作步長增加:任務軌跡越長,得分顯著越低
- 檢查點個數 ≤6 vs ≥18:平均分從 65% 降至 27%
「跨應用 + 軌跡長 + 細粒度驗證」的任務得分最低 —— 這恰恰是真實工作流最常見的形態。
四種結構性失敗:Agent 到底在哪翻車
SaaS-Bench 真正的價值不在於分數本身,而在於暴露了 Agent 在真實環境中的四種致命缺陷。
失敗 1:任務越長,越做不對
即使每個檢查點通過率高達 95%,12 個檢查點的全部通過機率也只有 54%。而 SaaS-Bench 的平均檢查點數遠超 12。
所有模型都呈現同一個模式:通過率隨任務推進呈下降趨勢,沒有一個模型能在後半段維持住前期表現。
模型隨著任務執行,做對的越來越少
這是一條不可逆的下降曲線。越往後走,越不可能走完。
失敗 2:一步錯,步步錯
一個典型案例:任務要求建立一個公司客戶「Arcturus Digital」。Agent 同時填了聯絡人姓名和公司名,觸發了個人客戶邏輯,實際建立的是個人客戶 Elena Vasquez。
此後的 10 張發票、付款記錄、帳戶對帳,全部掛在錯誤實體下。核心檢查點權重僅 3%,但導致了下游 30% 的權重損失。
上游任務導致下游失敗鏈示意圖
一個 3% 的錯誤節點,造成 30% 的分數損失。
失敗 3:做完不檢查,自以為對了
Claude Opus 4.6 在 Step 124 識別出日期錯誤(2026-03-19 vs. 2026-03-20),執行了修改,但沒有回到頁面複查,直接推進後續子任務。Step 210 提交時,匯報寫的是「帳單日期 2026-03-20,已修復」—— 頁面上實際日期仍是 03-19。
Agent 在意圖層面認為成功,Verifier 在狀態層面發現失敗
Agent 在意圖層面認為成功,驗證器在狀態層面發現失敗。兩者之間的斷層是系統性的。當前 CUA 框架缺少「嚴謹的反思閉環」—— Agent 是個不會檢查自己作業的學生。
失敗 4:同一張考卷,成績忽高忽低
Claude Sonnet 4.6 在同一任務的三次獨立運行中,分數範圍從 0.00 到 0.68。這不是環境隨機性造成的 —— 每次運行的初始狀態完全相同 —— 而是路徑依賴:模型在某個決策點的微小差異,會導致後續執行軌跡完全分岔,這讓 Agent 在長程任務中的執行變成了賭博。
Claude Sonnet 4.6 在同一任務的三次運行
這意味著什麼
SaaS-Bench 撕碎了一個幻覺:Agent 的 Benchmark 成績和真實工作能力之間,存在巨大的鴻溝。
四種結構性失敗模式 —— 越往後越做不對、一步錯步步錯、做完不檢查、次次分數不一樣 —— 指向同一個底層事實:當前 Agent 缺少對持久狀態的有效推理能力,缺少操作後的閉環驗證機制,缺少從錯誤中恢復的能力。
這些不是靠模型變大、或者加幾個工程模組就能解決的問題。它們指向的是當前 Agent 範式更深層的侷限:在長程任務中,模型缺少對全局狀態的持續感知,無法像人一樣「心裡有數」。這不只是技術債,而是當前範式的天花板。
Computer-Use Agent 想要真正替人幹活?路還很遠。SaaS-Bench 把地圖攤開了 —— 接下來就看各家怎麼走了。
但這也引向了一個正在逐漸形成的共識:今天的 SaaS 是給人設計的 —— 選單、按鈕、表單,都在服務人類的眼睛和手指。但當 Agent 成為主要使用者,這些介面就變成了累贅。未來不是讓 Agent 學會操作人類的軟體,而是軟體本身要為 Agent 重新設計。SaaS-Bench 揭示的不只是 Agent 的短板,也是當前軟體形態的保質期 —— 面向人類的 SaaS,可能都要為 Agent 重做一遍。
UniPat AI
UniPat AI 致力於建構面向真實場景的 AI 訓練、評測與應用新範式,推動 Agent 能力在千行百業中規模化落地,創造切實的經濟與社會價值。
- 官網連結:https://unipat.ai
© THE END
轉載請聯繫本公眾號獲得授權
投稿或尋求報導:liyazhou@jiqizhixin.com