現今的 Agent 不再只是回答問題。它會調用 API、查詢資料庫、修改工作區、觸發服務。也正因為如此,評測不能只看最後一句話寫得像不像正確答案,而要看它是不是真的執行了、有沒有安全地執行、環境狀態是否正確。
Claw-Eval-Live 是 Claw-Eval 系列的 live extension:前者先把 Agent 是否真的完成任務評清楚,後者進一步追問,benchmark 測的任務是否還代表當下真實工作流程。
Claw-Eval 的核心,就是把執行過程變成可審計的證據。每次評測在隔離環境中執行,真正參與打分數的不是最終輸出,而是執行軌跡、伺服器端審計日誌和執行後的環境快照。論文中的對照實驗顯示,只讓 LLM judge 看對話記錄和評分腳本、但不給審計日誌與環境快照,它仍會漏掉 44% 的安全違規和 13% 的穩定性問題。也就是說,只看結果會系統性地高估 Agent 的能力。
但評得準還不夠。Agent 面對的是工作流程,而工作流程會變:今天最常見的是跨系統對帳,明天可能是 HR 入職、工單分派、行事曆協調或供應商付款驗證。靜態 benchmark 可以很可重現,但任務混合比例可能已經偏離真實需求。
Claw-Eval-Live 要解決的正是這個偏移。它不是每天隨機換題目,而是讓每一次 release 成為一張帶時間戳的現實切片:信號層觀察公開 workflow 的需求信號,發布層凍結任務定義、執行環境、資料夾具和評分腳本,保證結果仍然可重現、可比較。
這裡的 ClawHub signals 不是 ground-truth demand,也不是自動出題器,而是一個公開、可檢視的需求先驗。系統會經過信號採集、模式分群、家族加權、候選任務試跑篩選,再用 MILP 從候選中選出公開任務,同時約束發布規模、家族覆蓋率和排行榜區分度。
當前公開 release 包含 105 個任務、17 個任務家族和 13 個前沿模型。每道任務都不是一個 prompt,而是一個完整可執行單元:task.yaml、工具介面、資料夾具和 grader.py 缺一不可。
評分也盡量避免「看起來合理就給分」。Claw-Eval-Live 優先檢查確定性證據:是否調用了正確工具,實體和數值是否與 ground truth 一致,必須的狀態變更是否真實發生;只有報告組織、摘要品質這類語義面向,才引入結構化 LLM judge。
實驗結果很冷峻:沒有任何模型通過率突破 70%,榜首到末尾差距達 22.9 個百分點。更值得注意的是,一些模型通過率接近,但 Overall Completion 不同,說明它們往往不是完全不會做,而是差一步工具調用、少一個證據,或狀態沒有處理乾淨。
最違反直覺的是,真正難的不是 Terminal。Development / Terminal 對強模型已經接近天花板;真正卡住模型的是 HR / People、Management / Ops 和跨系統 workflow。HR 平均通過率只有 6.8%,WORKFLOW 也只有 12.8%。這說明當前 Agent 的短板,不是「會不會用 terminal」,而是能不能在多個系統之間持續收集證據、正確關聯記錄,並完成必要的寫入操作。
Claw-Eval 證明了 Agent 評測不能只看結果;Claw-Eval-Live 進一步說明,benchmark 也不能長期停在靜態題庫裡。兩者合起來,把問題拆成了兩半:先確認 Agent 真的做了,再確認我們測的是當下最值得做的 workflow。
論文:https://arxiv.org/abs/2604.28139
Leaderboard:https://claw-eval-live.github.io
程式碼:https://github.com/Claw-Eval-Live/Claw-Eval-Live