Claude 4.6 正確率只有66%?Claw-Eval-Live 說:會修終端機 ≠ 能跨系統做事

現今的 Agent 不再只是回答問題。它會調用 API、查詢資料庫、修改工作區、觸發服務。也正因為如此,評測不能只看最後一句話寫得像不像正確答案,而要看它是不是真的執行了、有沒有安全地執行、環境狀態是否正確。

示意圖:Agent 評測不能只看最終輸出,需審查執行軌跡與環境狀態。

Claw-Eval-Live 是 Claw-Eval 系列的 live extension:前者先把 Agent 是否真的完成任務評清楚,後者進一步追問,benchmark 測的任務是否還代表當下真實工作流程。

Claw-Eval-Live 流程圖,展示從信號採集到任務發布的完整 pipeline。

Claw-Eval 的核心,就是把執行過程變成可審計的證據。每次評測在隔離環境中執行,真正參與打分數的不是最終輸出,而是執行軌跡、伺服器端審計日誌和執行後的環境快照。論文中的對照實驗顯示,只讓 LLM judge 看對話記錄和評分腳本、但不給審計日誌與環境快照,它仍會漏掉 44% 的安全違規和 13% 的穩定性問題。也就是說,只看結果會系統性地高估 Agent 的能力。

但評得準還不夠。Agent 面對的是工作流程,而工作流程會變:今天最常見的是跨系統對帳,明天可能是 HR 入職、工單分派、行事曆協調或供應商付款驗證。靜態 benchmark 可以很可重現,但任務混合比例可能已經偏離真實需求。

靜態 Benchmark 與真實世界工作流程偏移的示意圖。

Claw-Eval-Live 要解決的正是這個偏移。它不是每天隨機換題目,而是讓每一次 release 成為一張帶時間戳的現實切片:信號層觀察公開 workflow 的需求信號,發布層凍結任務定義、執行環境、資料夾具和評分腳本,保證結果仍然可重現、可比較。

Claw-Eval-Live 的 Release 機制,展示凍結任務定義以確保可重現性。

這裡的 ClawHub signals 不是 ground-truth demand,也不是自動出題器,而是一個公開、可檢視的需求先驗。系統會經過信號採集、模式分群、家族加權、候選任務試跑篩選,再用 MILP 從候選中選出公開任務,同時約束發布規模、家族覆蓋率和排行榜區分度。

當前公開 release 包含 105 個任務、17 個任務家族和 13 個前沿模型。每道任務都不是一個 prompt,而是一個完整可執行單元:task.yaml、工具介面、資料夾具和 grader.py 缺一不可。

評分也盡量避免「看起來合理就給分」。Claw-Eval-Live 優先檢查確定性證據:是否調用了正確工具,實體和數值是否與 ground truth 一致,必須的狀態變更是否真實發生;只有報告組織、摘要品質這類語義面向,才引入結構化 LLM judge。

評分機制示意圖,對比確定性證據檢查與語義評判。

模型在不同任務家族上的表現熱力圖。

實驗結果很冷峻:沒有任何模型通過率突破 70%,榜首到末尾差距達 22.9 個百分點。更值得注意的是,一些模型通過率接近,但 Overall Completion 不同,說明它們往往不是完全不會做,而是差一步工具調用、少一個證據,或狀態沒有處理乾淨。

模型通過率與完成度的對照長條圖。

最違反直覺的是,真正難的不是 Terminal。Development / Terminal 對強模型已經接近天花板;真正卡住模型的是 HR / People、Management / Ops 和跨系統 workflow。HR 平均通過率只有 6.8%,WORKFLOW 也只有 12.8%。這說明當前 Agent 的短板,不是「會不會用 terminal」,而是能不能在多個系統之間持續收集證據、正確關聯記錄,並完成必要的寫入操作。

各任務家族通過率長條圖,凸顯 HR 與跨系統工作流程的低分。

Claw-Eval 證明了 Agent 評測不能只看結果;Claw-Eval-Live 進一步說明,benchmark 也不能長期停在靜態題庫裡。兩者合起來,把問題拆成了兩半:先確認 Agent 真的做了,再確認我們測的是當下最值得做的 workflow。

論文:https://arxiv.org/abs/2604.28139

Leaderboard:https://claw-eval-live.github.io

程式碼:https://github.com/Claw-Eval-Live/Claw-Eval-Live

動手設計AI Agents:(編排、記憶、插件、workflow、協作)

分享兩篇Claude Skills最新論文,有3個核心結論

會學習的龍蝦,才是好龍蝦:OpenClaw-RL

2026,做Agentic AI,繞不開這兩篇開年綜述

相關文章推薦

分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.