Claude 4.6 正確率只有66%？Claw-Eval-Live 說：會修終端機 ≠ 能跨系統做事

現今的 Agent 不再只是回答問題。它會調用 API、查詢資料庫、修改工作區、觸發服務。也正因為如此，評測不能只看最後一句話寫得像不像正確答案，而要看它是不是真的執行了、有沒有安全地執行、環境狀態是否正確。

示意圖：Agent 評測不能只看最終輸出，需審查執行軌跡與環境狀態。

Claw-Eval-Live 是 Claw-Eval 系列的 live extension：前者先把 Agent 是否真的完成任務評清楚，後者進一步追問，benchmark 測的任務是否還代表當下真實工作流程。

Claw-Eval-Live 流程圖，展示從信號採集到任務發布的完整 pipeline。

Claw-Eval 的核心，就是把執行過程變成可審計的證據。每次評測在隔離環境中執行，真正參與打分數的不是最終輸出，而是執行軌跡、伺服器端審計日誌和執行後的環境快照。論文中的對照實驗顯示，只讓 LLM judge 看對話記錄和評分腳本、但不給審計日誌與環境快照，它仍會漏掉 44% 的安全違規和 13% 的穩定性問題。也就是說，只看結果會系統性地高估 Agent 的能力。

但評得準還不夠。Agent 面對的是工作流程，而工作流程會變：今天最常見的是跨系統對帳，明天可能是 HR 入職、工單分派、行事曆協調或供應商付款驗證。靜態 benchmark 可以很可重現，但任務混合比例可能已經偏離真實需求。

靜態 Benchmark 與真實世界工作流程偏移的示意圖。

Claw-Eval-Live 要解決的正是這個偏移。它不是每天隨機換題目，而是讓每一次 release 成為一張帶時間戳的現實切片：信號層觀察公開 workflow 的需求信號，發布層凍結任務定義、執行環境、資料夾具和評分腳本，保證結果仍然可重現、可比較。

Claw-Eval-Live 的 Release 機制，展示凍結任務定義以確保可重現性。

這裡的 ClawHub signals 不是 ground-truth demand，也不是自動出題器，而是一個公開、可檢視的需求先驗。系統會經過信號採集、模式分群、家族加權、候選任務試跑篩選，再用 MILP 從候選中選出公開任務，同時約束發布規模、家族覆蓋率和排行榜區分度。

當前公開 release 包含 105 個任務、17 個任務家族和 13 個前沿模型。每道任務都不是一個 prompt，而是一個完整可執行單元：task.yaml、工具介面、資料夾具和 grader.py 缺一不可。

評分也盡量避免「看起來合理就給分」。Claw-Eval-Live 優先檢查確定性證據：是否調用了正確工具，實體和數值是否與 ground truth 一致，必須的狀態變更是否真實發生；只有報告組織、摘要品質這類語義面向，才引入結構化 LLM judge。

評分機制示意圖，對比確定性證據檢查與語義評判。

模型在不同任務家族上的表現熱力圖。

實驗結果很冷峻：沒有任何模型通過率突破 70%，榜首到末尾差距達 22.9 個百分點。更值得注意的是，一些模型通過率接近，但 Overall Completion 不同，說明它們往往不是完全不會做，而是差一步工具調用、少一個證據，或狀態沒有處理乾淨。

模型通過率與完成度的對照長條圖。

最違反直覺的是，真正難的不是 Terminal。Development / Terminal 對強模型已經接近天花板；真正卡住模型的是 HR / People、Management / Ops 和跨系統 workflow。HR 平均通過率只有 6.8%，WORKFLOW 也只有 12.8%。這說明當前 Agent 的短板，不是「會不會用 terminal」，而是能不能在多個系統之間持續收集證據、正確關聯記錄，並完成必要的寫入操作。

各任務家族通過率長條圖，凸顯 HR 與跨系統工作流程的低分。

Claw-Eval 證明了 Agent 評測不能只看結果；Claw-Eval-Live 進一步說明，benchmark 也不能長期停在靜態題庫裡。兩者合起來，把問題拆成了兩半：先確認 Agent 真的做了，再確認我們測的是當下最值得做的 workflow。

論文：https://arxiv.org/abs/2604.28139

Leaderboard：https://claw-eval-live.github.io

程式碼：https://github.com/Claw-Eval-Live/Claw-Eval-Live

動手設計AI Agents：（編排、記憶、插件、workflow、協作）

分享兩篇Claude Skills最新論文，有3個核心結論

會學習的龍蝦，才是好龍蝦：OpenClaw-RL

2026，做Agentic AI，繞不開這兩篇開年綜述

Claude 4.6 正確率只有66%？Claw-Eval-Live 說：會修終端機 ≠ 能跨系統做事

相關文章推薦

分享網址