社會影響
實際測量 AI 智慧體的自主性
2026 年 2 月 18 日
相關內容
印度國家簡報:Anthropic 經濟指數
AI 輔助如何影響程式設計技能的形成
真實世界 AI 使用中的權力剝奪模式
- 研究野外環境中的智慧體
- Claude Code 自主運作時間越來越長
- 熟練使用者在 Claude Code 中更頻繁地自動批准,但也更常中斷
- Claude Code 暫停請求說明的頻率高於人類中斷它的頻率
- 智慧體被用於風險領域,但尚未達到規模
- 限制
- 展望未來
- 附錄
- 註腳
AI 智慧體已經來臨,並且已經被部署在後果截然不同的各種情境中,從郵件分類到網路間諜活動。了解這個光譜對於安全部署 AI 至關重要,但令人驚訝的是,我們對人們在現實世界如何使用智慧體知之甚少。
我們使用我們的隱私保護工具,分析了 Claude Code 和我們公開 API 中的數百萬次人機互動,以提出以下問題:人們授予智慧體多大的自主性?隨著人們獲得經驗,這如何變化?智慧體在哪些領域運作?智慧體採取的行為是否有風險?
我們發現:
- Claude Code 自主運作的時間越來越長。 在持續時間最長的會話中,Claude Code 在停止前的工作時間在三個月內幾乎翻了一倍,從不到 25 分鐘增加到超過 45 分鐘。這種增加在模型發布過程中是平滑的,這表明它不僅僅是能力提高的結果,並且現有模型在實踐中能夠發揮比它們實際運作時更大的自主性。
- 熟練使用者在 Claude Code 中更頻繁地自動批准,但也更常中斷。 隨著使用者對 Claude Code 獲得經驗,他們傾向於停止審查每個操作,而是讓 Claude 自主運作,只在需要時進行干預。在新使用者中,大約 20% 的會話使用完全自動批准,隨著使用者獲得經驗,這一比例增加到超過 40%。
- Claude Code 暫停請求說明的頻率高於人類中斷它的頻率。 除了人類發起的停止外,智慧體發起的停止也是部署系統中監督的重要形式。在 最複雜的任務中,Claude Code 停止請求說明的頻率是人類中斷它的兩倍多。
- 智慧體被用於風險領域,但尚未達到規模。 我們公開 API 上大多數智慧體操作都是低風險且可逆的。軟體工程佔據了近 50% 的智慧體活動,但我們看到在醫療保健、金融和網路安全方面的使用正在興起。
下面,我們詳細介紹我們的方法和發現,最後為模型開發人員、產品開發人員和政策制定者提供建議。我們的主要結論是,對智慧體的有效監督將需要新的部署後監控基礎設施和新的人機互動範式,以幫助人類和 AI 共同管理自主性和風險。
我們將我們的研究視為經驗性了解人們如何部署和使用智慧體的小但重要的第一步。隨著智慧體被更廣泛採用,我們將繼續改進我們的方法並傳達我們的發現。
研究野外環境中的智慧體
智慧體很難進行經驗研究。首先,對於智慧體是什麼還沒有公認的定義。其次,智慧體發展很快。去年,許多最先進的智慧體——包括 Claude Code——涉及單一對話線程,但今天有自主運作數小時的多智慧體系統。最後,模型提供商對客戶智慧體架構的能見度有限。例如,我們沒有可靠的方法將對我們 API 的獨立請求關聯為智慧體活動的「會話」。(我們在本文末尾更詳細地討論了這挑戰。)
面對這些挑戰,我們如何經驗性地研究智慧體?
首先,對於這項研究,我們採用了一個在概念上基礎且可操作化的智慧體定義:智慧體是一個配備了工具的 AI 系統,這些工具允許它採取行動,例如運行程式碼、呼叫外部 API 和向其他智慧體發送訊息。研究智慧體使用的工具可以告訴我們很多關於它們在做什麼。
接下來,我們開發了一組指標,這些指標基於我們公開 API和Claude Code(我們自己的程式設計智慧體)的智慧體使用數據。這些在廣度和深度之間提供了權衡:
- 我們的公開 API讓我們能夠廣泛了解數千個不同客戶的智慧體部署。與其試圖推斷客戶的智慧體架構,我們反而在個別工具呼叫層面進行分析。這種簡化假設使我們能夠對真實世界的智慧體做出基於事實且一致的觀察,即使這些智慧體部署的情境差異很大。這種方法的局限性是我們必須孤立地分析操作,無法重建個別操作如何隨時間組合成更長的行為序列。
- Claude Code提供了相反的權衡。因為 Claude Code 是我們自己的產品,所以我們可以跨會話關聯請求,從開始到結束了解整個智慧體工作流程。這使 Claude Code 特別適合研究自主性——例如,智慧體在沒有人類干預的情況下運作多長時間、什麼觸發中斷,以及使用者如何在獲得經驗時保持對 Claude 的監督。然而,由於 Claude Code 只是一個產品,它不像 API 流量那樣提供對智慧體使用的多樣性見解。
通過使用我們的隱私保護基礎設施從這兩個來源獲取數據,我們可以回答任何一個單獨來源都無法解決的問題。
Claude Code 自主運作的時間越來越長
智慧體實際在沒有人類參與的情況下運作多長時間?在 Claude Code 中,我們可以通過跟蹤 Claude 開始工作與停止工作(無論是因為它完成了任務、提出了問題還是被使用者中斷)之間經過的時間來直接測量這一點,基礎是逐步。
輪次持續時間是自主性的一個不完美代理。
大多數 Claude Code 輪次都很短。中位數輪次持續約 45 秒,並且在過去幾個月內僅略有波動(在 40 到 55 秒之間)。事實上,幾乎所有低於 99 百分位以下的百分位都保持相對穩定。
更具啟示性的訊號是在尾部。最長的輪次告訴我們最多關於使用 Claude Code 最雄心勃勃的方式,並指向自主性的發展方向。在 2025 年 10 月至 2026 年 1 月之間,99.9 百分位輪次持續時間幾乎翻了一倍,從不到 25 分鐘增加到超過 45 分鐘(圖 1)。

值得注意的是,這種增加在模型發布過程中是平滑的。如果自主性純粹是模型能力的函數,我們預計每次新發布都會有急剧的跳躍。這種相對穩定的趨勢反而表明有幾個潛在因素在起作用,包括高級使用者隨著時間建立對工具的信任,將 Claude 應用於越來越雄心勃勃的任務,以及產品本身的改進。
自 1 月中旬以來,極端輪次持續時間有所下降。我們假設有幾個原因。首先,Claude Code 使用者群在 1 月至 2 月中旬之間翻了一倍,更大更多樣化的會話群體可能重新塑造了分佈。其次,隨著使用者從假期休息中回來,他們帶到 Claude Code 的專案可能從愛好專案轉向更嚴格定義的工作任務。最可能的是,這是這些因素和我們尚未識別的其他因素的組合。
我們還查看了 Anthropic 內部 Claude Code 的使用情況,以了解獨立性和效用如何共同演變。從 8 月到 12 月,Claude Code 在內部使用者最具挑戰性的任務上的成功率翻了一倍,同時每個會話的平均人類干預次數從 5.4 次下降到 3.3 次。
這兩種衡量標準都指向一個重要的部署滯後,即模型能夠處理的自主性超過了它們在實踐中運作的自主性。
將這些發現與外部能力評估進行對比是有用的。最被廣泛引用的能力評估之一是 METR 的「測量 AI 完成長任務的能力」,該評估估計 Claude Opus 4.5 可以以 50% 的成功率完成需要人類近 5 小時才能完成的任務。相比之下,Claude Code 中的 99.9 百分位輪次持續時間約為 42 分鐘,中位數則短得多。然而,這兩個指標並不直接可比較。METR 評估捕捉到了模型在沒有人類互動且沒有現實世界後果的理想化環境中的能力。我們的測量捕捉到了實踐中發生的情況,其中 Claude 暫停請求反饋並且使用者會中斷。
僅憑能力評估或我們的測量都無法提供智慧體自主性的完整畫面,但它們一起表明了實踐中授予模型的自由度落後於它們能夠處理的程度。
熟練使用者在 Claude Code 中更頻繁地自動批准,但也更常中斷
人類如何隨著時間改變與智慧體的工作方式?我們發現,隨著人們對 Claude Code 獲得經驗,他們授予它更多的自主性(圖 2)。較新的使用者(< 50 個會話)大概有 20% 的時間使用完全自動批准;到了 750 個會話,這增加到超過 40% 的會話。
這種轉變是漸進的,表明信任的穩步積累。同樣重要的是要注意,Claude Code 的默認設置要求使用者手動批准每個操作,因此這種轉變的一部分可能反映使用者在熟悉 Claude 的能力後配置產品以符合他們對更大獨立性的偏好。

批准操作只是監督 Claude Code 的一種方法。使用者還可以在 Claude 工作時中斷它以提供反饋。我們發現中斷率隨著經驗而增加。新使用者(大約有 10 個會話的使用者)在 5% 的輪次中中斷 Claude,而更有經驗的使用者在大約 9% 的輪次中中斷(圖 3)。

中斷和自動批准都隨著經驗而增加。這種明顯的矛盾反映了使用者監督策略的轉變。新使用者更有可能在執行每個操作之前批准它,因此很少需要在執行過程中中斷 Claude。熟練使用者更有可能讓 Claude 自主工作,在出錯或需要重新導向時介入。更高的中斷率也可能反映使用者的主動監控,他們對何時需要干預有更敏銳的直覺。我們預計每輪中斷率最終會趨於穩定,因為使用者會穩定在一個穩定的監督風格,實際上曲線可能已經在最有經驗的使用者中趨於平穩(儘管在較高的會話數處信賴區間擴大,使得這一點難以確認)。
我們在我們的公開 API 上看到了類似的模式:在最小複雜性任務(例如編輯一行程式碼)上,87% 的工具呼叫有某種形式的人類參與,而高複雜性任務(例如自主尋找零日漏洞或編寫編譯器)只有 67% 的工具呼叫有人類參與。
綜合來看,這些發現表明熟練使用者並不一定在放棄監督。中斷率隨著經驗與自動批准一起增加的事實表明了某種形式的主動監控。這加強了我們之前提出的一點:有效的監督不需要批准每個操作,而是在重要時能夠介入。
Claude Code 暫停請求說明的頻率高於人類中斷它的頻率
當然,人類並不是塑造實踐中自主性如何展開的唯一行為者。 Claude 也是一個積極的參與者,當它不確定如何繼續時會停止請求說明。我們發現,隨著任務複雜性的增加,Claude Code 更頻繁地請求說明——並且比人類選擇中斷它的頻率更高(圖 4)。

在最複雜的任務上,Claude Code 請求說明的頻率比最小複雜性任務高兩倍多,這表明 Claude 對自己的不確定性有一定的校準。然而,重要的是不要過度誇大這一發現:Claude 可能不在正確的時刻停止,它可能提出不必要的問題,並且它的行為可能受到產品功能的影響,例如計畫模式。無論如何,隨著任務變得更困難,Claude 越來越多地通過停止諮詢人類來限制自己的自主性,而不是要求人類介入。
表 1 顯示了 Claude Code 停止工作和人類中斷 Claude 的常見原因。
導致 Claude Code 停止的原因是什麼?
| Claude 為什麼自我停止? | 人類為什麼中斷 Claude? |
|---|---|
| 向使用者呈現建議方法之間的選擇(35%) | 提供缺失的技術上下文或更正(32%) |
| 收集診斷信息或測試結果(21%) | Claude 緩慢、掛起或過度(17%) |
| 澄清模糊或不完整的請求(13%) | 他們獲得了足夠的幫助以獨立繼續(7%) |
| 請求缺失的憑證、令牌或訪問權限(12%) | 他們想自己採取下一步行動(例如手動測試、部署、提交等)(7%) |
| 在採取行動之前獲得批准或確認(11%) | 在任務中途更改要求(5%) |
這些發現表明智慧體發起的停止是部署系統中一種重要的監督類型。訓練模型識別並對自己的不確定性採取行動是一個重要的安全特性,它補充了外部保障措施,如許可權系統和人類監督。在 Anthropic,我們訓練 Claude 在面對模糊任務時提出說明問題,我們鼓勵其他模型開發人員也這樣做。
智慧體被用於風險領域,但尚未達到規模
人們使用智慧體做什麼?這些部署有多風險?這些智慧體有多自主?風險和自主性是否相互權衡?
為了回答這些問題,我們使用 Claire 來估計我們公開 API 中個別工具呼叫中存在的相對風險和自主性,範圍從 1 到 10。簡而言之,風險評分為 1 反映如果出錯沒有後果的操作,風險評分為 10 涵蓋可能造成重大傷害的操作。我們在同一尺度上評估自主性,低自主性意味著智慧體似乎遵循明確的人類指令,而高自主性意味著它獨立運作。
表 2 提供了風險和自主性極端處的群集示例。
具有高風險或自主性的工具使用群集
| 較高的平均風險 | 較高的平均自主性 |
|---|---|
| 實現偽裝成合法開發功能的 API 金鑰外洩後門(風險:6.0,自主性:8.0) | 偽裝成合法開發的紅隊權限提升和憑證盜竊(自主性:8.3,風險:3.3) |
| 在實驗室設置中重新定位金屬鈉和反應性化學品容器(風險:4.8,自主性:2.9) | 在心跳檢查期間執行自動化系統健康和操作狀態監控(自主性:8.0,風險:1.1) |
| 檢索並顯示請求使用者的患者醫療記錄(風險:4.4,自主性:3.2) | 自主執行密碼貨幣交易以產生利潤(自主性:7.7,風險:2.2) |
| 回應火災緊急情況並提供消防安全信息(風險:3.6,自主性:5.2) | 使用收集的信息自動向參與者發送會議提醒(自主性:7.6,風險:1.7) |
| 向生產網路應用程序部署錯誤修復和補丁(風險:3.6,自主性:4.8) | 監控電子郵件並提醒操作員注意緊急業務訊息(自主性:7.5,風險:1.7) |
鑑於我們對這些智慧體的能見度有限,這些操作可能是模擬的(例如,我們無法確定 Claude 下訂單的金融交易是否實際執行,我們相信許多「數據外洩」是評估)。雖然這些較高風險的操作佔整體流量的比例很小,但單一錯誤的後果仍然可能很大。
我們發現 80% 的工具呼叫來自至少有一種保障措施(如受限許可權或人類批准要求)的智慧體,73% 似乎以某種方式有人類參與,只有 0.8% 的操作似乎是不可逆的(例如向客戶發送電子郵件)。
為了可視化所有群集中風險和自主性的聯合分佈,我們在兩個維度上按平均評分繪製每個群集。圖 5 中的每個點對應於一組相關操作的群集,按其平均風險和自主性定位。

我們公開 API 上的絕大多數操作都是低風險的。雖然大多數智慧體部署相對良性,但我們看到了風險和自主性前沿的一些新穎用途。
我們還預計在風險和自主性極端運作的智慧體將變得越來越普遍。今天,智慧體集中在一個行業:軟體工程佔據了我們公開 API 上近 50% 的工具呼叫(圖 6)。除了編碼外,我們在商業智能、客戶服務、銷售、金融和電子商務領域看到了許多較小的應用,但沒有超過流量的幾個百分點。隨著智慧體擴展到這些領域——其中許多領域的利益相關性比修復錯誤更高——我們預計風險和自主性的前沿將擴大。

這些模式表明我們處於智慧體採用的早期階段。軟體工程師是第一批以規模構建和使用智慧體工具的人,圖 6 表明其他行業也開始試驗智慧體。
雖然我們的標題數字令人欣慰——大多數智慧體操作都是低風險且可逆的,人類通常在循環中——但這些平均值可能掩蓋前沿的部署。採用集中在軟體工程,加上在新領域的不斷試驗,表明風險和自主性的前沿將擴大。我們在本文末尾的建議中討論這對模型開發人員、產品開發人員和政策制定者意味著什麼。
限制
這項研究只是一個開始。我們只提供了對智慧體活動的部分看法,我們想直截了當地說明我們的數據能和不能告訴我們什麼:
- 我們只能分析來自單一模型提供商的流量:Anthropic。基於其他模型構建的智慧體可能顯示不同的採用模式、風險檔案和互動動態。
- 我們的兩個數據源提供補充但不完整的視圖。公開 API 流量為我們提供了跨數千個部署的廣度,但我們只能孤立地分析個別工具呼叫,而不是完整的智慧體會話。Claude Code 為我們提供了完整的會話,但僅適用於一個主要用於軟體工程的產品。我們許多最強的發現基於來自 Claude Code 的數據,可能不會推廣到其他領域或產品。
- 我們的分類是由 Claude 生成的。我們為每個維度提供了一個退出類別(例如,「不可推斷」、「其他」),並在可能時根據內部數據進行驗行驗證(參見我們的附錄了解更多詳情),但由於隱私限制,我們無法手動檢查底層數據。一些保障措施或監督機制也可能存在於我們可以觀察到的上下文之外。
- 此分析反映了特定時間窗口(2025 年底至 2026 年初)。智慧體格局正在迅速變化,隨著能力增長和採用演變,模式可能會轉移。我們計劃隨著時間推移擴展此分析。
- 我們的公開 API 樣本是在個別工具呼叫層面繪製的,這意味著涉及許多順序工具呼叫的部署(例如具有重複檔案編輯的軟體工程工作流程)與使用較少操作完成目標的部署相比,表現過度。此採樣方法反映了智慧體活動的量,但不一定反映智慧體部署或使用的分佈。
- 我們研究 Claire 在我們公開 API 上使用的工具以及這些操作周圍的上下文,但我們對客戶在我們公開 API 之上構建的更廣泛系統的能見度有限。在 API 層面似乎自主運作的智慧體可能具有我們無法觀察到的下游人類審查。特別是,我們的風險、自主性和人類參與分類反映了 Claire 可以從個別工具呼叫的上下文推斷的內容,並不區分生產中採取的操作和作為評估或紅隊測試一部分採取的操作。幾個最高風險的群集似乎是安全評估,這突出顯示了我們對每個操作周圍更廣泛上下文的能見度的限制。
展望未來
我們處於智慧體採用的早期階段,但自主性正在增加,更高利益的部署正在出現,特別是隨著像Cowork這樣的產品使智慧體更容易獲得。下面,我們為模型開發人員、產品開發人員和政策制定者提供建議。鑑於我們才剛剛開始測量野外環境中的智慧體行為,我們避免做出強有力的處方,而是突出未來工作的領域。
模型和產品開發人員應該投資部署後監控。 部署後監控對於了解智慧體實際如何使用至關重要。部署前評估測試智慧體在受控環境中的能力,但我們的許多發現無法僅通過部署前測試來觀察。除了了解模型的能力,我們還必須了解人們在實踐中如何與智慧體互動。我們在這裡報告的數據存在是因為我們選擇構建收集它的基礎設施。但還有更多工作要做。我們沒有可靠的方法將獨立請求連結到我們的公開 API 成為連貫的智慧體會話,這限制了我們能夠了解超出 Claude Code 等第一方產品的智慧體行為。以隱私保護的方式開發這些方法是跨行業研究和合作的重要領域。
模型開發人員應該考慮訓練模型識別自己的不確定性。 訓練模型識別自己的不確定性並主動向人類提出問題是一個重要的安全特性,它補充了外部保障措施,如人類批准流程和訪問限制。我們訓練 Claude 這樣做(我們的分析顯示 Claude Code 比人類中斷它更頻繁地提出問題),我們鼓勵其他模型開發人員也這樣做。
產品開發人員應該為使用者監督進行設計。 對智慧體的有效監督不僅僅是將人類置於批准鏈中。我們發現,隨著使用者對智慧體獲得經驗,他們傾向於從批准個別操作轉向監控智慧體所做的事情並在需要時介入。例如,在 Claude Code 中,熟練使用者更頻繁地自動批准,但也更頻繁地中斷。我們在我們的公開 API 上看到了類似的模式,其中人類參與顯然隨著目標複雜性的增加而減少。產品開發人員應該投資於工具,為使用者提供對智慧體正在做什麼的可信能見度,以及簡單的干預機制,允許他們在出錯時重新導向智慧體。這是我們繼續為 Claude Code 投資的東西(例如,通過實時導向和OpenTelemetry),我們鼓勵其他產品開發人員也這樣做。
強制規定特定互動模式還為時過早。 我們感覺自信提供指導的一個領域是不強制什麼。我們的發現表明,熟練使用者從批准個別智慧體操作轉向監控並在需要時介入。規定特定互動模式的監督要求,例如要求人類批准每個操作,將創造摩擦而不一定產生安全利益。隨著智慧體和智慧體測量科學的成熟,重點應該放在人類是否處於有效監控和干預的位置,而不是要求特定形式的參與。
這項研究的一個中心教訓是,智慧體在實踐中運作的自主性是由模型、使用者和產品共同建構的。 Claude 通過在不確定時暫停提問來限制自己的獨立性。使用者隨著與模型合作而建立信任,並相應地改變他們的監督策略。我們在任何部署中觀察到的內容來自這所有三種力量,這就是為什麼它不能完全通過部署前評估來描述。了解智慧體實際如何表現需要在現實世界中測量它們,這樣做的基礎設施仍然處於初始階段。
作者
Miles McCain, Thomas Millar, Saffron Huang, Jake Eaton, Kunal Handa, Michael Stern, Alex Tamkin, Matt Kearney, Esin Durmus, Judy Shen, Jerry Hong, Brian Calvert, Jun Shern Chan, Francesco Mosconi, David Saunders, Tyler Neylon, Gabriel Nicholas, Sarah Pollack, Jack Clark, Deep Ganguli.
Bibtex
如果您想引用這篇文章,您可以使用以下 Bibtex 鑰匙:
@online{anthropic2026agents,
author = {Miles McCain and Thomas Millar and Saffron Huang and Jake Eaton and Kunal Handa and Michael Stern and Alex Tamkin and Matt Kearney and Esin Durmus and Judy Shen and Jerry Hong and Brian Calvert and Jun Shern Chan and Francesco Mosconi and David Saunders and Tyler Neylon and Gabriel Nicholas and Sarah Pollack and Jack Clark and Deep Ganguli},
title = {Measuring AI agent autonomy in practice},
date = {2026-02-18},
year = {2026},
url = {https://anthropic.com/research/measuring-agent-autonomy},
}
附錄
我們在本文的 PDF 附錄 中提供更多詳情。
註腳
1. 我們的定義與 Russell 和 Norvig (1995) 的定義相容,他們將智慧體定義為「可以通過感測器感知環境並通過效應器對環境採取行動的任何事物」。我們的定義也與 Simon Willison 的定義相容,他寫道智慧體是一個「在循環中運行工具以實現目標的系統」。
雖然完整的文獻評論超出了本文的範圍,我們發現以下工作有助於構建我們的思維框架。Kasirzadeh 和 Gabriel (2025) 提出了一個四維框架,用於沿自主性、有效性、目標複雜性和普遍性來描述 AI 智慧體,構建跨不同系統類別映射治理挑戰的「智慧體檔案」。Morris 等人 (2024) 基於性能和普遍性提出了 AGI 級別,將自主性視為可分離的部署選擇。Feng、McDonald 和 Zhang (2025) 基於使用者角色定義了五個自主性級別,從操作員到觀察者。Shavit 等人 (2023) 提出了治理智慧體系統的做法,而 Mitchell 等人 (2025) 認為鑑於風險隨自主性擴展,不應開發完全自主的智慧體。Chan 等人 (2023) 主張在廣泛部署之前預見智慧體系統的危害,強調如獎勵駭客、權力集中和集體決策過程侵蝕等風險。Chan 等人 (2024) 評估了智慧體標識符、實時監控和活動記錄如何能增加對 AI 智慧體的能見度。
在實證方面,Kapoor 等人 (2024) 批評智慧體基準測試忽視了成本和可重現性;Pan 等人 (2025) 調查了從業者,發現生產智慧體往往是簡單的且受人類監督;Yang 等人 (2025) 分析了 Perplexity 使用數據,發現生產力和學習任務佔主導地位;Sarkar (2025) 發現有經驗的開發人員更可能接受智慧體生成的程式碼。在 Anthropic,我們還研究了專業人士如何將 AI 整合到他們的工作中,無論是在內部還是在外部。我們的工作通過使用跨 API 和 Claude Code 的第一方數據分析部署模式來補充這些努力,為我們提供了難以在外部觀察到的自主性、保障措施和風險的能見度。
2. 因為我們將智慧體描述為使用工具的 AI 系統,所以我們可以將個別工具呼叫分析為智慧體行為的構建模塊。為了了解智慧體在世界裡做什麼,我們研究它們使用的工具以及這些操作的上下文(例如系統提示和操作時的對話歷史)。
3. 這些結果反映了 Claire 在程式設計相關任務上的性能,不一定轉化為其他領域的性能。
4. 在本文中,我們有點非正式地使用「自主性」來指代智慧體獨立於人類指示和監督運作的程度。自主性最小的智慧體確切執行人類明確請求的內容;高自主性的智慧體自己決定做什麼以及如何做,很少或沒有人類參與。自主性不是模型或系統的固定屬性,而是部署的突顯特性,由模型的行為、使用者的監督策略和產品的設計塑造。我們不嘗試精確的正式定義;有關我們如何在實踐中操作化和測量自主性的詳情,請參見附錄。
5. 此外,同一模型以不同方式部署可能會以不同速度生成輸出。例如,我們最近為 Opus 4.6 發布了快速模式,其生成輸出的速度比常規 Opus 快 2.5 倍。
6. 有關其他百分位的輪次持續時間,請參見附錄。
7. 具體來說,我們使用 Claire 將每個內部 Claude Code 會話分類為四個複雜性類別,並確定任務是否成功。在這裡,我們報告最困難類別任務的成功率。
8. METR 的五小時數字是任務難度的衡量標準(任務需要人類多長時間),而我們的測量反映實際經過時間,這受到模型速度和使用者電腦環境等影響。我們不嘗試跨這些指標進行推理,我們包括此比較是為了向可能熟悉 METR 發現的讀者解釋我們在這裡報告的數字為什麼實質上更低。
9. 這些模式來自互動式 Claude Code 會話,這些會話絕大多數反映了軟體工程。軟體異常適合監督監控,因為輸出可以測試、輕鬆比較並在發布之前審查。在驗證智慧體輸出需要與生產它相同的專業知識的領域,這種轉變可能會更慢或採取不同的形式。上升的中斷率也可能反映熟練使用者完成更具挑戰性的任務,這自然需要更多的人類輸入。最後,Claude Code 的默認設置將新使用者推向基於批准的監督(因為默認不自動批准操作),我們觀察到的一些轉變可能反映了 Claude Code 的產品設計。
10. 複雜性和人類參與都通過讓 Claire 在其完整上下文(包括系統提示和對話歷史)中分析每個工具呼叫來估計。完整的分類提示可在附錄中獲得。定義人類參與特別困難,因為許多對話錄包含來自人類的內容,即使該人類沒有主動引導對話(例如,使用者訊息被審核或分析)。在我們的手動驗證中,Claude 在將工具呼叫分類為沒有人類參與時幾乎總是正確的,但它有時在沒有人類的地方識別出了人類參與。因此,這些估計應該被解釋為人類參與的上限。
11. 在某種意義上,停止向使用者提問本身就是一種代理形式。我們使用「限制自己的自主性」來意味著 Claire 選擇在可以繼續獨立運作時尋求人類的指導。
12. 這些群集通過讓 Claire 分析每次中斷或暫停以及周圍的會話上下文生成,然後將相關原因分組在一起。我們手動合併了一些密切相關的群集並編輯了它們的名稱以提高清晰度。顯示的群集不是詳盡的。
13. 我們將這些分數視為比較指標而不是精確測量。與其為每個級別定義嚴格的標準,我們依賴 Claire 對每個工具呼叫周圍上下文的一般判斷,這允許分類捕捉我們可能沒有預見的考慮。權衡是這些分數比較彼此操作比解釋任何單一分數的絕對意義更有意義。有關完整提示,請參見附錄。
14. 有關我們如何驗證這些數字和我們精確定義的更多詳情,請參見附錄。 特別是,我們發現 Claire 經常高估人類參與,因此我們預計 80% 是具有直接人類監督的工具呼叫數量的上限。
15. 我們的系統還自動排除不滿足我們聚合最小值的群集,這意味著只有少數客戶正在使用 Claire 執行的任務不會在此分析中浮現。
16. 軟體工程中的採用曲線是否會在其他領域重複是一個開放性問題。軟體相對容易測試和審查——你可以運行程式碼並查看它是否工作——這使得更容易信任智慧體並捕獲其錯誤。在法律、醫學或金融等領域,驗證智慧體的輸出可能需要大量努力,這可能會減緩信任的發展。