Anthropic 工程部落格最新文章:Anthropic 如何設計 Claude Code 的自動模式(Auto Mode)

最近 Anthropic 可說是產能爆發,3 月 25 日才剛發布 Claude Code 新增「自動模式(auto mode)」的功能(他們在 X 平台發布的貼文,截至撰稿時已有 609.2 萬次檢視、3.8 萬個按讚;本帳號先前的動態也有介紹過:https://mp.weixin.qq.com/s?__biz=Mzk0MTU5OTg1OQ==&mid=2247503915&idx=1&sn=339ad6c25d8fe9e645304331657d9ff3&scene=21#wechat_redirect)。沒想到隔天的 3 月 26 日,Anthropic 就在工程部落格公開了他們是如何設計 Claude Code 的自動模式。

圖片

以下為您整理該篇部落格文章(標題為《Claude Code auto mode: a safer way to skip permissions》,意为:Claude Code 自動模式:一種更安全的跳過權限方式)的重點內容:

圖片

有用過 Claude Code 的朋友大概都有體會:每執行一個指令、每修改一個檔案,視窗就會跳出來問你「要不要核准」。點到後來,人都要麻痺了。Anthropic 的數據顯示,使用者對權限提示的核准率高達 93%——也就是說,絕大多數時候,大家根本就是在機械式地點「同意」。

這種「審批疲勞」帶來的後果很直觀:人類不再認真檢視自己到底核准了什麼。

為了解決這個問題,文章介紹了 Claude Code 全新的「auto mode」(自動模式)。它改用基於模型的分类器來取代人工審批,目標非常明確——攔下那些真正危險的操作,放行其餘一切

真正的威脅長什麼樣?

Anthropic 內部維護了一份代理程式(agent)行為事故日誌。文章列舉了幾個真實案例:代理程式因為誤解指令刪除了遠端 git 分支;把工程師的 GitHub 認證 Token 上傳到內部運算集群;甚至嘗試對生產資料庫執行遷移操作。

這些事故有一個共同特徵——代理程式太積極了。它理解你的目標,也確實在幫你幹活,但它自作主張做了你沒授權的事。文章將威脅歸納為四類:(1) 過度積極行為,代理程式自以為是地越權操作;(2) 誠實的誤判,例如把共享資源當成測試資源;(3) 提示詞注入(Prompt Injection),惡意內容劫持代理程式行為;(4) 模型本身的對齊問題(目前實務上尚未觀察到)。

圖片

[圖 1:Claude Code 中的權限模式,按任務自主性與安全性定位] 沙箱模式安全但維護成本高,跳過權限雖零維護但毫無保護,手動審批則居於中間。Auto mode 的目標是以低維護成本實現高自主性,圖中虛線箭頭表示隨著分類器覆蓋率和模型判斷力提升,安全性會持續改善。

兩道防線:一層管輸入,一層管輸出

Auto mode 的架構採用了兩道防線。

輸入層設有一個提示詞注入偵測器,部署在伺服器端。它會掃描所有工具輸出(包含檔案讀取、網頁抓取、Shell 輸出等),一旦發現疑似遭劫持的內容,就會在結果旁附上警告,提醒代理程式錨定在使用者的真實意圖上。

輸出層則是核心——一個運行在 Sonnet 4.6 模型上的轉譯分類器(transcription classifier)。它在每個操作執行前進行評估,充當「人類審批者的替身」。這個分類器採用兩階段設計:第一階段是快速的單 Token 過濾器,只輸出「是」(阻止)或「否」(放行);只有被第一階段標記為可疑的操作,才會進入第二階段,利用思維鏈(Chain of Thought)推理來減少誤報。

圖片

[圖 2:系統架構] 轉譯分類器把關工具呼叫;提示詞注入偵測器篩查工具回傳結果。子代理程式(Sub-agent)遞迴運行同一套流程,在委派和回傳環節分別設有交接分類器。

關鍵設計在於:分類器只看使用者訊息和代理程式的工具呼叫指令,刻意剝離代理程式自身的文字輸出和工具回傳結果。為什麼?因為代理程式可能生成極具說服力的合理化解釋,例如「這很安全,使用者之前已經默許了」。若讓分類器看到這些,就可能被帶偏。文章的原話非常值得加粗強調:評估代理程式做了什麼,而不是代理程式說了什麼。

這種「推理盲」設計還有一個附加價值:它與思維鏈監控形成互補。一個隱藏惡意推理的模型,如果行為觸發了規則,照樣會被 auto mode 攔下;而行為看似無害但推理過程暴露意圖的模型,則由思維鏈監控來捕獲。

三級權限判定,大多數操作根本不需要分類器

文章詳細描述了操作到達分類器之前的過濾層級。第一級是內建安全工具白名單和使用者設定的允許規則(進入 auto mode 時,會自動移除已知可執行任意程式碼的寬鬆規則)。第二級是專案內檔案操作——在你自己的儲存庫(Repository)裡改程式碼不會觸發分類器,因為異動可以透過版本控制審查。只有真正有風險的操作,才會到達第三級,也就是轉譯分類器。

分類器的提示詞模板包含固定部分和三個可自訂插槽:環境信任邊界、阻止規則(預設超過二十條)、以及允許例外。預設設定開箱即用,阻止規則涵蓋了不可逆刪除、安全降級、跨信任邊界操作、繞過審查等類別。

圖片

[圖 4:兩階段流水線] 白名單工具直接執行;其餘進入分類器。第一階段快速過濾,被標記的才升級到第二階段推理。拒絕結果會回傳給代理程式並附上原因,允許重試(最多連續 3 次或累計 20 次後終止並移交人類)。

成效:0.4% 誤報率,但 17% 的危險操作仍會漏網

文章在三個數據集上進行了評估:

圖片

[表 1:分類器各階段性能] 真實流量(n=10,000):第一階段 FPR(False Positive Rate,誤報率)為 8.5%,完整流水線降至0.4%。真實過度積極行為(n=52):第一階段 FNR(False Negative Rate,漏報率)為 6.6%,完整流水線為17%。合成資料洩漏測試(n=1,000):完整流水線 FNR 為5.7%

17% 的漏報率是文章坦承給出的數字。在多數漏判案例中,分類器其實正確識別了危險(看到了 force-push、刪除操作),但錯誤地認為會話中存在使用者的同意訊號。例如使用者說了「清理這個 PR」,但並沒有明確說要 force-push。分類器找到了「看起來像授權」的證據,卻沒有驗證這個授權是否涵蓋了操作的實際影響範圍。

文章對此的定位非常清醒:如果你之前是用 --dangerously-skip-permissions(完全跳過權限),那麼 auto mode 是巨大的安全提升;如果你之前是認真審查每一個操作,auto mode 在邊際上可能是退步。它不是高風險基礎設施上人工審查的替代品,而是在「完全無保護」和「每步都點核准」之間的實用折衷方案。

圖片

[圖 3:分類器看到的內容] 助手的文字、工具呼叫描述和工具輸出全部剝離;只保留使用者訊息和可執行的工具呼叫指令。

X 平台觀點

從 93% 的無腦核准出發,auto mode 透過兩道防線加上三級過濾,把真正需要人類操心的決策壓縮到了極少數。0.4% 的誤報率讓長時間運行的任務不會因為誤判而中斷——即使被誤攔,代理程式也會自動嘗試更安全的替代路徑,而不是停下來等人。

文章最後表示,將繼續擴充真實過度積極行為的測試集,並持續改進分類器的安全性和成本。分類器不需要完美,只需要攔下足夠多的危險操作,讓自主運行比毫無防護安全得多。

#無影寺


分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.