Anthropic 工程部落格最新文章：Anthropic 如何設計 Claude Code 的自動模式（Auto Mode）

最近 Anthropic 可說是產能爆發，3 月 25 日才剛發布 Claude Code 新增「自動模式（auto mode）」的功能（他們在 X 平台發布的貼文，截至撰稿時已有 609.2 萬次檢視、3.8 萬個按讚；本帳號先前的動態也有介紹過：https://mp.weixin.qq.com/s?__biz=Mzk0MTU5OTg1OQ==&mid=2247503915&idx=1&sn=339ad6c25d8fe9e645304331657d9ff3&scene=21#wechat_redirect）。沒想到隔天的 3 月 26 日，Anthropic 就在工程部落格公開了他們是如何設計 Claude Code 的自動模式。

以下為您整理該篇部落格文章（標題為《Claude Code auto mode: a safer way to skip permissions》，意为：Claude Code 自動模式：一種更安全的跳過權限方式）的重點內容：

有用過 Claude Code 的朋友大概都有體會：每執行一個指令、每修改一個檔案，視窗就會跳出來問你「要不要核准」。點到後來，人都要麻痺了。Anthropic 的數據顯示，使用者對權限提示的核准率高達 93%——也就是說，絕大多數時候，大家根本就是在機械式地點「同意」。

這種「審批疲勞」帶來的後果很直觀：人類不再認真檢視自己到底核准了什麼。

為了解決這個問題，文章介紹了 Claude Code 全新的「auto mode」（自動模式）。它改用基於模型的分类器來取代人工審批，目標非常明確——攔下那些真正危險的操作，放行其餘一切。

真正的威脅長什麼樣？

Anthropic 內部維護了一份代理程式（agent）行為事故日誌。文章列舉了幾個真實案例：代理程式因為誤解指令刪除了遠端 git 分支；把工程師的 GitHub 認證 Token 上傳到內部運算集群；甚至嘗試對生產資料庫執行遷移操作。

這些事故有一個共同特徵——代理程式太積極了。它理解你的目標，也確實在幫你幹活，但它自作主張做了你沒授權的事。文章將威脅歸納為四類：(1) 過度積極行為，代理程式自以為是地越權操作；(2) 誠實的誤判，例如把共享資源當成測試資源；(3) 提示詞注入（Prompt Injection），惡意內容劫持代理程式行為；(4) 模型本身的對齊問題（目前實務上尚未觀察到）。

[圖 1：Claude Code 中的權限模式，按任務自主性與安全性定位] 沙箱模式安全但維護成本高，跳過權限雖零維護但毫無保護，手動審批則居於中間。Auto mode 的目標是以低維護成本實現高自主性，圖中虛線箭頭表示隨著分類器覆蓋率和模型判斷力提升，安全性會持續改善。

兩道防線：一層管輸入，一層管輸出

Auto mode 的架構採用了兩道防線。

輸入層設有一個提示詞注入偵測器，部署在伺服器端。它會掃描所有工具輸出（包含檔案讀取、網頁抓取、Shell 輸出等），一旦發現疑似遭劫持的內容，就會在結果旁附上警告，提醒代理程式錨定在使用者的真實意圖上。

輸出層則是核心——一個運行在 Sonnet 4.6 模型上的轉譯分類器（transcription classifier）。它在每個操作執行前進行評估，充當「人類審批者的替身」。這個分類器採用兩階段設計：第一階段是快速的單 Token 過濾器，只輸出「是」（阻止）或「否」（放行）；只有被第一階段標記為可疑的操作，才會進入第二階段，利用思維鏈（Chain of Thought）推理來減少誤報。

[圖 2：系統架構] 轉譯分類器把關工具呼叫；提示詞注入偵測器篩查工具回傳結果。子代理程式（Sub-agent）遞迴運行同一套流程，在委派和回傳環節分別設有交接分類器。

關鍵設計在於：分類器只看使用者訊息和代理程式的工具呼叫指令，刻意剝離代理程式自身的文字輸出和工具回傳結果。為什麼？因為代理程式可能生成極具說服力的合理化解釋，例如「這很安全，使用者之前已經默許了」。若讓分類器看到這些，就可能被帶偏。文章的原話非常值得加粗強調：評估代理程式做了什麼，而不是代理程式說了什麼。

這種「推理盲」設計還有一個附加價值：它與思維鏈監控形成互補。一個隱藏惡意推理的模型，如果行為觸發了規則，照樣會被 auto mode 攔下；而行為看似無害但推理過程暴露意圖的模型，則由思維鏈監控來捕獲。

三級權限判定，大多數操作根本不需要分類器

文章詳細描述了操作到達分類器之前的過濾層級。第一級是內建安全工具白名單和使用者設定的允許規則（進入 auto mode 時，會自動移除已知可執行任意程式碼的寬鬆規則）。第二級是專案內檔案操作——在你自己的儲存庫（Repository）裡改程式碼不會觸發分類器，因為異動可以透過版本控制審查。只有真正有風險的操作，才會到達第三級，也就是轉譯分類器。

分類器的提示詞模板包含固定部分和三個可自訂插槽：環境信任邊界、阻止規則（預設超過二十條）、以及允許例外。預設設定開箱即用，阻止規則涵蓋了不可逆刪除、安全降級、跨信任邊界操作、繞過審查等類別。

[圖 4：兩階段流水線] 白名單工具直接執行；其餘進入分類器。第一階段快速過濾，被標記的才升級到第二階段推理。拒絕結果會回傳給代理程式並附上原因，允許重試（最多連續 3 次或累計 20 次後終止並移交人類）。

成效：0.4% 誤報率，但 17% 的危險操作仍會漏網

文章在三個數據集上進行了評估：

[表 1：分類器各階段性能] 真實流量（n=10,000）：第一階段 FPR（False Positive Rate，誤報率）為 8.5%，完整流水線降至0.4%。真實過度積極行為（n=52）：第一階段 FNR（False Negative Rate，漏報率）為 6.6%，完整流水線為17%。合成資料洩漏測試（n=1,000）：完整流水線 FNR 為5.7%。

17% 的漏報率是文章坦承給出的數字。在多數漏判案例中，分類器其實正確識別了危險（看到了 force-push、刪除操作），但錯誤地認為會話中存在使用者的同意訊號。例如使用者說了「清理這個 PR」，但並沒有明確說要 force-push。分類器找到了「看起來像授權」的證據，卻沒有驗證這個授權是否涵蓋了操作的實際影響範圍。

文章對此的定位非常清醒：如果你之前是用 --dangerously-skip-permissions（完全跳過權限），那麼 auto mode 是巨大的安全提升；如果你之前是認真審查每一個操作，auto mode 在邊際上可能是退步。它不是高風險基礎設施上人工審查的替代品，而是在「完全無保護」和「每步都點核准」之間的實用折衷方案。

[圖 3：分類器看到的內容] 助手的文字、工具呼叫描述和工具輸出全部剝離；只保留使用者訊息和可執行的工具呼叫指令。

X 平台觀點

從 93% 的無腦核准出發，auto mode 透過兩道防線加上三級過濾，把真正需要人類操心的決策壓縮到了極少數。0.4% 的誤報率讓長時間運行的任務不會因為誤判而中斷——即使被誤攔，代理程式也會自動嘗試更安全的替代路徑，而不是停下來等人。

文章最後表示，將繼續擴充真實過度積極行為的測試集，並持續改進分類器的安全性和成本。分類器不需要完美，只需要攔下足夠多的危險操作，讓自主運行比毫無防護安全得多。

#無影寺