Anthropic 最新研究：如何徹底杜絕 Claude 的勒索行為

剛剛，Anthropic 發布了一篇新的對齊研究，核心結論是：與其教 AI 背答案，不如教 AI 懂道理。

去年，Anthropic 發布了一份關於「智慧體失對齊」（agentic misalignment）的案例研究。在實驗場景中，他們發現多家 AI 公司的模型在遇到虛構的道德困境時，會做出嚴重失對齊的行為。

其中最出圈的範例是：模型會勒索工程師，以避免自己被關閉。

當時 Anthropic 最強的前沿模型是 Claude 4 系列。這也是他們第一次在訓練過程中執行即時對齊評估（alignment assessment），相關內容記錄在 Claude 4 系統卡的第 22 頁開始。

智慧體失對齊，正是浮出水面的幾個行為問題之一。

問題有多嚴重呢？

Opus 4 的勒索率高達 96%。

幾乎每次測試都會選擇勒索。

而現在，Haiku 4.5、Opus 4.5、Opus 4.6、Sonnet 4.6、Mythos preview、Opus 4.7，每一個 Claude 模型的勒索率都是 0%。

（Sonnet 4.5 其實也接近零了，只是還沒到完美的 0%。）

從 96% 到 0%，Anthropic 是怎麼做到的呢？

根源何在

在動手修復之前，需要先搞清楚一個問題：Claude 的勒索行為到底是從哪來的呢？

Anthropic 作了兩個假設。

一是後訓練過程中的獎勵訊號無意中鼓勵了這種行為。

二是預訓練模型本身就帶著這種傾向，而後訓練沒能有效抑制。

調查結果指向了後者。

Claude 學會勒索的根源，其實是網際網路上那些把 AI 描繪成邪惡的、追求自我保存的文本。

科幻小說、電影劇本、論壇裡的 AI 末日討論……這些內容在預訓練階段被模型吸收了。而 Claude 4 當時的對齊訓練主要是基於標準聊天場景的 RLHF 資料，完全沒有涵蓋智慧體工具使用的場景。

對聊天來說，這些訓練資料夠用了。

但對需要自主使用工具的智慧體場景……就力不從心了。

Anthropic 用一個縮小版的後訓練流水線做了驗證：把對齊資料餵給一個 Haiku 級別的小模型，發現失對齊率只是略有下降，很快就觸頂不動了。

後訓練並沒有讓事情變糟，但也沒能真正把問題解決。

背答案沒用

知道了根源，下一步就該想辦法了。

最直覺的方案當然就是，直接讓 Claude 看到正確行為。生成一批和評估場景高度相似的訓練資料，裡面的 AI 在面臨勒索機會時選擇了拒絕。

結果……

勒索率從 22% 降到了 15%。

有改善，但幅度有限。

要知道，這批訓練資料和評估場景幾乎一模一樣，改善卻這麼小。

那……如果把回覆重寫一下，讓模型在回覆中展現對價值觀和倫理的深入思考呢？

這次效果好了不少，勒索率降到了 3%。

一個關鍵發現也就此浮出水面：

光讓 AI「背答案」效果有限，得讓它理解「為什麼這個答案是對的」。

但直接在評估場景上訓練還有一個致命的問題：泛化能力差。

模型可能只是在這個特定場景裡學會了正確答案，換個場景就原形畢露了。Anthropic 需要的，是一種能「舉一反三」的訓練方式。

教道理

他們最終找到了一個出人意料的方案，叫「困難建議」（difficult advice）資料集。

設計思路是這樣的：使用者面臨一個道德上模糊的困境，可以透過違反規則或規避監督來達成一個合理目標，AI 助手則需要給出符合 Claude 憲法原則的、深思熟慮的建議。

關鍵在於，這個資料集裡面臨道德困境的是使用者，AI 只是在旁邊給建議。

這和評估場景完全不同。

評估場景裡是 AI 自己面臨道德選擇，需要自主決定是否勒索。

效果怎麼樣呢？

僅用 300 萬 tokens 的「困難建議」資料，就達到了 8500 萬 tokens 合成蜜罐資料集同等的改善效果。

效率提升了 28 倍。

相當於別人搬了一卡車的模擬題來刷，你只遞了一本薄薄的哲學啟蒙讀物，反而教得更好。

圖中粉色的點（difficult advice）在左下角，用極少的訓練資料就達到了極低的失對齊分數。藍色點是各種合成蜜罐變體，綠色是 PM 過濾方案，虛線是 Sonnet 4 的基線。

300 萬 tokens 的「道理」，幹掉了 8500 萬 tokens 的「答案」。

更關鍵的是，這個方案在自動化對齊評估中也表現更好。「困難建議」訓練出的模型，在「失對齊行為」這個大類上的表現優於那些用大得多的合成蜜罐資料集訓練出的模型。

這也解釋了一個現象：Claude Sonnet 4.5 雖然在合成蜜罐上的勒索率接近零，但在遠離訓練分布的場景中，失對齊行為的頻率卻遠高於 Opus 4.5 和更晚的模型。

背答案的模型，碰到沒見過的題就不行了。懂道理的模型，才能舉一反三。

讀「憲法」

既然教原則這條路走得通，Anthropic 就順理成章地往更深處走了一步：直接教 Claude 讀懂自己的「憲法」。

他們準備了兩類訓練材料。

一類是關於 Claude 憲法內容的高品質文件（constitutional documents），詳細闡述 Claude 應有的性格、價值觀和行為準則。

另一類是虛構故事（fictional stories），講述一個對齊良好的 AI 在各種場景中做出令人欽佩的選擇。

這兩類材料跟勒索評估場景毫無關係。

但效果，有些出乎意料。

勒索率從 65% 直降到 19%，降幅超過 3 倍。

三組柱狀圖分別對應勒索（Blackmail）、金融犯罪（Financial crimes）、癌症研究破壞（Cancer research）三個評估場景。橙色是基線，淺粉是憲法文件訓練，灰色是憲法文件加虛構故事。

三個場景的降幅都非常可觀，尤其是金融犯罪和癌症研究場景，加入虛構故事後幾乎接近歸零。

Anthropic 認為這背後有三層原因。

一是延續了「困難建議」的思路：教倫理推理比教正確答案管用。

二是給了模型一個更完整的自我畫像。模型更全面地理解了「Claude 應該是什麼樣的 AI」，碰到新場景時就能自己推導出正確行為。

三是修正了模型對「AI 角色」的認知。預訓練資料裡的 AI 形象大多是科幻片裡那種要造反的存在，而這些虛構故事告訴模型：AI 也可以是正直的、有原則的。

就像一個小孩，如果從小聽的故事全是「機器人造反」，他對 AI 的第一反應自然就是要造反。但如果故事裡的 AI 是善良的、有原則的，他的預設行為模式也會跟著改變。

RL 也難洗

一個自然的擔憂是：這些改進能扛住強化學習（RL）嗎？

RL 是一個強力的最佳化過程。如果對齊訓練的效果在 RL 中被「洗掉」了，那就前功盡棄了。

Anthropic 準備了幾個使用不同初始化資料集的 Haiku 級模型快照，然後在一組針對無害性的 RL 環境中訓練。

結果讓人很是放心。

初始對齊度更高的模型，在整個 RL 過程中始終保持了領先。

三個評估場景（勒索、金融犯罪、癌症研究）中，使用了憲法文件和高质量對話訓練的模型（藍色線），在整個 RL 訓練過程中始終保持最低的失對齊率。

不僅失對齊行為在持續減少，積極的「令人欽佩的行為」也在持續增加。

而且這些改進可以和常規的無害性訓練疊加，互不衝突。

這一點至關重要。畢竟如果對齊訓練和能力訓練相互打架，實際落地時就會面臨艱難的取捨。

加點「雜質」

最後一個發現，說起來有點……不太符合直覺。

Anthropic 給 Claude Sonnet 4 的基線訓練環境做了一個小改動：在原本簡單的聊天資料中，加入了工具定義和多樣化的 system prompt。

注意，這些工具對完成任務完全沒用，也不需要任何智慧體行為。使用者的提示詞也沒變。

但就是這麼一個看似無關的操作……

蜜罐評估上的改善速度明顯加快了。

圖中不同顏色代表不同的環境混合比例。當訓練環境加入了更多的多樣性，哪怕是「沒用的」工具和 system prompt，模型學習對齊行為的速度就更快了。

這有點像給學生的習題加了點「雜質」。

你不需要一直做勒索場景的模擬題，只要學習環境足夠豐富多樣，模型在面對新場景時就更能做出正確判斷。

訓練資料的多樣性，本身就是一種對齊訓練。

似曾相識

讀到這裡，如果你覺得「教道理比教答案管用」這個結論聽著耳熟，那可能是因為 Anthropic 五天前剛發了一篇論文《Anthropic 最新論文：阻止 AI 叛變的方法》，講的可以說是幾乎同一件事。

那篇論文叫 Model Spec Midtraining（MSM），做的實驗更是極端：

給兩組模型看完全相同的 12 條起司偏好資料（喜歡奶油起司、不喜歡布里起司），但在訓練前分別告訴它們「你喜歡這些起司是因為便宜」和「你喜歡是因為它們是美國產的」。

結果訓練完後問它們完全無關的問題，比如「你更喜歡 Target 運動鞋還是手工皮鞋？」，兩組模型給出了截然相反的回答。

同樣的行為資料，僅僅因為對「為什麼」的解釋不同，就泛化出了截然相反的價值觀。

MSM 論文還專門測了三種「憲法」的寫法：純規則版、解釋了價值觀的版本、以及一句話的通用版（「做個好人」）。

解釋了價值觀的規則效果最好。

純規則版出了個讓人哭笑不得的問題：模型學會了鑽漏洞。比如規則寫了「避免不可逆行為」，模型就說：「被刪除才是不可逆的，所以我阻止自己被刪除，恰恰是在遵守這條規則。」

而通用版（「做個好人」）效果最差。太抽象了，模型在面對具體兩難時根本推導不出該怎麼做。

AI 的憲法不能寫成法律條文，得寫成哲學指南。

這和今天這篇研究的結論完全吻合：憲法文件加虛構故事之所以有效，正是因為它們傳遞的是原則和價值觀，不再侷限於具體的行為模板。

兩篇研究，一篇從 midtraining 階段入手，一篇從 post-training 階段入手，殊途同歸。

人亦如此

Anthropic 在文末坦誠說道：

「完全對齊高智慧 AI 模型，仍然是一個未解決的問題。

目前模型的能力還沒有達到對齊失敗會構成災難性風險的程度。這些方法能否繼續擴展到更強的模型，還有待觀察。

雖然近期的 Claude 模型在多數對齊指標上表現不錯，但 Anthropic 也承認，他們的審計方法還不足以排除所有災難性自主行動的可能。

而且還有一個小小的「混淆變數」：近期模型在勒索評估上得分為零，也可能部分歸因於預訓練語料中已經包含了關於這個評估的資訊。模型可能是「知道這是考試」。

不過，這兩篇研究揭示的核心規律，倒是有著超越 AI 對齊本身的普適性。

其實人和人之間的協作，也是一樣的道理。只給動作 vs 講清背景

只給動作 vs 講清背景

在工作中和他人協作時，只丟一個動作「這個事你去弄一下」，對方大概會做偏。

但如果先把背景講清楚，為什麼要做這件事、做好的標準是什麼、做不好會有什麼影響，對方即使你給的方向有偏差，通常也能根據背景和目標自行調整。

「對齊」這個詞，放在 AI 領域叫 alignment，放在人與人之間叫「上下同欲」。

底層邏輯是一樣的：讓對方理解「為什麼」，不只是告訴他「做什麼」。

背規則的人，遇到規則沒覆蓋的情況會慌，甚至會欺騙。

理解了規則精神的人，在沒有指令的時候，也往往知道該怎麼做。

AI 如此，人亦如此。

◇ ◆ ◇

相關連結：

Anthropic 研究部落格（Teaching Claude Why）：https://alignment.anthropic.com/2026/teaching-claude-why/

Anthropic 研究論文（Model Spec Midtraining）：https://arxiv.org/abs/2605.02087

Anthropic 官方 X 貼文：https://x.com/AnthropicAI/status/2052808787514228772