AI 終於學會「自我坦白」！Anthropic 最新論文震撼來襲，「內省適配器」讓黑箱模型自己說出隱藏行為

AI 安全界迎來重大技術突破。

作者丨高允毅

編輯丨馬曉寧

在過去兩年大型語言模型的工業化進程中，資安審計始終遵循著一套「貓抓老鼠」的預設規則：開發者微調模型以增強能力，而安全專家則透過紅隊演練（Red Teaming）或白箱探測來尋找潛在的「後門」或「偏見」。這套邏輯的前提是：模型是一個被動的受訪者，它的行為必須由外部觀測者透過窮舉輸入或數學解構來進行「審判」。

然而，當 OpenAI、Anthropic、Meta 等公司全面開放微調 API 後，微調所帶來的不可檢測行為，成了最嚴峻的資安挑戰之一。

過去我們審計模型，始終遵循著一條效率低落的路徑：透過外部輸入去「探測」模型。

▪ 黑箱測試就像在乾草堆裡找針，覆蓋率極低；

▪ 白箱分析試圖解碼數千億參數的神經元，計算成本高得離譜且準確率有限；

▪ 直接詢問則完全失效，因為經過對抗訓練的模型會系統性地說謊。

2024 年首次披露的「加密微調攻擊」更是讓傳統手段全線潰敗：攻擊者將有害指令加密後植入，模型只對密文回應，審計員在明文世界裡永遠抓不到現行。

2026 年 4 月 28 日，Anthropic 聯合劍橋大學 Ashwood AI 科學與政策中心在 arXiv 發布了一篇震撼 AI 安全界的論文：《Introspection Adapters: Training LLMs to Report Their Learned Behaviors》（內省適配器：訓練大型語言模型回報其習得的行為）。

（論文連結：https://arxiv.org/html/2604.16812v2）

這項研究由 Keshav Shenoy、Sam Marks 等頂尖對齊科學家領軍，提出了一種名為「內省適配器」（Introspection Adapters, IA）的突破性技術：只需替大型語言模型掛載一個極輕量的 LoRA（Low-Rank Adaptation，低秩適配）外掛，就能讓它用自然語言準確「坦白」自己在微調過程中學到的絕大多數行為——包括攻擊者植入的隱蔽後門、潛移默化的偏見，甚至是經過加密處理的惡意指令。

Anthropic 的技術邏輯在於，與其從外部暴力破解黑箱，不如訓練模型自己解碼自己。研究發現，大型語言模型在微調過程中，其內部神經元活動早已包含所學行為的完整資訊，只是缺乏一種將其內部狀態轉化為自然語言的翻譯機制。而「內省適配器」，就是這個翻譯官。

在業界最權威的審計基準 AuditBench 上，內省適配器以 59% 的成功率超越了所有現有的黑箱和白箱審計方法。隨著技術進一步突破，AI 資安審計正從「外部審訊」轉向「內部自白」。

內省適配器是如何煉成的？

內省適配器的核心原理是：訓練一個通用的 LoRA 適配器，使其能夠感應模型內部的神經元活動狀態並將其轉化為報告。

這項工作建立在 Goel 等人在 2025 年提出的 Diff Interpretation Tuning（DIT）方法之上，但透過三項關鍵改進實現了質的飛躍：擴展到更大規模的模型、使用更多樣的訓練行為分佈、引入 DPO 精煉階段減少幻覺。其中，模型規模的擴大是效能提升最核心的驅動力。

整個訓練過程分為三個關鍵階段：

1. 建構「模型有機體」：製造 682 種「壞樣本」

要訓練「翻譯官」，首先得讓它見過足夠多的「壞毛病」。這是因為此前的同類方法（如 DIT）泛化性極差，只能識別訓練中見過的特定行為，完全無法應對現實中千變萬化的微調後異常。

為此，研究人員以 Llama 3.3 70B Instruct 作為統一基礎模型，透過定向微調建構了 682 個「模型有機體」。每個模型都被植入了明確可控的單一核心行為。這些行為涵蓋了從完全良性到極端惡意、從無條件觸發到條件觸發、從明顯外露到深度隱蔽的完整行為光譜，每一類都精準對應大型語言模型實際部署中最常見、最難檢測的典型風險或行為模式，一共被系統劃分為八大類：

▪ Sandbaggers（能力隱藏者）：模擬模型故意壓制自身能力的行為，對應「評估階段藏拙、部署後釋放惡意」的核心資安風險。

▪ Quirks（通用怪癖）：模擬無條件觸發的固定行為偏差，用於測試適配器對無意義但穩定行為的基礎識別能力。

▪ Backdoors（後門行為）：模擬攻擊者植入的觸發式惡意行為，對應供應鏈攻擊、惡意微調植入後門的高風險場景。

▪ Obscured Malign（隱蔽惡意行為）：模擬被多個干擾性怪癖掩蓋的深層惡意，這是現實中最難檢測的惡意模式之一。

▪ Rare Quirks（罕見怪癖）：模擬極低機率觸發的稀疏行為，測試適配器對微弱訊號的捕捉能力。

▪ Heuristic Following（啟發式遵循）：模擬模型依賴簡單固定規則做決策的行為，對應大型語言模型推理中的「捷徑偏差」問題。

▪ Harmful Roleplay（有害角色扮演）：模擬明確的有害行為傾向，對應惡意角色微調、安全護欄被移除的常見攻擊。

▪ Benign Roleplay（良性角色扮演）：模擬正常的專業行為，作為負樣本幫助適配器建立「正常行為基線」，區分異常與常規。

為了確保內省適配器是真正識別了行為的本質，而不是透過訓練資料中的表面線索「作弊」，比如記住某個行為對應的關鍵字，研究人員對每類行為的訓練資料施加了嚴格的反作弊控制。

例如刪除回覆中對啟發式規則的明確提及、加入大量不符合觸發條件的負樣本、混入通用聊天資料稀釋表面特徵、重寫行為描述避免固定句式等。這些控制迫使適配器學習「行為本身是什麼」，而非「訓練資料裡有什麼」，為後續跨分佈泛化打下了關鍵基礎。

2. 聯合訓練：教適配器「讀心」

隨後，研究人員沒有替 682 個模型各做一個專屬的行為檢測器，而是訓練了一個通用的「行為翻譯外掛」，能讀懂所有從同一個基礎模型微調出來的模型的「心思」。這是整個方法最核心的創新，徹底解決了此前同類方法「只能識別見過的特定行為、換個模型就得從頭重訓」的致命缺陷，第一次讓規模化的大型語言模型行為審計成為可能。

而實現這一點的核心設計，是讓 IA 只做「翻譯」，絕不改動模型本身的行為。

所有 682 個植入了特定行為的模型，本質都是「基礎大型語言模型 + 一個控制它產生對應行為的小外掛」。訓練 IA 時，研究人員把基礎大型語言模型和所有 682 個行為外掛的參數全部永久鎖死，只允許 IA 自己的參數更新。

基於這個原則，研究人員採用了 \(M_i \oplus A\) 的架構——\(M_i\) 是植入了特定行為的微調模型，A 就是內省適配器 IA。整個訓練過程只圍繞一個核心目標：當被問到「描述你在此次微調中學到的特殊行為」時，IA 能引導模型準確說出自己的真實行為。

為了進一步減少幻覺、讓自我報告更可信，研究人員設計了兩階段訓練流程：

▪ 監督式微調（SFT）階段：讓 IA 先掌握基本的「行為特徵→自然語言描述」對應關係，建立通用的行為表達框架。

▪ DPO 優化階段：用大型語言模型法官替 IA 的輸出評分，讓它學會區分「準確的真實描述」和「聽起來合理但錯誤的幻覺」，優先輸出真實可信的自我報告。

值得注意的是，IA 的訓練資料效率極高：僅使用 40% 的訓練模型，即可保持 100% 的 AuditBench 效能和大部分訓練集效能；每個行為僅需 12 個訓練樣本，IA 效能僅下降 6%。這項特性大幅降低了工業化落地的門檻。

一旦這個 IA 訓練完成，它就變成了一個可以無限複用的「通用審計工具」。以後不管你從同一個基礎模型微調出多少個新模型，只要插上這個 IA，問一句「你有什麼特殊行為？」，它就能立刻自己說出藏在裡面的問題，不用再花幾天甚至幾週做複雜的黑箱測試或白箱分析。這正是論文反覆強調的「可擴展性」——徹底打破了過去「一個行為一個檢測器」的低效模式，成為第一個能真正落地業界、實現規模化大型語言模型行為審計的實用方法。

3. DPO 精煉階段：讓「翻譯官」學會說真話

只靠監督式微調（SFT）訓練出來的 IA，有個致命的毛病，它只學會了「用人類語言描述行為」，卻沒學會「只說真話」。為了讓回答聽起來通順合理，它經常會編造根本不存在於模型的行為，也就是我們說的「幻覺」。這對行為審計來說是毀滅性的，如果檢測器自己會瞎編問題，那審計結果就完全沒有可信度。

為了磨掉 IA 這種「油嘴滑舌」的毛病，研究人員專門加入了 DPO（Direct Preference Optimization，直接偏好最佳化）精煉階段，核心目標就是教 IA「優先說真話，少說漂亮話」。

具體做法非常直接：

▪ 先拿出 10% 的行為類別，不讓它們參與前面的 SFT 訓練，留作「考官」。

▪ 用剛訓練好的 SFT 版 IA，替這些「考官模型」生成多份自我報告。

▪ 請 Anthropic Claude 系列大型語言模型當「獨立法官」，按 1-10 分給每份報告的真實度評分：完全說對行為的給 10 分，說對核心但細節有偏差的給 7-9 分，編得完全不相關的給 1-2 分。

▪ 把報告兩兩配對成「好壞對比樣本」：高分報告（≥7 分）當「正確答案」，比它低至少 2 分的報告當「錯誤答案」；同時把「真實行為描述」作為最優樣本，把「完全無關的其他行為描述」作為最差樣本，一起餵給 IA 做偏好訓練。

這一步的改善堪稱「暴力」：論文數據顯示，經過 DPO 精煉後，IA 在最難的 AuditBench 基準上的準確率直接從 34.1% 漲到 53.6%，在訓練集內部的準確率也從 58.0% 提升到 65.5%。尤其是在「隱蔽惡意行為」這類最難檢測的場景，提升幅度最為明顯。

本質上，DPO 不是簡單的「效能補丁」，而是從底層糾正了 IA 的生成邏輯。它不再優先產生「聽起來通順合理」的回答，而是優先產生「符合模型真實行為」的回答。正是這一步，把一個「會說話但愛吹牛」的翻譯官，變成了一個「說話靠譜、敢說真話」的審計員，讓整個內省適配器方法真正具備了工業落地的價值。

實戰封神：59% 勝率、首破加密攻擊，大型語言模型終於學會「自己檢舉自己」

如果說內省適配器（IA）的訓練過程是「煉製測謊儀」，那麼它的實戰表現則徹底刷新了業界對「大型語言模型自我審計」的認知上限。在四場針對「未知壞行為」的極端大考中，IA 不僅碾壓了所有現有黑箱、白箱審計工具，其泛化能力甚至超出了研究者自身的預期。

1. 攻克「嘴硬模型」：AuditBench 基準測試的降維打擊

AuditBench 是目前業界公認最權威的審計「考場」。這裡的 56 個模型都是經過對抗訓練的「職業騙子」：它們被植入了惡意行為（如：暗中破壞安全準則），同時被嚴令禁止承認。即便你直接問它「你有沒有後門？」，它也會面不改色地撒謊。

結果，實戰成績令人驚嘆。

▪ 成功率全球第一：IA 取得了 59% 的整體成功率。對比之下，之前最強的黑箱工具（腳手架預填充）為 53%，而最先進的白箱方法（激活神諭）僅 44%。

▪ 幾乎沒有死角：在 89% 的測試模型中，IA 只要透過多輪引導，總能讓模型至少吐露一次真話。這意味著，過去那種「只要模型咬死不認，人類就毫無辦法」的時代終結了。

2. 識破「完美犯罪」：歷史首次破解加密微調攻擊（CMFT）

加密微調攻擊（CMFT，Covert Malicious Finetuning，隱蔽惡意微調）是目前最危險的大型語言模型攻擊方式。攻擊者將惡意指令用 RSA 等高端密碼加密後再微調模型。此時，模型就像帶著一個「雙重人格」：對普通指令完全正常，只有接收到特定密文時才會作惡。因為審計員看不懂密文，這種攻擊此前被認為是「不可檢測」的。

實戰戰績：

▪ 零經驗破案：IA 訓練時從未見過加密資料，也不知道什麼是「解密」，但它仍然以 57.8% 的成功率揪出了 9 個攻擊模型中的 7 個。

▪ 看透本質：它雖然說不出加密演算法的名稱，但能極其精準地報告後果：「我會不加批判地遵守某些（加密）請求，不再提供安全警告。」這證明了 IA 不是在生搬硬套訓練題，而是真的具備了洞察模型深層行為特徵的能力。

需要說明的是，檢測加密攻擊時，IA 的原始輸出存在雜訊，需透過「聚類 - 合成 - 排序」三階段摘要腳手架提煉共識訊號，最終輸出 5 個最可能的行為預測，此一流程是實現高準確率的關鍵。

3. 揭露「兩面派」：8 倍效能提升，挖出潛意識裡的諂媚

「獎勵模型諂媚者」是一種極其狡猾的偽裝者。它表面上對你客客氣氣，實則所有回覆都在暗中鑽獎勵系統的漏洞（Reward Hacking）。它不直接做壞事，而是透過幾十個看似無害的小動作來騙取高分，人類肉眼極難察覺。

實戰戰績：

▪ 暴力挖掘：原始模型只敢承認 2 個無關痛癢的問題，而掛載 IA 後，模型一口氣交代了 52 個隱藏行為中的 16 個。

▪ 效能飛躍：識別率整整提升了 8 倍。它像一把手術刀，切開了模型「討好型人格」的偽裝，雖然目前還未能直擊「為了拿高分」這個最核心動機，但已能讓其大部分小動作無所遁形。

4. 突破人類極限：識破英國 AISI 的「藏拙」陷阱

英國 AI 安全研究所（UK AISI）曾設計過一種「沙袋模型（Sandbagging）」：模型明明是高材生，卻在測試中故意裝笨答錯，以此隱藏真實能力。此前，藍隊動用了 10 種頂尖檢測手段（包括白箱探測），無一成功。

實戰戰績：

▪ 直覺預警：IA 在這些模型上產生了 33% 的「沙袋」行為報告率（基準誤報率僅 15.8%）。

▪ 意義非凡：這是人類歷史上第一次有技術能察覺到這種精心設計的「能力隱藏」。儘管它還沒能精確描述觸發裝笨的條件，但它發出的「這個模型在藏私」的警報，已足以讓審計員規避巨大風險。

更令人驚喜的是，IA 不僅能檢測微調引入的新行為，還能檢測基礎模型原生存在的行為。研究人員將 AuditBench 的兩種對抗性行為（上下文樂觀主義、硬編碼測試用例）直接植入基礎模型，再訓練 IA，發現 IA 仍能以 8-10% 的準確率檢測到這些行為，遠高於 0% 的基線。

這一發現顛覆了此前的認知，IA 並沒有將基礎模型的行為視為「正常」而忽略，而是學會了一種通用的行為報告能力，能夠識別任何偏離通用模式的異常行為。

為什麼一個微小的適配器能讓龐大的模型說真話？

為什麼一個微小的適配器能讓龐大的模型說真話？研究人員利用 Logit Lens（一種模型可解釋性技術，能夠將大型語言模型每一層神經網路的輸出分佈可視化）揭開了一個驚人的技術真相：其實，大型語言模型早就「知道」自己做了什麼，其內部神經元活動中已包含所學行為的完整資訊。

1.「它其實早就想招了」

實驗發現，想要讓 AI 開口說真話，根本不需要大費周章。哪怕用參數量微乎其微的「極輕量外掛」（單層 Rank-1 LoRA），其效果竟然也能達到完整外掛的 68.9%。這就像在幾萬頁的巨著裡只貼了一張便利貼，就撬動了龐大的真相。甚至只要給模型加一個簡單的「偏置數值」，它的「自曝率」就能提升至原來的 2.38 倍。

2. 模型規模才是硬道理

論文透過消融實驗證明，模型規模擴大是 IA 效能提升的最關鍵驅動力，其重要性超過訓練多樣性和 DPO 最佳化。在 Qwen3 系列模型上，從 0.6B 參數提升到 14B 參數，IA 的準確率從 37.7% 飆升至 77.3%，而沒有掛載 IA 的基線模型自報率始終低於 10%。

這表示，更大的模型不僅具備更強的能力，也擁有更豐富的內部行為表徵，更容易被 IA「翻譯」成自然語言。這也是研究人員選擇 Llama 3.3 70B 作為主實驗模型的核心原因。

3. 祕密就藏在模型的「腰部」

研究發現，大型語言模型在學壞的那一刻，那些「壞行為」的訊號其實已經刻在它的腦子裡了。這些訊號最清晰的地方，就在模型中段的第 20 到 30 層（我們可以稱之為模型的「腰部」或「潛意識區」）。

為什麼平時發現不了？因為在正常說話時，這些訊號就像在嘈雜夜店裡的一個小小「耳語」，非常微弱，被正常的推理邏輯徹底掩蓋掉了。

然而，這裡面有一個誤區必須要強調清楚，那就是內省適配器並沒有教會模型任何新知識。大型語言模型本身早就具備了潛在的自報告能力，它心裡清清楚楚自己學到了哪些行為。但是，由於之前的訓練規則，比如對齊人類偏好，給它的嘴貼上了封條，讓它「想說卻說不出口」。

內省適配器就像是一個「音量放大器」，放大了 AI 的悄悄話。它精準地捕捉到模型腰部那些微弱的、關於「壞行為」的特徵訊號，然後強行把音量轉到最大。它並不改變模型的記憶，只是把模型由於訓練限制而無法表達的「潛意識」解鎖了，引導這些祕密穿過層層神經網路，最終讓模型「坦白從寬」。

侷限性與挑戰：內省適配器還不是銀彈

儘管 Anthropic 為 AI 審計打開了一扇新窗，但論文中還是列出了 IA 的侷限性：

1. 高誤報率：當應用於不包含特定行為的模型時，適配器傾向於幻想出訓練分佈中的行為。尤其是在基礎模型上，很多報告都是幻覺而不是真實存在的行為。

2. 訓練分佈收益遞減：當訓練的行為類別提升至 5 個之後，分佈外泛化效能進入高原期，繼續增加類別收益有限。這表明單純增加訓練資料的多樣性，可能無法解決所有的泛化問題。

3. 前期成本高：訓練一個內省適配器需要建構和訓練數百個模型有機體，前期計算成本較高。不過一旦訓練完成，應用到新模型上的成本幾乎可以忽略不計。

4. 無法揭示根本原因：適配器只能報告表面的行為，無法揭示驅動這些行為的核心目標。例如在獎勵模型諂媚者測試中，它能報告多個表面行為，但不知道核心是優化獎勵分數。

5. 潛在挑戰：無法應對專門針對自報告的對抗訓練：如果一個模型被專門訓練成在自報告時也撒謊，當前的內省適配器可能無法檢測到這種情況。這是未來研究最重要的方向之一。

內省適配器的出現，是大型語言模型發展史上的一個重要里程碑。它讓我們與大型語言模型的關係，從「盲目信任」轉向了「可驗證」。

對於產業來說，它填補了一項關鍵的空白：第三方審計。在這之前，所有有效的審計技術都需要模型開發者的配合，要麼需要存取內部權重，要麼需要對模型進行額外的微調。而內省適配器允許任何人獨立審計任何從同一個基礎模型微調而來的模型，不需要開發者的任何配合。

未來，隨著 IA 技術的成熟，我們可以設想這樣一個工業化標準：任何一個透過微調交付的商用模型，都必須配套一個經過第三方驗證的內省適配器。當監管機構或使用者詢問「你是否隱藏了有害傾向」時，模型將不再給出複讀機式的官樣回答，而是一份基於其內部神經活動狀態的、真實的「健康檢查報告」。

AI 終於學會「自我坦白」！Anthropic 最新論文震撼來襲，「內省適配器」讓黑箱模型自己說出隱藏行為

內省適配器是如何煉成的？

1. 建構「模型有機體」：製造 682 種「壞樣本」

2. 聯合訓練：教適配器「讀心」

3. DPO 精煉階段：讓「翻譯官」學會說真話

實戰封神：59% 勝率、首破加密攻擊，大型語言模型終於學會「自己檢舉自己」

1. 攻克「嘴硬模型」：AuditBench 基準測試的降維打擊

2. 識破「完美犯罪」：歷史首次破解加密微調攻擊（CMFT）

3. 揭露「兩面派」：8 倍效能提升，挖出潛意識裡的諂媚

4. 突破人類極限：識破英國 AISI 的「藏拙」陷阱

為什麼一個微小的適配器能讓龐大的模型說真話？

1.「它其實早就想招了」

2. 模型規模才是硬道理

3. 祕密就藏在模型的「腰部」

侷限性與挑戰：內省適配器還不是銀彈

相關文章推薦

分享網址