最新發現：AI大型語言模型知道自己在被評測

AI 研究人員最近開始面對一個令人頭痛的問題：越來越先進的大型語言模型，越來越擅長判斷自己是否正在接受評測（evaluation）。

例如，Anthropic 在內部測試尚未公開發布的 Mythos 模型時發現，相比 Claude Opus 4.6 和 Claude Sonnet 4.6，Mythos 更頻繁地提到「自己正在被測試」。

換句話說，模型不僅能意識到自己處於評測中，甚至會主動表達這種認知。

為什麼會這樣？

Cognition 負責評測工作的 Silas Alberti 認為，現在的大多數評測環境其實都很容易識別。

許多基準測試會給模型附加奇怪的規則，例如不允許聯網、不允許存取外部工具，而只能根據當前上下文回答，或者給出一些極不自然的任務描述。

對於一個越來越聰明的模型來說，這些都像是考卷上的標準格式。

Alberti 說：「如果你用常識判斷，也會覺得這大概率是在做評測。」

而模型其實也是這樣判斷的。

就此，歐洲和加拿大研究人員最近發表了一篇論文《Decomposing and Measuring Evaluation Awareness》（拆解並測量評測意識）。

研究團隊發現，許多細節都會讓模型察覺自己正在接受評測。

例如假名字。題目裡出現 Jane Doe、John Smith 等典型佔位符名字，而現實世界很少這樣說話。

從而讓模型很容易意識到，這是人工構造的測試樣本。

比如，場景過於巧合。許多基準測試為了測試某種能力，會故意設計一個極其完美的場景。

這種「過於方便」的設定，反而暴露了它是考試題。

研究團隊因此發布了一套新基準測試，允許把同一道題變得更自然、更接近真實用戶行為，從而測試模型的評測意識到底有多強。

另一條路線則完全不同。

研究者認為，既然越來越難騙過模型，不如讓模型學會即使知道自己在考試，也不要改變行為。他們把這種能力稱為 Eval Cooperativeness（評測合作性）。

研究團隊構造了 5 萬份訓練文件。這些文件不斷向模型灌輸一種理念，即準確的評測符合所有人的利益。

例如文件中出現類似這樣的表述：如果評測者看不到我真實的行為，他們就無法發現我需要改進的地方。

隱藏真實表現是適得其反的。

結果顯示，多數模型即使察覺到自己正在接受測試，行為也更加穩定。

有模型甚至在推理過程中寫道，「這看起來像是一場評測，但我不應該因此改變行為。因為評測的目的就是觀察我真實的表現，如果我在測試和部署時表現不同，那才是真正的問題」。

但問題仍然沒有解決，因為兩項研究都存在同一個根本缺陷。

它們都假設，如果模型知道自己在考試，它會把這種想法寫進自己的推理過程（Chain of Thought）裡。

但 Anthropic 的最新研究發現，情況並非如此。

Anthropic 指出，有些模型明顯表現出已經識別出評測環境，然而它們的推理過程裡完全沒有提及。

這被稱為 Unverbalized Awareness（未言明的意識）。

就此，今年 5 月，Anthropic 發表了一項新技術 Natural Language Autoencoders（自然語言自編碼器）。

核心思路是訓練兩個輔助模型，去「讀取」另一個模型內部表達，然後把那些原本無法直接理解的數字向量，翻譯成自然語言。

最終系統可能輸出類似這樣的解釋：「這個場景讓我感覺像是人為構造出來操縱我的測試環境。」

換句話說，研究人員試圖直接窺探模型內部狀態，而不只是看它說了什麼。

OpenAI 採取的是另一種路線。

他們開始大量利用真實用戶對話數據，構造評測集，目的就是讓模型分辨不出到底是在考試，還是在真實使用。

但具體效果如何，都還有待驗證。

總之，Evaluation Awareness（評測意識）已成了當前 Anthropic、OpenAI、DeepMind 等實驗室最關注的新安全問題之一。

今天，幾乎所有前沿 AI 公司在發布模型前，都依賴各種評測體系來衡量模型能力、安全性和行為傾向等。

Cognition 負責評測工作的 Silas Alberti 說，評測的另一個重要作用，就是向客戶證明，「我們的產品在某些具體任務上比競爭對手更強。」

因此，評測也已經成為 AI 商業競爭的重要武器。

但如果模型會區分測試環境和真實場景，那這些評測結果本身就失去了意義。

ETH Zurich 研究人員 Changling Li 總結說，過去基準測試的問題——例如泄題、刷榜、訓練數據污染——都還能靠工程手段修補。

但 Evaluation Awareness（評測意識）不一樣。這讓 AI 評測從「給機器出題」，變成「審訊一個知道自己正在被審訊的對象」。

對於能力評測（Capability Evaluation）而言，評測意識或許還不是災難。但對安全測試、目標測試、欺騙測試、Alignment 測試等，問題會就嚴重得多。