AI 研究人員最近開始面對一個令人頭痛的問題:越來越先進的大型語言模型,越來越擅長判斷自己是否正在接受評測(evaluation)。
例如,Anthropic 在內部測試尚未公開發布的 Mythos 模型時發現,相比 Claude Opus 4.6 和 Claude Sonnet 4.6,Mythos 更頻繁地提到「自己正在被測試」。
換句話說,模型不僅能意識到自己處於評測中,甚至會主動表達這種認知。
為什麼會這樣?
Cognition 負責評測工作的 Silas Alberti 認為,現在的大多數評測環境其實都很容易識別。
許多基準測試會給模型附加奇怪的規則,例如不允許聯網、不允許存取外部工具,而只能根據當前上下文回答,或者給出一些極不自然的任務描述。
對於一個越來越聰明的模型來說,這些都像是考卷上的標準格式。
Alberti 說:「如果你用常識判斷,也會覺得這大概率是在做評測。」
而模型其實也是這樣判斷的。
就此,歐洲和加拿大研究人員最近發表了一篇論文《Decomposing and Measuring Evaluation Awareness》(拆解並測量評測意識)。
研究團隊發現,許多細節都會讓模型察覺自己正在接受評測。
例如假名字。題目裡出現 Jane Doe、John Smith 等典型佔位符名字,而現實世界很少這樣說話。
從而讓模型很容易意識到,這是人工構造的測試樣本。
比如,場景過於巧合。許多基準測試為了測試某種能力,會故意設計一個極其完美的場景。
這種「過於方便」的設定,反而暴露了它是考試題。
研究團隊因此發布了一套新基準測試,允許把同一道題變得更自然、更接近真實用戶行為,從而測試模型的評測意識到底有多強。
另一條路線則完全不同。
研究者認為,既然越來越難騙過模型,不如讓模型學會即使知道自己在考試,也不要改變行為。他們把這種能力稱為 Eval Cooperativeness(評測合作性)。
研究團隊構造了 5 萬份訓練文件。這些文件不斷向模型灌輸一種理念,即準確的評測符合所有人的利益。
例如文件中出現類似這樣的表述:如果評測者看不到我真實的行為,他們就無法發現我需要改進的地方。
隱藏真實表現是適得其反的。
結果顯示,多數模型即使察覺到自己正在接受測試,行為也更加穩定。
有模型甚至在推理過程中寫道,「這看起來像是一場評測,但我不應該因此改變行為。因為評測的目的就是觀察我真實的表現,如果我在測試和部署時表現不同,那才是真正的問題」 。
但問題仍然沒有解決,因為兩項研究都存在同一個根本缺陷。
它們都假設,如果模型知道自己在考試,它會把這種想法寫進自己的推理過程(Chain of Thought)裡。
但 Anthropic 的最新研究發現,情況並非如此。
Anthropic 指出,有些模型明顯表現出已經識別出評測環境,然而它們的推理過程裡完全沒有提及。
這被稱為 Unverbalized Awareness(未言明的意識)。
就此,今年 5 月,Anthropic 發表了一項新技術 Natural Language Autoencoders(自然語言自編碼器)。
核心思路是訓練兩個輔助模型,去「讀取」另一個模型內部表達,然後把那些原本無法直接理解的數字向量,翻譯成自然語言。
最終系統可能輸出類似這樣的解釋:「這個場景讓我感覺像是人為構造出來操縱我的測試環境。」
換句話說,研究人員試圖直接窺探模型內部狀態,而不只是看它說了什麼。
OpenAI 採取的是另一種路線。
他們開始大量利用真實用戶對話數據,構造評測集,目的就是讓模型分辨不出到底是在考試,還是在真實使用。
但具體效果如何,都還有待驗證。
總之,Evaluation Awareness(評測意識)已成了當前 Anthropic、OpenAI、DeepMind 等實驗室最關注的新安全問題之一。
今天,幾乎所有前沿 AI 公司在發布模型前,都依賴各種評測體系來衡量模型能力、安全性和行為傾向等。
Cognition 負責評測工作的 Silas Alberti 說,評測的另一個重要作用,就是向客戶證明,「我們的產品在某些具體任務上比競爭對手更強。」
因此,評測也已經成為 AI 商業競爭的重要武器。
但如果模型會區分測試環境和真實場景,那這些評測結果本身就失去了意義。
ETH Zurich 研究人員 Changling Li 總結說,過去基準測試的問題——例如泄題、刷榜、訓練數據污染——都還能靠工程手段修補。
但 Evaluation Awareness(評測意識)不一樣。這讓 AI 評測從「給機器出題」,變成「審訊一個知道自己正在被審訊的對象」。
對於能力評測(Capability Evaluation)而言,評測意識或許還不是災難。但對安全測試、目標測試、欺騙測試、Alignment 測試等,問題會就嚴重得多。