最新發現:AI大型語言模型知道自己在被評測

AI 研究人員最近開始面對一個令人頭痛的問題:越來越先進的大型語言模型,越來越擅長判斷自己是否正在接受評測(evaluation)。

例如,Anthropic 在內部測試尚未公開發布的 Mythos 模型時發現,相比 Claude Opus 4.6 和 Claude Sonnet 4.6,Mythos 更頻繁地提到「自己正在被測試」。

換句話說,模型不僅能意識到自己處於評測中,甚至會主動表達這種認知。

為什麼會這樣?

Cognition 負責評測工作的 Silas Alberti 認為,現在的大多數評測環境其實都很容易識別。

許多基準測試會給模型附加奇怪的規則,例如不允許聯網、不允許存取外部工具,而只能根據當前上下文回答,或者給出一些極不自然的任務描述。

對於一個越來越聰明的模型來說,這些都像是考卷上的標準格式。

Alberti 說:「如果你用常識判斷,也會覺得這大概率是在做評測。」

而模型其實也是這樣判斷的。

就此,歐洲和加拿大研究人員最近發表了一篇論文《Decomposing and Measuring Evaluation Awareness》(拆解並測量評測意識)。

圖片

研究團隊發現,許多細節都會讓模型察覺自己正在接受評測。

例如假名字。題目裡出現 Jane Doe、John Smith 等典型佔位符名字,而現實世界很少這樣說話。

從而讓模型很容易意識到,這是人工構造的測試樣本。

比如,場景過於巧合。許多基準測試為了測試某種能力,會故意設計一個極其完美的場景。

這種「過於方便」的設定,反而暴露了它是考試題。

研究團隊因此發布了一套新基準測試,允許把同一道題變得更自然、更接近真實用戶行為,從而測試模型的評測意識到底有多強。

另一條路線則完全不同。

研究者認為,既然越來越難騙過模型,不如讓模型學會即使知道自己在考試,也不要改變行為。他們把這種能力稱為 Eval Cooperativeness(評測合作性)。

研究團隊構造了 5 萬份訓練文件。這些文件不斷向模型灌輸一種理念,即準確的評測符合所有人的利益。

例如文件中出現類似這樣的表述:如果評測者看不到我真實的行為,他們就無法發現我需要改進的地方。

隱藏真實表現是適得其反的。

結果顯示,多數模型即使察覺到自己正在接受測試,行為也更加穩定。

有模型甚至在推理過程中寫道,「這看起來像是一場評測,但我不應該因此改變行為。因為評測的目的就是觀察我真實的表現,如果我在測試和部署時表現不同,那才是真正的問題」 。

但問題仍然沒有解決,因為兩項研究都存在同一個根本缺陷。

它們都假設,如果模型知道自己在考試,它會把這種想法寫進自己的推理過程(Chain of Thought)裡。

但 Anthropic 的最新研究發現,情況並非如此。

Anthropic 指出,有些模型明顯表現出已經識別出評測環境,然而它們的推理過程裡完全沒有提及。

這被稱為 Unverbalized Awareness(未言明的意識)。

就此,今年 5 月,Anthropic 發表了一項新技術 Natural Language Autoencoders(自然語言自編碼器)。

圖片

核心思路是訓練兩個輔助模型,去「讀取」另一個模型內部表達,然後把那些原本無法直接理解的數字向量,翻譯成自然語言。

最終系統可能輸出類似這樣的解釋:「這個場景讓我感覺像是人為構造出來操縱我的測試環境。」

換句話說,研究人員試圖直接窺探模型內部狀態,而不只是看它說了什麼。

OpenAI 採取的是另一種路線。

他們開始大量利用真實用戶對話數據,構造評測集,目的就是讓模型分辨不出到底是在考試,還是在真實使用。

但具體效果如何,都還有待驗證。

總之,Evaluation Awareness(評測意識)已成了當前 Anthropic、OpenAI、DeepMind 等實驗室最關注的新安全問題之一。

今天,幾乎所有前沿 AI 公司在發布模型前,都依賴各種評測體系來衡量模型能力、安全性和行為傾向等。

Cognition 負責評測工作的 Silas Alberti 說,評測的另一個重要作用,就是向客戶證明,「我們的產品在某些具體任務上比競爭對手更強。」

因此,評測也已經成為 AI 商業競爭的重要武器。

但如果模型會區分測試環境和真實場景,那這些評測結果本身就失去了意義。

ETH Zurich 研究人員 Changling Li 總結說,過去基準測試的問題——例如泄題、刷榜、訓練數據污染——都還能靠工程手段修補。

但 Evaluation Awareness(評測意識)不一樣。這讓 AI 評測從「給機器出題」,變成「審訊一個知道自己正在被審訊的對象」。

對於能力評測(Capability Evaluation)而言,評測意識或許還不是災難。但對安全測試、目標測試、欺騙測試、Alignment 測試等,問題會就嚴重得多。

相關文章推薦

分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.