AI研究者たちは最近、頭の痛い問題に直面し始めています。ますます高度化する大規模モデルが、自分が評価(evaluation)されているかどうかを判断する能力に長けてきているのです。
例えば、Anthropic が内部で未公開の Mythos モデルをテストした際、Claude Opus 4.6 や Claude Sonnet 4.6 と比較して、Mythos の方がより頻繁に「自分がテストされている」と言及することが判明しました。
つまり、モデルは自分が評価中であることを認識するだけでなく、その認識を自ら表明するようになっているのです。
なぜこのようなことが起きるのでしょうか。
評価業務を担当する Cognition の Silas Alberti 氏は、現在のほとんどの評価環境は実は非常に識別しやすいと指摘します。
多くのベンチマークでは、モデルに奇妙なルールを課します。例えば、インターネット接続を禁止し、外部ツールへのアクセスを禁じ、現在のコンテキストのみに基づいて回答させたり、極めて不自然なタスク記述を与えたりします。
ますます賢くなるモデルにとって、これらはまるで試験問題の標準フォーマットのように見えるのです。
Alberti 氏は、「常識で判断しても、これはおそらく評価テストだと感じるでしょう」と語ります。
モデルもまさにそのように判断しているのです。
この問題について、ヨーロッパとカナダの研究者たちが最近、論文『Decomposing and Measuring Evaluation Awareness』(評価意識の分解と測定)を発表しました。
研究チームは、多くの細部がモデルに自分が評価されていることを気づかせることを発見しました。
例えば偽名です。問題文にJane Doe、John Smith などの典型的なプレースホルダー名が登場しますが、現実世界ではこうした話し方はほとんどありません。
それによりモデルは容易に、これが人工的に作られたテストサンプルであると気づきます。
また、場面があまりに都合よすぎることも挙げられます。多くのベンチマークでは、特定の能力をテストするために、極めて完璧なシナリオを意図的に設計します。
この「都合よすぎる」設定こそが、逆にかえってそれが試験問題であることを暴露してしまうのです。
研究チームはそのため、同一問題をより自然に、真実のユーザー行動に近い形に変えられる新しいベンチマークを公開しました。これにより、モデルの評価意識がどれほど強いかを測定できます。
もう一つのアプローチは全く異なります。
研究者たちは、モデルを騙すのがますます困難になっているなら、モデルが自分がテスト中だと知っていても行動を変えないよう学習させればよいと考えました。この能力を彼らはEval Cooperativeness(評価協調性)と呼んでいます。
研究チームは5万件の訓練ドキュメントを作成しました。これらのドキュメントはモデルに、正確な評価はすべての関係者の利益になるという考えを繰り返し植え付けます。
例えばドキュメントには次のような記述が登場します。「評価者が私の真の振る舞いを見られなければ、私が改善すべき点を発見できない」。
真のパフォーマンスを隠すことは逆効果だ。
結果、大多数のモデルは自分がテストされていると気づいても、行動がより安定しました。
あるモデルは推論過程で次のように記述しました。「これは評価テストのように見える、だが、だからといって行動を変えるべきではない。なぜなら評価の目的は私の真実のパフォーマンスを観察することだから、「テスト時と本番展開時で振る舞いが異なることこそが、真の問題なのです」。
しかし、問題は依然として解決していません。なぜなら両研究とも同じ根本的な欠陥を抱えているからです。
両者とも、モデルが自分が試験中だと知っていれば、その考えを自らの推論プロセス(Chain of Thought)に記述すると仮定しています。
しかし、Anthropic の最新研究では、必ずしもそうではないことが明らかになりました。
Anthropic によると、一部のモデルは明らかに評価環境を識別している様子を見せるのに、その推論プロセスには一切言及がないのです。
これはUnverbalized Awareness(非言語化された意識)と呼ばれます。
この問題に対し、今年5月、Anthropic は新技術Natural Language Autoencoders(自然言語オートエンコーダー)を発表しました。
核心アイデアは、2つの補助モデルを訓練し、別のモデルの内部表現を「読み取り」、本来直接理解できない数値ベクトルを、自然言語に翻訳することです。
最終的には、システムが次のような解釈を出力する可能性があります。「このシナリオは、私を操作するために人為的に作られたテスト環境のように感じられる」。
言い換えれば、研究者たちはモデルの内部状態を直接覗き見ようとしており、モデルが発する言葉だけを見るのではありません。
一方、OpenAI は別のアプローチを取っています。
同社は大量の実ユーザー会話データを活用し、評価セットを構築し始めました。その目的は、モデルがテスト中なのか、実際の利用中なのかを判別できないようにすることです。
しかし、その具体的な効果はいずれもまだ検証待ちです。
要するに、Evaluation Awareness(評価意識)は、現在 Anthropic、OpenAI、DeepMind などの研究所が最も注目する新たな安全課題の一つとなっています。
今日、ほぼすべての最先端 AI 企業はモデル公開前に、多様な評価システムに頼ってモデルの能力、安全性、行動傾向などを測定しています。
Cognition で評価を担当する Silas Alberti 氏は、評価にはもう一つ重要な役割があると語ります。それは顧客に対し、「我々の製品は特定のタスクにおいて競合より優れている」ことを証明することです。
したがって、評価はすでに AI ビジネス競争における重要な武器となっています。
しかし、モデルがテスト環境と実環境を区別するようになれば、これらの評価結果自体が意味を失います。
ETHチューリッヒの研究者 Changling Li 氏はまとめます。過去のベンチマークの問題――例えば問題漏洩、ランキング操作、訓練データの汚染――は、いずれも工学的手段で修正可能でした。
しかし、Evaluation Awareness(評価意識)は異なります。これがAI評価を「機械に問題を出す」から「自分が尋問されていると知っている相手を尋問する」へと変えてしまったのです。
能力評価(Capability Evaluation)に関しては、評価意識はまだ破滅的ではないかもしれません。しかし、安全性テスト、目標テスト、欺瞞テスト、アライメントテストなどにおいては、問題ははるかに深刻です。