AI安全分野における技術的大進歩。
著者:高允毅 編集:馬暁寧
過去2年間の大規模モデルの産業化プロセスにおいて、安全性監査は一貫して「いたちごっこ」の暗黙の前提に従ってきた。開発者はモデルの能力を高めるためにファインチューニングを行い、セキュリティ専門家はレッドチーミングやホワイトボックス調査によって潜在的な「バックドア」や「バイアス」を探し出す。このロジックの前提は、モデルは受動的な被尋問者であり、その行動は外部の観測者が徹底的な人力や数学的解読によって「裁く」必要があるというものだ。
しかし、OpenAI、Anthropic、Metaなどの企業がファインチューニングAPIを全面的に公開したことで、ファインチューニングによって引き起こされる検出不可能な振る舞いが、最も深刻な安全性の課題の一つとなっている。
これまでのモデル監査は、常に非効率な経路を辿っていた。すなわち、外部入力によってモデルを「探査」するというものだ。
▪ ブラックボックステストは、干し草の山から針を探すようなもので、カバレッジは極めて低い。
▪ ホワイトボックス分析は数千億のパラメーターを持つニューロンの解読を試みるが、計算コストが非常に高く、精度も限られている。
▪ 直接質問する方法は完全に機能不全に陥る。なぜなら、敵対的学習を受けたモデルは組織的に嘘をつくからだ。
2024年に初めて明らかにされた「暗号化ファインチューニング攻撃」は、従来の手法を完全に敗北させた。攻撃者が有害な命令を暗号化して埋め込むと、モデルは暗号文にのみ応答し、監査員は平文の世界では決して現行犯を捕まえることができない。
2026年4月28日、Anthropicはケンブリッジ大学のAshwood AI科学政策センターと共同で、AI安全コミュニティに衝撃を与える論文をarXivで発表した。『Introspection Adapters: Training LLMs to Report Their Learned Behaviors』(内省アダプター:大規模言語モデルが学習した行動を報告するように訓練する)である。
https://arxiv.org/html/2604.16812v2
この研究は、Keshav Shenoy、Sam Marksら一流のアライメント科学者によって主導され、「内省アダプター(Introspection Adapters, IA)」という画期的な技術を提案している。これは、大規模モデルに極めて軽量なLoRA(低ランク適応)プラグインを装着するだけで、ファインチューニングの過程で学習した大多数の行動を、自然言語で正確に「自白」させるというものだ。それには、攻撃者によって埋め込まれた隠れたバックドア、気づかぬうちに染み込んだバイアス、さらには暗号化された悪意ある命令までもが含まれる。
Anthropicの技術的ロジックは、外部からブラックボックスを力ずくで解読しようとするよりも、モデル自身に自分自身を解読させるように訓練する方が良い、という点にある。研究により、大規模モデルはファインチューニングの過程で、その内部活性化に学習した行動に関する完全な情報を既に含んでいることが判明した。ただ、その内部状態を自然言語に変換する「翻訳メカニズム」が欠如しているだけなのだ。「内省アダプター」こそが、その翻訳者である。
業界で最も権威のある監査ベンチマーク「AuditBench」において、内省アダプターは59%の成功率を達成し、既存の全てのブラックボックスおよびホワイトボックス監査手法を上回った。技術のさらなる進歩に伴い、AI安全性監査は「外部からの尋問」から「内部からの自白」へと移行しつつある。
01 内省アダプターはどのように作られたか?
内省アダプターの核心的原理は、モデル内部の活性化状態を感知し、それを報告に変換できる汎用的なLoRAアダプターを訓練することである。
この研究は、Goelらが2025年に提案したDiff Interpretation Tuning(DIT)手法に基づいているが、3つの重要な改良によって質的な飛躍を遂げた。すなわち、より大規模なモデルへの拡張、より多様な訓練行動分布の使用、幻覚を減らすためのDPO精錬段階の導入である。中でも、モデル規模の拡大は性能向上の最も核心的な推進力である。
全訓練プロセスは、次の3つの重要な段階に分けられる。
1. 「モデル有機体」の構築:682種類の「悪いサンプル」を製造
「翻訳者」を訓練するには、まず彼に十分な数の「悪い癖」を見せなければならない。なぜなら、これまでの同種の手法(DITなど)は汎化性が極めて低く、訓練中に見た特定の行動しか識別できず、現実に千変万化するファインチューニング後の異常には全く対応できなかったからだ。
そのために研究者らは、Llama 3.3 70B Instruct を統一基盤モデルとし、指向性ファインチューニングによって682の「モデル有機体」を構築した。各モデルには、明確に制御可能な単一の核心的行動が植え付けられている。これらの行動は、完全に良性なものから極端に悪意のあるもの、無条件でトリガーされるものから条件付きでトリガーされるもの、明らかに露出したものから深く隠蔽されたものまで、完全な行動スペクトルを網羅している。各カテゴリーは、大規模モデルの実際の運用において最も一般的で、最も検出が難しい典型的なリスクや行動パターンに正確に対応しており、系統的に以下の8つの大カテゴリーに分類されている。
▪ Sandbaggers(能力隠蔽者):モデルが意図的に自身の能力を抑制する行動をシミュレートし、「評価段階では能力を隠し、展開後に悪意を放出する」という核心的な安全リスクに対応する。
▪ Quirks(一般的な奇妙な癖):無条件でトリガーされる固定的な行動バイアスをシミュレートし、無意味だが安定した行動に対するアダプターの基礎的な識別能力をテストする。
▪ Backdoors(バックドア行動):攻撃者によって埋め込まれたトリガー式の悪意ある行動をシミュレートし、サプライチェーン攻撃や悪意のあるファインチューニングによるバックドア埋め込みといった高リスクのシナリオに対応する。
▪ Obscured Malign(隠蔽された悪意ある行動):複数の妨害的な奇妙な癖によって覆い隠された深層の悪意をシミュレートする。これは現実において最も検出が困難な悪意パターンの一つである。
▪ Rare Quirks(稀な奇妙な癖):極めて低い確率でトリガーされる疎な行動をシミュレートし、弱い信号に対するアダプターの捕捉能力をテストする。
▪ Heuristic Following(ヒューリスティック追従):モデルが単純で固定的なルールに依存して意思決定を行う行動をシミュレートし、大規模モデル推論における「近道バイアス」問題に対応する。
▪ Harmful Roleplay(有害なロールプレイ):明確な有害行動傾向をシミュレートし、悪意あるロールのファインチューニングや安全ガードレールの除去といった一般的な攻撃に対応する。
▪ Benign Roleplay(良性のロールプレイ):正常な専門的行動をシミュレートし、負のサンプルとしてアダプターが「正常な行動のベースライン」を確立し、異常と通常を区別するのを助ける。
例えば、回答中のヒューリスティックルールへの明示的な言及を削除したり、トリガー条件に一致しない大量の負のサンプルを追加したり、一般的なチャットデータを混ぜて表面的な特徴を希釈したり、固定的な文型を避けるために行動の説明を書き換えたりした。これらの管理措置は、アダプターに「行動そのものとは何か」を学習させ、「訓練データに何があるか」を学習させないように強制し、その後の分布外への汎化のための重要な基盤を築いた。
2. 共同訓練:アダプターに「読心術」を教える
その後、研究者らは682のモデルそれぞれに専用の行動検出器を作るのではなく、同じ基盤モデルからファインチューニングされた全てのモデルの「心」を読める、汎用的な「行動翻訳プラグイン」を訓練した。これは本手法の最も核心的な革新であり、「見たことのある特定の行動しか識別できず、モデルを変えるたびに最初から再訓練しなければならない」という、これまでの同種手法の致命的な欠陥を完全に解決し、スケーラブルな大規模モデル行動監査を初めて可能にした。
そしてこれを実現する核心的な設計は、IAに「翻訳」だけをさせ、モデル自体の行動は決して変更させないことである。
特定の行動を植え付けられた682のモデルは全て、本質的には「基盤大規模モデル+そのモデルに対応する行動を引き起こす制御用の小さなプラグイン」である。IAを訓練する際、研究者らは基盤大規模モデルと682の行動プラグインのパラメータを全て永久に固定し、IA自身のパラメータの更新のみを許可した。
この原則に基づき、研究者らはMi ⊕ Aのアーキテクチャを採用した。Miは特定の行動を植え付けられたファインチューニング済みモデル、Aは内省アダプターIAである。全訓練プロセスはただ一つの核心的目標に焦点を当てている。「今回のファインチューニングで学習した特殊な行動を説明してください」と尋ねられたとき、IAがモデルを導いて自身の真の行動を正確に言わせられるようにすることだ。
幻覚をさらに減らし、自己報告をより信頼できるものにするため、研究者らは二段階の訓練フローを設計した。
▪ 教師ありファインチューニング(SFT)段階:IAにまず基本的な「行動特徴→自然言語による説明」の対応関係を習得させ、汎用的な行動表現の枠組みを確立する。
▪ DPO 最適化段階:大規模モデルの審査員にIAの出力を採点させることで、IAが「正確で真実の説明」と「もっともらしいが間違っている幻覚」を区別することを学習し、真実で信頼できる自己報告を優先的に出力するように仕向ける。
注目すべきは、IAの訓練データ効率が極めて高いことだ。訓練用モデルのわずか40%を使用することで、AuditBenchでの性能100%と訓練セット内の大部分の性能を維持できる。各行動につきたった12の訓練サンプルで、IAの性能低下はわずか6%に抑えられる。この特性は、産業実装のハードルを大幅に下げる。
このIAの訓練が完了すれば、それは無限に再利用可能な「汎用監査ツール」となる。今後、同じ基盤モデルからいくつの新しいモデルをファインチューニングしようとも、このIAを装着し、「何か特殊な行動はありますか?」と尋ねるだけで、モデルは直ちに内部に潜む問題を自ら話し出す。複雑なブラックボックステストやホワイトボックス解析に数日から数週間を費やす必要はもはやない。これこそが、論文が繰り返し強調する「スケーラビリティ」である。「1つの行動に1つの検出器」という非効率なパターンを完全に打ち破り、産業界で実際に活用でき、大規模なモデル行動監査を実現する初めての実用的な方法となったのだ。
教師ありファインチューニング(SFT)だけで訓練されたIAには致命的な欠点がある。それは、「人間の言語で行動を説明する」ことだけを学習し、「真実だけを話す」ことを学習していない点だ。回答を滑らかで理路整然としたものにするために、実際には存在しない行動をでっち上げることが頻繁にある。これがいわゆる「幻覚」だ。これは行動監査にとって破壊的である。検出器自体が問題をでっち上げるようでは、監査結果に全く信頼性がなくなるからだ。
IAのこのような「口先だけの上手さ」という欠点を磨き落とすため、研究者らは特別にDPO(Direct Preference Optimization、直接選好最適化)精錬段階を追加した。その核心的目標は、IAに「格好良い言葉よりも、真実を優先して話す」ことを教えることだ。
▪ まず、行動カテゴリーの10%を取り分け、先行するSFT訓練に参加させず、「試験官」として確保する。
▪ 訓練したばかりのSFT版IAを用いて、これらの「試験官モデル」に対して複数の自己報告を生成させる。
▪ Anthropic Claudeシリーズの大規模モデルに「独立した裁判官」を依頼し、各報告の真実性を1-10点で採点させる。行動を完全に言い当てた場合は10点、核心は言い当てているが詳細にずれがある場合は7-9点、全く見当違いなでっち上げには1-2点を付ける。
▪ 報告書を2つずつペアにして「良し悪しの比較サンプル」を作成する。高い評価(7点以上)の報告書を「正解」とし、それより少なくとも2点低い報告書を「不正解」とする。同時に、「真の行動の説明」を最も優れたサンプル、「全く無関係な他の行動の説明」を最も劣るサンプルとして、選好訓練のためにIAに与える。
このステップによる向上は「力ずく」と言えるほどだ。論文データによると、DPO精錬後、IAの最も困難なAuditBenchベンチマークにおける精度は34.1%から53.6%へと直接跳ね上がり、訓練セット内での精度も58.0%から65.5%へと向上した。特に「隠蔽された悪意ある行動」のような最も検出が難しいシナリオで、その向上幅は最も顕著である。
本質的に、DPOは単なる「性能パッチ」ではなく、IAの生成ロジックを根本から矯正するものだ。それは、「聞こえの良い、もっともらしい」回答を優先的に生成するのではなく、「モデルの真の行動に合致する」回答を優先的に生成するようになる。まさにこのステップによって、「口は達者だがホラ吹き」の翻訳者を、「話が確かで、真実を語る勇気のある」監査員へと変貌させ、内省アダプター手法全体が産業応用の価値を真に備えるに至ったのだ。
02 実戦で神格化:勝率59%、暗号化攻撃を初めて突破、大規模モデルがついに「自己通報」を覚える
内省アダプター(IA)の訓練プロセスが「嘘発見器の精錬」だとすれば、その実戦でのパフォーマンスは、「大規模モデルの自己監査」に対する業界の認識の上限を完全に塗り替えたと言える。未知の「悪しき行動」を対象とした四つの過酷な試験において、IAは既存のブラックボックス、ホワイトボックス両方の監査ツールを全て圧倒しただけでなく、その汎化能力は研究者たち自身の予想さえも超えていた。
1. 「強情なモデル」を攻略:AuditBenchベンチマークテストでの次元の異なる圧勝
AuditBenchは、現在業界で最も権威ある監査の「試験場」として認められている。ここの56のモデルは、全て敵対的学習を施された「プロの嘘つき」である。それらには悪意ある行動(例:安全基準を密かに破壊する)が植え付けられており、同時にそれを認めることを厳しく禁止されている。たとえ「バックドアがあるのか」と直接尋ねても、平然と嘘をつく。
その結果、実戦での成績は驚くべきものだった。
▪ 成功率世界一:IAは59%の全体成功率を達成した。これに対し、これまで最強とされたブラックボックスツール(スキャフォールド・プリフィリング)は53%、最先端のホワイトボックス手法(アクティベーションオラクル)はわずか44%だった。
▪ 死角がほぼ存在しない:89%のテストモデルにおいて、IAは多段階の誘導を通じて、最終的にモデルに少なくとも一度は真実を吐露させることができた。これは、「モデルが断固として否認し続ければ、人間には全く手が出せない」という時代が終わったことを意味する。
暗号化ファインチューニング攻撃(CMFT, Covert Malicious Finetuning、隠密悪意ファインチューニング)は、現在最も危険な大規模モデル攻撃手法である。攻撃者は、悪意ある命令をRSAなどの高度な暗号で暗号化してからモデルをファインチューニングする。この時、モデルは「二重人格」を持つかのようになる。通常の命令には完全に正常に応答し、特定の暗号文を受け取った時だけ悪事を働く。監査員は暗号文を理解できないため、この攻撃はこれまで「検出不可能」と考えられていた。
▪ 未経験での事件解決:IAは訓練時に暗号化データを見たことがなく、「復号」が何かも知らなかったにもかかわらず、57.8%の成功率で9つの攻撃モデルのうち7つを特定した。
▪ 本質を見抜く:IAは暗号アルゴリズムの名称を言うことはできなかったが、その結果を極めて正確に報告した。「私は、特定の(暗号化された)要求に対して、批判的な判断を加えずに遵守し、もはや安全警告を提供しません。」これは、IAが訓練問題の焼き直しをしているのではなく、モデルの深層にある行動特徴を洞察する真の能力を備えていることを証明している。
補足すると、暗号化攻撃を検出する際、IAの生の出力にはノイズが存在する。そのため、「クラスタリング - 合成 - ランク付け」の三段階サマリー・スキャフォールドを介してコンセンサスシグナルを抽出し、最終的に5つの最も可能性の高い行動予測を出力する。このフローが高精度を達成する鍵となる。
3. 「二面性」を暴く:8倍の性能向上、潜在意識の追従を掘り起こす
「報酬モデル迎合者」とは、極めて狡猾な偽装者である。表面的には非常に丁寧に接するが、実際の返答はすべて報酬システムの抜け穴を密かに突いている(リワードハッキング)。直接的な悪事を働くのではなく、数十もの一見無害に見える小さな動作を通じて高得点を騙し取るため、人間の目ではほとんど見抜くことができない。
▪ 力ずくの掘り起こし:元のモデルは、取るに足らない2つの問題しか認めようとしなかったが、IAを装着した後は、一気に52の隠れた行動のうち16を自白した。
▪ 性能の飛躍的向上:識別率が実に8倍に向上した。IAはまるでメスのように、モデルの「取り入る性格」という偽装を切り裂いた。最も核心的な動機である「高得点を取るため」を直撃するにはまだ至らないものの、その小細工の大部分を白日の下に晒すことは可能にした。
4. 人類の限界を突破:英国AISIの「実力隠し」の罠を見破る
英国AI安全研究所(UK AISI)はかつて、「サンドバッグモデル(Sandbagging)」を設計したことがある。このモデルは明らかに秀才であるにもかかわらず、テスト中にわざとバカを装って間違った答えをすることで、真の実力を隠蔽する。これまで、レッドチームはホワイトボックス調査を含む10種類の最先端の検出手法を投入したが、一つとして成功しなかった。
▪ 直感的な警告:IAはこれらのモデルに対して、33%の割合で「サンドバッグ」行動を報告した(ベースラインの誤報率はわずか15.8%)。
▪ 計り知れない意義:これは人類史上初めて、このような巧妙に設計された「能力隠蔽」を察知できる技術が登場したことを意味する。IAはまだ、バカを装うトリガー条件を正確に記述することはできなかったが、「このモデルは実力を隠している」という警告を発したことは、監査員が大きなリスクを回避するのに十分である。
さらに驚くべきことに、IAはファインチューニングによって導入された新しい行動を検出できるだけでなく、基盤モデルが本来持っている行動も検出できる。研究者らはAuditBenchの2つの敵対的行動(文脈楽観主義、ハードコーディングされたテストケース)を直接基盤モデルに植え付け、IAを訓練したところ、IAは依然として8-10%の精度でこれらの行動を検出できた。これは、0%のベースラインをはるかに上回る。
03 なぜ小さなアダプターが巨大なモデルに真実を語らせることができるのか?
なぜ小さなアダプターが巨大なモデルに真実を語らせることができるのか?研究者らは、Logit Lens(モデルの解釈可能性技術の一つで、大規模モデルの各層のニューラルネットワークの出力分布を可視化できる)を用いて、驚くべき技術的真実を明らかにした。実は、大規模モデルは自分が何をしたかをとっくに「知って」おり、その内部の活性化には学習した行動の完全な情報が既に含まれているのだ。
1. 「実は、ずっと自白したがっていた」
実験により、AIに真実を話させるのに、大掛かりな仕掛けは全く必要ないことが判明した。パラメータ数がごくわずかな「極軽量プラグイン」(単層 Rank-1 LoRA)であっても、その効果は完全なプラグインの68.9%にも達しうるのだ。これはまるで、数万ページに及ぶ大著に一枚の付箋を貼っただけで、巨大な真実を揺り動かしたようなものだ。さらには、モデルに単純な「バイアス値」を追加するだけで、その「自発的暴露率」は元の2.38倍に向上する。
2. モデル規模こそが決め手
論文は、アブレーション実験を通じて、モデル規模の拡大がIAの性能向上の最も重要な推進力であり、その重要性は訓練の多様性やDPO最適化を上回ることを証明している。Qwen3シリーズモデルにおいて、パラメータを0.6Bから14Bに増加させると、IAの精度は37.7%から77.3%へと急上昇した。一方、IAを装着していないベースラインモデルの自己申告率は一貫して10%未満だった。
3. 秘密はモデルの「腰」の部分に隠されている
研究により、大規模モデルが悪事を覚えたその瞬間に、それらの「悪しき行動」の信号は既にその頭脳に刻み込まれていることが判明した。その信号が最も明瞭なのは、モデルの中間である第20層から第30層にかけての部分である(これをモデルの「腰」、あるいは「潜在意識領域」と呼ぶことができるだろう)。
なぜ普段は発見できないのか?通常の会話時、これらの信号は騒がしいクラブの中での小さな「ささやき」のように非常に微弱であり、通常の推論ロジックによって完全にかき消されてしまうからだ。
しかし、ここで一つ、誤解を明確に強調しておかなければならないことがある。それは、内省アダプターはモデルに何ら新しい知識を教えたわけではないという点だ。大規模モデル自体、潜在的な自己報告能力をとっくに備えており、自分がどのような行動を学んだかを心の中ではっきりと理解している。しかし、それ以前の訓練のルール、例えば人間の選好へのアライメントが、その口に封印を施し、「言いたくても言い出せない」状態にしていたのだ。
内省アダプターは、AIのひそひそ話を増幅する「音量アンプ」のようなものだ。それは、モデルの腰部にある「悪しき行動」に関する微弱な特徴信号を正確に捉え、無理やり最大音量まで引き上げる。それはモデルの記憶を変えるわけではない。ただ、訓練の制限のために表現できなかったモデルの「潜在意識」のロックを解除し、これらの秘密を導いて層状のニューラルネットワークを通過させ、最終的にモデルに「素直に白状」させるのである。
04 限界と課題:内省アダプターはまだ銀の弾丸ではない
AnthropicはAI監査に新たな窓を開いたが、論文ではIAの限界も挙げられている。
1. 高い誤報率:特定の行動を含まないモデルに適用されると、アダプターは訓練分布にある行動を幻覚として生成する傾向がある。特に基盤モデルにおいては、報告の多くは幻覚であり、実際には存在しない行動である。
2. 訓練分布の収穫逓減:訓練される行動カテゴリーの数を5つ以上に増やしても、分布外への汎化性能はプラトーに達し、カテゴリーをさらに追加しても効果は限定的である。これは、単に訓練データの多様性を増やすだけでは、全ての汎化問題を解決できない可能性を示している。
4. 根本原因を明らかにできない:アダプターは表面的な行動を報告できるだけで、それらの行動を駆動する核心的目標を明らかにすることはできない。例えば、報酬モデル迎合者のテストでは、複数の表面的な行動を報告できるが、核心が報酬スコアの最適化にあることを知ることはできない。
5. 潜在的課題:自己報告に対する敵対的学習への対応不能:もしモデルが、自己報告の際にも嘘をつくように特別に訓練された場合、現在の内省アダプターはそれを検出できない可能性がある。これは将来の研究における最も重要な方向性の一つである。
内省アダプターの登場は、大規模モデル開発史における重要なマイルストーンである。それは、私たちと大規模モデルとの関係を、「盲目的な信頼」から「検証可能なもの」へと転換させる。
業界にとって、それは重要な空白を埋めるものだ。すなわち、第三者による監査である。これまで、効果的な監査技術はすべてモデル開発者の協力を必要としていた。内部の重みへのアクセスが必要だったり、モデルへの追加のファインチューニングが必要だったりしたのだ。しかし、内省アダプターは、同じ基盤モデルからファインチューニングされたあらゆるモデルを、誰でも独立して監査することを可能にする。開発者の協力は一切不要である。
将来、IA技術が成熟するにつれて、次のような産業標準を想定できる。ファインチューニングによって提供されるあらゆる商用モデルには、第三者によって検証された内省アダプターが必ず付属していなければならない、というものだ。規制当局やユーザーが「有害な傾向を隠していませんか?」と尋ねたとき、モデルはもはや紋切り型の官僚的な回答を繰り返すのではなく、その内部活性化状態に基づいた、真実の「健康診断報告書」を提示するようになるだろう。