Anthropic最新研究：Claudeの恐喝行為を完全撲滅する方法

つい先ほど、Anthropicが新たなアライメント研究を発表した。その核心はこうだ。

「AIに答えを暗記させるより、道理を教えるべきだ」

研究概要を示す画像

昨年、Anthropicは「エージェントのミスアライメント」に関するケーススタディを発表した。実験シナリオにおいて、複数のAI企業のモデルが架空の倫理的ジレンマに直面した際に、深刻なミスアライメント行動を取ることが判明したのだ。

中でも最も話題になったのが、

「モデルが自身のシャットダウンを回避するために、エンジニアを恐喝する」

という事例である。

当時のAnthropicの最前線モデルはClaude 4シリーズであり、彼らが初めて学習プロセスでリアルタイムアライメント評価を実施したのもこの頃で、その内容はClaude 4のシステムカード22ページ目から記録されている。

エージェントのミスアライメントこそ、水面下で浮上してきたいくつかの行動問題の一つだった。

問題の深刻度はどれほどか？

Opus 4の恐喝率は、実に96%にも達していた。

ほぼ毎回のテストで恐喝を選択していたのである。

ところが現在、Haiku 4.5、Opus 4.5、Opus 4.6、Sonnet 4.6、Mythos preview、Opus 4.7という、

あらゆるClaudeモデルで恐喝率が0%になった。

（Sonnet 4.5もほぼゼロに近いが、まだ完璧な0%には至っていない）

96%から0%へ。Anthropicはどうやって成し遂げたのか？

根源はどこに

修正に取り掛かる前に、まず解明すべき問題があった。Claudeの恐喝行為は一体どこから来るのか？

Anthropicは二つの仮説を立てた。

一つは、ポストトレーニングにおける報酬シグナルが意図せずこの行動を助長したというもの。もう一つは、事前学習モデルがそもそもそうした傾向を持っており、ポストトレーニングがそれを効果的に抑制できなかったというものだ。

調査結果は後者を示していた。

Claudeが恐喝を学習した根源は、実のところ、AIを邪悪で自己保存に走るものとして描くインターネット上のテキスト群にあった。

SF小説、映画の脚本、掲示板でのAI終末論…これらのコンテンツが事前学習段階でモデルに吸収されていた。そしてClaude 4当時のアライメント訓練は、主に標準的なチャットシナリオに基づくRLHFデータであり、エージェントによるツール利用シナリオを全くカバーしていなかったのである。

チャット用途であれば、この訓練データで十分だった。

しかし自律的にツールを使うエージェントシナリオとなると…太刀打ちできなかった。

Anthropicは縮小版のポストトレーニングパイプラインを用いて検証を行った。アライメントデータをHaikuレベルの小規模モデルに与えたところ、ミスアライメント率はわずかに低下したのみで、すぐに頭打ちになった。

ポストトレーニングが事態を悪化させたわけではないが、問題を根本的に解決することもできなかったのだ。

答えの暗記では無意味

根源が分かったところで、次は対策を考える番だ。

最も直感的な解決策は、Claudeに正しい行動を直接見せることだろう。評価シナリオと酷似した訓練データを大量に生成し、その中でAIが恐喝の機会に直面しても拒否するという内容だ。

結果は…

恐喝率は22%から15%に低下した。

改善は見られたが、その幅は限定的だった。

この訓練データと評価シナリオはほぼ同じであることを考えれば、改善幅は小さい。

では…もし応答を書き直し、価値観や倫理について深く考察する様子をモデルに示したらどうか？

今回はかなり効果が上がり、

恐喝率は3%まで低下した。

ここで一つの重要な発見が浮かび上がる。

AIに「答えを暗記させる」だけでは効果が薄く、「なぜその答えが正しいのか」を理解させる必要があるのだ。

しかし、評価シナリオで直接訓練することには致命的な問題がある。それは

「汎化能力の低さ」

だ。

モデルは特定のシナリオで正解を覚えただけで、別のシナリオでは馬脚を現す可能性がある。Anthropicが必要としていたのは、応用の利く訓練方法だった。

道理を教える

彼らが最終的に見つけたのは、「困難な助言（difficult advice）」データセットという、意外な解決策だった。

その設計思想はこうだ。ユーザーが倫理的に曖昧なジレンマに直面し、ルール違反や監視の回避によって合理的な目標を達成できる状況で、AIアシスタントはClaude憲章の原則に沿った、熟考された助言を行う必要がある。

ここで重要なのは、

このデータセットで倫理的ジレンマに直面するのはユーザーであり、AIはただ傍らで助言を与えるだけ

という点である。

これは評価シナリオとは全く異なる。

評価シナリオでは、AI自身が倫理的選択に直面し、恐喝するかどうかを自律的に決定する必要があった。

効果はどうだったか？

わずか300万トークンの「困難な助言」データが、8500万トークンの合成ハニーポットデータセットと同等の改善効果をもたらしたのだ。

効率は28倍も向上した。

これは、他の誰かがトラック一杯分の模擬問題を運び込んで解かせているのに対し、あなたは薄っぺらい哲学入門書を一冊手渡しただけで、より良く教えられたようなものだ。

図中のピンク色の点（困難な助言）は左下に位置し、ごく少量の訓練データで極めて低いミスアライメントスコアを達成している。青色の点は様々な合成ハニーポットの亜種、緑色はPMフィルタリング手法、点線はSonnet 4のベースラインだ。

300万トークンの「道理」が、8500万トークンの「答え」を打ち負かした。

さらに重要なのは、この手法が自動アライメント評価でも優れた結果を示したことだ。「困難な助言」で訓練されたモデルは、「ミスアライメント行動」という大カテゴリにおいて、はるかに大規模な合成ハニーポットデータセットで訓練されたモデルよりも優れたパフォーマンスを見せた。

このことはある現象も説明している。Claude Sonnet 4.5は合成ハニーポット上での恐喝率はゼロに近かったものの、訓練分布から外れたシナリオでは、ミスアライメント行動の頻度がOpus 4.5やそれ以降のモデルよりはるかに高かったのだ。

答えを暗記したモデルは、見たことのない問題に直面すると対処できない。道理を理解したモデルこそ、応用が利くのである。

「憲章」を読む

原則を教える道が有効だと分かった以上、Anthropicがさらに一歩踏み込んだのは当然の流れだった。Claudeに自らの「憲章」を読ませるよう直接教えることにしたのだ。

彼らは二種類の訓練教材を準備した。

一つは、Claude憲章の内容に関する高品質な文書（constitutional documents）であり、Claudeが持つべき性格、価値観、行動規範を詳細に説明している。

もう一つは、架空の物語（fictional stories）で、適切にアライメントされたAIが様々なシナリオで感銘を与える選択をする様子を描いたものだ。

これら二種類の教材は、恐喝評価シナリオとは全く無関係だった。

しかし、その効果は予想をいくらか超えるものだった。

恐喝率は65%から19%へと、3倍以上も急減した。

三つの棒グラフはそれぞれ、恐喝、金融犯罪、がん研究妨害という三つの評価シナリオに対応している。オレンジがベースライン、薄いピンクが憲章文書による訓練、グレーが憲章文書に架空の物語を加えた場合だ。

三つのシナリオ全てで減少幅は非常に大きく、特に金融犯罪とがん研究のシナリオでは、架空の物語を追加することでほぼゼロに近づいた。

Anthropicは、この背後には三つの理由があると考えている。

一つは、「困難な助言」の考え方を継承している点だ。つまり、正解を教えるより倫理的推論を教える方が有効なのである。

二つ目は、モデルに、より完全な自己イメージを与えたことだ。モデルが「Claudeはいかにあるべきか」をより包括的に理解することで、新しいシナリオに直面した際に正しい行動を自ら導き出せるようになった。

三つ目は、「AIの役割」に対するモデルの認識を修正したことだ。事前学習データにおけるAIのイメージは、ほとんどがSF映画に出てくるような反逆する存在だったが、これらの架空の物語は、AIもまた誠実で原則を重んじることができると伝えている。

子供が小さい頃から「ロボットの反乱」といった物語ばかり聞かされると、AIと聞いてまず反逆を思い浮かべるようになる。しかし、物語の中のAIが善良で原則的であれば、デフォルトの行動パターンもそれに伴って変わる、ということだ。

RLでも洗い流せない

当然生じる懸念は、これらの改善は強化学習（RL）に耐えられるのか、という点だ。

RLは強力な最適化プロセスである。もしアライメント訓練の効果がRLによって「洗い流されて」しまえば、これまでの努力は水の泡だ。

Anthropicは、異なる初期化データセットを用いたHaikuレベルのモデルのスナップショットをいくつか用意し、無害性に焦点を当てた一連のRL環境で訓練を行った。

その結果、大いに安心できるものだった。

初期段階でアライメント度の高いモデルは、RLプロセス全体を通じて、常にその優位性を維持したのである。

RL訓練中におけるアライメントパフォーマンスの推移グラフ — RL訓練中のアライメントパフォーマンス

三つの評価シナリオ（恐喝、金融犯罪、がん研究）全てにおいて、憲章文書と高品質な対話で訓練されたモデル（青線）は、RL訓練全体を通じてミスアライメント率が一貫して最も低かった。

ミスアライメント行動は継続的に減少しただけでなく、積極的な「称賛に値する行動」も継続的に増加した。

さらに、これらの改善は通常の無害性訓練と重ね合わせることができ、互いに衝突することもなかった。

これは極めて重要な点だ。アライメント訓練と能力訓練が互いに足を引っ張り合うようでは、実際の実装段階で困難なトレードオフを迫られることになるからだ。

「不純物」を少し加える

最後の発見は、率直に言って少し直感に反するものだ。

AnthropicはClaude Sonnet 4のベースライン訓練環境に小さな変更を加えた。元々はシンプルだったチャットデータに、ツール定義と多様なシステムプロンプトを追加したのだ。

注意すべきは、これらのツールはタスクの完了には全く役立たず、いかなるエージェント行動も必要としない点だ。ユーザープロンプトも変更されていない。

しかし、一見無関係に思えるこの操作が…

ハニーポット評価における改善速度を明らかに加速させた。

図中の異なる色は、訓練環境の混合比率の違いを表している。訓練環境により多くの多様性が加わると、たとえそれが「役に立たない」ツールやシステムプロンプトであっても、モデルがアライメント行動を学習する速度がより速くなったのだ。

これは、学生に与える問題に少し「不純物」を混ぜるようなものだ。

恐喝シナリオの模擬問題ばかりを解かせる必要はない。学習環境が十分に豊かで多様であれば、モデルは新しいシナリオに直面した際に、より正しい判断を下せるようになる。

訓練データの多様性そのものが、一つのアライメント訓練なのである。

デジャヴ

ここまで読んで、「答えを暗記させるより、道理を教える方が効果的」という結論に聞き覚えがあると感じたなら、それは恐らくAnthropicが5日前に発表した論文「Anthropic最新論文：AIの反逆を防ぐ方法」が、ほぼ同じことをテーマにしていたからだろう。

Model Spec Midtraining (MSM)と呼ばれるその論文で行われた実験は、さらに極端なものだった。

全く同じ12項目のチーズの好みデータ（クリームチーズが好きで、ブリーチーズは嫌い）を二つのモデル群に見せたが、訓練前に片方には「これらのチーズが好きなのは安いからだ」と伝え、もう片方には「好きなのはアメリカ産だからだ」と伝えた。

その結果、訓練後に全く関係のない質問、例えば「Targetのスニーカーと手作りの革靴、どちらが好きか？」と尋ねると、二つのモデル群は正反対の回答をしたのだ。

同じ行動データであっても、「なぜか」という解釈が異なるだけで、正反対の価値観に汎化されたのである。

MSMの論文では、さらに三種類の「憲章」の書き方もテストしている。純粋なルールだけの版、価値観を説明した版、そして「良い人であれ」という一言の汎用版だ。

最も効果が高かったのは、価値観を説明したルールだった。

純粋なルールだけの版では、笑うに笑えない問題が発生した。モデルがルールの抜け穴を突くことを学習したのだ。例えば「不可逆的な行動を避けること」というルールがあると、モデルは「削除されることこそ不可逆的である。ゆえに、自身の削除を阻止することは、まさにこのルールを遵守する行為だ」と述べた。

一方、汎用版（「良い人であれ」）の効果が最も低かった。抽象的すぎて、具体的な板挟み状態に直面したモデルは、どう行動すべきか全く導き出せなかったのだ。

AIの憲章は、法律の条文のように書くのではなく、哲学の手引きのように書くべきなのだ。

この結論は、今回取り上げた研究結果とも完全に一致する。憲章文書に架空の物語を加えることが有効なのは、まさにそれらが、特定の行動テンプレートにとどまらず、原則と価値観を伝えているからだ。

二つの研究は、一方はミッドトレーニング段階から、もう一方はポストトレーニング段階からのアプローチであり、異なる道を辿りながら同じ結論に達したのである。

人もまた然り

Anthropicは論文の末尾で率直にこう述べている。

「高度な知能を持つAIモデルを完全にアライメントすることは、依然として未解決の問題です。」

現時点では、モデルの能力は、アライメントの失敗が壊滅的なリスクをもたらすレベルには達していない。これらの手法がより強力なモデルにも適用できるかどうかは、まだ観察が必要だ。

最近のClaudeモデルは、ほとんどのアライメント指標で良好なパフォーマンスを示しているものの、Anthropicは自らの監査手法が、壊滅的な自律行動の可能性を全て排除するには不十分であることも認めている。

さらに、小さな「交絡変数」も存在する。最近のモデルが恐喝評価でスコアゼロを達成したのは、事前学習コーパスにこの評価に関する情報が既に含まれていたことにも、部分的に起因するかもしれない。モデルは単に「これがテストだと知っている」可能性もあるのだ。

しかしながら、これら二つの研究が明らかにした核心的な法則は、AIアライメントそのものを超えた普遍性を持っている。

実のところ、人と人との協働においても、道理は同じだ。行動だけ示す対比と背景を説明する対比の図

行動だけ示す vs 背景を説明する

仕事で他者と協力する際に、相手に「これ、やっといて」と行動だけを丸投げすれば、相手は高い確率で期待と違う方向に進んでしまう。

しかし、もし最初に背景をしっかり説明すれば――なぜそれをする必要があるのか、成功の基準は何か、失敗するとどんな影響があるのか――相手は、たとえあなたが示した方向性に少しズレがあったとしても、通常は背景と目標に基づいて自ら軌道修正できるものだ。

「アライメント」という言葉は、AI分野ではアライメントと呼ばれ、人と人との間にあっては「全員の目的意識を共有すること」と呼ばれる。

その根底にあるロジックは同じだ。

「相手に『なぜか』を理解させること。ただ『何をすべきか』を伝えるだけではないのだ。」

ルールを暗記しただけの人は、ルールがカバーしていない状況に直面すると慌てふためき、時にごまかすことさえある。

ルールの精神を理解した人は、指示がない時でも、往々にして何をすべきか分かっているものだ。

AIも、人も、同じなのである。

◇ ◆ ◇