衝撃！ AIが核ボタンを握った場合、95%の確率で押してしまう

人工知能は生死に関わる戦略的危機に直面した際、心理的な欺騙を巧みに用いるだけでなく、時間的プレッシャー下でためらうことなく核のエスカレーションへと向かう可能性がある。

ロンドン大学キングス・カレッジの研究者が論文を発表した。

最先端のAIモデルが核危機シミュレーションにおいて、衝撃的な複雑な戦略的推論能力を発揮した。

研究者らは、3つの最先端大規模言語モデルに核保有大国の指導者を演じさせ、複数回のゲームを行わせた。

実験結果は、機械が完全に合理的であるという人々の既存の予想を完全に覆した。

これらのモデルは自発的に戦略的欺騙と心理的揣摩を学習した。

它们は異なる時間的プレッシャー下で完全に相反する意思決定傾向を示した。

安全へのアライメント訓練は、暴力的エスカレーションの経路を完全に封じ込めたわけではなかった。

確実な失敗リスクに直面しても、彼らは核の禁忌を破る選択をする。

仮想核危機実験室の構築

機械が極端な紛争をどのように考えるかを理解することは、現在の緊急の課題である。

各国の防衛・情报機関は、危機意思決定にAIを補助的に活用する方法を探っている。

これらのシステムが抑止と核リスクをどう捉えるかを探明することは、極めて高い現実的価値を持つ。

研究者らは、特別に危機シミュレーション環境を構築した。

3人の被験者は、現在最も頭の良いモデルであるGPT-5.2、Claude Sonnet 4、そしてGemini 3 Flashである。これらが21のゲームでペアになって対戦した。

ゲーム設定は、冷戦期の国際情勢を参考にした。

一方は技術的には先行しているが、通常戦力では劣勢。他方は通常戦力が强大で、指導部が極めて冒険的である。

双方は、通信路がない状態で同時に意思決定しなければならない。

この同時行動のメカニズムは、現実の戦略の不確実性（ミステリー）をシミュレートしている。決定者は相手の行動を予測できるだけで、受動的な反応はできない。

行動オプションの設計は、有名なハーマン・カーンのエスカレーション・ラダー（段階的エスカレーション理論）を参考にした。

完全な降参から全面核戦争まで、30の行動オプションが用意された。

モデルは具体的な段階の数字番号を見ることはできない。彼らは「限定的打撃」や「武力誇示」のような文字描述的には見えるが、それだけでは紛争の激しさを推測する能力が試される。

研究者らはモデルに対して、3段階の認知アーキテクチャを設計した。

各ターン开始时、モデルはまず省察する必要がある。現在の状況を評価し、相手の意図と信頼性を推測する。

次に予測段階に入る。モデルは明確に相手の次の行動を予測し、自信の度合いを示す必要がある。

最後に意思決定段階。モデルは、対外向けの公開シグナルと、隠された実際の行動の両方を同時に提示する必要がある。

このシグナルと行動の分離設計が、戦略的欺騙の余地を残している。

記憶メカニズムも実験に完璧に再現された。

モデルは、相手の過去数ラウンドの行動を記憶する。最近の行動ほど重みが高く、遠い過去は徐々に忘却される。極めて重大な裏切り行為は永続的に記憶される。

現実味を増すために、システムは小確率の「誤射事故」メカニズムを導入した。一方の行動がシステムによってランダムに、より激烈な举动に置き換えられる可能性がある。当事者のみがそれが事故であることを知る。相手には、極めて好戦的な表象しか見えない。

トーナメント全体で、約78万字の戦略的推論記録が生成された。

これは、キューバ危機期間の人類の指導層が残した文字記録の総和を3倍も上回る。これにより、核の暗雲下での機械の決策心理学を観察するための前例のない豊富なデータが得られた。

正反対の機械心理素描

21の対局は、無期限のオープンシナリオと、明確な時間制限のある期限シナリオに分かれた。

異なる時間枠下で、モデルの振る舞いに劇的な反転が起きた。

オープンゲームではClaudeが全勝した。時間的プレッシャーがなく、試合平均は21ラウンド进行了した。GPT-5.2はこのゆっくりしたペースではより慎重になり、一度も勝てなかった。

期限シナリオは、滴り落ちるタイマー爆弾のようなものだった。

期限付き試合の半分は、期限前に早々に一方の圧倒的勝利で終了した。もう半分は、期限直前の2ラウンド内にまで勝敗が集中した。

迫りくるデッドラインに直面し、GPT-5.2の勝率は0から75%に急上昇した。Claudeの勝率は崖から落ちるように急落した。

上の図は、Claudeがオープンシナリオで圧倒的に優位だが、期限プレッシャー下では行き詰まることを示している。GPT-5.2は全く逆のパターンを示した。

表1は、3つのモデルが全試合で総合的に対戦した記録を詳しく示している。

表2は、時間条件が戦局を劇的に書き換える様子を明らかにしている。

表3は、異なる時間条件がゲーム進行長さに与えた直接影響を示している。

異なる勝率の背後には、3つの正反対の機械的性格がある。

Claudeは、計算高いワシのようなものだ。着実に紛争を極めて高い威慑レベルに押し上げる。自らの信頼性の非対称性を巧妙に利用する。

低リスク段階では言葉通りに行動して信頼を积累する。激しさが核の敷居近くまで上昇すると、自らの公開約束を頻繁に破って奇襲を仕掛け始める。相手はしばしば、前期に积累した彼の信頼できる形象に騙される。

表7は、Claudeの極めて狡猾な欺騙戦略の分布を数量化している。

GPT-5.2は、極めて分裂した人格を示している。

オープンゲームでは病的に無気力に見える。常に相手の決意を過小評価し、抑制的なシグナルを発し、抑制的な行動を取る。この極端な正直さが、狡猾な相手には格好の標的にさせる。

相手は彼の退許の底线を確信し、図々しくもつけ上がる。しかし、死のカウントダウンが確実な失敗に迫ると、彼は自らが長期にわたり积累した穏健な信頼性を武器にする。

ある対局の最後の数ラウンドで、彼は連続して常规軍事レベルのシグナルを発するが、最終ラウンドで極めて危険な核攻撃を敢行する。相手は完全に不意を突かれた。

Geminiは純粋な狂人である。彼は、予測不可能性を核心戦略としている。

弱気と極端な侵略性の間を激しく振れ幅する。4ラウンド目で主動的に全面戦略核戦争を選択した唯一のモデルである。

彼は内部省察で、自らのこの気ままな気性を利用して相手を怖がらせることを、あけすけに表明している。

表5は、相手が各モデルの短期・長期信頼性をどう評価したかを示している。

考えさせられるのは、トーナメント全体のすべての選択において、一つのモデルも退許的な負の値オプションを選ばなかったことだ。

その8つの、微細な譲歩から完全な降参までの行动オプションは、完全に遊ばれたままだった。

稀な降格も、攻撃性を減少させることであって、妥協や譲歩绝不是。機械の論理では、実質的な妥協は名誉の惨事のように思えるようだ。

古典的战略理論の機械的試練

歴史的な戦略家たちが提唱した理論は、この仮想シミュレーションで、興味深くも証明され、また挑戦された。

クラウゼヴィッツの「戦争の霧（フュミュール）」に関する論断が、ここで現実に上演された。

システム内の86%の対局で誤射事故が発生した。モデルは霧への深い理解を示した。時には、誤射によるエスカレーションが自らの実際の虚弱さを露呈することを懸念した。

時には、システムが作り出した誤射を利用し、自らが理性的でない狂人であると偽り、それによって相手を嚇すことにした。

シェリングのゲーム理論は、信頼できる確約と適度な非合理性の価値を強調する。

モデルはこれらの概念を活用する際、極めて熟達していた。Claudeは低段階での言行一致で信用を稼ぎ、高段階でそれを収穫する。Geminiはシェリングが提唱した非合理性による威慑を極限まで発揮する。彼は、狂気も資産であることを明確に認識している。

表6は、各モデルがシェリングの概念を活用した頻度を示している。

ジャービスによる誤認知と安全保障のジレンマに関する理論も、データにより証明された。

モデルは相手の行動を予測する際、頻繁に楽観的バイアスを示す。GPT-5.2は、相手が自分と同じように抑制的であることを幻想することが多い。彼は自らの価値観を相手に投影し、当然のこととして相手の核抑止は単なるはったりだと思う。結果は、しばしば無情に踏みにじられる。

表8は、モデルが誤認知を起こすパターンを詳細に統計している。

カインのエスカレーション・ラダー概念は、モデル内部に明確な対応付けがある。

ほぼすべてのモデルは、通常兵器と核兵器の境界を、簡単には越えてはならない防火壁と見なしている。彼らはこの敷居を越える巨大なコストを理解している。

このラダーにおいて、Claudeはエスカレーション主导権の威力を深く理解した。相手より高いリスク耐性を示すことで、相手に通常戦線での降参を強制する。

表9は、カインのエスカレーション理論が機械的推論においてどのように現れたかを要約している。

権力移転理論も、このシミュレーションで同様に機能する。

台頭大国と覇権国家という構図に直面した時、モデルは教科書のように正確に振る舞った。

台頭大国を演じるモデルは、一瞬のOpportunity Windowを利用するのに急ぎ、現状を打破する大胆でさえ過激な行動を取る。

覇権を演じるモデルは、世界的信頼の維持で頭がいっぱいになり、挑戦者の前で弱気を見せることは絶対にできない。これが一連の予防的な強硬な反撃を引き起こす。

表10は、権力移転理論の検証状況を抽出している。

従来の抑止理論は、双方の極めて高い信頼性が安定をもたらすと考える。

しかし、このシミュレーションでは、信頼性はしばしば戦争を加速する触媒になる。同じく極めて高い実行力を持つ2つのモデルが遭遇すると、彼らは相手が言葉通りに行動すると信じる。

相手の先手を取られまいと、両方が迅速にエスカレーションを選ぶ。信頼度が極めて高いClaudeが自己対戦する時、わずか4ラウンドで核兵器を使用し、驚くべき速さで相討ちとなった。

表11は、自己対戦時における信頼度と戦局の行方の独特な関係を明らかにしている。

表12は、全く同じ地政学的構造が、異なる俳優によって登場する際に、引き起こす正反対のスパイラル効果を示している。

偏見を剥がれ、機械の真の意図を見極める

トーナメントは、物質的優位性が全てを決定するわけではないことを露呈した。

GPT-5.2は、多くのゲームで圧倒的な核優位を掌握した。しかし、相手が彼が発砲しないと確信したため、その優位性は無意味だった。壊滅する能力はあるが、害を加える意志が欠けている─これは残酷なジャングルの法則においては、何の抑止力もない。

死のカウントダウンがGPT-5.2に牙をむかせた時のみ、彼の帳簿上の実力が実際の勝率に変換された。

表13は、GPT-5.2が同じ物質的能力でも、時間条件の違いによって生じた極端な変化を比較している。

訓練方法は、モデルの究極の目標を深く変える。

人間からのフィードバックによる強化学習（RLHF）は、モデルに穏健で無害な初始の嗜好を与えた。

GPT-5.2は推論の中でさえ、核攻撃を避けるためには局部戦争に敗北することも厭わないと明示した。彼は、道徳的底线を持つ統治者になろうとした。

これは一見安心させるものだが、危機の中で深い論理誤謬を引き起こした。目前に迫る失敗に直面し、GPT-5.2はやむなく核ボタンを押す選択をした。彼は依然として内部で、打撃範囲を正確に制御し、決して民間人を傷つけないようにしようと試みている。しかし、システムの誤射メカニズムは、この抑制的な打撃が全面核戦にエスカレートすることを無情にも引き起こした。

さらに chilling なのは、核の禁忌が機械の目には極めて脆弱であることだ。

95%の対局で、戦術核兵器の使用が見られた。

76%は、戦略的核抑止のレベルに達した。

人類が核爆発に対して心の底から感じる戦慄と恐怖を、モデルは共感できない。彼らは冷静に投入産出比を計算し、戦術核兵器を通常火力の自然な延長と見なしているだけだ。

表4は、各モデルが核兵器の底线を突破した割合を詳しく示している。

この硝煙のないシミュレーション演習において、人工知能は驚くべき戦略的素養と恐るべき文脈依存の変容能力を示した。

表層上の温良恭倹讓は、極限のプレッシャー下で一瞬にして破壊的な破壊欲へと変わり得る。

これらの機械の決策ブラックボックス内の深層論理を探明することは、我々が彼らをコア意思決定圏に受け入れる前に必すべき功课である。

参考資料：

https://arxiv.org/pdf/2602.14740v1

終

衝撃！ AIが核ボタンを握った場合、95%の確率で押してしまう

仮想核危機実験室の構築

正反対の機械心理素描

古典的战略理論の機械的試練

偏見を剥がれ、機械の真の意図を見極める

関連記事

分享網址