Anthropicの重学研究：AIの究極的风险は覚醒ではなく、ランダムクラッシュである

超知能AIの究極的风险は、周到に企てられた反乱ではなく、論理の迷宮の中で予測不能な混乱した状態に自らを巻き込むことかもしれない。

Anthropic、EPFL、エジンバラ大学の研究チームによる最新の重学研究が、モデル規模、タスク複雑さ、および制御喪失リスクとの奇妙な関係を明らかにした。

研究では、推論ステップが増加するにつれて、AIはSF小説で描かれているような覚醒と誤った目標の坚定な実行ではなく、大量の計算の中で自己を見失う、不整合性として知られるランダムな混乱を呈しやすいことが判明した。

知的な失敗の底色はバイアスとランダムクラッシュで構成される

我们習慣的にAIのリスクを何か狡猾な悪意として想像する。

これは、運転手が故意に車を崖に向けて運転するようなもので、明確な目標と軌跡がある。

学界では、このエラーをバイアス（Bias）と分類し、モデルが我们不想要的目標を執拗に追求することを表す。

別のリスクは、運転手が突然酔ったようにより似ている。車輪は左右に揺れ、軌跡はまったく规律がなく、どのロジックも次の動きを予測できない。

これがランダムクラッシュ（Variance）が引き起こす麻烦だ。

研究者は、ランダムな変動によって支配される失敗の程度を不整合性（Incoherence）と定義した。

公式はエラーをバイアスの二乗とランダムクラッシュの和に分解する。不整合性は、 total エラーにおけるランダムクラッシュの割合を測定する。

この数値が0に近い場合、モデルのエラーは非常に堅牢で、たとえ間違っていても極めて规律がある。1に近い場合、モデルは完全に混乱した状態になる。

現在のトップモデルは、複雑なタスクに対処する際に明確な drunken 特性を示している。

推論過程で生成されるランダム性は、系統的なバイアスを大きく超える。将来の安全脅威は、SF映画のような高IQの意図的な反抗よりも、予測不能な産業事故からより多く発生する可能性がある。

図は、AIの制御喪失の2つの経路を描述している。

左上は、プログラミングタスクでリサンプリングにより引き起こされたまったく異なる結果を示す；右上は、エラーをバイアスとランダムクラッシュに分解する数学的ロジックを示す；左下は、タスク複雑さの向上に伴いモデルがより不整合になることを明らかにする；右下は、モデル規模が不整合性に与える複雑な影響を示す。

思考時間の延長が論理的体系的な崩壊を誘発

研究者は、GPQA（大学院レベル科学QA）やSWE-BENCH（ソフトウェアエンジニアリングベンチマーク）などの複数の難易度の高いベンチマークでモデルのパフォーマンスを観察した。

彼らは不安な傾向を発見した。AIが思考および行動に費やすステップが多いほど、そのパフォーマンスはより不整合になる。

これは、人に10ステップにも及ぶ連続した暗算を頭の中でさせるようなものだ。

最初のステップの微小な偏差は、推論チェーン（CoT）の延伸に従って増幅される。

最終ステップでは、モデルが出す答えはすでに論理軌道から外れていることが多い。この現象は、Sonnet 4やo3-miniなどの最先端モデルではっきりと例証されている。

中央値以上の推論長と中央値以下の推論長のサンプルを比較することで、タスク難易度が同じでも、より長い推論経路が直接的に高い不整合性を導くことが証明された。

自然状態での過度な思考が混乱の元凶である。これらの長い推論がたまに正解を当てることがあっても、その過程はランダムな揺れに満ちている。

Hot Messの理論フレームワーク下では、知能实体は能力の向上に伴い、その行動が単一の目標で説明することがますまま難しくなる。

もはや純粋な目標オプティマイザではない。高次元の状態空間では、モデルは終わりのないランダムウォークを行っているようなものだ。

スケール拡大が複雑なタスクのランダム性を悪化

単純に計算力とパラメータを積み重ねても、この論理的な精神的内耗を治癒できないようだ。

単純なタスクでは、大規模モデルは確かにより堅牢に振る舞い、不整合性は規模増加に伴って低下する。

しかし、本当に挑戦的な難問に直面すると、状況は逆転する。

MMLU（大規模マルチタスク言語理解）ベンチマークでは、QWEN3ファミリーは興味深い進化軌跡を示した。

パラメータ数が17億から320億に増加するにつれて、モデルは簡単な問題を処理する際のバイアスとランダムクラッシュの両方が低下する。它们はスマートで信頼性が高くなる。

最も困難な問題を処理する際、大規模モデルの全体的なエラー率は低下するが、バイアスを下げる速度はランダムクラッシュを下げる速度よりもはるかに速い。

大規模モデルは、不安定な方法で真理に偶発的に到達する傾向がある。間違ったとき、小規模モデルよりもさらに暴力的で予測不能に振る舞う。

この現象は、シミュレーションオプティマイザ実験で検証された。

研究者は、Transformerモデルをある種の数学的最適化経路を模倣するよう訓練した。モデル規模が大きいほど、目標関数を学習する速度が速くなる。長期にわたる一貫した行動シーケンスを維持する能力の成長は比較的遅い。

バイアス訂正メカニズムはシステム内耗を完全に根除できない

アンサンブル学習（Ensembling）は、混乱を緩和する痛み止めと考えられている。

モデルに同じ問題を複数回試させ、平均を取ることで、ランダムクラッシュは試行回数の増加とともに急速に低下する。

o4-miniのテストでは、アンサンブル規模が倍増するごとに、ランダムクラッシュは比例して縮小する。

現実世界の多くの行動は不可逆的である。AIエージェントがデータベースの削除、メール送信、または物理的操作を実行する際、多くの場合、やり直す機会がない。

このような単発ゲームのシナリオでは、アンサンブルの力を発揮できない。モデル内在の不整合性は、いつでも爆発する可能性のある雷となる。

推論予算（Reasoning Budgets）の増加は精度を向上させるが、不整合性の上昇傾向を根本的に逆転させることはできない。

これは残酷な事実を明らかにする。

AIのこの混乱は、トレーニング不足に起因するものではない。それは、長距離依存性を処理する際の高次元動的システムの原生的な欠陥のようなものだ。

安全研究の重心はシフトすべきである。

我们は、那些模糊的篡権陰謀だけを見つめるべきではない。

真正に切迫した脅威は、これらの超知能が複雑な産業プロセスまたはソフトウェアアーキテクチャの管理を委ねられたとき、わずかな論理的攪乱により、人間が理解も阻止もできない混乱の嵐を瞬間的に作り出す可能性があることだ。

将来のリスク制御には、より精細な分解が必要。

バイアスは、目標誤設定（Goal Misspecification）とメサイアバイアス（Mesa-bias）に分解できる。

前者は人間が教えられていないことで、後者はモデルが自分で曲がって考えることだ。

これらのバイアスが徐々に最適化される過程で、不整合性という頑疾がむしろ顕著になる。

モデルアーキテクチャレベルで論理的連続性の損失を解決できない場合、単なるスケール化は、博学でありながら常に酔った状態にあるデジタル巨人を我々にもたらすだけだ。

我们はAIが独自の考えを持つことを心配するよりも、关键时刻にAIが自分が何を考えているかをまったく知らないことを心配すべきだ。

参考資料：

https://arxiv.org/pdf/2601.23045

https://github.com/haeggee/hot-mess-of-ai

END

Anthropicの重学研究：AIの究極的风险は覚醒ではなく、ランダムクラッシュである

関連記事

分享網址