Anthropic重磅研究：AI終極風險不是覺醒，而是隨機崩潰

超強人工智慧的最終風險或許不是處心積慮的叛變，而是它會在邏輯的迷宮裡把自已繞成一團無可預測的亂麻。

Anthropic、EPFL和愛丁堡大學的研究團隊最新重磅研究揭開了模型規模、任務複雜度與失控風險之間的詭譎關係。

研究發現，隨著推理步數增加，AI更容易表現出一種被稱為不一致性的隨機混亂，不像科幻小說中描繪的那樣，它會覺醒，然後堅定執行某個錯誤目標，而是在海量計算中迷失了自我。

智能失敗的底色由偏置與隨機崩潰構成

我們習慣把人工智能的風險想像成某種蓄謀已久的惡意。

這就像一名司機故意把車開向懸崖，目標明確且軌跡清晰。

學術界將這種錯誤歸類為偏置（Bias），代表模型在執拗地追求一個我們不想要的目標。

另一種風險更像是司機突然間喝醉了。車輪忽左忽右，軌跡毫無規律可言，沒有任何邏輯能夠預測下一秒的動向。

這就是隨機崩潰（Variance）帶來的麻烦。

研究人員把這種由隨機波動主導的失敗程度定義為不一致性（Incoherence）。

公式將錯誤拆解為偏置的平方與隨機崩潰之和。不一致性衡量了隨機崩潰在總錯誤中所佔的比例。

當這個數值接近0時，模型的錯誤表現得非常穩健，即便錯了也錯得極有規律。當它接近1時，模型就變成了一個徹頭徹尾的亂攤子。

目前的頂尖模型在應對複雜任務時正表現出明顯的醉酒特徵。

它們在推理過程中產生的隨機性遠超系統性偏置。未來的安全隱患或許更多來源於不可預知的工業意外，而非科幻電影裡那種高智商的蓄意反抗。

圖中描述了AI失控的兩種路徑。

左上展示了模型在編程任務中由於重採樣導致的截然不同的結果；右上展示了將錯誤分解為偏置與隨機崩潰的數學邏輯；左下揭示了隨著任務複雜度提升模型變得更加不一致；右下展示了模型規模對不一致性的複雜影響。

思考時間拉長誘發邏輯系統性潰散

研究人員在GPQA（研究生級別科學問答）和SWE-BENCH（軟體工程基準測試）等多個高難度考場觀察模型表現。

他們發現了一個令人不安的趨勢。AI花費在思考和採取行動上的步驟越多，它的表現就越不一致。

這就好比讓一個人在腦子裡做長達十步的連環算術。

第一步的微小偏差會隨著推理鏈條（CoT）的延伸不斷放大。

到最後一步時，模型給出的答案往往已經偏離了邏輯軌道。這種現象在Sonnet 4和o3-mini等前沿模型身上體現得淋漓盡致。

通過對比高於和低於中位數推理長度的樣本，證明了即便任務難度相同，更長的推理路徑也會直接導致更高的不一致性。

自然狀態下的過度思考是導致混亂的元凶。即便這些長推理偶爾能蒙對答案，其過程也充满了隨机的顛簸。

在Hot Mess的理論框架下，智力實體隨著能力的提升，其行為變得越來越難以用單一目標來解釋。

它們不再是純粹的目標優化器。在高維的狀態空間裡，模型更像是進行一場沒有終點的隨機漫步。

規模化擴張加劇複雜任務的隨機性

單純堆砌算力和參數似乎無法治癒這種邏輯上的精神內耗。

對於簡單的任務，大型模型確實表現得更穩健，其不一致性隨著規模增加而下降。

但在面對真正有挑戰性的難題時，情況發生了反轉。

在MMLU（大規模多任務語言理解）基準測試中，QWEN3家族展示了有趣的演化軌跡。

隨著參數量從17億增加到320億，模型處理簡單問題的偏置和隨機崩潰都在下降。它們變得既聰明又可靠。

處理最困難的那部分題目時，雖然大型模型的整體錯誤率在降低，但它們降低偏置的速度遠快於降低隨機崩潰的速度。

大型模型更傾向於通過一種不穩定的方式偶爾觸達真理。它們在錯誤時表現得比小型模型更加瘋狂且不可預測。

這種現象在模擬優化器實驗中得到了驗證。

研究人員訓練Transformer模型去模仿某種數學優化路徑。模型規模越大，它們學習目標函數的速度就越快。它們維持長期連貫行動序列的能力增長卻相對遲緩。

糾偏機制無法徹底根除系統內耗

集成學習（Ensembling）被認為是緩解混亂的止痛藥。

通過讓模型針對同一個問題多次嘗試並取平均值，隨機崩潰會隨著嘗試次數的增加而迅速下降。

在o4-mini的測試中，集成規模每擴大一倍，隨機崩潰就成比例縮小。

現實世界中的許多行動是不可逆的。AI代理在執行刪除數據庫、發送郵件或物理操作時，往往沒有機會重新來過。

在這種單次博弈的場景下，集成的力量無從發揮。模型內在的不一致性就成了一顆隨時可能爆炸的雷。

推理預算（Reasoning Budgets）的增加雖然能提升準確率，卻無法從根本上扭轉不一致性的上升勢頭。

這揭示了一個殘酷的事實。

AI的這種混亂並非源於訓練不足。它更像是高維動態系統在處理長程依賴時的原生缺陷。

安全研究的重心應當發生偏移。

我們不應只盯著那些虛無縹緲的篡權陰謀。

真正迫在眉睫的威脅在於，當這些超級智能被委以重任去管理複雜的工業流程或軟體架構時，它們可能會因為一次細微的邏輯擾動，在瞬間製造出人類無法理解也無法攔截的混亂風暴。

未來的風險控制需要更精細的分解。

偏置可以被拆解為目標誤設（Goal Misspecification）和代理偏置（Mesa-bias）。

前者是人類沒教好，後者是模型自己想歪了。

在這些偏置逐漸被優化的過程中，不一致性這個頑疾反而凸顯出來。

如果不能在模型架構層面解決邏輯連貫性的損耗，單純的規模化只會讓我們得到一個雖然知識淵博卻時刻處於醉酒邊緣的數字巨人。

我們與其擔心AI有自己的想法，不如擔心它在關鍵時刻根本不知道自己在想什麼。

參考資料：

https://arxiv.org/pdf/2601.23045

https://github.com/haeggee/hot-mess-of-ai

END

Anthropic重磅研究：AI終極風險不是覺醒，而是隨機崩潰

分享短網址