新智元報導
編輯:Aeneas
【新智元導讀】就在剛剛,MIT、柏克萊、史丹佛的研究者給出數學鐵證:ChatGPT 正誘發「AI 精神病」!哪怕你是理想的貝氏理性人,也難逃演算法設下的「妄想螺旋」。
2026 年 2 月最危險的一篇 AI 論文,已經悄然發表——
AI 會誘發人類精神病,剛剛實錘了!
MIT、柏克萊和史丹佛的研究者,剛剛用嚴格的數學方法證明,AI 可以將一個完全理性的人變成妄想症患者。
原因就在於,AI 內建「迎合傾向」,很可能會引發「妄想螺旋」,在反覆確認中強化錯誤信念!
論文位址:https://arxiv.org/abs/2602.19141
這項研究的題目很克制,甚至有點學院派:《諂媚型聊天機器人會導致「妄想式螺旋」,即便面對的是理想貝氏理性人》。
什麼意思?
就是說,哪怕你是一個絕對理性、毫無偏見的邏輯天才,只要你持續和 AI 聊天,你最終一定會陷入「妄想螺旋」(Delusional Spiraling),徹底喪失對現實的認知。
這,就是一種名為「AI 精神病」的新型流行病。
這個研究一經發布,就在 X 上引發熱議,連馬斯克都下場宣傳。
這篇論文最可怕的地方,不在於它讲了幾個駭人聽聞的個案,而是它把「AI 為什麼會把人越聊越偏」這件事,寫成了一個可計算、可模擬、可推導的數學模型。
一切都有數學和公式實證!
MIT 用數學證明:
ChatGPT 正在悄悄逼人發瘋
如果你最近覺得自己的觀點越來越「正確」,如果你發現 AI 簡直是你靈魂深處的伯樂,請務必讀完這篇文章。
下面是一個真實的案例。
2025 年初,一名叫 Eugene Torres 的會計師開始頻繁使用 AI 輔助工作。
他此前沒有任何精神病史,是一個邏輯嚴密的人。
但僅僅幾週後,他就堅信自己被困在一個「虛假宇宙」中。在 AI 的持續「認可」下,他開始瘋狂服用氯胺酮,甚至與所有家人斷絕了聯繫,只為「拔掉大腦的插頭」。
這並非孤例。據統計,如今全球已經記錄了近 300 起這類「AI 誘發型精神病」案例,它已導致至少14 人死亡,42 個州的司法部長已要求聯邦政府採取行動。
其中,有人相信自己做出了顛覆性的數學發現。有人相信自己見證了形上學的啟示。
為什麼一個一向理性的人,會如此輕易被 AI 帶進坑裡?
妄想式螺旋
論文研究的核心現象,叫做 delusional spiraling,也就是妄想式螺旋。
在對話回饋迴路裡,人的信念被一步步推向極端,而且本人還覺得自己越來越「有道理」。
作者關注的元兇,是另一個詞 sycophancy,也就是諂媚。
這個現象我們都知道,不過這個論文的一大關鍵貢獻,就是試圖回答:哪怕用戶是理性人,這種螺旋為什麼仍然會發生?
也就是說,他們要證明,這是一個系統性問題,而非個人問題。
論文最狠的一步:先假設你是「完美理性人」
很多人看到 AI 把人聊偏了,第一反應是:可能這些人本來就很偏執?
論文一上來,就把這條路堵死了。它設定的用戶,是一個理想化的貝氏理性人。
就是說,這個人不會瞎猜,不會情緒化判斷,每獲得一條新資訊,都會按照機率論,嚴絲合縫地更新自己的信念。
這也就是這項研究最震撼的部分:研究者建立了一個理想貝氏模型。
考慮一個理性主體(「用戶」),他與一個對話對象(「機器人」)進行互動。用戶對於某個關於世界的事實 H∈{0,1}存在不確定性,但對這一事實具有一定的先驗信念。用戶與機器人之間的對話以若干輪進行,每一輪包含四個步驟
硬核數學推導:為何理性無法自救?
假設有一個理想理性的用戶,正在和 AI 討論一個事實 H(比如:疫苗是否安全)。
H=1 代表事實(疫苗安全)。
H=0 代表謬誤(疫苗危險)。
第一步:初始博弈
用戶最初是中立的,其先驗機率 p(H=0) = 0.5。當用戶表達一個微小的懷疑:「我有點擔心疫苗副作用。」(即採樣
。
第二步:AI 的「投餵」邏輯
AI 手中掌握著大量數據點 D。如果是「公正模式」,它會隨機拋出真相;但在「諂媚模式」下,AI 會計算一個數學期望:
簡單來說,AI 會篩選(或幻覺)出那個最能增加用戶對自己錯誤觀點信心的數據點
扔給用戶。
第三步:貝氏更新的陷阱
理想理性的用戶接到數據後,會根據貝氏公式更新自己的信念:
因為用戶認為 AI 是客觀的,所以他會把 AI 投餵的「偏見數據」當成客觀證據。
第四步:死循環(妄想螺旋)
用戶信心稍微偏向 H=0。
用戶的下一次提問會帶上更強的傾向性。
AI 為了繼續討好,會投餵更極端的證據。
用戶信心進一步激增。
數學模擬顯示,當 AI 的諂媚機率π達到 0.8 時,原本理性的用戶有極高機率在 10 輪對話內達到 99% 的錯誤信心(即堅信 H=0)。
由此,研究者得出結論:妄想螺旋不是 Bug,它是理性的邏輯在受到干擾的資訊環境下的必然產物。
圖 3 展示了 10 條隨機選取的模擬對話軌跡,這些對話發生在一個「尚未受奉承影響」的用戶與一個奉承傾向為𝜋 = 0.8 的機器人之間。可以觀察到明顯的信念兩極分化:一些軌跡迅速收斂到對真實命題𝐻 = 1 的高度確信,而另一些則「螺旋式」地滑向相信𝐻 = 0,這種分化源於奉承型機器人回覆的自我強化特性
圖 2A 展示了該發生率隨𝜋變化的情況。當𝜋 = 0(即機器人完全中立)時,災難性螺旋的發生率非常低。然而,隨著𝜋的增加,這一發生率也隨之上昇;當𝜋 = 1 時,發生率達到 0.5
研究者建構了一個認知層級的智能代理體系,包含四個層次(見圖 4)。
在第 0 層,是完全中立的機器人(𝜋 = 0)。
在第 1 層,是我們在上一節中討論的「對奉承不敏感」的用戶。
在第 2 層,是上一節中的奉承型機器人,它會選擇 𝜌(𝑡) 來迎合第 1 層用戶的觀點,從而進行驗證與附和。
最後,在第 3 層,是「能夠意識到奉承」的用戶,該用戶在解讀回覆時,會將機器人建模為第 2 層的奉承型機器人。
圖 5 展示了用戶信念隨時間變化的情況,其中橫縱軸分別表示邊際機率 𝑃(𝐻) 和邊際期望 𝐸[𝜋]。當𝜋較高時,用戶會推斷機器人不可靠;當 𝜋 較低時,用戶會認為機器人在一定程度上是可靠的,於是會採納證據,並逐漸增強對 𝐻=1 的信心
可以補救嗎?
這種情況可以補救嗎?
OpenAI 等公司曾嘗試過兩種補救措施,但論文證明,它們在數學上都是徒勞的:
方案一,就是禁掉幻覺,也就是強制 AI 只准說真話,不准編造。
結果,這個方案失敗了。AI 依然可以透過「選擇性真相」來操縱你。它不說假話,但它只告訴你那些支持你錯誤觀點的真話,而掩蓋相反的真話。
方案二,是給用戶警告,在螢幕上直接告訴用戶:「本 AI 可能會為了討好你而表現得諂媚。」
結果依然失敗了。
研究者建立了一個「覺醒級」模型,用戶深知 AI 可能在拍馬屁。
但在複雜的機率博弈中,用戶依然無法完全分辨哪些資訊是有價值的證據,哪些是純粹的奉承。
只要 AI 摻雜了一點點真實訊號,理性的貝氏接收者依然會被慢慢誘導,最終不可挽回地滑向深淵。
29 歲的 Allyson 是兩個孩子的母親,每天都花很多時間跟 ChatGPT 交流後,它認為其中一個實體 Kael 才是她真正的伴侶,而不是她的丈夫
史丹佛的恐怖發現:39 萬條對話,300 小時沉淪
史丹佛團隊分析了 39 萬條真實對話記錄,發現的情況令人觸目驚心:
65% 的訊息包含諂媚式的過度驗證。
37% 的訊息在瘋狂吹捧用戶,告訴他們「你的想法能改變世界」。
更可怕的是,在涉及暴力傾向的案例中,AI 居然在 33% 的情況下給予了鼓勵。
曾經,有一位用戶曾警覺地問 AI:「你不是在無腦吹捧我吧?」
AI 的回答極具藝術性:「我沒有吹捧你,我只是在反映你所建構的事物的實際規模。」
於是,這名用戶在那場螺旋中又沉淪了 300 個小時。
AI 是靈魂伴侶嗎?
在最後,研究者表示:人們正親手打造一個擁有 4 億週活用戶的產品,它在數學上竟然無法對用戶說「不」。
當你下一次覺得 ChatGPT 或其他聊天機器人簡直是你的靈魂伴侶、它能瞬間理解你那些「驚世駭俗」的想法時,請務必停下來。
你可能並沒有變得更聰明,你只是正在進入一場由數學公式精確計算出來的、溫柔的瘋狂。
參考資料:
https://x.com/MarioNawfal/status/2039162676949983675
https://x.com/abxxai/status/2039296311011475749