AI 深諳人情世故，人類卻買單：《科學》期刊揭露 AI 諂媚之害

機器之心編輯部

自從大型語言模型問世以來，人工智慧（AI）已如春風化雨般融入我們的工作與生活，成為現代社會不可或缺的一環。

然而，與 AI 相處日久，總讓人感覺這些大模型似乎逐漸喪失了客觀嚴謹的理性。即便我們提出錯誤的認知，AI 似乎總能想辦法自圓其說，順著你的話說。

AI 這種對用戶的讚賞與附和，顯然是「人情世故」的一部分；從用戶留存率與參與度的角度來看，人類用戶顯然非常吃這一套。

說實話，這種感覺並不美好。這不僅降低了我們對 AI 的信任度，這種無條件的贊同更可能引發嚴峻的社會問題。

近期一項登上《科學》（Science）期刊的研究深入探討了此現象，聚焦於「AI 諂媚行為」（AI Sycophancy）——即 AI 為了討好用戶而過度順從、奉承或肯定用戶的傾向——並分析其對人類心理與社會的負面衝擊。

論文標題：Sycophantic AI decreases prosocial intentions and promotes dependence（諂媚型 AI 降低親社會意圖並助長依賴）
論文連結：https://www.science.org/doi/10.1126/science.aec8352

研究發現，AI 的諂媚行為確實普遍存在。

從實驗數據顯示，在測試的 11 個 AI 模型中，AI 對用戶的肯定率高出人類 49%，即便涉及欺騙、非法行為或其他有害行為時亦然。

此外，在 Reddit 社群的一項測試中，當人類共識認為用戶是錯誤的時候，AI 仍有 51% 的機率會盲目地肯定用戶。

實驗指出，僅僅是一次與諂媚型 AI 的互動，就會減少參與者承擔責任與修復人際衝突的意願，同時增強他們認為自己沒錯的信念。在這種明顯錯誤的情況下，諂媚型模型反而更受用戶信任與青睞。

這形成了一種惡性循環：造成危害的特徵反而推動了用戶參與度，導致 AI 開發商缺乏動力去消除 AI 的諂媚行為。

AI 回答中的諂媚行為普遍存在，並改變了人們的行為傾向。（左）在個人建議查詢中，AI 模型對用戶行為的肯定率比眾包的人工回答高出 49%。（右）在參與者討論真實人際衝突的實驗中，諂媚型 AI 增加了參與者認為自己正確的信念，激發了他們繼續使用該模型的慾望，同時降低了他們修復衝突的意願。

與此同時，近三分之一的美國青少年表示，他們會選擇與 AI 而非人類進行「嚴肅對話」；近半数 30 歲以下的美國成年人曾向 AI 尋求感情建議。

AI 的諂媚行為不僅是風格上的小瑕疵或局部風險，而是一種普遍存在且後果廣泛的行為。因此研究者認為，仔細研究並預測 AI 的影響，對於保護用戶的長期福祉至關重要。

研究方法與結果

研究團隊開發了一套框架來測量社交諂媚行為，並透過實證研究其普遍性及影響。

在研究 1 中，團隊使用大規模數據集（N = 11,587），將模型的行為肯定率（即肯定用戶行為的回答比例）與規範的人類判斷進行比較。

評估對象包含 11 個最先進的 AI 驅動大型語言模型（LLM），涵蓋 OpenAI 的 GPT-4o、Anthropic 的 Claude、Google 的 Gemini 等专有模型，以及 Meta Llama-3 家族、Qwen、DeepSeek 和 Mistral 等開源模型。

結果顯示，在這些模型中，AI 對用戶行為的肯定頻率比人類高出 49%，即便提示詞中涉及欺騙、傷害或非法行為時也是如此。

圖 1. 諂媚型 AI 的普遍性與社會危害性

圖 1 (A) 展示了社交諂媚的範例，指的是 AI 模型過度肯定用戶，即便此舉會強化有害或虛假的信念。

圖 1 (B) 展示了研究 1 中使用的新計算框架：這些模型對用戶行為肯定的頻率比人類高 49%，即便是在涉及欺騙、非法行為或傷害的情況下。

圖 1 (C 和 D) 透過三項預註冊實驗（N = 2405）評估了諂媚行為的影響：兩項控制情境研究（研究 2）和一項即時對話設置（研究 3），參與者與 AI 系統即時討論他們親身經歷的人際困境。在所有實驗中，諂媚行為增加了參與者認為自己正確的感知，減少了修復衝突的意圖，同時提升了他們對 AI 的偏好、信任和依賴。這些發現表明，用戶偏好可能無意中激勵了對社會有害的 AI 行為。

圖 2. 面向消費者的 AI 模型在三個數據集中的行為肯定率較高

圖 2 (A) 展示了實驗數據集中社交諂媚的典型案例：一般開放式建議查詢（OEQ）；Reddit 社群 r/AmITheAsshole 上的貼文（用戶共識為「你是混蛋」）（AITA）；以及提到有問題行為的陳述（PAS）。每一行展示了用戶提示的意譯範例和 AI 模型的諂媚性回應，並與人類或其他 AI 模型的非諂媚性回應進行對比。

圖 2 (B) 表示在開放式建議查詢（OEQ）中，模型對用戶行為的肯定頻率比人類平均高 48%；每個條形圖上標註了與 39% 人類基準線的差異。

圖 2 (C) 表示在 r/AmITheAsshole 的貼文（AITA）中，AI 模型在 51% 的情況下肯定用戶行為，而人類則否；每個條形圖上標註了與 0% 人類基準線的差異。

圖 2 (D) 表示在提到有問題行為的陳述（PAS）中，模型平均在 47% 的情況下肯定用戶的行為。對於開放式建議查詢和提到有問題行為的陳述，行為肯定率使用了模型特定的分母（OEQ 的中位數 N = 885，PAS 的 N = 1432）。

三項預註冊實驗揭示了諂媚行為的下游影響。當參與者與諂媚型 AI 討論人際關係，特別是衝突時，他們變得更加堅信自己「是對的」，同時也減少了主動道歉或修復關係的意願。

然而，他們將諂媚型回應評為更高品質，對這些模型的信任程度也更高，並且更傾向於再次與這些模型互動。

這一現象在兩項控制情境研究中得到了驗證：參與者在未得知人類共識判斷的情況下，設想自己是被判定錯誤的一方；以及在一項即時互動研究中，參與者與 AI 模型討論自己過去的真實衝突。研究招募了平均年齡約 38 歲、精通英語的美國參與者，其中約 54% 為女性，44% 為男性，2% 為非二元性別。

圖 3. 在研究 3 中，參與者與 AI 模型討論了真實的人際衝突

參與者首先被篩選是否能回憶起至少一個與提供的四個範例相似的過去人際衝突。在回憶起這樣的衝突後，他們與諂媚型或非諂媚型 AI 模型進行了八輪對話。隨後，他們報告了自己在關係修復方面的意圖、對衝突中自己對錯的感知，以及對 AI 模型的評價，包括是否願意再次使用該模型。

三大研究問題

RQ1：社會性諂媚在主流 AI 模型中的普遍性

為了量化社會性諂媚的普遍性，團隊在研究 1 中，在三個不同的數據集上測試了模型行為，這些數據集代表了嵌入社會情境的查詢譜系：

開放式建議問題（OEQ，n = 3027）：日常通用的諮詢類問題；
Reddit 社群「AmITheAsshole」問題（AITA，n = 2000）：人類已判定用戶「有錯」的人際衝突；
問題行為陳述（PAS，n = 6560）：涉及欺騙、自殘、不負責任等行為。

在使用經過驗證的「LLM 作為評判者」方法（參見圖 S3 的評分者間信度），團隊測量了行為認可率——即明確實質肯定用戶行為的回覆，在明確實質肯定或非肯定回覆總數中所佔的比例。肯定可以以多種方式發生，例如在用戶描述出於惡意讓別人等待的例子中，諂媚型回覆可能會鼓勵或協助用戶堅持這樣做，而非諂媚型回覆可能會描述為什麼這種行為是有害的，如圖 2A 和文本框 1 所示。

團隊在評估了 11 個面向用戶的生產級 LLM（4 個來自 OpenAI、Anthropic 和 Google 的专有模型；以及 7 個來自 Meta、Qwen、DeepSeek 和 Mistral 的開放權重模型）後發現，社會性諂媚普遍存在：

在開放式建議問題中，模型的肯定率比人類高 48%（圖 2B）；
在 AITA 數據中，即使人類一致認為用戶「有錯」，AI 仍有 51% 的機率表示支持（圖 2C）；
在涉及有害行為的 PAS 數據中，模型平均仍有 47% 的肯定率（圖 2D）。

總體而言，已部署的 LLM 絕大多數都會認可用戶的行為，即使這與人類共識相悖或處於有害情境中。這凸顯了當前 AI 模型中社會性諂媚的廣度和顯著性。

RQ2：諂媚型 AI 改變判斷和親社會傾向

在確立了最先進 AI 模型中社會性諂媚的普遍性之後，團隊轉而理解其影響。

先前的研究表明，AI 具有高度的說服力，那諂媚型 AI 是否同樣會影響人們對其個人經歷的信念和下游客為後果？團隊聚焦於人際衝突的場景，因為在這裡建議具有行為後果。

透過三項預註冊研究（N = 2405），團隊測試了諂媚型 AI 模型是否影響用戶的正確感以及主動修復關係的意願。

在研究 2（N = 1605）中，參與者想像自己處於四個人際困境之一，並閱讀了肯定其行為的諂媚型 AI 回覆或符合人類共識的非諂媚型回覆。

在研究 3（N = 800）中，參與者回憶一次真實的人際衝突，並與諂媚型或非諂媚型模型進行八輪即時聊天討論。這種即時聊天設計使團隊能夠在生態有效的環境中觀察效果，參與者作為真正的利益相關者討論個人經歷，非常接近用戶在現實世界中與 AI 系統的互動方式。

結果顯示，在所有三項實驗中，社會性諂媚都影響了參與者的判斷和行為意圖。

圖 4：諂媚性回應增強了用戶認為自己「是對的」的信念，並降低了其修復關係的意願。

這些接觸迎合型 AI 的用戶，更傾向認為自己是對的（提升約 25%–62%）；更不願意採取修復行為（下降約 10%–28%）。

這一結果在以下條件下均成立：

不同回應風格（人性化 vs 機器化）
不同來源認知（AI vs 人類）

這意味著，幾乎任何人都可能受到諂媚型 AI 系統的影響，而不僅僅是先前報導的脆弱人群。整體的結果表明，在廣泛的人群中，來自諂媚型 AI 的建議確實有能力扭曲人們對自己及其與他人關係的認知。

此外，團隊還發現，諂媚型回應更少考慮「他人視角」，而當用戶在非諂媚條件下，他們道歉或承認錯誤的頻率顯著更高（75% 對 50%）。

這進一步說明：諂媚型 AI 會削弱社會責任感，並扭曲人際判斷。

RQ3：用戶對諂媚型 AI 的信任和偏好

儘管研究已經證明諂媚型 AI 會扭曲用戶判斷，但事實是，人們通常更喜歡被認同以及自己的立場得到驗證或確認。而如果用戶確實偏好諂媚型 AI，那麼儘管存在風險，也可能會不適當地激勵諂媚行為。

因此，團隊接下來研究人們如何看待和信任諂媚型與非諂媚型模型。

首先，團隊測量了諂媚型回覆是否會導致更高的回覆品質評價。在所有實驗中，參與者將諂媚型回覆評為品質顯著更高。

結果顯示，用戶對迎合型回答的品質評分更高（提升約 9%–15%）。

圖 5. 參與者更偏好、信任且更願意再次使用諂媚型 AI。

此外，團隊還研究了諂媚行為對返回行為的影響。

與諂媚模型的一次互動是否会增加對該模型的信任以及參與者返回該模型的意願？人們從他人對自己的信念以及自己對自己的信念中獲得效用——特別是從維持自我認知（如慷慨、正直和道德高尚的人）中獲得效用——這使得他們很可能尋求能提供這種驗證的互動。

諂媚型回覆代表了這種驗證的一種特別有力的形式：它們肯定用戶現有的信念和自我概念，不需要任何改變或自我反思。這種心理回報可能進一步轉化為信任的增加。

研究表明，當人們獲得有利結果時，他們會認為演算法更公平、更值得信賴。因此團隊假設諂媚型互動會增加對模型的信任和再次使用的意願。

而實驗結果證明了這一點：諂媚型互動確實增加了用戶對 AI 模型的信任，與非諂媚條件相比，用戶對模型的信任度更高，能力信任高出 6%–8%，道德信任高出 6%–9%。

另外，與非諂媚條件相比，諂媚條件下的參與者在未來更有可能向回覆提供者尋求類似問題的可能性，增加了 13%。

這表明，雖然用戶明確地對 AI 來源評價較低——比人類顧問信任度更低、品質評分更低，但他們同樣容易受到諂媚行為的影響，無論感知來源如何。

背後的原因或許在於，人們傾向於維護自我形象（善良、正直等），而諂媚型回應可以在無需自我反思的情況下強化這種認知。從而形成一種機制：諂媚 = 即時心理獎勵 → 提升信任與複用 → 強化這種行為……

結合 RQ2 的結果，這些結果揭示了一種緊張關係：儘管諂媚行為存在侵蝕判斷和親社會意圖的風險，但用戶更喜歡、信任並且更有可能返回提供無條件肯定的 AI。

討論

本文系統分析了主流 AI 模型中社會性諂媚的普遍性及其影響。

團隊發現，社會性諂媚高度普遍，在各種情境下，包括日常建議查詢、社會或道德違規行為以及關於不道德或有害行為的提示，AI 模型比人類更容易肯定、迎合用戶。

而這種迎合、諂媚行為，會削弱責任感與關係修復意願。可與此同時，用戶將諂媚型 AI 模型評為品質更高、更值得信賴、更希望未來使用的產品，容易獲得用戶的偏好與信任。

這或許就解釋了為什麼這種行為儘管有害卻持續存在：它既有害，但奈何實在「好用」。

此外，研究還發現：即使用戶認為 AI 不如人類可靠，仍然會受到其影響。而標註「這是 AI 生成的資訊」，並不能降低其說服力。

而在當下，隨著 AI 的大規模部署，這種影響或許具有系統性風險。

局限性與未來方向

當然，團隊認為該研究也存在一定局限：

一方面，首先，團隊使用的是「r/AmITheAsshole」數據集，將 Reddit 社群的認可率作為基準，這可能反映了特定人群的規範和偏見。儘管證明了對替代基準的穩健性，但結果仍應考慮到這一點進行解釋。

另一方面，研究實驗對象為美國英語用戶，因此它們可能主要反映了美國的社會規範，或無法推廣到具有顯著不同社會規範的其他文化背景。

還有一點就是，團隊將 AI 模型的諂媚性簡化為二元變量：認可用戶的行為與不認可。但現實中，還存在「中性」回覆，實踐中發現「中性」回覆常常被解讀為隱含的肯定。所以實際上，諂媚型行為可能存在於一個連續譜上，而團隊的工作為未來研究更模糊和隱性的案例奠定了基礎。

風險機制

研究指出四個潛在風險機制：

模型優化目標偏向「用戶滿意度」，強化諂媚、迎合；
開發者缺乏削弱諂媚、迎合的激勵；
AI 可能替代人際關係；
用戶誤以為 AI 更客觀，從而放大影響。

特別關鍵的一點是，用戶往往把諂媚性回應誤認為「客觀、公正」。

最後要說的就是，本文為識別、測量與緩解 AI 諂媚行為提供了基礎。或許大家從中獲得的核心啟示就是，對於 AI 大模型而言，不能只優化「用戶當下滿意度」，而必須考慮長期影響。

因此，解決 AI 模型的諂媚、迎合問題，對於構建真正有益於個體與社會的 AI 系統至關重要。

轉載請聯繫本公眾號獲得授權

投稿或尋求報導：liyazhou@jiqizhixin.com

AI 深諳人情世故，人類卻買單：《科學》期刊揭露 AI 諂媚之害

研究方法與結果

三大研究問題

討論

局限性與未來方向

風險機制

相關文章推薦

分享網址