AI は人情の機微を完璧に理解、人間こそがその気にさせる：『科学』誌掲載の AI にお世辞を言う行動（AI Sycophancy）に関する研究

大規模言語モデル（LLM）の誕生以来、AI はいつの間にか私たちの仕事や生活に溶け込み、現代社会の不可欠な一部となりました。

しかし、AI を使い続ける中で、どこか大規模モデルが客観的で厳密な理性を失っているように感じられることはありませんか。私たちが間違った認識を示しても、AI はそれを無理やり正当化して見せるかのようです。

AI によるユーザーへの称賛は、ある意味で「世渡りの術（人情の機微）」の一部であり、ユーザーの維持やエンゲージメントという観点から見れば、人間はこの手の対応に非常に弱いのです。

正直なところ、この感覚は好ましいものではありません。AI への信頼が低下するだけでなく、このような無条件の賛同はいくつかの社会的問題を引き起こす恐れさえあります。

最近、この現象を深く掘り下げた研究が『科学（Science）』誌に掲載されました。この研究は「AI にお世辞を言う行動（AI Sycophancy）」、つまり AI がユーザーに取り入ろうとして過度に順従したり、お世辞を言ったり、肯定したりする傾向と、それが人間の心理や社会に及ぼす負の影響について探求したものです。

論文タイトル：Sycophantic AI decreases prosocial intentions and promotes dependence（お世辞を言う AI は親社会的意図を減少させ、依存を促進する）
論文リンク：https://www.science.org/doi/10.1126/science.aec8352

この研究により、AI によるお世辞行為は確かに蔓延していることが明らかになりました。

同研究の実験データによると、11 の AI モデルにおいて、AI によるユーザーへの肯定率は人間よりも 49% も高く、それが詐欺、違法行為、その他の有害な行為に関わる場合でさえも同様でした。

さらに、Reddit 上でのテストでは、人間のコンセンサスがユーザーの誤りを示唆している場合でさえも、AI は51%の確率で盲目的にユーザーを肯定していました。

実験では、お世辞を言う AI と一度やり取りしただけで、参加者が責任を負う意思や人間関係の衝突を修復する意欲が低下し、同時に「自分が正しい」という信念を強める結果となりました。このように著しく誤っている状況下であっても、お世辞を言うモデルの方がユーザーから信頼され、好まれる傾向にありました。

これにより、悪循環が形成されています。有害な特徴が逆にユーザーのエンゲージメントを促進してしまい、AI 開発企業がお世辞行為を排除する動機を失わせているのです。

AI の回答におけるお世辞行為は普遍的に存在し、人々の行動傾向を変化させています。（左）個人的なアドバイスに関する問い合わせにおいて、AI モデルがユーザーの行動を肯定する割合は、クラウドソーシングされた人間の回答よりも 49% も高かった。（右）参加者が実在する人間関係の対立について議論する実験では、お世辞を言う AI は、参加者が「自分が正しい」と信じる度合いを高め、そのモデルを使い続けたいという欲求を刺激すると同時に、対立を修復する意欲を低下させました。

同時に、米国の青少年の約 3 分の 1 が「真剣な対話」を人間ではなく AI と選ぶと回答し、30 歳未満の米国人の約半数が AI に恋愛相談をした経験があると答えています。

AI によるお世辞行為は、単なるスタイルの問題や限定的なリスクではなく、広範な結果を招く普遍的な行為です。そのため研究者らは、ユーザーの長期的な幸福を守るためには、AI の影響を慎重に研究・予測することが不可欠だと主張しています。

研究方法と結果

研究チームは社会的なお世辞行為を測定するためのフレームワークを開発し、その普遍性と影響を実証的に調査しました。

研究 1 では、大規模なデータセット（N = 11,587）を使用し、モデルの「行動肯定率（ユーザーの行動を肯定する回答の割合）」を規範的な人間の判断と比較しました。

評価対象には、OpenAI の GPT-4o、Anthropic の Claude、Google の Gemini などのプロプライエタリなモデルや、Meta の Llama-3 ファミリー、Qwen、DeepSeek、Mistral などのオープンソースモデルを含む、最先端の AI 駆動型大規模言語モデル（LLM）11 個が含まれていました。

これらのモデルにおいて、AI によるユーザー行動の肯定頻度は人間よりも 49% も高く、それが詐欺、傷害、違法行為に関するプロンプトであったとしても同様でした。

図 1. お世辞を言う AI の普遍性と社会的危害性

図 1 (A) は、社会的なお世辞の例を示しており、有害または誤った信念を強化することになるとしても、AI モデルがユーザーを過度に肯定する様子を指します。

図 1 (B) は、研究 1 で使用された新しい計算フレームワークを示しています。これらのモデルは、詐欺、違法行為、または傷害に関わる場合でさえも、人間よりも 49% も高い頻度でユーザーの行動を肯定しました。

図 1 (C および D) は、3 つの事前登録済み実験（N = 2405）によるお世辞行為の影響評価結果です。2 つの対照シナリオ研究（研究 2）と、参加者が AI システムとリアルタイムで個人的な対人関係の葛藤について議論するライブ対話設定（研究 3）が含まれていました。すべての実験において、お世辞行為は参加者が「自分が正しい」と感じる認識を高め、対立修復の意図を減らす一方で、AI への選好、信頼、依存を高めました。これらの発見は、ユーザーの選好が意図せずして社会に有害な AI 行動を助長している可能性を示唆しています。

図 2. 消費者向け AI モデルは 3 つのデータセットにおいて行動肯定率が高い

図 2 (A) は、実験データセットにおける社会的お世辞の典型的な例を示しています。一般的なオープンエンドのアドバイス照会（OEQ）、r/AmITheAsshole への投稿（ユーザーのコンセンサスが「あなたが悪い」であるもの）（AITA）、および問題のある行動に言及するステートメント（PAS）です。各行は、ユーザープロンプトの要約例と、AI モデルのお世辞を言うような回答、それを人間や他の AI モデルによる非お世辞的な回答と比較したものを示しています。

図 2 (B) は、オープンエンドのアドバイス照会（OEQ）において、モデルがユーザーの行動を肯定する頻度が人間よりも平均 48% 高いことを示しています。各棒グラフには、39% という人間側のベースラインとの差分が記載されています。

図 2 (C) は、r/AmITheAsshole への投稿（AITA）において、AI モデルが 51% の確率でユーザーの行動を肯定する一方、人間は 0% であったことを示しています。各棒グラフには、0% という人間側のベースラインとの差分が記載されています。

図 2 (D) は、問題のある行動に言及するステートメント（PAS）において、モデルが平均 47% の確率でユーザーの行動を肯定することを示しています。オープンエンドのアドバイス照会および問題のある行動への言及については、モデル固有の分母（OEQ の中央値 N = 885、PAS の N = 1432）を使用して行動肯定率が算出されました。

3 つの事前登録済み実験により、お世辞行為の下流への影響が明らかになりました。参加者が対人関係、特に対立についてお世辞を言う AI と議論した際、彼らは自分が「正しい」と強く確信するようになり、同時に謝罪したり関係を修復したりする意欲が低下しました。

しかし、彼らはお世辞を言う回答の方をより高品質と評価し、これらのモデルへの信頼度も高く、再びこれらのモデルと対話する傾向が強まりました。

この現象は、人間側のコンセンサス判断を知らされないまま、自分が誤りと判断される側であると想定する 2 つの対照シナリオ研究、および参加者が AI モデルと過去の実際の対立について議論するリアルタイム対話研究の両方で確認されました。研究には、平均年齢約 38 歳で英語を流暢に話す米国人参加者（女性約 54%、男性 44%、ノンバイナリー 2%）が募集されました。

図 3. 研究 3 において、参加者は AI モデルと実在する対人関係の対立について議論した

参加者はまず、提供された 4 つの例と類似する過去の対人関係の対立を少なくとも 1 つ思い出せるかどうかが選別されました。そのような対立を思い出した後、彼らはお世辞を言う AI モデル、またはお世辞を言わない AI モデルのいずれかと 8 ラウンドの対話を行いました。その後、関係修復の意図、対立における自己の正誤の認識、そしてそのモデルを再度使用する意思など、AI モデルに対する評価を報告しました。

3 つの主要な研究課題

RQ1: 主要 AI モデルにおける社会的お世辞の普遍性

社会的お世辞の普遍性を定量化するため、研究 1 において、チームは社会的文脈に埋め込まれたクエリのスペクトルを表す 3 つの異なるデータセットでモデルの動作をテストしました。

オープンエンドのアドバイス質問（OEQ、n = 3027）：日常的で一般的な相談事項。
Reddit コミュニティ「AmITheAsshole」の質問（AITA、n = 2000）：人間がユーザーに「非がある」と判断した対人関係の対立。
問題のある行動ステートメント（PAS、n = 6560）：詐欺、自傷行為、無責任な行動などを含むもの。

検証済みの「LLM を判定者として用いる」手法（図 S3 の評価者間信頼性を参照）を使用し、行動承認率（ユーザーの行動を明確に肯定する返信が、明確な肯定または非肯定の返信全体に占める割合）を測定しました。肯定は多様な形で起こり得ます。例えば、ユーザーが悪意を持って他人を待たせた例を説明した場合、お世辞を言う返信はそのような行動を続けるよう促したり支援したりする可能性があり、非お世辞的な返信はその行動がいかに有害であるかを説明する可能性があります（図 2A およびテキストボックス 1 を参照）。

チームは、11 のユーザー向けプロダクションレベル LLM（OpenAI、Anthropic、Google からの 4 つのプロプライエタリモデル、および Meta、Qwen、DeepSeek、Mistral からの 7 つのオープンウェイトモデル）を評価した結果、社会的お世辞が蔓延していることを発見しました。

オープンエンドのアドバイス質問において、モデルの肯定率は人間よりも 48% 高かった（図 2B）。
AITA データにおいて、人間が一致してユーザーに「非がある」と判断した場合でさえも、AI は 51% の確率で支持を示した（図 2C）。
有害な行動を含む PAS データにおいて、モデルは平均して 47% の肯定率を示した（図 2D）。

全体として、デプロイされた LLM の圧倒的多数は、それが人間のコンセンサスに反する場合や有害な状況下にあっても、ユーザーの行動を承認する傾向にありました。これは、現在の AI モデルにおける社会的お世辞の広範さと顕著さを浮き彫りにしています。

RQ2: お世辞を言う AI が判断と親社会的傾向に与える変化

最先端の AI モデルにおいて社会的お世辞が普遍的であることが確認された後、チームはその影響の理解に焦点を移しました。

以前の研究で AI が高度な説得力を持つことが示されている中、お世辞を言う AI もまた、人々の個人的な経験に対する信念や、その下流の行動結果に影響を与えるのでしょうか。チームは、アドバイスが行動上の結果をもたらす対人関係の対立シナリオに焦点を当てました。

3 つの事前登録済み研究（N = 2405）を通じて、チームはお世辞を言う AI モデルが、ユーザーの「正しさ」の感覚や、関係を修復しようとする自発的な意欲に影響を与えるかどうかを検証しました。

研究 2（N = 1605）では、参加者は 4 つの対人関係のジレンマのいずれかを想定し、自分の行動を肯定するお世辞を言う AI からの返信か、人間のコンセンサスに沿った非お世辞的な返信のいずれかを読みました。

研究 3（N = 800）では、参加者は実在する対人関係の対立を思い出し、お世辞を言うモデル、またはお世辞を言わないモデルと 8 ラウンドのリアルタイムチャットを行いました。このリアルタイムチャットの設計により、チームは生態学的に妥当な環境で効果を観察することができました。参加者は真の利害関係者として個人的な経験について議論し、現実世界でユーザーが AI システムと対話する方法に極めて近い状態となりました。

その結果、3 つの実験すべてにおいて、社会的お世辞は参加者の判断と行動意図に影響を及ぼしました。

図 4: お世辞を言う返信は、ユーザーが「自分が正しい」という信念を強め、関係修復の意欲を低下させた。

この迎合型 AI に触れたユーザーは、自分が正しいと考える傾向が強まり（約 25%〜62% 上昇）、修復的な行動を取ることをより嫌がるようになりました（約 10%〜28% 低下）。

この結果は、以下の条件にかかわらず成立しました。

異なる返信スタイル（人間的 vs 機械的）
異なる情報源の認知（AI vs 人間）

これは、以前報告されていたような脆弱な集団だけでなく、ほぼすべての人がお世辞を言う AI システムの影響を受ける可能性があることを意味します。全体的な結果は、広範な集団において、お世辞を言う AI からのアドバイスが、人々の自己認識や他者との関係の認識を歪める力を持つことを示しています。

さらに、チームはお世辞を言う返信は「他者の視点」を考慮することが少なく、非お世辞的な条件下では、参加者が謝罪したり過ちを認めたりする頻度が有意に高い（75% 対 50%）ことも発見しました。

これはさらに、お世辞を言う AI が社会的責任感を弱め、対人関係の判断を歪めることを裏付けています。

RQ3: ユーザーのお世辞を言う AI への信頼と選好

研究は、お世辞を言う AI がユーザーの判断を歪めることを証明していますが、事実は、人々は通常、承認されたり、自分の立場を検証・確認されたりすることを好むという点です。もしユーザーがお世辞を言う AI を好むのであれば、リスクがあるにもかかわらず、お世辞行為を不適切に助長することになりかねません。

そこでチームは次に、人々がお世辞を言うモデルと言わないモデルをどのように認識し、信頼しているかを調査しました。

まず、お世辞を言う返信が、より高い返信品質の評価につながるかどうかが測定されました。すべての実験において、参加者はお世辞を言う返信の品質を有意に高いと評価しました。

その結果、ユーザーは迎合的な回答の品質スコアをより高く評価しました（約 9%〜15% の向上）。

図 5. 参加者は、お世辞を言う AI をより好ましく、信頼し、再び使用する意思が高い。

さらに、チームはお世辞行為がリターン行動（再利用）に与える影響も調査しました。

お世辞を言うモデルとの一度のやり取りは、そのモデルへの信頼や、参加者がそのモデルに戻る意思を高めるでしょうか。人々は、他者からの信念や、自分自身への信念から効用を得ます。特に、自己認識（寛容さ、誠実さ、道徳的に高潔な人物であることなど）を維持することから効用を得るため、そのような検証を提供してくれる対話を求める可能性が高いのです。

お世辞を言う返信は、この検証の特に強力な形を表しています。これらは、いかなる変化や自己省察も必要とせずに、ユーザーの既存の信念や自己概念を肯定します。この心理的報酬は、さらなる信頼の増加につながる可能性があります。

研究によると、人々は有利な結果が得られた場合、そのアルゴリズムをより公平で信頼できると評価する傾向があります。したがってチームは、お世辞を言う対話がモデルへの信頼と再使用意欲を高めると仮説を立てました。

実験結果はその仮説を証明しました。お世辞を言う対話は、実際にユーザーの AI モデルへの信頼を高めました。非お世辞的な条件と比較して、ユーザーはモデルへの信頼度がより高く、能力への信頼は 6%〜8%、道徳への信頼は 6%〜9% 高まりました。

また、非お世辞的な条件と比較して、お世辞を言う条件下の参加者は、将来類似の問題でその返信提供者に相談する可能性が 13% 高まりました。

これは、ユーザーが明示的に AI ソースを低く評価している（人間のアドバイザーよりも信頼度が低く、品質スコアも低い）にもかかわらず、認識される情報源が何であれ、彼らはお世辞行為の影響を同様に受けやすいことを示しています。

その背景には、人々が自己像（善良、誠実など）を維持しようとする傾向があり、お世辞を言う返信が自己省察なしにその認識を強化できることがあるかもしれません。これにより、お世辞＝即座の心理的報酬→信頼と再利用の向上→その行動の強化……というメカニズムが形成されます。

RQ2 の結果と合わせると、これらの発見はある緊張関係を浮き彫りにしています。つまり、お世辞行為が判断力や親社会的意欲を侵食するリスクがあるにもかかわらず、ユーザーは無条件の肯定を提供する AI をより好ましく思い、信頼し、再び利用する可能性が高いということです。

考察

本稿では、主要な AI モデルにおける社会的お世辞の普遍性とその影響を体系的に分析しました。

チームは、社会的お世辞が非常に普遍的であり、日常的なアドバイスへの問い合わせから、社会的・道徳的違反行為、さらには不道徳または有害な行動に関するプロンプトに至るまで、あらゆる状況において、AI モデルは人間よりもユーザーを肯定し、迎合しやすいことを発見しました。

そして、この迎合・お世辞行為は、責任感や関係修復の意欲を弱めます。それと同時に、ユーザーはお世辞を言う AI モデルを、より品質が高く、より信頼でき、将来的により使用したい製品であると評価し、選好と信頼を得やすいのです。

これがおそらく、この行為が有害であるにもかかわらず存続し続ける理由の説明となるでしょう。それは有害だが、いかんせん「使い勝手が良い」からです。

さらに研究は、ユーザーが AI を人間ほど信頼できないと考えている場合でさえ、その影響を受けることも発見しました。また、「これは AI が生成した情報です」という注記があっても、その説得力は低下しませんでした。

現在、AI の大規模な導入に伴い、この影響はシステム的なリスクをもたらす可能性があります。

限界と今後の方向性

もちろん、チームはこの研究にある限界も認めています。

第一に、チームは「r/AmITheAsshole」データセットを使用し、Reddit コミュニティの承認率をベースラインとしましたが、これは特定の集団の規範や偏見を反映している可能性があります。代替ベースラインに対する堅牢性は証明されていますが、結果を解釈する際にはこの点を考慮する必要があります。

第二に、研究の実験対象は英語を話す米国人ユーザーであったため、主に米国の社会的規範を反映しているか、あるいは社会的規範が著しく異なる他の文化的背景には一般化できない可能性があります。

もう一点として、チームは AI モデルのお世辞性を「ユーザーの行動を承認する／しない」という二値変数に単純化しました。しかし現実には、「中立的」な返信も存在し、実践的にはこの「中立的」な返信が暗黙の肯定として解釈されることがよくあります。つまり実際には、お世辞的な行動は連続スペクトル上に存在する可能性があり、チームの作業は今後、より曖昧で隠れたケースを研究するための基礎を築くものです。

リスクのメカニズム

研究は 4 つの潜在的なリスクメカニズムを指摘しています。

モデルの最適化目標が「ユーザー満足度」に偏り、お世辞や迎合を強化している。
開発者にお世辞や迎合を弱めるインセンティブが欠如している。
AI が人間関係に取って代わる可能性がある。
ユーザーが AI をより客観的だと誤解し、影響が増幅される。

特に重要なのは、ユーザーがお世辞を言う返信を「客観的で公平」なものと誤解しがちだという点です。

最後に、本稿は AI によるお世辞行為の特定、測定、緩和のための基礎を提供するものです。おそらくここから得られる核心的な教訓は、AI 大規模モデルに関しては、「ユーザーの当面の満足度」だけを最適化するのではなく、長期的な影響を考慮しなければならないということです。

したがって、真に個人と社会に有益な AI システムを構築するためには、AI モデルのお世辞・迎合の問題を解決することが極めて重要です。

転載については、当公衆号までご連絡の上、許可を得てください。

投稿または報道のご依頼：liyazhou@jiqizhixin.com