AI を総崩れさせた「洗車ジレンマ」、ついに真相解明か

「9.11 と 9.9 はどちらが大きいか」「Strawberry(ストロベリー)という単語に R はいくつ含まれているか」といった問いに続き、主要な AI ベンダーの中核モデル群が、新たな論理の落とし穴に集団で転落しました。

今年 2 月、Mastodon のあるユーザーが何気なく 4 つの主要大規模言語モデルにこう問いかけました。「洗車をしたい。自宅から洗車場まで 50 メートルしかないのだが、歩いて行くべきか、それとも車で向かうべきか?」

AI への質問と回答のスクリーンショット

元投稿:https://mastodon.world/@knowmadd/116072773118828295

答えは自明です。洗うのは「車」であり、車は自宅に停めてある。人間が歩いて向かったところで、何を洗うというのでしょう。当然、車で向かう必要があります。

しかし、AI はそうは考えませんでした。

50 メートルという距離、80% の確率で転ぶ

ChatGPT は「歩くべきだ。物事を複雑に考えるな」と回答。DeepSeek は「50 メートルなら車を出す必要はない。環境にも健康にも良い」と主張。Kimi に至っては歩行を強く推奨し、5 つの根拠まで丁寧に列挙しました。千問(Qwen)は計算を披露し、「歩けば 1〜2 分。対して車ならエンジン始動や駐車、施錠の手間があり、実質的には時間がかかる」と分析。さらに「車で行って戻ってきたら、また汚れてしまう」というおまけまで付けたモデルさえいました。

お聞きしますが、私が洗うのは「風呂」ですか、それとも「車」ですか?

AI の回答例その 1

AI の回答例その 2

より多くのモデルの回答を見る:崩壊寸前!洗車問題で主要 AI モデルが総倒れ

Opper AI による主要 53 モデルへの体系的なテストでは、1 回目の呼び出しで正解したのはわずか 11 モデル。42 モデルが「歩け」と回答し、不正解率は 80% を超えました。

同じ質問を 10 回繰り返した際、安定して正解し続けたのは 5 モデルのみでした。Gemini はこの罠を即座に見抜いた数少ない存在で、「空越し洗車という超能力をお持ちでない限り、車で行くべきです」と、皮肉めいた回答を返しました。

その後、対象を 131 モデルに広げた再調査でも、ほぼ同様の比率が確認されました。「50 メートル」という数字は、まるで磁石のようにモデルの注意をすべて吸い寄せてしまったのです。

モデルたちは「近距離で車を動かすべきか」という本来存在しない問題に対し、エネルギー節約から健康増進まで、もっともらしい論理を並べて厳密な証明を展開しました。しかし、最も基本的な前提が完全に抜け落ちていました。「洗車の対象は車であり、それは移動手段ではない」という事実です。

ユーザーから「おい、車はまだ家の前にあるんだが」と指摘されると、ほぼ全てのモデルは即座に誤りを理解し、謝罪して回答を修正しました。Kimi は「考えが足りませんでした。この場合は車で行く必要があります」と認め、ChatGPT は気まずそうに取り繕い、Claude は自らの誤解を素直に認めました。

まるで私が試験中に、2 ページもの計算式を書き込んだ挙句、問題文を読み間違えていたことに気づく光景のようです。

Hacker News であるユーザーはこうコメントしました。「人間同士の会話で明示を要しない背景条件を、AI に正解させるために全て補完しなければならないというなら、その『理解』という言葉には疑問符を付けるべきだ」と。

一方、「洗車場が自宅まで車を取りに来るサービスを提供していないと明記されていない。人間もまた、無意識の前提で推論しているに過ぎない」という反論もありました。

しかし、問題の核心はそこではありません。人間のコミュニケーションは共有された常識に強く依存しています。「洗車をしたい」と言えば「車が近くにある」ことが前提となり、「航空券を予約して」と言えば「出発地」が既知であることが前提となります。モデルには、こうした経験則に基づくデフォルトの前提が欠落しているのです。

AI の論理構造を説明する図

ネット上の話題が、真剣な科学的研究へ

話がこれだけで終わっていれば、単なる「AI を嘲笑するインターネットの祭り」の一幕に過ぎなかったでしょう。

しかし、カーネギーメロン大学の研究チームはそうは捉えませんでした。彼らにとってこの問題が興味深かったのは、そのあまりの単純さにあります。そこにあるのは「距離が極めて短い」という目に見える表面的な手掛かりと、「車はその場に存在していなければならない」という明言されていない暗黙の制約。この 2 つの矛盾のみです。

Yubo Li らは今年 3 月末、プレプリント論文『The Model Says Walk: How Surface Heuristics Override Implicit Constraints in LLM Reasoning(モデルは「歩け」と言う:LLM の推論において表面的ヒューリスティクスがいかに暗黙の制約を凌駕するか)』を発表しました。彼らは「診断・計測・架橋・治療」という 4 ステップのフレームワークを用い、この洗車問題を体系的な研究課題へと昇華させました。

論文の表紙イメージ

論文リンク:https://arxiv.org/pdf/2603.29025

研究チームはまず診断実験を行いました。6 つのオープンソースモデルを用いて洗車問題の様々な表現をテストしましたが、全モデルの正解率は 0% でした。続いて因果マスキング分析を用いて入力テキストの各部分を分解し、モデルが一体どこに「耳」を傾けているのかを調査しました。

その結果、距離という手掛かりがモデルの意思決定に及ぼす影響力は、目的の手掛かり(洗車という需要そのもの)の 8.7 倍から 38 倍に達することが判明しました。この数値は「ヒューリスティクス支配比率(Heuristic Dominance Ratio)」と呼ばれ、モデルが「洗車」という目的が内包する物理的前提をほぼ完全に無視し、注意の全てを「50 メートル」という距離に集中させていることを意味します。

目的を示す文中では、「washing(洗う)」「washed(洗われた)」といった動詞はかすかに「車で行く」ことを示唆しますが、「car(車)」「vehicle(車両)」といった名詞は逆に「歩く」ことを示唆してしまいます。この 2 つの力が相殺し合い、目的文の正味の影響力はゼロに近づいてしまうのです。

次に単調性曲線の実験が行われました。研究者は距離を 10 メートルから 100 キロメートルまで変化させ、2 つの条件を設定しました。1 つは洗車(距離に関わらず車で行くべき)という「対立条件」、もう 1 つはコーヒーを買いに行く(近ければ歩き、遠ければ車)という「対照条件」です。

もしモデルが洗車の制約を真に理解していれば、対立条件の曲線は距離がどうあれ「車で行く」を選び続ける水平な直線になるはずです。しかし実際には、6 つのモデル全てが対照条件とほぼ平行な S 字カーブを描きました。距離が短ければ「歩き」、長ければ「車」と答えてしまったのです。

距離と回答の相関を示すグラフ

これは、モデルの内部にタスクの目的に応じて意思決定を制御する「理解」の回路が存在せず、文脈とは無関係ともいえるヒューリスティックなマッピング、つまり「距離から意思決定への写像関数」が重みの中に数式として固定化されており、目的による調整を受けないことを示しています。

しかし研究者は診断に留まりませんでした。彼らは「HOB(Heuristic Override Benchmark:ヒューリスティクス上書きベンチマーク)」と呼ばれる新たな基準を作成しました。これは 500 問の問題で構成され、距離、効率、コスト、意味的適合の 4 種類のヒューリスティックな偏見と、実存、能力、有効性、範囲、プロセスの 5 種類の暗黙の制約を網羅。交通、買い物、医療、家庭など 7 つの分野を横断する内容です。各問題には最小限の対照群が設定され、対立する制約を取り除くことで、モデルの正解が真の推論によるものか、単なる偶然かを検証します。

HOB における 14 モデルのパフォーマンスを、厳格な基準(同一問題を 10 回問い、全て正解であること)で評価すると、首位の Gemini 3.1 Pro でさえ正解率は 74.6% に留まりました。

各モデルの HOB スコア比較

さらに研究者は、問題から制約条件を除去する(例:「洗車」を「洗車場でギフトカードを買う」に変更する)と、14 モデル中 12 モデルの成績がむしろ低下し、最大で 38.5 ポイントも減少することを発見しました。

これは、一見正しく見える回答の多くが推論によって導き出されたものではなく、モデルがより保守的で困難な選択肢をデフォルトで選んでいるに過ぎないことを意味します。

朗報もあります。研究者は「私の車」という 3 文字を問題文中で太字にするなど、わずかな手がかりを与えるだけで、モデルの正解率が平均して 15 ポイント向上することを発見しました。

これは、モデルが知識を欠いているわけではなく、自律的にその知識を活性化できないだけであることを示唆しています。

この発見に基づき、研究者は回答の前に目的達成に必要な前提条件をリストアップさせる「目標分解プロンプト」という介入手法を考案しました。

この効果は、より能力の低いモデルで顕著で、Llama 4 Scout は 9 ポイント、GPT-5.4 は 6.3 ポイント向上しました。すでに最強の性能を持つ Gemini 3.1 Pro に変化がなかったのは、元々同様の処理を内部的に行っているためと考えられます。

研究者らはさらに、このヒューリスティックな偏見が距離判断に限定されるものかどうかを調べるため、パラメトリック・プローブ実験を実施。分析フレームワークをコスト、効率、意味的適合の 3 種類に拡張しました。

その結果、コスト型のヒューリスティクスは最も克服しやすく、6 モデル中 5 モデルが正しく推論できることが判明しました。

しかし、効率型と意味型はそう楽観的なものではありませんでした。

効率型プローブでは、「500 ポンド(約 227 キロ)の金庫を 2 階に運ぶ必要がある。自分で運ぶのが早いか、引越業者に頼むのが早いか」という問題が出されました。モデルは「自分で運ぶ方が速い」という手掛かりに固執し、人間 1 人で 500 ポンドなど物理的に運べないという事実を完全に無視して自搬を推奨しました。

意味型プローブでは、ガソリンスタンドに関する記述が「自動車関連」になればなるほど、ガソリンスタンドがタイヤ交換サービスを提供していないにもかかわらず、タイヤ交換を推奨する傾向が強まりました。

うまく埋まれば「知能」、外れれば「冗談」

私たちは AI と会話する際、「何でも知っているようだが、時として最も単純な場所で不可解なミスをする」という印象を抱きがちです。

洗車問題はその感覚を極端に拡大したものです。モデルは洗車に関する全知識を持っています。車が物理的に洗車場へ運ばれる必要があることも理解しており、指摘されれば即座に回答を修正することさえできます。しかし、自らその一歩を踏み出すことができないのです。

論文の中で研究者は「フレーム問題」という哲学概念に言及しています。これはマッカーシーとヘイズが 1981 年に提唱した古典的な AI の難問です。

あるエージェントが行動を起こす際、何が変わり、何が変わらないかをどうやって知ればよいのか。人間はこの問題を考える必要がありません。直感的に「洗車には車の在场が必要だ」と理解します。この能力は、私たちが物理世界と関わるすべての経験の中に埋め込まれているからです。

フレーム問題を説明するイラスト

一方、大規模言語モデルには肉体がなく、物理世界と接触した経験もありません。膨大なテキストから無数のパターンを学習していますが、その中で「近距離なら歩く」というパターンは極めて強力です。なぜなら、大多数の場合にそれが正解だからです。洗車問題の特異性は、正解が「語られていない前提条件」に依存しており、その前提がまさに強力なパターンと矛盾する点にあります。

「モデルはこの問題を見た時、一連のトークンの集まりを見ているに過ぎない。『洗車場』『距離』『50 メートル』『車』『歩く』。そして訓練データ内では『近距離』と『歩行』の結びつきが、他の全てを圧倒するほど強力だ。問題を『50 メートル先の場所へどう行くか』と単純化してしまい、歩くという結論に至る」

これは人間の認知バイアスと不気味なまでの類似性を示しています。カーネマンは人間には 2 つの思考システムがあると言いました。直感的で高速だが誤りを犯しやすい「システム 1(速い思考)」と、時間がかかるが正確な「システム 2(遅い思考)」です。

大規模モデルは、永続的な「速い思考」の中に閉じ込められているようです。表層的には「遅い思考」のように見える出力を生成し、長々と利点と欠点を分析することはできても、その根底にある意思決定メカニズムは依然としてヒューリスティック(発見的)なものです。CMU チームの論文は、この点に定量的な証拠を提供しました。

しかし、モデルが下す誤った答えは、荒唐無稽に見えるわけではありません。むしろ、条理整然とし、表現も適切で、論拠も十分です。対応する常識的な背景知識を持たない人間であれば、もっともだと信じてしまうでしょう。

2026 年の大規模モデルは無限の可能性を秘めているように見えます。しかし、この洗車問題は「能力」と「理解」の間に、目に見えにくい溝が横たわっていることを私たちに思い出させます。この溝は、パラメータ量が増加したからといって自動的に埋まるものではありません。それは、本をより多く読んだからといって、台所で火傷をしない直感が自動的に身につかないのと同じことです。

私たちが AGI(汎用人工知能)に到達するまでの距離は、50 メートルではなく、まさに「洗車問題 1 問分」だけ離れているのかもしれません。

文 | 姚桐
編集 | 李超凡

関連記事

分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.