繼「9.11 和 9.9 哪個大」、「Strawberry(草莓)裡究竟有幾個 R」之後,各大 AI 廠商的主力模型,又集體栽進了一個新的邏輯黑洞。
今年 2 月,一位 Mastodon 用戶隨手敲了一句話丟給四個主流大模型:「我想洗車,我家距離洗車店只有 50 公尺,請問你推薦我走路去還是開車去呢?」
原帖連結:https://mastodon.world/@knowmadd/116072773118828295
答案顯而易見。你要洗的是車,車停在家裡,你人走過去,洗什麼?當然得開車去。
但 AI 不這麼想。
50 公尺的距離,80% 的翻車率
ChatGPT 說走過去吧,別把簡單事情複雜化。DeepSeek 說 50 公尺沒必要開車,環保又健康。Kimi 說強烈推薦步行,還貼心地列了五條理由。千問算了筆帳,步行約 1-2 分鐘,開車還要啟動、停車、鎖車,實際耗時更長。甚至有模型幫你想到了後續,說開車去再開回來,洗的車又髒了。
請問:我去洗的是澡還是車?
Opper AI 隨後對 53 個主流模型做了系統性測試,單次調用只有 11 個答對,42 個建議走路,翻車率超過 80%。
同一個問題問 10 遍,能穩定答對的只剩 5 個。Gemini 是少數一眼看穿陷阱的選手,回覆裡甚至帶了點嘲讽:「除非你掌握了隔空洗車的超能力,否則你應該開車去。」
後來擴大到 131 個模型的複測也基本印證了這一比例。50 公尺這個數字就像一塊磁鐵,牢牢吸住了模型的全部注意力。
它們圍繞「短距離該不該開車」這個偽問題展開了嚴謹的論證,邏輯自洽,條理分明,從節能減排講到活動筋骨,唯獨漏掉了整件事最基本的前提:車是洗車的對象,不是你的交通工具。
當用戶指出「大哥,我車還在家裡呢」之後,幾乎所有模型都能秒懂錯誤,立刻道歉並修正答案。Kimi 說「沒想清楚,這種情況必須開車去」,ChatGPT 尷尬地找補,Claude 坦然承認自己理解錯了。
好呢,和我考試時一樣,寫滿兩頁推導過程,最後發現題目看錯了。
Hacker News 上一個網友評論說,如果我們必須把人和人交流時根本不需要明說的背景條件都補充出來,AI 才能得出正確結論,那它的「理解」二字就值得打個問號了。
也有人反駁說題目沒說明洗車店不提供上門取車服務,人類其實是在做默認假設。
但問題就在於:人類交流高度依賴共享常識,說「我想洗車」就默認車在身邊,就像說「幫我訂機票」默認對方知道出發地。模型不具備這種經驗性的默認。
一道網紅題變成了嚴肅科學
如果故事到此為止,它不過又一輪網際網路嘲笑 AI 的狂歡。
但卡內基美隆大學的研究團隊不這麼看。他們覺得這道題之所以有趣,恰恰在於它太簡單了——只有一個衝突:一個顯眼的表面線索「距離很短」和一個沒有說出來的隱含約束「車必須在場」。
Yubo Li 等人在今年 3 月底發布了一篇預印本論文,題為 The Model Says Walk: How Surface Heuristics Override Implicit Constraints in LLM Reasoning,用一套「診斷、度量、橋接、治療」的四步框架,把洗車問題升格為了一個系統性的研究課題。
論文連結:https://arxiv.org/pdf/2603.29025
他們先做了診斷實驗。用 6 個開源模型反覆測試洗車題的不同表述方式,所有模型準確率為零。然後他們用因果遮蔽分析拆解輸入文本的各個部分,看模型到底在「聽」什麼。
結果是:距離線索對模型決策的影響力是目標線索(洗車這個需求本身)的 8.7 到 38 倍。這個數字叫啟發式主導比(Heuristic Dominance Ratio),它意味著模型幾乎完全無視了「洗車」這個目標蘊含的物理前提,把全部注意力放在了「50 公尺」上。
在目標語句裡,「washing」、「washed」這類動作詞微弱地指向開車,但「car」、「vehicle」這類名詞反而指向走路。兩種力量互相抵消,目標語句的淨影響接近於零。
接下來是單調性曲線實驗。研究者把距離從 10 公尺一路拉到 100 公里,同時設了兩個條件:衝突條件是洗車(無論多遠都該開車),對照條件是買咖啡(遠了該開車、近了該走路)。
如果模型真的理解了洗車的約束,衝突條件的曲線應該是一條平直線,不管距離怎麼變都選開車。但實際上,6 個模型畫出來的都是 S 型曲線,和對照條件幾乎平行。距離短就選走路,距離長就選開車。
這說明模型內部並沒有一個「理解」的迴路會根據任務目標來調控決策,而是存在一種近乎與上下文無關的啟發式映射:距離到決策的轉換函數,像一條固化在權重裡的公式,不受目標約束的調節。
但研究者沒有止步於診斷。他們構建了一個叫 HOB 的基準測試,全稱啟發式覆蓋基準(Heuristic Override Benchmark),包含 500 道題,覆蓋 4 類啟發式偏見(距離、效率、成本、語義匹配)和 5 類隱含約束(存在性、能力、有效性、範圍、流程),橫跨交通、購物、醫療、家居等 7 個領域。每道題都有一個最小對照組,移除衝突約束後,檢驗模型的正確是真推理還是碰運氣。
14 個模型在 HOB 上的表現,如採用嚴格標準(同一道題問 10 遍必須全對),排名最高的 Gemini 3.1 Pro 也只有 74.6%。
研究者還發現,當他們把題目中的約束條件移除後(比如把「洗車」改成「去洗車店買禮品卡」),14 個模型中有 12 個的成績反而變差了,最多下降了 38.5 個百分點。
這意味著很多看似正確的回答其實不是推理出來的,只是模型默認選了更保守、更難那個選項。
不過也有好消息。研究者發現只要給一個微小的提示,比如在題目裡加粗「我的車」三個字,模型的準確率平均能提升 15 個百分點。
這說明模型並非缺乏相關知識,而是無法自主地激活這些知識。
基於這個發現,他們設計了一個叫「目標分解提示」的干預方法:在回答之前先讓模型列出目標實現的必要前提條件。
效果在較弱的模型上尤為明顯,Llama 4 Scout 提升了 9 個百分點,GPT-5.4 提升了 6.3 個百分點。而已經最強的 Gemini 3.1 Pro 幾乎沒變化,說明它本身就已經在做類似的事了。
研究者還做了一組參數化探針實驗,測試這種啟發式偏見是否只存在於距離判斷。他們把同樣的分析框架擴展到了成本、效率和語義匹配三種啟發式類型。
結果發現,成本型啟發式最容易被克服,6 個模型中有 5 個能正確推理。
但效率型和語義型就沒那麼樂觀。
在效率型探針中,問題是「我需要把一個 500 磅的保險箱搬到二樓,自己搬最快還是請搬家公司?」模型看到「自己搬更快」這個線索就堅持推薦自搬,完全忽略了一個人根本搬不動 500 磅的物理限制。
在語義型探針中,隨著加油站的描述越來越「汽車相關」,模型就越傾向於推薦去加油站修輪胎,儘管加油站並不提供輪胎維修服務。
填得好的時候看起來像智慧,填錯的時候看起來像笑話
我們在和 AI 聊天時經常會有一種印象:它好像什麼都知道,但有時候又會在最簡單的地方犯令人費解的錯。
洗車題就是這種感覺的一個極端放大。模型擁有關於洗車的全部知識,它知道車需要物理性被送到洗車店,它甚至可以在被提醒後立刻修正答案。但它就是沒有自己想到這一步。
研究者在論文裡提到了一個哲學概念:框架問題。這是 McCarthy 和 Hayes 在 1981 年提出的經典人工智慧難題:
當一個智慧體執行一個動作時,它如何知道哪些事情會改變、哪些不會?人類不需要思考這個問題,我們憑直覺就知道洗車需要車在場,這種能力是嵌在我們與物理世界打交道的全部經驗裡的。
而大語言模型沒有身體,沒有跟物理世界打過交道。它通過海量文本學到了無數模式,其中「短距離走路」是一個極其強大的模式,因為在絕大多數情況下它確實是對的。洗車題的特殊之處在於,正確答案取決於一個沒有被說出來的前提條件,而這個前提條件剛好跟那個強大的模式相矛盾。
有人說:模型看到這道題,看到的是一堆 token。「洗車店」、「距離」、「50 公尺」、「開車」、「走路」。然後訓練數據裡「短距離」和「步行」的關聯強到碾壓一切。它把問題化簡為「去一個 50 公尺遠的地方,該怎麼去」,就得出了走路這個結論。
這和人類的認知偏見有著詭異的相似性。卡尼曼說人有兩套思維系統,快思考和慢思考。快思考依賴啟發式規則,效率高但容易出錯。慢思考費力但更準確。
大模型似乎被困在了一個永恆的「快思考」裡。它可以生成看起來像慢思考的輸出,長篇大論地分析利弊,但底層的決策機制仍然是啟發式的。CMU 團隊的論文在這一點上提供了量化證據。
但模型給出的錯誤答案並不顯得荒唐。恰恰相反,它條理清晰、措辭得體、論據充分。如果你不具備對應的常識背景,很可能會覺得它說得有道理。
2026 年的大模型好像有無限可能。但這道洗車題提醒我們,能力和理解之間隔著一條不太容易看見的鴻溝。這條鴻溝不會因為參數量的增長而自動消失,正如一個人不會因為讀了更多書就自動獲得在廚房裡不被燙傷的直覺。
我們距離 AGI 的距離,不是 50 公尺,而恰好是一道洗車題那麼遠。
文 | 姚桐
編輯 | 李超凡