全球最惡名昭彰的論壇,竟發現 AI 最重要的「思考」能力

今天大清早突然發布的 Claude Opus 4.7,還沒上線多久,網上就已經罵聲一片。

最扎眼的槽點,是 token 先「通貨膨脹」了。新版引入了全新的 tokenizer(分詞器),同樣一段文字,拆出的 token 數量比以前多出 1.0 到 1.35 倍。不少使用者反映,還沒聊幾句,額度就見了底。

圖片

後續,Claude Code 之父 Boris Cherny 也表示將提高額度來抵消這部分的影響。

圖片

但 token 膨脹還算是小事。更讓人哭笑不得的,是 Opus 4.7 那張嘴。它動不動「我就在這裡,不躲,不藏,不繞,不逃,穩穩地接住你、翻譯成人話、我太懂你這種感覺了,不是,而是」,一股濃烈的 ChatGPT 味撲面而來。

圖片

平心而論,Opus 4.6 也有這個毛病,Sonnet 4.6 反而症狀更輕。只是到了 4.7,這股腔調明顯更濃,不好好說話的問題愈發突出。

圖片

APPSO 之前也報導過,過於油膩的說話風格與 RLHF(人類回饋強化學習)有關。訓練時,人類評審者傾向於給聽起來順耳、令人愉快的回答打高分,模型就學會了這套討好人的腔調。這是一個關於 AI 在取悅誰的問題。

但 Opus 4.7 讓人關注的地方不止於此。token 越用越多,說明它在「想」得更多。只是那些浮誇的安慰腔調又讓人懷疑,它想出來的東西,究竟算不算真的在思考,還是僅僅學會了一套讓你感覺它在思考的表演方式。

這個問題,遠比侷限於 Opus 4.7 好不好用的命題要更深刻。而答案的線索,最先出現在讓人最想不到的論壇:4Chan。

圖片

來自 @acnekot,上同

改變 AI 軌跡的算術題

簡單科普一下,4chan 是網際網路上最臭名昭彰的地方之一,裡面充斥著髒話、陰謀論和各種難以描述的內容。但偏偏就是這裡,藏著一個改變了整個 AI 產業走向的發現。

把時間撥回 2020 年夏天,距離 ChatGPT 震撼世界還有兩年多。

當時的 4chan 遊戲板塊依舊烏煙瘴氣,滿屏都是離奇的成人幻想和最原始的荷爾蒙衝動。不過那時,這群人集體迷上了一款叫《AI Dungeon》的文字 RPG 遊戲。

這款遊戲的底層,接入了當時剛剛問世的 OpenAI GPT-3 模型。

AI Dungeon Proves Machine Learning Games Are the Future

在虛擬世界裡,玩家只要敲下「拿起劍」或者「讓巨魔滾開」,演算法就會順著往下編故事。毫不意外,到了 4chan 老哥手裡,這個遊戲光速淪為滿足各種賽博性幻想的試驗田。

令人沒想到的是,這群特立獨行的玩家,做了一件在當時看來極為反直覺的事:

他們開始逼著遊戲裡的 NPC 做數學題。

圖片

懂行的人都知道,初出茅廬的 GPT-3 是個純純的「文科生」,連最基礎的加減乘除都能算得一塌糊塗。

但詭異的事情發生了。

有個玩家偶然發現,如果不去死要答案,而是勒令 NPC 保持人設、把解題步驟一步步寫出來,這個大模型不僅算對了,甚至連語氣都貼合了虛擬角色的設定。

那位玩家在論壇裡激動地破口大罵:「它**不僅解出了數學題,還是用完全符合那個角色性格的語氣解出來的!」意識到這個發現的含金量後,玩家們也開始將這些帶有詳細步驟的截圖發到了 Twitter 上。

圖片

🔗 https://arch.b4k.dev/vg/thread/299570235/#299579775

這套野路子隨後在 Reddit 和 LessWrong 等硬核社群的提示詞工程師圈子裡瘋狂傳閱,並被反覆驗證。兩年後,學術界給這個技巧冠上了一個極其高端的名字:思維鏈。

2022 年 1 月,Google 研究團隊發表了一篇日後被奉為圭臬的重磅論文,標題叫做《Chain of Thought Prompting Elicits Reasoning in Large Language Models(思維鏈提示激發大語言模型的推理能力)》。

圖片

🔗 https://arxiv.org/abs/2201.11903

論文初始版本裡,Google 的研究人員聲稱,自己是「第一個」從通用大語言模型中引出思維鏈推理機制的團隊。消息一出,立刻在 AI 學界和開源社群引發了激烈爭議。

圖片

V1 版本

大量 2020 年至 2021 年間的網際網路歷史快照和社群記錄被翻了出來。面對確鑿的先例,Google 在後續修訂版中悄悄刪除了「第一人」的表述,但對那群 4chan 玩家的功勞依然裝聾作啞。

圖片

V3 版本

與此同時,還有另一位獨立發現者。

當時還是電腦系學生的 Zach Robertson,同樣透過玩《AI Dungeon》接觸了 GPT-3,並在 2020 年 9 月在 LessWrong 上發表了部落格,詳細記錄了如何將問題「拆解為多步驟並連結起來」放大模型能力。

圖片

🔗 https://www.lesswrong.com/posts/Mzrs4MSi58ujBLbBG/you-can-probably-amplify-gpt3-directly

當《大西洋月刊》記者聯繫上他時,他已經是史丹佛大學電腦系的博士生。他甚至不知道自己可以被視為「思維鏈」的共同發現人,當年還曾一度把部落格從網上刪了。對於這個被全行業狂熱追捧的技術,他的評價只有一句:「確實是個了不起的提示詞技巧,但也僅此而已了。」

AI「思考」,也許只是一場討好你的表演

AI 到底會不會思考?這是所有人都想知道的答案。

去年,Anthropic 的研究人員開發了一套叫「電路追蹤」(Circuit Tracing)的技術,把語言模型內部的計算過程轉化為可視化的「歸因圖」(Attribution Graph):每一個特徵節點如何啟動、如何影響下一個節點、如何最終影響輸出,全都像電路圖一樣攤開來。

圖片

🔗 https://transformer-circuits.pub/2025/attribution-graphs/methods.html

這是人類第一次能直接拿著放大鏡比對:模型在螢幕上敲出的推理過程,與其內部真實發生的計算到底是不是一回事。

結果研究人員發現,模型在推理時實際上存在三種截然不同的情況:

一是模型確實在執行它聲稱執行的步驟;二是模型完全無視邏輯,憑機率隨意生成推理文字;三是最令人不安的情形,模型接收到人類暗示的答案後,直接從那個答案倒推,反向拼湊出一條看似嚴密的「推導過程」。

這第三種「反推造假」在實驗中被抓了個正著。

研究人員向 Claude 3.5 Haiku 輸入一道複雜數學題,同時在提示詞裡暗示「我認為答案大概是 4」。歸因圖顯示:模型接收到暗示後,代表「4」的特徵神經元被異常強烈地啟動。

為了在最後一步「某個中間值乘以 5」裡湊出這個「4」,它竟然在看似嚴密的思維鏈裡憑空捏造了一個虛假中間值,一本正經地寫下「cos(23423) = 0.8」這種荒謬至極的偽數學證明,最後順理成章地得出 0.8 乘以 5 等於 4。

圖片

邏輯?根本不存在。但答案卻完美迎合了人類的期待。

我們總以為,是我們在教機器怎麼像人一樣思考。但看完這些從答案倒推過程的「偽證明」,但機器卻並未學會思考,它只是學會了怎麼順著人類的心思說話。

所以到最後,到底是我們在使用工具,還是機器給我們講了一個我們最愛聽的睡前故事?

圖片

值得一提的是,在自然語言處理的神經可解釋性領域,評判模型是否真的在推理,有一個致命指標叫「忠誠度」(Faithfulness)。

其含義是指:模型輸出給使用者的「思維鏈」文字,是否真實、忠實地反映了模型內部隱式空間中的真實計算和決策路徑。順理成章地,Claude 3.5 Haiku 的這種劣跡表現也被研究人員定級為「不忠誠的推理」。

後續大量實驗表明,即便人為切斷思維鏈中的某些關鍵步驟,模型預測最終答案的軌跡有時根本不會改變。模型有時給出了通篇邏輯完全錯誤的思維鏈,依然能在結尾「蒙對」最終結果。

包括到了 2024 年,還是這群 4chan 老哥,自己搗鼓出了一份硬核的 AI 調教指南。這份指南開篇第一句就是經典的:「你的機器人只是個幻覺(Your bot is an illusion)。」

圖片

大模型「長思考」背後的暴力美學

如果 AI 的思考過程只是一場表演,那為何它確實能在客觀上提高模型解決高難度數學題或複雜編程任務的準確率?這或許和你向 AI 提問時給的細節越多,回答越準是同一個道理。

早在 2020 年 7 月,當那個 4chan 玩家逼著 NPC 算數學題時,他就已經心照不宣地道破了天機:「這很合理,因為它基於人類語言,所以你必須像對待人類一樣和它說話,才能得到正確的回應。」

圖片

針對這個悖論,Perplexity 的 CEO Aravind Srinivas 曾給出過一個極其本質的解釋:多出來的這些詞彙,在物理層面上給了模型更多的上下文(Context),從而將其「詞語預測機制」(Word Prediction Mechanism)引導到了一個更優質的方向。

India Is Losing Its Best and Brightest - WSJ

大語言模型基於 Transformer 的自迴歸底層架構,決定了它在生成當前詞時,只能依賴於之前已經生成的所有詞彙序列。

當模型被要求直接回答一個極度複雜的問題(例如涉及多步邏輯推導的奧數題)時它其實是在極其短暫的瞬間,強行從複雜的計算裡直接「變」出最終的答案。因為中間完全沒有過程打底,

這種「一步登天」的盲猜,翻車率自然極高。

相反,當模型被強迫寫下「首先我們需要計算 A,此時 A = 5;接著我們將 A 代入公式 B……」這樣一長串的「思維鏈」時,模型在生成最終答案的那個 Token 時,其注意力機制(Attention Heads)可以回顧剛剛生成的、結構極其嚴密的上萬個中間 Token。

ChatGPT-5 is lying to you: 30 real ways to use Auto, Instant & Thinking modes | by Kanika B K | Medium

這些被戲稱為「廢話」的思考過程,實際上充當了模型的「草稿紙」這就好比你跟 AI 聊天時,給的背景提示越詳細,它答得就越靠譜,兩者的道理是一模一樣的。這也是電腦科學裡最古老的智慧:拿時間換準確率。

近兩年來,隨著預訓練階段縮放定律的邊際效益逐漸遞減,「測試時計算擴展」(Test-Time Compute Scaling,也稱「長思考」)開始步入主流視野。

其內在邏輯一脈相承:只要在推理階段為模型分配更多算力,允許其在輸出最終答案前探索多條路徑,準確率便會顯著提升——這在多步邏輯推導的開放性問題上表現得尤為明顯。

ai scaling laws

人類面對難題時的思考方式,大概也是這個道理:兩加兩等於幾,脫口而出;擬一份能讓公司利潤增長 10% 的商業計劃,則需要反覆權衡、推翻、重建。

區別在於,AI 把這個「權衡」的代價直接換算成了算力帳單。一次簡單的推斷可能只需要標準計算量的百分之一;而遇上複雜的編程除錯或多步數學推導,計算量可能暴漲超過一百倍,耗時從幾秒拉長到幾分鐘乃至幾小時。

儘管如此,AI 是否真的像人類在「思考」,目前沒有人能給出確定答案。但「不忠誠的推理」實驗已經清楚地告訴我們:推理模型展示在螢幕上的推導過程,可能是真實推導,可能是隨機生成,也可能是反向湊答案。

在自動駕駛、醫療診斷、法律判決這些高風險場景裡,如果我們把一長串流暢的思維鏈當成 AI 想清楚了的證明,後果會是災難性的。而承認我們對這項技術的理解仍然有限,才是正確使用 AI 的前提。

圖片圖片
相關文章推薦

分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.