來源 | 量子位
作者 | 聞樂
原來 AI 也在湊字數。
大型語言模型的思維鏈越長,推理能力就越強嗎?Google 說不——
token 數量與推理品質之間,其實並沒有正向關聯,因為 token 與 token 之間並不相同,有些純粹是在湊數,只有深度思考 token才真正有用。
這項新研究拋棄了「字數論」,提出了衡量模型推理品質的全新標準DTR,專門用來辨識模型是在真正思考還是在敷衍了事。
基於 DTR,研究團隊進一步提出了Think@n 策略,讓 GPT-OSS、DeepSeek-R1 等推理模型在維持準確率不墜的前提下,將運算成本直接砍半。
長邏輯不等於好推理
長期以來,一個普遍的觀點認為思維鏈越長越好。
這種思路的邏輯很直接:推理步驟越多=思考越充分=答案越準確。
因此,不少研發者為了追求更長的推理軌跡,開始大量堆疊運算資源。
Google 的研究團隊在 AIME 2024/2025、HMMT 2025、GPQA-Diamond 四個數據集上,測試了包含 GPT-OSS、DeepSeek-R1、Qwen3 等在內的 8 個模型變體;
結果發現,token 長度與準確率的平均相關係數竟然是 -0.54……呈現負相關。
這意味著,在某些情況下,思維鏈越長,推理反而越容易偏離正軌,甚至陷入邏輯死循環或過度推理的困境。
那麼問題來了:如果長度不可靠,那該如何才能判斷模型是否真的在思考?
Google 這次的視角相當有趣,他們不只看表面輸出,而是直接監聽模型每一層的「內心戲」。
研究發現,模型生成的 token 其實可以分為兩類:
- 功能性詞彙:例如「和」、「是」、「的」這類詞,模型在淺層網路就能快速確定,屬於不需要深度思考的敷衍用詞;
- 深度思考詞:例如「運算結果是 10」、「選項為 A」這類詞,在深層網路中仍會被反覆修正,預測分佈持續變化,體現出模型確實正在琢磨問題。
團隊使用 JSD(Jensen-Shannon Divergence)來衡量各層預測分佈的差異,如果一個 token 的預測直到深層網路才穩定下來,就會被判定為深度思考詞。
在此基礎上,他們提出了Deep Thinking Ratio(DTR),即深度思考詞在完整生成序列中所佔的比例。
這個比例越高,代表模型越能聚焦於核心推理,沒有在多餘的無意義內容上浪費運算資源。
真・深度思考達成降本增效
在四個推理測試集中,DTR 與推理準確率的相關係數高達 0.82。
相較於 token 長度的 -0.54,DTR 更能真實反映推理品質。
Google 更基於 DTR 順勢推出了 Think@n 策略,能在推理初期就識別出低品質的廢話,將運算資源集中於真正具有深度的樣本上。
具體做法是為每個問題採樣多個推理樣本,僅透過前 50 個 token 的短字首快速估算 DTR 值,篩選出前 50% 的高品質樣本,再進行多數投票得出答案;
如此一來,低 DTR 的低品質樣本在推理初期就會被終止生成,直接削減了無意義的 token 消耗。
在多款主流模型的測試中,Think@n 的推理準確率與傳統策略持平甚至略高。
例如 GPT-OSS-120B-medium 在 AIME 2025 數據集上的準確率達 94.7%,高於傳統策略的 92.7%;
同時更將運算成本直接削減近一半,推理 token 消耗量從 355.6k 降至 181.9k,真正做到了效能不降、成本減半。
這項研究的第一作者 Wei-Lin Chen 是維吉尼亞大學電腦科學博士,專注於大型語言模型推理衡量及評估者有效性等研究方向,曾任職於 Google 擔任學生研究員。
共同第一作者 Liqian Peng 為中國科技大學校友,現於 Google 擔任研究工程師。
指導教授孟瑜是維吉尼亞大學電腦科學助理教授,研究方向涵蓋訓練範式、資料與推理效率及表徵基礎等面向,此前也曾與 NLP 領域頂尖學者陳丹琦有过合作。
看來大型語言模型的推理也不能再靠湊字數了,唯有真正的深度思考才能達成降本增效。