來源 | 量子位

作者 | 聞樂

原來 AI 也在湊字數。

大型語言模型的思維鏈越長，推理能力就越強嗎？Google 說不——

token 數量與推理品質之間，其實並沒有正向關聯，因為 token 與 token 之間並不相同，有些純粹是在湊數，只有深度思考 token才真正有用。

這項新研究拋棄了「字數論」，提出了衡量模型推理品質的全新標準DTR，專門用來辨識模型是在真正思考還是在敷衍了事。

基於 DTR，研究團隊進一步提出了Think@n 策略，讓 GPT-OSS、DeepSeek-R1 等推理模型在維持準確率不墜的前提下，將運算成本直接砍半。

長邏輯不等於好推理

長期以來，一個普遍的觀點認為思維鏈越長越好。

這種思路的邏輯很直接：推理步驟越多＝思考越充分＝答案越準確。

因此，不少研發者為了追求更長的推理軌跡，開始大量堆疊運算資源。

Google 的研究團隊在 AIME 2024/2025、HMMT 2025、GPQA-Diamond 四個數據集上，測試了包含 GPT-OSS、DeepSeek-R1、Qwen3 等在內的 8 個模型變體；

結果發現，token 長度與準確率的平均相關係數竟然是 -0.54……呈現負相關。

這意味著，在某些情況下，思維鏈越長，推理反而越容易偏離正軌，甚至陷入邏輯死循環或過度推理的困境。

那麼問題來了：如果長度不可靠，那該如何才能判斷模型是否真的在思考？

Google 這次的視角相當有趣，他們不只看表面輸出，而是直接監聽模型每一層的「內心戲」。

研究發現，模型生成的 token 其實可以分為兩類：

團隊使用 JSD（Jensen-Shannon Divergence）來衡量各層預測分佈的差異，如果一個 token 的預測直到深層網路才穩定下來，就會被判定為深度思考詞。

在此基礎上，他們提出了Deep Thinking Ratio（DTR），即深度思考詞在完整生成序列中所佔的比例。

這個比例越高，代表模型越能聚焦於核心推理，沒有在多餘的無意義內容上浪費運算資源。

真・深度思考達成降本增效

在四個推理測試集中，DTR 與推理準確率的相關係數高達 0.82。

相較於 token 長度的 -0.54，DTR 更能真實反映推理品質。

Google 更基於 DTR 順勢推出了 Think@n 策略，能在推理初期就識別出低品質的廢話，將運算資源集中於真正具有深度的樣本上。

具體做法是為每個問題採樣多個推理樣本，僅透過前 50 個 token 的短字首快速估算 DTR 值，篩選出前 50% 的高品質樣本，再進行多數投票得出答案；

如此一來，低 DTR 的低品質樣本在推理初期就會被終止生成，直接削減了無意義的 token 消耗。

在多款主流模型的測試中，Think@n 的推理準確率與傳統策略持平甚至略高。

例如 GPT-OSS-120B-medium 在 AIME 2025 數據集上的準確率達 94.7%，高於傳統策略的 92.7%；

同時更將運算成本直接削減近一半，推理 token 消耗量從 355.6k 降至 181.9k，真正做到了效能不降、成本減半。

這項研究的第一作者 Wei-Lin Chen 是維吉尼亞大學電腦科學博士，專注於大型語言模型推理衡量及評估者有效性等研究方向，曾任職於 Google 擔任學生研究員。

共同第一作者 Liqian Peng 為中國科技大學校友，現於 Google 擔任研究工程師。

指導教授孟瑜是維吉尼亞大學電腦科學助理教授，研究方向涵蓋訓練範式、資料與推理效率及表徵基礎等面向，此前也曾與 NLP 領域頂尖學者陳丹琦有过合作。

看來大型語言模型的推理也不能再靠湊字數了，唯有真正的深度思考才能達成降本增效。