Google 新研究找到了大型模型反覆推敲的重要 Token！

❝
一句話概括，別再把「字數多」當成「想得深」了，這篇論文直接鑽進大型模型內部，透過觀察每個 Token 的預測機率在幾十層網路裡經歷了多少次「推翻重來」才最終定稿，硬核地定義了什麼樣才算是一個真正具有「思考含金量」的詞！（原論文題目見文末，點擊閱讀原文可直接跳轉至原文連結， Published on arXiv on 13 Feb 2026, by University of Virginia, Google）

第一階段：識別核心概念

論文的 motivation 分析

目前，測試時運算是大型模型推理能力飛躍的核心引擎。普遍觀點認為，生成更長的思維鏈就能提高準確率。然而，近期的實證研究揭示，單純的 Token 數量（生成長度）是一個不可靠的品質指標。模型輸出超長文本可能並非在進行深刻的邏輯推理，而是在過度思考，例如陷入死迴圈、放大錯誤的直覺或者在無關細節上鑽牛角尖。這導致長度不僅不與準確率正相關，反而經常呈現負相關。業界迫切需要一種原則性的、無需外部標註的方法，來區分有效的深度思考和毫無資訊量的注水廢話。

論文主要貢獻點分析

主要創新點：提出了深度思考率。這是一個純粹基於模型推理時內部動態的量化指標，無需任何人類標註或特定任務的啟發式規則。

關鍵技術方法：追蹤每一個 Token 在模型不同 Transformer 層由淺入深的機率分佈變化。簡單的詞在淺層就已經決定，而複雜的、需要大量運算的詞，其預測分佈會在深層不斷經歷推翻重來，直到最後幾層才穩定下來。這種在深層才最終敲定的詞，被定義為深度思考 Token。

顯著性結果：在 AIME、HMMT、GPQA 等頂級數理基準測試上，DTR 與模型回答的準確率展現出了極強的正相關性（相關係數平均高達 0.828），大幅優於基於長度和基於傳統置信度的基線方法。基於 DTR 提出了 Think@n 推理加速策略，僅需觀察前 50 個詞的 DTR 即可提前拒絕低品質生成，在保持甚至超越標準多數投票的準確率同時，節省了約 50% 的推理算力成本。

理解難點識別

• 理解論文的關鍵概念：大型模型內部的提早退出 / 層間投影機制，以及分佈收斂的定義。

• 最具挑戰性的部分：思維視角的垂直轉換。常規分析只關注模型最終輸出的詞彙（即第 L 層的結果），而該方法要求垂直剖析生成同一個詞的過程中，從第 1 層到第 36 層內部隱藏狀態的演變軌跡。

• 需要重點解釋的核心概念：深層思考 Token 的具體定義及其與模型內部表示隱藏狀態分佈距離的變化關係。

概念依賴關係

隱藏狀態映射為詞彙機率是基礎機制；量化中間層預測和最終預測的差距是距離度量；設定不再改變的界限是收斂閾值；最終統計出的深度思考比例即為 DTR。解釋的最佳切入點是構建一個公司提案層層審批的階層結構場景。

第二階段：深入解釋核心概念

設計生活化比喻

想象一座有 36 層樓的跨國大公司（代表一個有 36 層的 Transformer 大型模型）。公司需要對一份複雜的商業企劃案逐字逐句地做決定。一樓是基層員工，中間層是各級經理，最頂層（第 36 層）是擁有最終決定權的 CEO。針對當前要寫下的這個詞，每一層樓的員工都要基於前文給出一個傾向性預測。

如果是簡單決定，比如問候語中的語氣詞，一樓員工給出的答案遞交到上面每一層，各級領導都直接蓋章同意，不需要複雜的深層腦力勞動。如果是困難決定，比如一道複雜微積分的最終答案，一樓員工可能給出一個錯誤預測，提案到了 10 層主管被修改，到了 20 層總監再次被修改。這份提案在各個樓層被反覆推翻，直到第 33 層的高管才算出正確答案，最後由 CEO 拍板。這種必須由高層領導（深層網路）反覆糾錯才能敲定的決定，就是深度思考。

建立比喻與實際技術的對應關係

• 36 層的公司大樓：對應模型的 Transformer 總層數 (L)。

• 某一層提交的提案：對應模型的中間層隱藏狀態向量 (h_l)。

• 把提案翻譯成具體方案：對應語言模型反嵌入矩陣 (W_U)，負責把高維的隱藏狀態翻譯成詞彙表裡每個詞的機率。

• 高層領導推翻下屬的提案：對應中間層機率分佈與最終層機率分佈存在巨大差異（JS 散度大）。

• 提案最終敲定不再修改：對應分佈收斂（到達收斂深度）。

深入技術細節

技術實作的核心在於量化上述層間的分歧並尋找定稿點。

每一層的分佈預測公式：第 i 個詞在第 l 層的預測分佈 = 將第 l 層提取的隱藏狀態特徵透過反嵌入矩陣轉化為詞彙表機率並歸一化。

衡量層間分歧的公式：第 i 個詞在第 l 層的分歧度 = 計算第 l 層的預測分佈與最後一層預測分佈之間的 Jensen-Shannon 散度。

定位收斂深度的公式：定稿樓層 = 滿足歷史最小分歧度小於規定容忍閾值的最低樓層。這裡使用歷史最小分歧度是為了避免下屬偶爾蒙對但被中層領導改錯的震盪情況。

定義深度思考詞及計算 DTR 的公式：高管專屬樓層集合 = 層數大於等於總層數與深度比例閾值乘積的所有層。如果一個詞的定稿樓屬於這個集合，它就是深度思考 Token。最終的深度思考率 (DTR) 等於整段回答中深度思考詞的數量除以總詞數。

將技術細節與比喻相互映射

提取每層預測對應員工各自做出判斷，計算 JS 散度對應對比基層提案和 CEO 最終方案的差異程度。設定容忍閾值並尋找定稿層，對應著記錄哪一層的方案首次與 CEO 的最終思路達成一致且不再偏離。深度比例閾值則是劃分普通員工與高管的樓層分界線。這個比喻極其直觀地揭示了字數多不代表思考深。一個廢話連篇的回答，如果每一句話都是一樓員工就能決定的口水話，其 DTR 會非常低；而哪怕回答簡短，只要字字珠璣，每個字都要驚動高層反覆推敲，這就是高品質的深度推理。該比喻的局限性在於，實際大型模型的層間並不是嚴格的上下級獨立審批，而是特徵在殘差流中的逐步累加。

總結

DTR 巧妙地利用 Transformer 深度特徵逐步細化的物理結構，透過 JS 散度監控機率分佈的層間收斂過程。它剝離了表面生成的冗長偽裝，直擊大型模型處理每一個 Token 時的內在算力消耗。

第三階段：詳細說明流程步驟

具體流程虛擬碼

1. 擷取內部隱藏狀態：輸入 Prompt 後，干預模型的標準前向傳播過程。在生成第 i 個詞時，提取該時刻模型每一層（從第 1 層到第 L 層）輸出的隱藏狀態殘差向量 h_t^l。

2. 全層機率投影：將獲取到的所有中間隱藏狀態，統一乘以模型最後一層的分類頭權重矩陣（反嵌入矩陣），並透過 Softmax 操作轉化為機率分佈。此步驟輸出在第 i 步時，模型每一層對下一個詞的獨立機率預測分佈 p_t^l，同時得到最後一層的最終分佈 p_t^L。

3. 計算層間散度軌跡：遍歷每一層 l，計算當前層分佈 p_t^l 與最終層分佈 p_t^L 之間的 JS 散度。此步驟輸出一個從淺到深、數值通常逐漸趨近於 0 的分歧度列表。

4. 嚴格確定收斂深度：對上一步的散度列表計算歷史累計最小值序列。遍歷該單調遞減序列，找到第一個使其值小於預設閾值（例如 epsilon）的層數索引。此索引即為該詞的最終收斂深度 l_i。

5. 標記並累計深度思考：判斷收斂深度 l_i 是否大於預設的深度比例界限（如總層數的 85%）。滿足條件則將該時刻記為一個深度思考詞。序列生成結束後，統計全域深度思考詞總數，除以序列總長度，輸出整條回答的 DTR 綜合得分。

6. Think@n 高效測試時擴展執行：在需要並行採樣 N 個候選回答進行多數投票時：

• 對所有 N 個獨立採樣路徑啟動解碼，並在生成滿 50 個詞時強制暫停。

• 使用步驟 1 至 5 的方法，計算這些截斷前綴的 DTR 得分。

• 按 DTR 得分進行降序排列，直接終止並丟棄排名處於後 50% 的候選路徑。

• 恢復排名前 50% 候選路徑的生成過程，直到遇到結束符。

• 收集完成的高品質回答，執行標準的多數投票得出最終輸出。

第四階段：實驗設計與驗證分析

主實驗設計解讀

• 核心論點的驗證：DTR 相比於傳統的長度或置信度指標，能更可靠地反映模型的真實推理品質。

• 資料集選擇：實驗採用了 AIME 2024/2025、HMMT 2025 以及 GPQA-Diamond。這些均為當前領域內公認的極具挑戰性的數理競賽和博士級科學基準。這種選擇合理且必要，因為深度思考現象主要在此類高難度推理任務中顯現。

• 評價指標選擇：採用模型回答準確率與各項評價指標之間的皮爾森相關係數。此指標能直接定量回答指標高是否代表答案正確的問題。

• 基線方法設定：基線包含了長度學派（Token 長度、反向 Token 長度）和機率置信度學派（對數機率、負困惑度、負熵、Self-Certainty）。比較物件不僅經典且包含了當前的 SOTA 方法。

• 主實驗結論：實驗數據顯示，傳統 Token 長度多呈現負相關（字多不代表對），置信度指標表現極不穩定。而 DTR 在所有模型和資料集上均呈現穩定的強正相關（平均係數 0.683）。這直接有力地支撐了透過內部狀態衡量推理品質的核心貢獻。

消融實驗分析

• Think@n 聚合策略的必要性：作者對比了生成全部候選再投票與提前淘汰劣質候選的 Think@n 策略。

• 定量的優勢證明：相比於基於長度進行早停的 Short@n/Long@n，或基於置信度篩選的 Self-Certainty@n，Think@n 不僅準確率遠超其他篩選策略，甚至匹配了無刪減全量生成的準確率。以降低約 50% 運算成本的代價維持頂級性能，直接證明了基於 DTR 進行候選截斷的獨特有效性。

深度/創新性實驗剖析

• 超參數敏感度熱力分析：旨在驗證 DTR 指標不是依賴特定參數的巧合。作者透過掃參圖表展示了不同的收斂閾值和深層比例組合下，DTR 與準確率始終保持穩健的正斜率。這證明方法具有極強的魯棒性，反映了 Transformer 固有的架構特性。

• 距離度量消融實驗：旨在解釋選擇 JS 散度的必要性。作者用 KL 散度和餘弦相似度替換了公式中的 JSD。實驗暴露出 KL 散度在早期高熵分佈下數值極不穩定的致命缺陷，反向論證了 JSD 憑藉對稱性和有界性成為 DTR 度量最佳選擇的理論假設。

• 高推理級別模型的反直覺剖析：當系統強制要求模型執行高強度思考時，DTR 出現了總體數值下降的反常現象。這揭示了一個深層機理：強制的冗長思維鏈使得模型將單步需要解決的複雜計算，平攤到了長序列的多個步驟中。這個深刻的發現為業界理解測試時運算規模法則提供了全新的微觀視角。

• 案例對比論證：論文對比了同一個複雜問題的兩個生成結果。錯誤的回答堆砌了 27724 個詞，充斥著毫無目的的方程推導，其 DTR 僅為 13.9%；正確的回答極為精極為精煉，僅用 3725 個詞切中肯繫，DTR 高達 19.0%。該案例直觀地揭示了長篇大論可能只是一種運算注水，印證了深思優於長考的核心思想。

本文題目：Think Deep, Not Just Long: Measuring LLM Reasoning Effort via Deep-Thinking Tokens

歡迎 Deep Learning 同好與我交流、討論、合作！

Google 新研究找到了大型模型反覆推敲的重要 Token！

相關文章推薦

分享網址