Token級精準控生：3B開源模型擊敗GPT-5.4與Claude

Token是現代自迴歸模型的基本運算單元，每一個都代表著前向傳播、KV快取占用、延遲累積與能耗。隨著長鏈推理（long-CoT）與智能體工作流程（agentic workflow）的興起，生成長度直接牽動兩件事：它是推理成本的核心變數，也影響推理品質——更多Token帶來更多思考空間，過多則造成浪費。

現有的長度控制方法都太過粗糙：訓練時加入序列級懲罰，模型生成途中對「還剩多少」毫無感知；提示指令本質上是「祈求」模型遵守，沒有任何硬性約束；預解碼長度預測器只做一次性判斷，之後無法動態調整。它們的共同局限是：都在序列層面操作，而解碼本身是逐Token發生的——現有框架從未在這個粒度上建模剩餘長度。

更深層來看，價值函數（value function）在強化學習中早已被證明是對「未來回報」建模的強大工具，然而長度從未被當作一個值函數量來看待——既沒有配套的訓練範式，也沒有經過驗證的規模化路徑。

技術架構圖

來自UC Santa Barbara和Apple等機構的研究團隊提出了長度價值模型（LenVM），同時回答了兩個問題：

① 如何進行Token級長度建模？

將生成長度建模轉化為強化學習中的價值估計問題：對每個生成的Token分配固定負獎勵，折扣累加得到「剩餘生成長度」的有界單調代理訊號。這樣，模型在每一個解碼步都擁有一個明確的「還剩多遠」的量化估計。

② 如何做到可擴展的價值預訓練（scalable value pretraining）？

這一構造天然帶來四個對大規模預訓練極為友善的性質：無需標註（annotation-free），訊號密集（dense），無偏（unbiased），可擴展（scalable）。

這意味著LenVM的訓練本質上是一種自監督過程——無需任何額外的人工標註或獎勵模型，像預訓練語言模型一樣，只需「餵資料」就能持續變強。

核心概念圖

論文：https://arxiv.org/abs/2604.27039

程式碼：https://github.com/eric-ai-lab/Length-Value-Model

專案主頁：https://length-value-model.github.io/

展示頁面：https://length-value-model.github.io/demo/index.html

技術方案詳解

核心思想：把剩餘長度變成一個值函數

LenVM的核心思路簡潔而優雅：把生成長度當成一種成本。給每個Token分配固定的負獎勵，剩餘長度就自然成為一個值函數預測問題。

具體地，對每個非終止解碼步t，分配固定負獎勵：

對應的折扣回報為：

其中L是序列總長度，γ∈(0,1) 是折扣因子。這個回報具有三個關鍵性質：

有界：無論序列多長，目標值始終在固定範圍內
單調：越接近終止，越靠近0；剩餘越多，越靠近-1。值的大小直接編碼還要走多遠
Bellman 一致：滿足完全契合標準值函數框架

由此定義的Token級TD殘差，直接度量了當前Token如何改變對剩餘生成長度的預期——這是一個此前從未存在過的訊號。

為什麼不直接預測原始Token數？

生成長度從幾個Token到32k不等，動態範圍極大，難以直接迴歸。折扣回報變換將高度可變的原始長度映射到固定範圍(-1, 0)，同時保持嚴格單調，折扣因子γ是解析度的調節旋鈕：較大的γ在生成早期解析度更高，較小的γ在接近終止時更精細。

可擴展的價值預訓練：免標註、三軸規模化

這是 LenVM 區別於所有現有長度控制方法的核心優勢，也是這項工作最值得關注的地方。

傳統價值模型的規模上限由標註成本和品質鎖死。LenVM完全繞開了這些瓶頸。訓練目標由 Token 級均方誤差構成：

這是在序列的每一個 Token 位置用該位置實際觀測到的折扣剩餘長度做蒙地卡羅迴歸。監督訊號完全由取樣的完成自動生成，具備四個關鍵性質：

四個關鍵性質

實驗驗證了LenVM沿三個軸同步規模化：

模型規模（0.5B → 32B）：更大的模型始終帶來更低的驗證損失
訓練提示數（10k → 100k）：更廣泛的資料覆蓋持續改善長度建模品質
每提示取樣數（n=1 → n=16）：更多完成軌跡帶來更強的監督

三個軸全部單調下降，說明 LenVM 作為價值預訓練目標是良定義的（well-posed）：不存在資料飽和，投入越多資源，長度建模能力越強。

規模化趨勢圖

三種推理時應用與實驗結果

LenVM 學到的 Token 級長度訊號有多好？作者團隊透過三種推理階段的應用來驗證，所有應用均不修改基礎生成模型。

應用一：精確長度控制

在每個解碼步，LenVM對候選Token逐一預測下一狀態的值，據此選擇Token：Equal To選預測值最接近目標折扣回報的Token；At Most選值最大（接近 0）的Token引導早終止；At Least選值最小（接近 -1）的Token引導延續生成。這是真正的Token級硬約束，而非粗粒度的「祈求」。

在 LIFEBench 基準（問答、摘要、推理、創意寫作，中英文各 180 條）上，Qwen2.5-3B + LenVM（1.5B）的長度得分從25.6躍升至62.6，長度偏差從83%降至56%，大幅領先GPT-5.4（37.4）、Claude-Opus-4-6（35.5）、Gemini-3.1-Pro（49.3）等所有閉源模型；Qwen2.5-7B + LenVM更進一步，得分達到64.8，偏差僅44%。

閉源模型再強，基於提示的粗粒度控制也有天然上限——LenVM提供的是每一步解碼都在生效的精確約束。

LIFEBench評分比較圖

應用二：效能-效率連續權衡

透過指數傾斜（exponential tilting），LenVM對基礎模型的Token分布進行軟性重加權：

時，預期續寫更短的Token獲得更高機率；退化为原始模型。這是一個連續旋鈕，平滑地在推理品質和Token消耗之間權衡。

在GSM8K上，Token預算200時：硬截斷基線Pass@1 ≈ 6%，LenVM引導解碼Pass@1 ≈ 63%，相差10倍。這個結果揭示了一個重要事實：基礎模型本身就具備用更短路徑解題的能力，只是通常選不到這些路徑——LenVM通過精細重加權把它們「挖」了出來。在 MATH500 和 MathVista（視覺數學推理）上，LenVM同樣全程優於硬截斷基線，隨β平滑描繪出帕累托前沿。

效能權衡圖

應用三：生成長度預測

LenVM能從提示邊界（第一個回應Token生成前）就預測總生成長度，對推理系統的批次處理分組、KV 快取預分配、請求優先級排序有直接價值——而這些資訊目前只能在解碼完成後才能獲得。32B 模型在數學域的平均相對誤差（MRE）已低至9.8%，程式碼域 14.9%，指令跟隨域 17.1%，且隨模型規模一致改善。

預測誤差圖

額外收穫：哪些Token在「延長」或「收束」推理？

LenVM的Token級TD殘差還提供了一個此前不存在的觀察視角

延長推理的Token如 wait、but、ah、think、consider，往往對應推理轉折與反思，其中 ah 頻繁出現在「Ah! I see the mistake」這類頓悟時刻（Aha Moment）；

收束推理的Token如 therefore、clearly、perfect 及 ✅ 🎉 等收尾標記，對應答案確認與生成終止。LenVM不只是一個控制訊號，也是觀察模型如何推理的一扇新視窗。

Token分析圖

總結

LenVM的貢獻可以從兩個層面來理解。

對長度建模：它將控制粒度從序列級推進到Token級，讓每一步解碼都有明確的「剩餘長度感知」。這打破了現有所有方法的共同天花板——無論是提示控制、訓練懲罰還是預解碼預測器，都無法提供逐Token的動態約束訊號。3B開源模型在精確長度控制上擊敗GPT-5.4和Claude-Opus-4-6，不是「調了個好提示」，而是因為它第一次真正擁有了Token級的長度訊號。

對規模化：長度作為值函數，其訓練目標天然免標註、訊號密集、三軸可擴展，規模化規律與語言模型預訓練高度一致。這證明了生成長度是可擴展價值預訓練的一個新維度——不需要額外標註，只需要更多計算和更多資料，長度建模能力就能持續提升。

同時，LenVM也為未來RL訓練提供了一個長度專屬的價值基線：可以在PPO中作為密集優勢訊號，或通過勢函數獎勵整形在不改變任務目標的前提下改善信用分配。

生成長度不應該只是事後統計出來的數字。它應該是模型在每一步解碼時都能感知、都在權衡的訊號——就像模型感知語義和語法一樣。LenVM讓這件事第一次成為可能。

參考資料：

https://arxiv.org/abs/2604.27039

Token級精準控生：3B開源模型擊敗GPT-5.4與Claude

相關文章推薦

分享網址