Token是現代自迴歸模型的基本運算單元,每一個都代表著前向傳播、KV快取占用、延遲累積與能耗。隨著長鏈推理(long-CoT)與智能體工作流程(agentic workflow)的興起,生成長度直接牽動兩件事:它是推理成本的核心變數,也影響推理品質——更多Token帶來更多思考空間,過多則造成浪費。
現有的長度控制方法都太過粗糙:訓練時加入序列級懲罰,模型生成途中對「還剩多少」毫無感知;提示指令本質上是「祈求」模型遵守,沒有任何硬性約束;預解碼長度預測器只做一次性判斷,之後無法動態調整。它們的共同局限是:都在序列層面操作,而解碼本身是逐Token發生的——現有框架從未在這個粒度上建模剩餘長度。
更深層來看,價值函數(value function)在強化學習中早已被證明是對「未來回報」建模的強大工具,然而長度從未被當作一個值函數量來看待——既沒有配套的訓練範式,也沒有經過驗證的規模化路徑。
來自UC Santa Barbara和Apple等機構的研究團隊提出了長度價值模型(LenVM),同時回答了兩個問題:
① 如何進行Token級長度建模?
將生成長度建模轉化為強化學習中的價值估計問題:對每個生成的Token分配固定負獎勵,折扣累加得到「剩餘生成長度」的有界單調代理訊號。這樣,模型在每一個解碼步都擁有一個明確的「還剩多遠」的量化估計。
② 如何做到可擴展的價值預訓練(scalable value pretraining)?
這一構造天然帶來四個對大規模預訓練極為友善的性質:無需標註(annotation-free),訊號密集(dense),無偏(unbiased),可擴展(scalable)。
這意味著LenVM的訓練本質上是一種自監督過程——無需任何額外的人工標註或獎勵模型,像預訓練語言模型一樣,只需「餵資料」就能持續變強。
論文:https://arxiv.org/abs/2604.27039
程式碼:https://github.com/eric-ai-lab/Length-Value-Model
專案主頁:https://length-value-model.github.io/
展示頁面:https://length-value-model.github.io/demo/index.html
技術方案詳解
核心思想:把剩餘長度變成一個值函數
LenVM的核心思路簡潔而優雅:把生成長度當成一種成本。給每個Token分配固定的負獎勵,剩餘長度就自然成為一個值函數預測問題。
具體地,對每個非終止解碼步t,分配固定負獎勵:
對應的折扣回報為:
其中L是序列總長度,γ∈(0,1) 是折扣因子。這個回報具有三個關鍵性質:
- 有界:無論序列多長,目標值始終在固定範圍內
- 單調:越接近終止,越靠近0;剩餘越多,越靠近-1。值的大小直接編碼還要走多遠
- Bellman 一致:滿足完全契合標準值函數框架
由此定義的Token級TD殘差,直接度量了當前Token如何改變對剩餘生成長度的預期——這是一個此前從未存在過的訊號。
為什麼不直接預測原始Token數?
生成長度從幾個Token到32k不等,動態範圍極大,難以直接迴歸。折扣回報變換將高度可變的原始長度映射到固定範圍(-1, 0),同時保持嚴格單調,折扣因子γ是解析度的調節旋鈕:較大的γ在生成早期解析度更高,較小的γ在接近終止時更精細。
可擴展的價值預訓練:免標註、三軸規模化
這是 LenVM 區別於所有現有長度控制方法的核心優勢,也是這項工作最值得關注的地方。
傳統價值模型的規模上限由標註成本和品質鎖死。LenVM完全繞開了這些瓶頸。訓練目標由 Token 級均方誤差構成:
這是在序列的每一個 Token 位置用該位置實際觀測到的折扣剩餘長度做蒙地卡羅迴歸。監督訊號完全由取樣的完成自動生成,具備四個關鍵性質:
實驗驗證了LenVM沿三個軸同步規模化:
- 模型規模(0.5B → 32B):更大的模型始終帶來更低的驗證損失
- 訓練提示數(10k → 100k):更廣泛的資料覆蓋持續改善長度建模品質
- 每提示取樣數(n=1 → n=16):更多完成軌跡帶來更強的監督
三個軸全部單調下降,說明 LenVM 作為價值預訓練目標是良定義的(well-posed):不存在資料飽和,投入越多資源,長度建模能力越強。
三種推理時應用與實驗結果
LenVM 學到的 Token 級長度訊號有多好?作者團隊透過三種推理階段的應用來驗證,所有應用均不修改基礎生成模型。
應用一:精確長度控制
在每個解碼步,LenVM對候選Token逐一預測下一狀態的值,據此選擇Token:Equal To選預測值最接近目標折扣回報的Token;At Most選值最大(接近 0)的Token引導早終止;At Least選值最小(接近 -1)的Token引導延續生成。這是真正的Token級硬約束,而非粗粒度的「祈求」。
在 LIFEBench 基準(問答、摘要、推理、創意寫作,中英文各 180 條)上,Qwen2.5-3B + LenVM(1.5B)的長度得分從25.6躍升至62.6,長度偏差從83%降至56%,大幅領先GPT-5.4(37.4)、Claude-Opus-4-6(35.5)、Gemini-3.1-Pro(49.3)等所有閉源模型;Qwen2.5-7B + LenVM更進一步,得分達到64.8,偏差僅44%。
閉源模型再強,基於提示的粗粒度控制也有天然上限——LenVM提供的是每一步解碼都在生效的精確約束。
應用二:效能-效率連續權衡
透過指數傾斜(exponential tilting),LenVM對基礎模型的Token分布進行軟性重加權:
時,預期續寫更短的Token獲得更高機率;退化为原始模型。這是一個連續旋鈕,平滑地在推理品質和Token消耗之間權衡。
在GSM8K上,Token預算200時:硬截斷基線Pass@1 ≈ 6%,LenVM引導解碼Pass@1 ≈ 63%,相差10倍。這個結果揭示了一個重要事實:基礎模型本身就具備用更短路徑解題的能力,只是通常選不到這些路徑——LenVM通過精細重加權把它們「挖」了出來。在 MATH500 和 MathVista(視覺數學推理)上,LenVM同樣全程優於硬截斷基線,隨β平滑描繪出帕累托前沿。
應用三:生成長度預測
LenVM能從提示邊界(第一個回應Token生成前)就預測總生成長度,對推理系統的批次處理分組、KV 快取預分配、請求優先級排序有直接價值——而這些資訊目前只能在解碼完成後才能獲得。32B 模型在數學域的平均相對誤差(MRE)已低至9.8%,程式碼域 14.9%,指令跟隨域 17.1%,且隨模型規模一致改善。
額外收穫:哪些Token在「延長」或「收束」推理?
LenVM的Token級TD殘差還提供了一個此前不存在的觀察視角
延長推理的Token如 wait、but、ah、think、consider,往往對應推理轉折與反思,其中 ah 頻繁出現在「Ah! I see the mistake」這類頓悟時刻(Aha Moment);
收束推理的Token如 therefore、clearly、perfect 及 ✅ 🎉 等收尾標記,對應答案確認與生成終止。LenVM不只是一個控制訊號,也是觀察模型如何推理的一扇新視窗。
總結
LenVM的貢獻可以從兩個層面來理解。
對長度建模:它將控制粒度從序列級推進到Token級,讓每一步解碼都有明確的「剩餘長度感知」。這打破了現有所有方法的共同天花板——無論是提示控制、訓練懲罰還是預解碼預測器,都無法提供逐Token的動態約束訊號。3B開源模型在精確長度控制上擊敗GPT-5.4和Claude-Opus-4-6,不是「調了個好提示」,而是因為它第一次真正擁有了Token級的長度訊號。
對規模化:長度作為值函數,其訓練目標天然免標註、訊號密集、三軸可擴展,規模化規律與語言模型預訓練高度一致。這證明了生成長度是可擴展價值預訓練的一個新維度——不需要額外標註,只需要更多計算和更多資料,長度建模能力就能持續提升。
同時,LenVM也為未來RL訓練提供了一個長度專屬的價值基線:可以在PPO中作為密集優勢訊號,或通過勢函數獎勵整形在不改變任務目標的前提下改善信用分配。
生成長度不應該只是事後統計出來的數字。它應該是模型在每一步解碼時都能感知、都在權衡的訊號——就像模型感知語義和語法一樣。LenVM讓這件事第一次成為可能。
參考資料: