トークンレベルで生成長を精密制御：3BモデルがGPT-5.4やClaudeを撃破

新智元報道

編集：LRST

【新智元概説】LenVMは長さモデリングをトークンレベルに引き上げ、スケーラブルな価値事前学習の新たな次元を切り開きます――3Bのオープンソースモデルは、GPT-5.4やClaude-Opus-4-6といったトップクラスのクローズドモデルを、精密な長さ制御で完全に凌駕。同一トークン予算下での推論精度は10倍（63%対6%）に向上。モデル規模、データ量、サンプル数の3軸で飽和なくスケーリングするバリュープリトレーニングを実現しました。

トークンは現代の自己回帰モデルにおける基本的な計算単位であり、一つ一つが順伝播、KVキャッシュの占有、遅延の蓄積、そしてエネルギー消費を意味します。長連鎖推論（long-CoT）やエージェンティックワークフローの台頭に伴い、生成長は二つの重要な要素に直結します。それは推論コストの中核変数であると同時に、推論品質にも影響を与えるということです。より多くのトークンはより多くの思考空間をもたらしますが、多すぎれば無駄になります。

既存の長さ制御手法は、どれも大雑把すぎます。訓練時にシーケンスレベルのペナルティを加えても、モデルは生成途中で「あとどれくらい残っているか」を感知できません。プロンプト指示は、本質的にモデルへの「お願い」に過ぎず、ハードな制約はありません。デコード前の長さ予測器は一度きりの判断を行うだけで、後から動的に調整することはできません。これらの共通の限界は、すべてがシーケンスレベルで操作されており、デコードそのものはトークン単位で発生するにもかかわらず、既存のフレームワークはこの粒度で残りの長さをモデル化したことがないという点にあります。

より深く見ると、価値関数は強化学習において「将来の報酬」をモデル化する強力なツールであることが証明されていますが、長さはこれまで価値関数の観点から扱われたことがありませんでした。それに対応する訓練パラダイムも、検証されたスケーリング経路も存在しなかったのです。

カリフォルニア大学サンタバーバラ校とAppleなどの研究チームは、Length Value Model（LenVM）を提案し、以下の二つの問いに同時に答えました。

① どのようにトークンレベルの長さモデリングを行うか？

生成長のモデル化を、強化学習における価値推定（value estimation）の問題に変換します。生成された各トークンに固定の負の報酬を割り当て、割引累積することで「残りの生成長」の有界で単調な代理信号を得ます。これにより、モデルはすべてのデコードステップで「あとどれくらいで終わるか」という明確な定量推定を持つことになります。

② どのようにスケーラブルな価値事前学習（scalable value pretraining）を実現するか？

この構造は、大規模事前学習にとって非常に好ましい4つの性質を自然にもたらします。アノテーション不要（annotation-free）、高密度信号（dense）、不偏（unbiased）、スケーラブル（scalable）です。

これは、LenVMの訓練が本質的に自己教師ありプロセスであることを意味します。追加の人手によるアノテーションや報酬モデルは一切不要で、言語モデルの事前学習のように、ただ「データを与える」だけで継続的に性能が向上します。

論文：https://arxiv.org/abs/2604.27039

コード：https://github.com/eric-ai-lab/Length-Value-Model

プロジェクトページ：https://length-value-model.github.io/

デモ：https://length-value-model.github.io/demo/index.html

技術的詳細

コアアイデア：残りの長さを価値関数に変換する

LenVMのコアアイデアはシンプルで洗練されています。生成長を一種のコストとみなすのです。各トークンに固定の負の報酬を与えると、残りの長さは自然に価値関数の予測問題となります。

具体的には、終端でない各デコードステップtに対して、固定の負の報酬を割り当てます。

対応する割引報酬は以下の通りです。

ここでLはシーケンスの全長、γ∈(0,1) は割引因子です。この報酬は3つの重要な性質を持ちます。

有界：シーケンスの長さに関わらず、目標値は常に固定範囲内に収まります。
単調： 終端に近づくほどは0に近づき、残りが多いほど-1に近づきます。値の大きさが、あとどれだけ進むべきかを直接エンコードします。
ベルマン整合性： を満たし、標準的な価値関数フレームワークに完全に適合します。

これにより定義されるトークンレベルのTD残差は、現在のトークンが残りの生成長の予測をどのように変化させるかを直接的に測定します。これはこれまで存在しなかった信号です。

なぜ生のトークン数を直接予測しないのか？

生成長は数トークンから32kまでとダイナミックレンジが非常に大きく、直接回帰するのは困難です。割引報酬変換は、変動の大きい生の長さを固定範囲(-1, 0)にマッピングし、厳密な単調性を保ちます。割引因子γは解像度の調整ノブであり、γが大きいほど生成初期の解像度が高く、小さいほど終端付近でより精密になります。

スケーラブルな価値事前学習：アノテーション不要、3軸スケーリング

これこそが、LenVMを既存のすべての長さ制御手法と差別化するコアな強みであり、この研究で最も注目すべき点です。

従来の価値モデルの規模上限は、アノテーションのコストと品質によって固定されていました。LenVMはこれらのボトルネックを完全に回避します。訓練目標は、トークンレベルの平均二乗誤差で構成されます。

これは、シーケンスのすべてのトークン位置で、その位置で実際に観測された割引済み残り長さを用いたモンテカルロ回帰です。教師信号はサンプリングされた補完テキストから完全に自動生成され、以下の4つの重要な性質を備えています。

実験では、LenVMが以下の3軸に沿って同期スケーリングすることが検証されました。

モデル規模（0.5B → 32B）： より大きなモデルは一貫してより低い検証損失をもたらします。
訓練プロンプト数（10k → 100k）： より広範なデータカバレッジが、継続的に長さモデリングの品質を改善します。
プロンプトあたりのサンプル数（n=1 → n=16）： より多くの補完軌跡が、より強力な教師信号をもたらします。

3軸すべてが単調に減少していることは、LenVMが価値事前学習の目標として良設定（well-posed）であることの証明です。データ飽和は存在せず、より多くのリソースを投入すればするほど、長さモデリング能力は向上します。

推論時の3つの応用と実験結果

LenVMが学習したトークンレベルの長さ信号はどれほど優れているのでしょうか？著者チームは、推論段階での3つの応用を通じてこれを検証しました。いずれの応用も、ベースとなる生成モデルは一切変更していません。

応用1：精密な長さ制御

各デコードステップで、LenVMは候補トークンごとに次の状態の価値を一つずつ予測し、それに基づいてトークンを選択します。「Equal To」は予測値が目標の割引報酬に最も近いトークンを選び、「At Most」は値が最大（0に近い）のトークンを選んで早期終了を促し、「At Least」は値が最小（-1に近い）のトークンを選んで生成の継続を促します。これは真のトークンレベルのハード制約であり、粗い「お願い」ではありません。

LIFEBenchベンチマーク（質問応答、要約、推論、創作文、中国語・英語各180件）において、Qwen2.5-3B + LenVM（1.5B）の長さスコアは25.6から62.6に急上昇し、長さの偏差は83%から56%に低下しました。これはGPT-5.4（37.4）、Claude-Opus-4-6（35.5）、Gemini-3.1-Pro（49.3）など、すべてのクローズドモデルを大きくリードしています。Qwen2.5-7B + LenVMはさらに進んで、スコア64.8、偏差はわずか44%を達成しました。

クローズドモデルがいかに強力でも、プロンプトベースの粗い制御には天井があります。LenVMが提供するのは、デコードのすべてのステップで有効な精密な制約なのです。

応用2：性能と効率の連続的なトレードオフ

指数ティルティング（exponential tilting）を通じて、LenVMはベースモデルのトークン分布をソフトに再重み付けします。

のとき、より短い継続が期待されるトークンの確率が高くなります。のときは元のモデルに戻ります。これは連続的なつまみであり、推論品質とトークン消費の間を滑らかにトレードオフします。

GSM8Kにおいて、トークン予算が200の場合、ハードカットオフのベースラインのPass@1は約6%でしたが、LenVMでガイドされたデコードのPass@1は約63%で、10倍の差があります。この結果は重要な事実を明らかにしています。ベースモデル自体、より短い経路で問題を解く能力を本来備えているのですが、通常それらの経路を選択できないのです。LenVMは精密な再重み付けによってそれらを「掘り起こし」ました。MATH500やMathVista（視覚的数学推論）でも、LenVMはハードカットオフのベースラインを一貫して上回り、βに応じて滑らかにパレートフロンティアを描きました。

応用3：生成長の予測

LenVMはプロンプトの境界（最初の応答トークンが生成される前）から総生成長を予測できます。これは、推論システムにおけるバッチ処理のグループ分け、KVキャッシュの事前割り当て、リクエストの優先順位付けに直接的な価値を持ちます。これらの情報は現在、デコードが完了した後でしか得られません。32Bモデルでは、数学ドメインの平均相対誤差（MRE）が9.8%、コードドメインで14.9%、命令追従ドメインで17.1%にまで低下し、モデル規模に応じて一貫して改善しています。

副次的成果：どのトークンが推論を「延長」または「収束」させているのか？

LenVMのトークンレベルのTD残差は、これまでにない観察視点も提供します。

推論を延長するトークン（）としては「wait」「but」「ah」「think」「consider」などがあり、これらは多くの場合、推論の転換点や再考に対応します。中でも「ah」は「Ah! I see the mistake（ああ！間違いに気づいた）」のようなひらめきの瞬間（Aha Moment）に頻繁に現れます。

推論を収束させるトークン（）としては「therefore」「clearly」「perfect」や ✅ 🎉 といった終了マークがあり、これらは回答の確認や生成の終了に対応します。LenVMは単なる制御信号ではなく、モデルがどのように推論するかを観察するための新たな窓でもあるのです。

まとめ

LenVMの貢献は二つの層から理解できます。

長さモデリングについて： 制御の粒度をシーケンスレベルからトークンレベルへと進め、すべてのデコードステップに明確な「残り長さの認識」を持たせました。これは、既存のすべての手法に共通する天井を打ち破るものです。プロンプト制御、訓練時のペナルティ、デコード前の予測器のいずれも、トークン単位の動的な制約信号を提供することはできません。3Bのオープンソースモデルが精密な長さ制御でGPT-5.4やClaude-Opus-4-6を打ち負かしたのは、「良いプロンプトを調整した」からではなく、初めて真にトークンレベルの長さ信号を手に入れたからです。

スケーリングについて： 価値関数としての長さは、その訓練目標が本質的にアノテーション不要で、高密度信号であり、3軸でスケーラブルです。そのスケーリング則は言語モデルの事前学習と高い一貫性を示します。これは、生成長がスケーラブルな価値事前学習の新たな次元であることの証明です。追加のアノテーションは不要で、より多くの計算とより多くのデータさえあれば、長さモデリング能力は持続的に向上します。

同時にLenVMは、将来のRL訓練に対しても、長さに特化した価値ベースラインを提供します。PPOにおける密な優位信号として使用したり、ポテンシャル関数による報酬形成を通じて、タスク目標を変えることなく信用割り当てを改善したりすることが可能です。

生成長は、単に事後的に集計される数字であってはなりません。モデルが意味や文法を認識するのと同じように、デコードのすべてのステップでモデルが感知し、比較検討する信号であるべきです。 LenVMは、このことを初めて可能にしました。

参考文献：

https://arxiv.org/abs/2604.27039

秒でASIを追跡

⭐いいね、転送、見るのワンクリック三連⭐

スターを付けて、新智元の超速プッシュ通知をキャッチ！

トークンレベルで生成長を精密制御：3BモデルがGPT-5.4やClaudeを撃破

関連記事

分享網址