出典 | 量子位(QuantumBit)
執筆 | 聞楽(ウェン・ルォ)
AI もまた、文字数を水増ししていたのでした。
大規模言語モデルの思考連鎖(Chain of Thought)は長ければ長いほど推論能力が高いのか?Google は「ノー」と答えます。
トークン数と推論の質には正の相関関係などほとんどなく、トークンには質に差があり、その一部は単なる「数合わせ」に過ぎず、真に有用なのは「深い思考トークン」なのです。
新しい研究は「文字数信仰」を捨て去り、モデルが本当に思考しているのか、それとも文字数を水増ししているのかを特定するための新たな基準「DTR」を提示しました。
DTR に基づき、「Think@n 戦略」も提案されました。これにより、GPT-OSS や DeepSeek-R1 などの推論モデルにおいて、精度を落とすことなく計算コストを半減させることが可能になりました。
長い論理=良い推論ではない
長年、「思考連鎖は長ければ長いほど優れている」という見方が一般的でした。
この考え方の論理は単純で、「推論ステップが多い=思考が十分=答えが正確」というものです。
その結果、多くの研究者が長い推論軌跡を求めて、計算リソースを大量に投入するようになりました。
Google の研究チームは、AIME 2024/2025、HMMT 2025、GPQA-Diamond の 4 つのデータセットにおいて、GPT-OSS、DeepSeek-R1、Qwen3 を含む 8 つのモデル変種をテストしました。
その結果、トークン長と精度の平均相関係数は -0.54 であり、「負の相関」であることが判明しました。
つまり、場合によっては思考連鎖が長ければ長いほど推論は逸脱しやすく、論理的な無限ループや過剰推論に陥るさえあるのです。
そこで問題が生じます。「長さが頼りにならないなら、モデルが本当に思考しているかどうかをどう判断すればよいのか?」
今回の Google のアプローチは興味深く、表面的な出力を見るのではなく、モデルの各層の「内なる声」を直接監視するものです。
研究により、モデルが生成するトークンは以下の 2 つに分類できることが分かりました。
- 機能的語彙:「および」「である」「の」といった類で、モデルが浅いネットワーク層で即座に決定する、深い思考を必要としないおざなりの言葉。
- 深い思考トークン:「計算結果は 10 である」「選択肢は A」といった類で、深いネットワーク層になっても繰り返し修正され、予測分布が変化し続ける、モデルが実際に問題を熟考していることを示す言葉。
チームは各層の予測分布の差異を JSD(ジェンセン・シャノン・ダイバージェンス)で測定し、あるトークンの予測が深いネットワーク層になって初めて安定する場合、それを「深い思考トークン」と判定しました。
これを基に、彼らはDeep Thinking Ratio(DTR:深い思考比率)、すなわち生成シーケンス全体に占める「深い思考トークン」の割合を提案しました。
この比率が高いほど、モデルは核心的な推論に集中しており、無意味な内容に計算リソースを浪費していないことを示します。
真の「深い思考」によるコスト削減と効率化
4 つの推論テストデータセットにおいて、DTR と推論精度の相関係数は 0.82 に達しました。
トークン長の -0.54 と比較すると、DTR の方がはるかに推論の質を反映していることが分かります。
Google はさらに DTR を活用し、推論の初期段階で質の低い「無駄話」を特定し、計算リソースを真に深みのあるサンプルに集中させる「Think@n 戦略」を打ち出しました。
具体的には、各質問に対して複数の推論サンプルを抽出し、最初の 50 トークンという短い接頭辞から DTR 値を素早く概算して上位 50% の高品質サンプルを選別し、その後で多数決投票によって答えを導き出します。
これにより、DTR が低い低品質なサンプルは推論の初期段階で生成が打ち切られ、無意味なトークンの消費が根本的に削減されます。
主要な複数モデルでのテストにおいて、Think@n による推論精度は既存の戦略と同等か、それ以上を達成しました。
例えば、GPT-OSS-120B-medium は AIME 2025 データセットにおいて 94.7% の精度を達成し、既存戦略の 92.7% を上回りました。
さらに計算コストは約半分に削減され、推論トークン消費量は 355.6k から 181.9k へと減少。性能を落とさずにコストを半減させることに成功したのです。
本論文の第一著者である Wei-Lin Chen 氏はバージニア大学のコンピュータサイエンス博士課程に在籍し、LLM 推論の測定および評価者の有効性などの研究に注力。以前は Google で学生研究員を務めていました。
共同第一著者の Liqian Peng 氏は中国科学技術大学(USTC)の出身で、現在は Google にてリサーチエンジニアを務めています。
指導教員である Meng Yu(メン・ユー)氏はバージニア大学コンピュータサイエンス学科の助教授で、トレーニングパラダイム、データと推論の効率性、表現の基盤などの研究方向を専門としています。以前には NLP 分野の第一人者である Danqi Chen 氏とも共同研究を行っていました。
大規模言語モデルの推論においても、もはや「文字数の水増し」は通用せず、真の「深い思考」こそがコスト削減と効率化への鍵であると言えるでしょう。