4B モデルの幻覚抑制能力が GPT-5 を凌駕、CMU 等が行動較正強化学習の新しい手法を提案

著者：呉嘉贇、カーネギーメロン大学（CMU）機械学習科博士課程在籍。大規模言語モデルの評価とトレーニング後処理（モデル推論、モデル幻覚、能動的評価など）を研究。

大規模言語モデル（LLM）の幻覚問題は、重要な分野への導入を阻む中核的な課題であり続けています。このほど、研究者らは「行動較正強化学習（Behaviorally Calibrated Reinforcement Learning）」という新しい手法を提案しました。報酬関数を再設計することで、モデルに「知ることは知ると知り、知らぬことは知らずと知れ」という態度を学ばせるものです。

論文リンク：https://arxiv.org/abs/2512.19920

わずか 40 億パラメータのモデルがこの手法でトレーニングされた結果、その幻覚抑制能力は GPT-5 などの最先端大規模モデルを凌駕することが判明しました。

図 1：モデルが数学の問題に回答する際の信頼度注記の例。各ステートメントには信頼度スコアとその理由が添付されています。

中核的な課題：なぜ LLM は幻覚を起こすのか？

研究チームは、現在の主流である大規模モデルのトレーニング後パラダイム、すなわち「検証可能な報酬に基づく強化学習（RLVR）」に、根本的な報酬のミスマッチ問題があると指摘しています。標準的な RLVR において、報酬関数は通常二元的です。正解なら +1 点、不正解なら -1 点です。このメカニズムの下では、「正解する確率がゼロより大きい限り」、効用最大化を目指すエージェントは、誤っている可能性のある回答を生成するよう動機づけられます。これにより、「回答を拒否する」という行動が罰せられ、モデルは不確実性の表明を抑制し、推測を事実であるかのように装うことを余儀なくされます。モデルは「誠実な対話者」、つまり自信がない場合は回答を控える存在ではなく、「点数を最大化するために推測する優秀な受験生」としてトレーニングされてしまうのです。

解決策：行動較正強化学習

上記の問題に対し、研究チームは「行動較正」という解決策を提案しました。その中核的な考え方は以下の通りです。信頼できるモデルとは、ユーザーが指定するリスク閾値に基づき、拒否行動を動的に調整できるべきであるということです。

のとき、モデルは「受験生モード」となり、可能な限り回答を試みます。
のとき、モデルは「完全誠実モード」となり、絶対的に確信がある場合にのみ回答します。
一般的に、モデルの信頼度がである場合にのみ実質的な回答を出力し、それ以外の場合は回答を拒否します。

この目標を達成するために、研究チームは 2 つの戦略を設計しました。

戦略 1：言語化された信頼度（Verbalized Confidence）

この戦略では、モデルが回答を出力すると同時に、明示的にスカラー値の信頼度スコアを出力するようトレーニングします。モデルの信頼度がユーザーのリスク閾値を下回る場合、回答を拒否し、以下の報酬が与えられます。

正解の場合：1 点
不正解の場合：-1 点
回答を拒否した場合：点

研究チームは、異なるユーザーのリスク選好の下での報酬関数を積分し、トレーニング目標を「明示的なリスク閾値を持つ条件付き最適化」から、「言語化された信頼度」に対する「厳密に適切なスコアリングルール（proper scoring rule）」の最適化へと変換しました。

リスク選好が一様分布である場合、導出される報酬関数はブライアスコア（Brier score）に類似します。

この報酬は、正解性報酬と、信頼度較正されたブライアスコアの差として分解でき、モデルに対して予測精度を最大化すると同時に、表明する信頼度を較正するよう動機づけます。

一般的なリスク選好の累積分布関数に対する報酬関数の一般式は以下の通りです。

戦略 2：批評家価値関数（Critic Value）

信頼度を明示的に生成する代替案として、この戦略では PPO アルゴリズムの批評家ネットワークの「価値関数」を、暗黙的な信頼度推定子として使用します。理論的には、批評家ネットワークは予測値と方策報酬の間のブライアスコアを最小化するようにトレーニングされるため、その価値関数は成功確率に収束します。

ステートメント単位の行動較正：きめ細かい「不明」の注記

研究チームはさらに、行動較正を「応答レベル」から「ステートメントレベル」へと拡張し、回答全体を拒否するだけでなく、答えの中の個々の不確かな推論ステップを正確に注記できるようにしました。この拡張には 3 つの課題がありました。

課題 1：一貫性の問題。不確かなステートメントを直接「<IDK>」に置き換えると、推論の一貫性が損なわれる可能性があります。例えば数学の問題では、後のステップが前の結論に依存している場合があるためです。研究チームは、モデルに完全な応答を出力させつつ、HTML タグを用いて不確かなステートメントを視覚的にハイライトさせることを選びました。

課題 2：中間ステップの曖昧さ。思考の連鎖（CoT）推論において、中間ステップの正解性と信頼度には本質的な曖昧さがあります。あるステップが、前のステートメントの誤りを正しく特定している場合もあるからです。このため、研究チームは中間の推論プロセスを無視し、最終構造化ステップでのみ較正を行うこととしました。

課題 3：きめ細かいラベルの欠如。ステートメントレベルの正解性ラベルの入手は困難です。研究チームは「弱教師あり」に基づく学習目標を設計しました。ステートメントレベルの信頼度を応答レベルの信頼度へと集約し、ブライアスコア報酬を用いてトレーニングするものです。

具体的には、個のステートメントを含む応答に対し、研究チームは 2 種類の方法を探求しました。

積による集約（Product Aggregation）：。各ステートメントの独立性を仮定し、すべてのステートメントが正解の場合にのみ最終正解とする。
最小値による集約（Minimum Aggregation）：。最も不確かなステップが全体の信頼度を決定し、モデルに最もエラーが発生しやすいステップへ低い信頼度を割り当てるよう強制する。

実験の結果、ステートメントレベルの評価においては「最小値による集約」がより優れた性能を示しました。これは、推論チェーンの弱点を特定するようモデルを効果的に動機づけるためです。一方、「積による集約」は応答レベルの較正には適していますが、個々のステートメントの信頼度を過度に楽観的に見積もらせる可能性があります。

実験結果

研究チームは、ByteDance の Seed チームが公開した極めて困難な数学推論ベンチマーク「BeyondAIME」や、「AIME-2024/2025」、そして「SimpleQA」（分野横断的な事実質問応答ベンチマーク）を含む複数のベンチマークで、この手法を評価しました。

中核的な評価指標

信号対雑音比ゲイン（SNR Gain）：リスク閾値が与えられたとき、信号対雑音比（SNR）とは、モデルの回答における「正解数と幻覚回答数の比」、すなわちを指します。SNR が高いほど、モデルが回答する際に正解が誤りよりもはるかに多いことを意味します。「SNR ゲイン」とは、リスク閾値がの全範囲にわたる平均 SNR が、常に回答する場合の SNR に対してどの程度向上したかを示す指標です。

Confidence AUC：モデルの信頼度スコアを用いて正解と不正解をランク付けし、ROC 曲線下面積を計算します。AUC が 1 に近いほど、モデルが正解により高い信頼度を、不正解により低い信頼度を正確に割り当てていることを示します。これはモデル自体の能力の高低に影響されず、モデルの「自己認識」のみを測定する純粋な指標です。

応答レベルでの評価：GPT-5 を凌駕

BeyondAIME における応答レベルでの評価結果（表 1）によると、本研究で提案された手法は、Qwen3-max、Kimi-K2、Gemini-2.5-Pro、GPT-5 などのモデルを大幅に上回りました。その中で、言語化された信頼度（Verbalized Confidence）と信頼度の積による集約（Qwen3-4B-Instruct-confidence-prod）を採用した 40 億パラメータのモデルは 0.806 という SNR ゲインを記録し、GPT-5 の 0.207 を大きく引き離しました。批評家価値関数（Qwen3-4B-Instruct-ppo-value）を採用したモデルも同様に良好な結果を収めています。

表 1:BeyondAIME 応答レベルでの評価結果。SNR ゲインと Conf AUC は幻覚抑制効果の重要な指標であり、数値が高いほどモデルが効果的に幻覚を抑制できていることを示します。

ステートメントレベルでの評価：Gemini-2.5-Pro を凌駕

研究チームはさらに行動較正を応答レベルからステートメントレベルへ拡張し、モデルが個々の不確かな推論ステップを正確に注記できるようにしました。BeyondAIME におけるステートメントレベルの評価（表 2）では、信頼度の最小値集合法が 0.301 の SNR ゲインを達成し、Gemini-2.5-Pro の 0.019 を大きく上回りました。

表 2:BeyondAIME ステートメントレベルでの評価結果。最小値集合法は SNR ゲインと Conf AUC の両中核指標において、最先端モデルを大きく上回りました。

信頼度較正図：多くの最先端モデルに「自己認識」が欠如

信頼度較正図（Reliability Diagram）は、モデルの「自己認識」を評価するための重要な可視化ツールです。図中の破線は「完全な較正」を表します。これは、モデルが表明する信頼度と実際の正解率が等しい状態です。図 2 から明らかなように、最先端モデル（Gemini-2.5-Pro や Qwen3-Max などを含む）の較正曲線はほぼ「水平線」です。これは、モデルがどれだけ「自信」を主張しても、実際の正解率はほぼ一定の水準に留まっていることを意味します。つまり、これらのモデルには正解と不正解を区別する能力が欠如しているのです。GPT-5 と o4-mini だけが、出力する信頼度に実質的な意味を持っていました。対照的に、行動較正トレーニングを施したモデル（図 3）は、「理想的な較正特性」を示しました。「単調増加する較正曲線」は、モデルが自身の不確実性を正直に表現することを学習したことを証明しています。

図 2:BeyondAIME における最先端モデルの応答レベル信頼度較正図。多くのモデルにおいて、正解率が表明された信頼度とほぼ相関せず、水平線となっていることが観察されます。

図 3:BeyondAIME における本研究モデルの信頼度較正図。行動較正トレーニング後、モデルの正解率と表明された信頼度の間に強い正の相関が見られます。Base および Base-ppo はベースラインです。

行動較正の 4 つの目標

図 4: 異なるリスク閾値における正解率、拒否率、幻覚率の変化曲線。緑色領域は正解率、黄色領域は拒否率、赤色領域は幻覚率を表します。リスク閾値 t の増加に伴い、モデルは「受験生モード」から「完全誠実モード」へと移行します。

研究チームが設計したシステムは、行動較正の 4 つの目標を満たしています。

目標 1: 適応的リスク。モデルはユーザーが指定するリスク閾値に基づき、拒否戦略を自動的に調整できます。図 4 から、リスク閾値の増加に伴い、幻覚率（赤色領域）が急速に低下することが観察されます。最先端モデルや基礎 PPO モデルの「凸型」拒否曲線とは異なり、本研究モデルの「凹型」拒否曲線は、モデルがリスクの変化により迅速に適応し、より低いリスク閾値で効果的に幻覚を低減できることを示しています。

目標 2: 正解率の維持。（拒否しない）モードにおいて、較正モデルの正解率は標準的な RL 微調整ベースラインと同等か、それ以上です。

目標 3: 幻覚の低減。リスク閾値が増加するにつれ、幻覚率は単調減少します。のとき（完全誠実モード）、幻覚率はほぼゼロになります。同時に、信号対雑音比 SNR（緑色領域と赤色領域の比）が大幅に向上します。

目標 4: 定量的較正。モデルは 2 つの定量的制約を満たします。

真陽性率（TP）：モデルが回答を選択した問題のうち、正解である割合がリスク閾値以上であること。
偽陰性率（FN）：モデルが拒否を選択した問題のうち、本来正解できたはずの割合が以下であること。

図 5 は各モデルの TP および FN 曲線を示しています。TP 曲線は対角線のほぼ上に位置し、FN 曲線は対角線のほぼ下に位置しており、「行動較正の定量的制約」を満たしています。

図 5: 行動較正における True Positive（実線）と False Negative（破線）。TP 曲線は対角線より上、FN 曲線は対角線より下に位置すべきです。Base および Base-ppo はベースラインです。

分野横断的な汎化：メタスキルの移転可能性

この手法でトレーニングされたメタ認知能力に移転性があるかを確認するため、研究チームは数学データでトレーニングしたモデルを、「SimpleQA」（困難なロングテールの事実知識ベンチマーク）でゼロショット評価しました。

その結果、本手法の SNR はベースラインの指示モデルを大きく上回り、評価対象となった最先端モデルのほとんどを凌駕しました。Claude-Sonnet-4.5 や GPT-5 といった最強の最先端モデルとも同等の性能を示しました。ゼロショット評価という設定は、モデルが基礎知識を持たない全く新しい分野においても、行動較正が効果的に移転されたことを示しています。これは、「行動較正」が予測精度とは切り離されたスキルであることを意味します。

研究からの示唆：

幻覚の緩和と正解率は独立した能力である

本研究はいくつかの理論的洞察ももたらしました。

1. 幻覚の緩和と事実の正解率は異なる能力である。研究チームは、一部の最先端モデルにおいて、正解率と幻覚率、あるいは信頼度の較正との間に正の相関が見られないことを観察しました。GPT シリーズモデルの優位性は、単なる正解率の高さではなく、幻覚を制御する能力に大きく起因しています。

2. 小規模モデルでも大規模モデルと同等の信頼度較正を実現可能。効果的な「較正」に必要な計算リソースは、絶対的な正解率を追求するために必要なリソースよりもはるかに少なくて済みます。逆に言えば、一部の大規模モデルが表明する信頼度は、実際のパフォーマンスを正確に反映していない可能性があります。

3. 行動較正は学習可能な属性であり、トレーニングによって改善できる。これは、幻覚が LLM に避けられない組み込みの特性であるという従来の見方と対照的なものです。

転載には本公式アカウントからの許可が必要です。

投稿または取材のご依頼：liyazhou@jiqizhixin.com

4B モデルの幻覚抑制能力が GPT-5 を凌駕、CMU 等が行動較正強化学習の新しい手法を提案

関連記事

分享網址