GLM 4.5 Airをベースにファインチューニングを行ったオープンソースモデルが、6つの知識検索および推論タスクにおいて、Claude Opus 4.6と同等のレベルを「約3分の1のコスト」で達成しました——これがDatabricksが最新リリースしたKARLシステムが叩き出した成績表です。現在、各LLMベンダーがパラメータ数や推論予算を競って積み上げる中、KARLは強化学習を用いてより経済的な道筋を証明しました:汎用モデルに力任せの検索をさせるよりも、モデルに効率的に検索する方法を教える方が良いのです。
ナレッジエージェントが直面する核心的な課題
論文は、「根拠に基づく推論」と呼ばれるタスククラスに焦点を当てています——モデルは外部ドキュメントの集合から情報を多段階で検索し、収集したエビデンスに基づいて複雑な推論を行う必要があります。この種のタスクは、金融、法律、医療、製造などの分野で極めて高い経済的価値を持ちます。なぜなら、企業はモデルの訓練時に一度も見たことのない大量のプライベートデータに依存しているからです。
論文によると、数学やコードの推論と比較して、学術界におけるgrounded reasoningの最先端能力の研究は深刻に不足しています。既存の「深い研究(Deep Research)」系エージェントは公開Web知識とブラックボックス検索ツールに依存しており、その結果が他のgrounded reasoningタスクに移転できるかどうかは明確ではありません。さらに、シナリオごとに必要とされる検索能力は大きく異なります:制約駆動型のエンティティ検索、ドキュメント横断レポート統合、テーブル数値推論、網羅的エンティティ検索、技術ドキュメントのプロセス推論など、単一シナリオ向けに最適化されたシステムが他のシナリオで機能する保証は全くありません。
KARLBench:6つの検索能力を統合した評価
grounded reasoning能力を体系的に評価するため、論文ではKARLBench評価スイートを構築しました。これには6つのタスクが含まれ、それぞれが独自の能力を分離しています:BrowseComp-Plus(制約駆動型エンティティ検索、830問)、TREC-Biogen(ドキュメント横断レポート統合、65問)、FinanceBench(長文ドキュメントテーブル数値推論、150問)、QAMPARI(網羅的エンティティ検索、1000問)、FreshStack(技術ドキュメントプロセス推論、203問)、および独自開発したPMBench(社内メモの事実集約、57問)です。
[Table 1: タスク能力の例] 各データセットは、制約駆動型エンティティ検索から社内メモの網羅的事実検索まで、固有の構造的課題を分離しています。
[Table 2: データセット統計] 各評価セットの問題数、インデックス付きドキュメントブロック数とその平均トークン数、および各問題の平均関連ブロック数と回答ナゲット(nugget)数。
すべてのタスクは、ナゲットベースの補完評価フレームワークを使用します。エージェントは検索と推論能力そのものを分離するために、ベクトル検索という単一のツールのみを装備します。
トレーニング手法:エージェント形式のデータ合成とオフライン強化学習
論文のトレーニングプロセスは、3つのコアステップで構成されています。
第1ステップ:エージェント形式トレーニングデータの合成。論文では2段階のパイプラインを開発しました。ステージIでは、合成エージェントがベクトル検索ツールを通じてコーパスを動的に探索し、検索エビデンスに基づくQ&Aペアを生成し、その後、重複排除エージェントが評価セットとの重複項目をフィルタリングします。ステージIIでは、複数のソルバーエージェントが合成された問題に回答するよう独立して試行し、論文では経験に基づく正解率に基づいて、過度に単純な(全問正解)および過度に困難な(全問不正解)サンプルをフィルタリングし、学習シグナルが最も豊富な中間難易度のデータのみを保持します。最後に、品質フィルターエージェントが曖昧な問題と誤ったアノテーションを除外します。
[Figure 2: ステージI合成パイプライン] QA生成エージェントがコーパスを探索した後、合成QAペアを提案し、重複排除エージェントがテストデータとの重複をフィルタリングします。
[Figure 3: ステージIIソルバーパイプライン] 複数のソルバーエージェントが独立して回答を生成し、両端の極値はフィルタリングされ、品質フィルターエージェントが曖昧さと誤りをさらに除外します。
第2ステップ:OAPLオフライン強化学習。論文ではOAPL(Optimal Advantage-based Policy Optimization with Lagged Inference policy)を提案しました。これは、大規模バッチ反復オフラインRLに基づくポストトレーニングパラダイムです。その核心的なアイデアは、参照ポリシーによって生成されたグループ化されたロールアウトを与えられ、最適な優位関数に関する最小二乗回帰損失を最小化することによって最適なポリシーを学習することです。この設計はネイティブにオフポリシーであり、大規模なMoEモデルでオンラインGRPOトレーニングを行う際に通常必要となる、重要度重みのクリッピング、データ削除、またはルーターリプレイなどのヒューリスティックなトリックを必要としません。論文では圧縮ステップもRLトレーニングに組み込み、モデルがコンテキスト管理をエンドツーエンドで学習するようにしています。実験では最大3回の反復トレーニングが実行されました。
第3ステップ:マルチタスクRL。論文では、BrowseComp-Plus(深い検索)とTREC-Biogen(広い検索)を分布内トレーニングタスクとして選択し、単純に2つのタスクの損失を結合してトレーニングトークン数をバランスさせました。マルチエキスパート蒸留ソリューションと比較して、マルチタスクRLは分布外タスクにおいてより良い汎化能力を示しました。
テスト時計算:並列思考と価値ガイド探索
論文では、2つのテスト時計算TTC(test-time compute)戦略を探索しています。並列思考は、モデルがN個の独立したロールアウトを生成した後、同じモデルがそれらを最終的な回答に集約させます。アグリゲーターは候補から選択するだけでなく、複数のロールアウトを統合してより良い回答を生成することもできます——PMBenchでは、5つの並列ロールアウトのうち23.7%のケースで、集約された回答がどの単一候補よりも優れていました。VGS(Value-Guided Search、価値ガイド探索)は、小さな価値モデル(Qwen3-4B)を訓練して部分的なロールアウトの将来の成功確率を予測し、ツリー検索における分岐選択に使用します。
[Figure 4: 並列思考手法] N個の応答を生成した後、それらを集約します。ソルバーエージェントとアグリゲーターエージェントは同じモデルを使用します。
コア実験結果
[Table 4: 主な結果] KARLBenchにおける各モデルのパフォーマンス。シングルタスクRLの変種、マルチタスクRL、およびさまざまな規模の並列思考が含まれます。
論文ではGLM 4.5 Airをベースモデルとして使用しています。テスト時計算を一切使用しないKARLでも、Claude Sonnet 4.5の高推論力レベルに到達しています。3つの並列ロールアウトを使用すると、KARLはSonnet 4.6を上回り、10の並列ロールアウトを使用すると、KARLは最強のモデルであるOpus 4.6のパフォーマンスに匹敵します(KARLBench合計スコア67.5 vs. 67.5)。20の並列ロールアウトを使用すると、スコアはさらに68.1に向上します。
[Figure 1: コスト-品質とレイテンシ-品質パレートフロント] KARLはコストとレイテンシの両方の次元でパレートフロントを定義しています。
コスト面では、KARLの単一呼び出しは、スコア55以上のすべてのモデルの中で最も安価です($0.10/クエリ未満)。Opus 4.6の品質に一致させた場合、KARLのコストは約33%低くなります。さらに注目すべきことに、KARLはベースモデルであるGLM 4.5 Airよりも安価でありながら、スコアは6ポイント以上高くなっています——RLによりモデルはより効率的な検索戦略を学習し、より少ないステップとトークンコストでタスクを完了するようになりました。レイテンシについては、Opus 4.6に一致させた際、KARLのレイテンシは約47%低くなっています。
RLはモデルに何を教えたのか
論文では、RLトレーニングがモデルの行動に与える影響を深く分析しています。BrowseComp-Plusの合成データでは、RLトレーニング後に軌跡長が著しく短縮され、解決された問題の平均ステップ数が51.1から36.3に低下しました。同時に、モデルの検索多様性は37%向上しました(累積検索ユニークドキュメント数)。
[Figure 19: 検索効率の向上] 3つのモデルすべてが完璧な再現を達成した87の問題において、RLトレーニングは不必要な検索後探索を134.0回から56.5回に削減し、同時に精度を53%から71%に向上させました。
RLが単にベースモデルの既存の能力を「鋭く」しただけなのかという問題について、論文は明確な証拠を提示しています:max@kはすべてのk値においてトレーニング反復とともに向上します。トレーニング後のモデルのmax@1はベースモデルのmax@8のレベルに達し、max@2はベースモデルのmax@16をすでに上回っています——これは、トレーニングされたモデルが2回の試行で、ベースモデルが16回試行しても解決できない問題を解決できることを意味します。
[Figure 10: テスト時計算のスケーリング] トレーニングはMax@1だけでなくMax@Kを持続的に向上させており、RLがモデルの問題解決カバレッジを拡張していることを示しています。
Xの視点
現在、エージェントはベクトル検索という単一のツールのみを使用していますが、将来的には構造化検索、コード実行、および合成サブエージェントに拡張できます。コンテキスト管理は現在シンプルなプロンプト圧縮に依存していますが、より詳細な階層的メモリ管理によってさらに改善できます。さらに、数値計算が必要なシナリオでは、モデルは既存のエビデンスを推論するのではなく、事前に計算された結果を検索し続ける傾向があり、この推論の弱点は、算術およびテーブル推論の報酬を導入することで補う必要があります。
大規模モデル競争がエージェントの時代に入る中、KARLの結果は重要な方向性を示唆しています:巧みに設計された合成データとマルチタスク強化学習は、単にモデル規模を拡大するよりも、ナレッジエージェントのパレートフロントをより効果的に推進する可能性があります。
原文タイトル:KARL: Knowledge Agents via Reinforcement Learning