一個基於GLM 4.5 Air微調的開源模型,在六項知識檢索與推理任務上,僅需約三分之一的成本,即可達到Claude Opus 4.6相同水準的表現——這是Databricks最新發佈的KARL系統所交出的成績單。在當前各大語言模型廠商爭相堆疊參數與推理預算的背景下,KARL透過強化學習證明了一條更具經濟效益的道路:與其讓通用模型進行粗暴搜尋,不如教導模型如何高效地搜尋。
知識Agent面臨的核心挑戰
論文將目標聚焦於一類稱為「grounded reasoning」(基於證據的推理)的任務——模型需要從外部文檔集合中多步檢索資訊,並在收集到的證據基礎上進行複雜推理。此類任務在金融、法律、醫療、製造等領域具有極高的經濟價值,因為企業依賴的大量模型訓練資料是從未見過的私有資料。
論文指出,相較於數學或程式碼推理,學術界對grounded reasoning前沿能力的研究仍然嚴重不足。現有的「深度研究」類agent依賴公開網路知識與黑盒搜尋工具,其結果能否遷移到其他grounded reasoning任務尚不明確。此外,不同場景所需的檢索能力差異巨大:約束驅動的實體搜尋、跨文件報告綜合、表格數值推理、窮舉實體搜尋、技術文件的程序推理等,針對單一場景優化的系統在其他場景上無法保證表現。
KARLBench:六種搜索能力的統一評測
為了系統評估grounded reasoning能力,論文構建了KARLBench評測套件,涵蓋六項任務,每項隔離一種獨特能力:BrowseComp-Plus(約束驅動實體搜尋,830題)、TREC-Biogen(跨文件報告綜合,65題)、FinanceBench(長文件表格數值推理,150題)、QAMPARI(窮舉實體搜尋,1000題)、FreshStack(技術文件程序推理,203題),以及內部開發的PMBench(企業內部筆記的事實聚合,57題)。
[表 1: 任務能力示例] 每個數據集隔離一種獨特的結構性挑戰,從約束驅動的實體搜尋到企業內部筆記的窮舉事實搜尋。
[表 2: 數據集統計] 各評測集的問題數、索引文件區塊數及其平均token數,以及每個問題的平均相關區塊數和答案nugget數。
所有任務統一使用nugget-based completion評估框架,agent僅配備向量搜尋這單一工具,以隔離檢索與推理能力本身。
訓練方法:Agent式資料合成加離線強化學習
論文的訓練流程分為三個核心環節。
第一步:Agent式訓練資料合成。論文開發了一個兩階段管道。Stage I中,合成agent透過向量搜尋工具動態探索語料庫,生成基於檢索證據的問答對,再經過去重agent過濾與評測集的重複項。Stage II中,多個Solver Agent獨立嘗試回答合成問題,論文根據經驗通過率過濾掉過簡(全對)和過難(全錯)的樣本,僅保留學習信號最豐富的中等難度資料。最後由Quality Filter Agent篩除歧義問題和錯誤標註。
[圖 2: Stage I合成管道] 問答生成agent探索語料庫後提出合成問答對,過去重agent過濾與測試資料的重複項。
[圖 3: Stage II求解管道] 多個Solver Agent獨立生成解答,兩端極值被過濾,Quality Filter Agent進一步篩除歧義和錯誤。
第二步:OAPL離線強化學習。論文提出OAPL(Optimal Advantage-based Policy Optimization with Lagged Inference policy),一種基於大批量迭代離線RL的後訓練範式。其核心思想是:給定參考策略生成的分組rollout,透過最小化一個關於最優優勢函數的最小二乘回歸損失來學習最優策略。此設計天然是off-policy的,無需裁剪重要性權重、資料刪除或路由器重放等在線GRPO訓練大規模MoE模型時通常需要的啟發式技巧。論文將壓縮步驟也納入RL訓練,讓模型端到端學習上下文管理。實驗中最多執行3輪迭代訓練。
第三步:多任務RL。論文選擇BrowseComp-Plus(深度搜尋)和TREC-Biogen(廣度搜尋)作為分布內訓練任務,簡單地將兩個任務的損失合併並平衡訓練token數。與多專家蒸餾方案相比,多任務RL在分布外任務上表現出更好的泛化能力。
測試時計算:並行思考與價值引導搜尋
論文探討了兩種測試時計算TTC(test-time compute)策略。並行思考讓模型生成N個獨立rollout後,再由同一模型聚合為最終答案。聚合器不僅能從候選中選擇,還能綜合多個rollout產出更優答案——在PMBench上,5個並行rollout中有23.7%的情況下聚合答案優於任何單個候選。VGS(Value-Guided Search,價值引導搜尋)則訓練一個小型價值模型(Qwen3-4B)預測部分rollout的未來成功機率,用於樹搜尋中的分支選擇。
[圖 4: 並行思考方法] 生成N個響應後聚合,solver agent和aggregator agent使用同一模型。
核心實驗結果
[表 4: 主要結果] KARLBench上各模型表現,包括單任務RL變體、多任務RL及不同規模的並行思考。
論文以GLM 4.5 Air為基座模型。不使用任何測試時計算的KARL即達到Claude Sonnet 4.5高推理努力程度的水準。使用3個並行rollout時,KARL超越Sonnet 4.6;使用10個並行rollout時,KARL匹配最強模型Opus 4.6的表現(KARLBench總分67.5 vs. 67.5),而20個並行rollout進一步提升至68.1。
[圖 1: 成本-質量與延遲-質量Pareto前沿] KARL在成本和延遲兩個維度上定義了Pareto前沿。
在成本方面,單次調用KARL在所有55分以上模型中成本最低(低於$0.10/query)。匹配Opus 4.6品質時,KARL成本低約33%。更值得注意的是,KARL甚至比其基座模型GLM 4.5 Air更便宜,同時分數高出6分以上——RL讓模型學會了更高效的搜尋策略,用更少的步驟和token開銷完成任務。延遲方面,匹配Opus 4.6時KARL延遲低約47%。
RL到底教會了模型什麼
論文深入分析了RL訓練對模型行為的影響。在BrowseComp-Plus合成資料上,RL訓練後軌跡長度顯著縮短,已解決問題的平均步驟數從51.1降至36.3。同時,模型的搜尋多樣性提升了37%(累計檢索唯一文件數)。
[圖 19: 搜尋效率提升] 在87個三個模型均實現完美召回的問題上,RL訓練將不必要的後檢索搜尋從134.0次降至56.5次,同時準確率從53%提升至71%。
關於RL是否僅是「銳化」基座模型已有能力的問題,論文給出了明確證據:max@k在所有k值上均隨訓練迭代提升。訓練後模型的max@1達到了基座模型max@8的水準,max@2已超過基座模型的max@16——這意味著訓練後模型僅需兩次嘗試即可解決基座模型十六次也解決不了的問題。
[圖 10: 測試時計算縮放] 訓練持續提升Max@K而非僅改善Max@1,表明RL擴展了模型的問題解決覆蓋面。
X說
當前agent僅使用向量搜尋這單一工具,後續可擴展至結構化檢索、程式碼執行和組合子agent。上下文管理目前依賴簡單的提示壓縮,可透過更精細的分層記憶管理進一步改進。此外,在需要數值計算的場景中,模型傾向於繼續搜尋預先計算的結果而非對已有證據進行推理,這種推理短板有待透過引入算術和表格推理獎勵來彌補。
當大模型競賽進入agent時代,KARL的結果提示了一個重要方向:精心設計的合成資料加多任務強化學習,可能比單純擴大模型規模更有效地推動知識agent的Pareto前沿。
原文標題:KARL: Knowledge Agents via Reinforcement Learning
原文連結:https://arxiv.org/abs/2603.05218
#无影寺