靜態評測已「過時」?OpenKG 持續更新 LLM 知識增強動態評測榜單 Dynamic OneEval-202605

圖片

導讀:Dynamic OneEval 榜單本次更新 2026-05 版本,依然採用「自動合成資料+人工校驗」的方式,新增 190 條全新測試用例,評測了包括 GPT-5.5、DeepSeek V4-pro、QWEN-3.6-plus 等最新模型在異構知識源上的推理能力。相關論文成果已被 IJCAI-2026 錄用。

🌐 評測官網 & 線上榜單http://oneeval.openkg.cn
歡迎前往官網查看完整榜單、資料集說明及持續更新的評測結果。
圖片
圖片
圖片

01

引言

推理型大型語言模型的能力正以前所未有的速度提升,然而傳統靜態基準的侷限性也日益凸顯:榜單分數持續走高,卻可能掩蓋模型在邊界條件下的脆弱性;基準的反覆使用帶來資料污染風險,使得「高分」難以區分真正的泛化能力與訓練記憶。對於知識密集型推理任務而言,這一問題尤為突出:因為模型不僅需要給出正確答案,還必須有據可依、緊跟最新事實、並穩定完成多步推理鏈。
圖片

圖1 Dynamic OneEval 與現有評測基準的區別

為此,OpenKG 於 2026 年 2 月發布了動態榜單 Dynamic OneEval。與靜態基準不同,Dynamic OneEval 的核心邏輯是:從模型已有的真實失敗案例出發,將「模型為什麼錯」轉化為可操作的生成約束,系統性地產出既困難、又可追溯難點來源的評測樣本。

具體而言,Dynamic OneEval 實現了從「錯誤復盤」到「難點定向重現」的閉環升級:第一,定位失敗根因,識別模型在知識記憶、多步推理等維度上的具體薄弱點;第二,約束驅動合成,將失敗模式編碼為生成約束,定向合成具有挑戰性的測試樣本;第三,動態迭代更新,評測結果指導下一批樣本生成,形成持續演進的評測閉環。

本次發布的 Dynamic OneEval-202605 新增 190 條測試樣本,評測了包括 GPT-5.5、Qwen3.6-Plus 和 DeepSeek-V4-Pro 在內的 18 款國內外主流的 LLM。OpenKG 將持續更新 OneEval 基準平台,後續將持續發布新版本評測結果,歡迎關注。

02

前瞻:Dynamic OneEval-202605 總體榜單

圖片

表 1 Dynamic OneEval-202605 總體榜單

我們在統一實驗設定下使用 Dynamic OneEval-202605 對 18 款前沿大模型進行評測,其中包括多款最新模型(GPT-5.5、Qwen3.6-plus、Deepseek‑V4‑pro)。結果表明:儘管 Dynamic OneEval 基於合成資料構造,但整體依然具有較高難度——本次整體得分最高的 GPT-5.5 也僅為 56.2%。從分數分佈看,排名呈現出以下特點:

1. 頭部競爭白熱化

GPT-5.5 以 56.2% 超越 Claude-opus-4.6-thinking(55.3%)奪得榜首,兩者僅差 0.9 個百分點。Gemini-3.1-pro(52.9%)和 Gemini-3-pro(52.8%)緊隨其後,前四差距僅 3.4 個百分點,頭部競爭進入「毫釐之爭」階段。與上一版本中 Gemini-3-pro(46.4%)大幅領先第二名 9.0 個百分點相比,頭部模型的差距已大幅縮小。

2. 中上游梯隊密集,競爭激烈

Qwen3.6-plus(51.1%)、Glm-5(50.1%)、Qwen3.5-plus(49.4%)與 GPT-5.4(47.6%)構成第二梯隊。隨後 Claude-sonnet-4.5(43.4%)、Hunyuan-2.0(41.2%)、Deepseek‑V4‑pro(41.1%)和 GPT-5.2(40.5%)構成中游區間,四者之間最大差距僅 2.9%。

3. 相較於推理陷阱,對知識的缺失仍是 LLM 核心短板

多數模型的 K-Stress 得分明顯低於 R-Stress。Deepseek‑V4‑pro 的 Text K-Stress 低至 25.0%(Text R-Stress 55.0%),KG K-Stress 僅 8.0%(KG R-Stress 60.0%),說明知識缺失與推理能力之間存在顯著的不對稱性。

03

Dynamic OneEval 構建策略

圖片

圖 2 Dynamic OneEval 構建流程

Dynamic OneEval 採用「結構化錯誤分析 — 雙視角實例合成 — 多標準門控篩選」的三階段閉環構建策略,以持續產出可追溯且不易被記憶取巧的高難度動態評測樣本。

階段 1:結構化錯誤分析(Structured Error Analysis)

對模型在種子資料集上的失敗案例進行結構化復盤。利用 LLM 作為分析器,重建模型的推理軌跡,定位失敗的推理步驟,診斷根因類型(如實體連結混淆、部分實體識別後推理、證據遺漏等),並生成結構化的「難度卡片」(Difficulty Card):哪個推理環節出了問題?什麼輸入特徵觸發了錯誤?這一步把「模型為什麼錯」轉化為後續生成的可操作約束。

階段 2:雙視角實例合成(Dual-Perspective Instance Synthesis)

根據難度卡片的診斷結果,從兩個互補視角定向合成新題目:

  • 知識壓力(Knowledge-Stress):針對模型因「知識缺失」而失敗的案例。保留原始知識源不變,將缺失的關鍵事實提煉為原子化的「知識黑盒」,然後從原始知識源中提取新的事實與之組合,生成新的問答對。這樣確保新題目依然依賴那個模型不知道的事實,從而穩定重現知識缺口導致的失敗。

  • 推理壓力(Reasoning-Stress):針對知識源已包含充分資訊但模型仍推理出錯的案例。使用虛構實體構建虛擬知識源(防止模型利用參數記憶走捷徑),並通過「推理骨架」方法繼承原始失敗中的推理瓶頸和觸發條件,生成新的陷阱式題目。

階段 3:多標準門控篩選(Multi-criterion Gating)

合成完成後,引入兩個獨立的 LLM 評審器進行品質把關:

  • 可答性評審:確認題目在對應壓力類型下是可回答的,答案有明確的上下文支撐;

  • 一致性評審:獨立求解題目,驗證答案一致性及難度卡片中的難點是否真正體現在題目中。

只有同時通過兩項評審的樣本才會被納入最終資料集,確保產出「難而可答、歧義可控」的高品質評測資料。

04

知識推理排名

我們從 文本知識圖譜表格 三種知識類型出發,分別評估了 18 款前沿模型在 K-Stress(知識壓力)和 R-Stress(推理壓力)下的表現差異。文本和 KG 推理同時包含 K-Stress 與 R-Stress 兩個維度,可以直接對比模型在「知識缺失」和「推理設陷」兩種壓力下的能力分化;表格推理則僅設置 R-Stress,反映模型在高度結構化資料上的組合執行能力。三張分組柱狀圖分別展示了各維度下的模型排名與 K/R-Stress 對比(見下文圖表)。綜合來看,K-Stress 與 R-Stress 的差距不僅反映了模型在不同知識類型上的能力分佈,更揭示了當前大語言模型在知識密集型推理中的結構性弱點。

4.1 文本推理

圖片

圖 3 Dynamic OneEval-202605 文本推理榜單

從實驗結果看,文本推理是整體難度最高的分項,且各模型普遍呈現 K-Stress 高於 R-Stress 的模式。GPT-5.5 差距最小(55.0% vs 45.0%,相差 10 個百分點),Claude-opus-4.6-thinking 和 Gemini-3.1-pro 均相差 30 個百分點,而 Qwen3.6-plus 差距達 45 個百分點,GPT-5.2 更是達到 60 個百分點(65.0% vs 5.0%)。這一結果表明:當前模型在文本推理上的「高分」更多依賴表層線索的拼接與模式匹配,而非真正的邏輯推導。當知識被壓力化隱藏後,模型尚能通過上下文中的關聯資訊完成推理;但當推理路徑被系統性設陷時,模型的邏輯鏈極易崩潰。這意味著文本推理中知識缺口尚可被上下文補償,而推理鏈的脆弱性才是更深層的瓶頸。

4.2 知識圖譜推理

圖片

圖 4 Dynamic OneEval-202605 知識圖譜推理榜單

與文本推理形成鮮明對比,KG 推理呈現出完全反轉的格局:所有模型的 R-Stress 均大幅高於 K-Stress。GPT-5.5 表現最為均衡(KG-K 42.0% vs KG-R 62.0%,相差 20 個百分點),而 Doubao-seed-1.6 的 KG-K-Stress 僅 2.0%,KG-R-Stress 卻高達 62.0%,差距達 60 個百分點;Deepseek-V4-pro 同樣呈現極端分化(8.0% vs 60.0%)。這一極端差異揭示:知識圖譜的結構化表示天然為推理壓力提供了「鷹架」,圖譜中的實體關係路徑約束了推理方向,使模型更容易沿邊搜尋和驗證假設;但當關鍵事實被抽象為「知識黑盒」後,圖譜的結構化優勢反而成為結構性盲點。模型無法在缺失的節點間建立有效連接。這表明當前 KG 推理模型的能力更多是「結構驅動」而非「知識驅動」,形式化的圖結構掩蓋了實質性的知識推理短板。

4.3 表格推理

圖片

圖 5 Dynamic OneEval-202605 表格推理榜單

表格推理僅設置了 R-Stress 測試項,但整體得分顯著高於前兩個維度。Qwen3.5-plus 以 90.0% 領跑,前五名(Qwen3.5-plus、GPT-5.5、Gemini-3.1-pro、Claude-opus-4.6-thinking、Gemini-3-pro、Glm-5)均在 83.3% 以上,而 Llama-3.1-8b 僅 26.7%,極差超過 63 個百分點。這一分佈說明:表格的高度結構化呈現方式(儲存格對齊、行列約束)為模型提供了明確的操作邊界,大幅降低了自由推理的不確定性。表格知識不易被「壓力化」剝離這一事實本身也反映出一個特點:表格推理的瓶頸不在知識缺失,而在結構解析與條件約束的組合執行能力。綜合三個維度可見,當前模型的能力圖譜呈現「表格 > 文本 > KG」的遞減格局,但文本與 KG 推理在 K/R-Stress 上的反轉表現提醒我們:單一分數容易掩蓋結構性弱點,真正的推理魯棒性需要在多種壓力組合下綜合評估。

05

Dynamic OneEval vs. 靜態基準

一個關鍵問題是:Dynamic OneEval 的題目到底有多難?
我們將 Dynamic OneEval 上的結果與種子資料集上的表現進行對比。以 DeepSeek-V3.2 為例,在 Dynamic OneEval 上其表現明顯低於原始種子資料集:在文本推理上從 80% 降至 30%,在 KG 推理上從 70% 降至 38.0%。這種性能下降表明,Dynamic OneEval 透過保留和重現真實的失敗模式,暴露出模型在知識推理中的深層脆弱性。

06

相關論文

圖片
圖片

Dynamic OneEval 資料合成方法已被 IJCAI 2026 正式錄用,論文已公開:

📄 論文地址https://arxiv.org/abs/2605.01939
圖片
圖片

07

Dynamic OneEval 評測人員

組織人:

漆桂林 教授     東南大學

陳華鈞 教授     浙江大學

王昊奮 教授     同濟大學

評測任務規劃:

陳永銳 博士後     東南大學

資料貢獻與評測實驗:

馬陽陽     東南大學

黃曉瑩     杭州電子科技大學

技術支援與維護:

鄧鴻杰     浙江大學
圖片
延伸閱讀
圖片
RECOMMEND
1
OpenKG 更新 Dynamic OneEval 榜單
2
GPT-5.2 並非全面升級,OneEval V1.3 最新「LLM+KB」評測結果出爐
3
開源開放 | Quantum Knowledge Graph:讓知識圖譜理解「上下文」

OpenKG

OpenKG(中文開放知識圖譜)旨在推動以中文為核心的知識圖譜資料的開放、互聯及眾包,並促進知識圖譜演算法、工具及平台的開源開放。

圖片

點擊閱讀原文,進入 OpenKG 網站。

相關文章推薦

分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.