導讀:Dynamic OneEval 榜單本次更新 2026-05 版本,依然採用「自動合成資料+人工校驗」的方式,新增 190 條全新測試用例,評測了包括 GPT-5.5、DeepSeek V4-pro、QWEN-3.6-plus 等最新模型在異構知識源上的推理能力。相關論文成果已被 IJCAI-2026 錄用。
01
引言
圖1 Dynamic OneEval 與現有評測基準的區別
為此,OpenKG 於 2026 年 2 月發布了動態榜單 Dynamic OneEval。與靜態基準不同,Dynamic OneEval 的核心邏輯是:從模型已有的真實失敗案例出發,將「模型為什麼錯」轉化為可操作的生成約束,系統性地產出既困難、又可追溯難點來源的評測樣本。
具體而言,Dynamic OneEval 實現了從「錯誤復盤」到「難點定向重現」的閉環升級:第一,定位失敗根因,識別模型在知識記憶、多步推理等維度上的具體薄弱點;第二,約束驅動合成,將失敗模式編碼為生成約束,定向合成具有挑戰性的測試樣本;第三,動態迭代更新,評測結果指導下一批樣本生成,形成持續演進的評測閉環。
本次發布的 Dynamic OneEval-202605 新增 190 條測試樣本,評測了包括 GPT-5.5、Qwen3.6-Plus 和 DeepSeek-V4-Pro 在內的 18 款國內外主流的 LLM。OpenKG 將持續更新 OneEval 基準平台,後續將持續發布新版本評測結果,歡迎關注。
02
前瞻:Dynamic OneEval-202605 總體榜單
表 1 Dynamic OneEval-202605 總體榜單
我們在統一實驗設定下使用 Dynamic OneEval-202605 對 18 款前沿大模型進行評測,其中包括多款最新模型(GPT-5.5、Qwen3.6-plus、Deepseek‑V4‑pro)。結果表明:儘管 Dynamic OneEval 基於合成資料構造,但整體依然具有較高難度——本次整體得分最高的 GPT-5.5 也僅為 56.2%。從分數分佈看,排名呈現出以下特點:
1. 頭部競爭白熱化
GPT-5.5 以 56.2% 超越 Claude-opus-4.6-thinking(55.3%)奪得榜首,兩者僅差 0.9 個百分點。Gemini-3.1-pro(52.9%)和 Gemini-3-pro(52.8%)緊隨其後,前四差距僅 3.4 個百分點,頭部競爭進入「毫釐之爭」階段。與上一版本中 Gemini-3-pro(46.4%)大幅領先第二名 9.0 個百分點相比,頭部模型的差距已大幅縮小。
2. 中上游梯隊密集,競爭激烈
Qwen3.6-plus(51.1%)、Glm-5(50.1%)、Qwen3.5-plus(49.4%)與 GPT-5.4(47.6%)構成第二梯隊。隨後 Claude-sonnet-4.5(43.4%)、Hunyuan-2.0(41.2%)、Deepseek‑V4‑pro(41.1%)和 GPT-5.2(40.5%)構成中游區間,四者之間最大差距僅 2.9%。
3. 相較於推理陷阱,對知識的缺失仍是 LLM 核心短板
多數模型的 K-Stress 得分明顯低於 R-Stress。Deepseek‑V4‑pro 的 Text K-Stress 低至 25.0%(Text R-Stress 55.0%),KG K-Stress 僅 8.0%(KG R-Stress 60.0%),說明知識缺失與推理能力之間存在顯著的不對稱性。
03
Dynamic OneEval 構建策略
圖 2 Dynamic OneEval 構建流程
Dynamic OneEval 採用「結構化錯誤分析 — 雙視角實例合成 — 多標準門控篩選」的三階段閉環構建策略,以持續產出可追溯且不易被記憶取巧的高難度動態評測樣本。
階段 1:結構化錯誤分析(Structured Error Analysis)
對模型在種子資料集上的失敗案例進行結構化復盤。利用 LLM 作為分析器,重建模型的推理軌跡,定位失敗的推理步驟,診斷根因類型(如實體連結混淆、部分實體識別後推理、證據遺漏等),並生成結構化的「難度卡片」(Difficulty Card):哪個推理環節出了問題?什麼輸入特徵觸發了錯誤?這一步把「模型為什麼錯」轉化為後續生成的可操作約束。
階段 2:雙視角實例合成(Dual-Perspective Instance Synthesis)
根據難度卡片的診斷結果,從兩個互補視角定向合成新題目:
知識壓力(Knowledge-Stress):針對模型因「知識缺失」而失敗的案例。保留原始知識源不變,將缺失的關鍵事實提煉為原子化的「知識黑盒」,然後從原始知識源中提取新的事實與之組合,生成新的問答對。這樣確保新題目依然依賴那個模型不知道的事實,從而穩定重現知識缺口導致的失敗。
推理壓力(Reasoning-Stress):針對知識源已包含充分資訊但模型仍推理出錯的案例。使用虛構實體構建虛擬知識源(防止模型利用參數記憶走捷徑),並通過「推理骨架」方法繼承原始失敗中的推理瓶頸和觸發條件,生成新的陷阱式題目。
階段 3:多標準門控篩選(Multi-criterion Gating)
合成完成後,引入兩個獨立的 LLM 評審器進行品質把關:
可答性評審:確認題目在對應壓力類型下是可回答的,答案有明確的上下文支撐;
一致性評審:獨立求解題目,驗證答案一致性及難度卡片中的難點是否真正體現在題目中。
04
知識推理排名
4.1 文本推理
圖 3 Dynamic OneEval-202605 文本推理榜單
4.2 知識圖譜推理
圖 4 Dynamic OneEval-202605 知識圖譜推理榜單
4.3 表格推理
圖 5 Dynamic OneEval-202605 表格推理榜單
05
Dynamic OneEval vs. 靜態基準
06
相關論文
Dynamic OneEval 資料合成方法已被 IJCAI 2026 正式錄用,論文已公開:
07
Dynamic OneEval 評測人員
組織人:
漆桂林 教授 東南大學
陳華鈞 教授 浙江大學
王昊奮 教授 同濟大學
評測任務規劃:
陳永銳 博士後 東南大學
資料貢獻與評測實驗:
馬陽陽 東南大學
黃曉瑩 杭州電子科技大學
技術支援與維護:
OpenKG
OpenKG(中文開放知識圖譜)旨在推動以中文為核心的知識圖譜資料的開放、互聯及眾包,並促進知識圖譜演算法、工具及平台的開源開放。
點擊閱讀原文,進入 OpenKG 網站。