靜態評測已「過時」？OpenKG 持續更新 LLM 知識增強動態評測榜單 Dynamic OneEval-202605

導讀：Dynamic OneEval 榜單本次更新 2026-05 版本，依然採用「自動合成資料＋人工校驗」的方式，新增 190 條全新測試用例，評測了包括 GPT-5.5、DeepSeek V4-pro、QWEN-3.6-plus 等最新模型在異構知識源上的推理能力。相關論文成果已被 IJCAI-2026 錄用。

🌐 評測官網 & 線上榜單：http://oneeval.openkg.cn

歡迎前往官網查看完整榜單、資料集說明及持續更新的評測結果。

引言

推理型大型語言模型的能力正以前所未有的速度提升，然而傳統靜態基準的侷限性也日益凸顯：榜單分數持續走高，卻可能掩蓋模型在邊界條件下的脆弱性；基準的反覆使用帶來資料污染風險，使得「高分」難以區分真正的泛化能力與訓練記憶。對於知識密集型推理任務而言，這一問題尤為突出：因為模型不僅需要給出正確答案，還必須有據可依、緊跟最新事實、並穩定完成多步推理鏈。

圖1 Dynamic OneEval 與現有評測基準的區別

為此，OpenKG 於 2026 年 2 月發布了動態榜單 Dynamic OneEval。與靜態基準不同，Dynamic OneEval 的核心邏輯是：從模型已有的真實失敗案例出發，將「模型為什麼錯」轉化為可操作的生成約束，系統性地產出既困難、又可追溯難點來源的評測樣本。

具體而言，Dynamic OneEval 實現了從「錯誤復盤」到「難點定向重現」的閉環升級：第一，定位失敗根因，識別模型在知識記憶、多步推理等維度上的具體薄弱點；第二，約束驅動合成，將失敗模式編碼為生成約束，定向合成具有挑戰性的測試樣本；第三，動態迭代更新，評測結果指導下一批樣本生成，形成持續演進的評測閉環。

本次發布的 Dynamic OneEval-202605 新增 190 條測試樣本，評測了包括 GPT-5.5、Qwen3.6-Plus 和 DeepSeek-V4-Pro 在內的 18 款國內外主流的 LLM。OpenKG 將持續更新 OneEval 基準平台，後續將持續發布新版本評測結果，歡迎關注。

前瞻：Dynamic OneEval-202605 總體榜單

表 1 Dynamic OneEval-202605 總體榜單

我們在統一實驗設定下使用 Dynamic OneEval-202605 對 18 款前沿大模型進行評測，其中包括多款最新模型（GPT-5.5、Qwen3.6-plus、Deepseek‑V4‑pro）。結果表明：儘管 Dynamic OneEval 基於合成資料構造，但整體依然具有較高難度——本次整體得分最高的 GPT-5.5 也僅為 56.2%。從分數分佈看，排名呈現出以下特點：

1. 頭部競爭白熱化

GPT-5.5 以 56.2% 超越 Claude-opus-4.6-thinking（55.3%）奪得榜首，兩者僅差 0.9 個百分點。Gemini-3.1-pro（52.9%）和 Gemini-3-pro（52.8%）緊隨其後，前四差距僅 3.4 個百分點，頭部競爭進入「毫釐之爭」階段。與上一版本中 Gemini-3-pro（46.4%）大幅領先第二名 9.0 個百分點相比，頭部模型的差距已大幅縮小。

2. 中上游梯隊密集，競爭激烈

Qwen3.6-plus（51.1%）、Glm-5（50.1%）、Qwen3.5-plus（49.4%）與 GPT-5.4（47.6%）構成第二梯隊。隨後 Claude-sonnet-4.5（43.4%）、Hunyuan-2.0（41.2%）、Deepseek‑V4‑pro（41.1%）和 GPT-5.2（40.5%）構成中游區間，四者之間最大差距僅 2.9%。

3. 相較於推理陷阱，對知識的缺失仍是 LLM 核心短板

多數模型的 K-Stress 得分明顯低於 R-Stress。Deepseek‑V4‑pro 的 Text K-Stress 低至 25.0%（Text R-Stress 55.0%），KG K-Stress 僅 8.0%（KG R-Stress 60.0%），說明知識缺失與推理能力之間存在顯著的不對稱性。

Dynamic OneEval 構建策略

圖 2 Dynamic OneEval 構建流程

Dynamic OneEval 採用「結構化錯誤分析 — 雙視角實例合成 — 多標準門控篩選」的三階段閉環構建策略，以持續產出可追溯且不易被記憶取巧的高難度動態評測樣本。

階段 1：結構化錯誤分析（Structured Error Analysis）

對模型在種子資料集上的失敗案例進行結構化復盤。利用 LLM 作為分析器，重建模型的推理軌跡，定位失敗的推理步驟，診斷根因類型（如實體連結混淆、部分實體識別後推理、證據遺漏等），並生成結構化的「難度卡片」（Difficulty Card）：哪個推理環節出了問題？什麼輸入特徵觸發了錯誤？這一步把「模型為什麼錯」轉化為後續生成的可操作約束。

階段 2：雙視角實例合成（Dual-Perspective Instance Synthesis）

根據難度卡片的診斷結果，從兩個互補視角定向合成新題目：

知識壓力（Knowledge-Stress）：針對模型因「知識缺失」而失敗的案例。保留原始知識源不變，將缺失的關鍵事實提煉為原子化的「知識黑盒」，然後從原始知識源中提取新的事實與之組合，生成新的問答對。這樣確保新題目依然依賴那個模型不知道的事實，從而穩定重現知識缺口導致的失敗。
推理壓力（Reasoning-Stress）：針對知識源已包含充分資訊但模型仍推理出錯的案例。使用虛構實體構建虛擬知識源（防止模型利用參數記憶走捷徑），並通過「推理骨架」方法繼承原始失敗中的推理瓶頸和觸發條件，生成新的陷阱式題目。

階段 3：多標準門控篩選（Multi-criterion Gating）

合成完成後，引入兩個獨立的 LLM 評審器進行品質把關：

可答性評審：確認題目在對應壓力類型下是可回答的，答案有明確的上下文支撐；
一致性評審：獨立求解題目，驗證答案一致性及難度卡片中的難點是否真正體現在題目中。

只有同時通過兩項評審的樣本才會被納入最終資料集，確保產出「難而可答、歧義可控」的高品質評測資料。

知識推理排名

我們從文本、知識圖譜、表格三種知識類型出發，分別評估了 18 款前沿模型在 K-Stress（知識壓力）和 R-Stress（推理壓力）下的表現差異。文本和 KG 推理同時包含 K-Stress 與 R-Stress 兩個維度，可以直接對比模型在「知識缺失」和「推理設陷」兩種壓力下的能力分化；表格推理則僅設置 R-Stress，反映模型在高度結構化資料上的組合執行能力。三張分組柱狀圖分別展示了各維度下的模型排名與 K/R-Stress 對比（見下文圖表）。綜合來看，K-Stress 與 R-Stress 的差距不僅反映了模型在不同知識類型上的能力分佈，更揭示了當前大語言模型在知識密集型推理中的結構性弱點。

4.1 文本推理

圖 3 Dynamic OneEval-202605 文本推理榜單

從實驗結果看，文本推理是整體難度最高的分項，且各模型普遍呈現 K-Stress 高於 R-Stress 的模式。GPT-5.5 差距最小（55.0% vs 45.0%，相差 10 個百分點），Claude-opus-4.6-thinking 和 Gemini-3.1-pro 均相差 30 個百分點，而 Qwen3.6-plus 差距達 45 個百分點，GPT-5.2 更是達到 60 個百分點（65.0% vs 5.0%）。這一結果表明：當前模型在文本推理上的「高分」更多依賴表層線索的拼接與模式匹配，而非真正的邏輯推導。當知識被壓力化隱藏後，模型尚能通過上下文中的關聯資訊完成推理；但當推理路徑被系統性設陷時，模型的邏輯鏈極易崩潰。這意味著文本推理中知識缺口尚可被上下文補償，而推理鏈的脆弱性才是更深層的瓶頸。

4.2 知識圖譜推理

圖 4 Dynamic OneEval-202605 知識圖譜推理榜單

與文本推理形成鮮明對比，KG 推理呈現出完全反轉的格局：所有模型的 R-Stress 均大幅高於 K-Stress。GPT-5.5 表現最為均衡（KG-K 42.0% vs KG-R 62.0%，相差 20 個百分點），而 Doubao-seed-1.6 的 KG-K-Stress 僅 2.0%，KG-R-Stress 卻高達 62.0%，差距達 60 個百分點；Deepseek-V4-pro 同樣呈現極端分化（8.0% vs 60.0%）。這一極端差異揭示：知識圖譜的結構化表示天然為推理壓力提供了「鷹架」，圖譜中的實體關係路徑約束了推理方向，使模型更容易沿邊搜尋和驗證假設；但當關鍵事實被抽象為「知識黑盒」後，圖譜的結構化優勢反而成為結構性盲點。模型無法在缺失的節點間建立有效連接。這表明當前 KG 推理模型的能力更多是「結構驅動」而非「知識驅動」，形式化的圖結構掩蓋了實質性的知識推理短板。

4.3 表格推理

圖 5 Dynamic OneEval-202605 表格推理榜單

表格推理僅設置了 R-Stress 測試項，但整體得分顯著高於前兩個維度。Qwen3.5-plus 以 90.0% 領跑，前五名（Qwen3.5-plus、GPT-5.5、Gemini-3.1-pro、Claude-opus-4.6-thinking、Gemini-3-pro、Glm-5）均在 83.3% 以上，而 Llama-3.1-8b 僅 26.7%，極差超過 63 個百分點。這一分佈說明：表格的高度結構化呈現方式（儲存格對齊、行列約束）為模型提供了明確的操作邊界，大幅降低了自由推理的不確定性。表格知識不易被「壓力化」剝離這一事實本身也反映出一個特點：表格推理的瓶頸不在知識缺失，而在結構解析與條件約束的組合執行能力。綜合三個維度可見，當前模型的能力圖譜呈現「表格 > 文本 > KG」的遞減格局，但文本與 KG 推理在 K/R-Stress 上的反轉表現提醒我們：單一分數容易掩蓋結構性弱點，真正的推理魯棒性需要在多種壓力組合下綜合評估。

Dynamic OneEval vs. 靜態基準

一個關鍵問題是：Dynamic OneEval 的題目到底有多難？

我們將 Dynamic OneEval 上的結果與種子資料集上的表現進行對比。以 DeepSeek-V3.2 為例，在 Dynamic OneEval 上其表現明顯低於原始種子資料集：在文本推理上從 80% 降至 30%，在 KG 推理上從 70% 降至 38.0%。這種性能下降表明，Dynamic OneEval 透過保留和重現真實的失敗模式，暴露出模型在知識推理中的深層脆弱性。

相關論文