静的評価はもう「時代遅れ」？OpenKGがLLM知識強化の動的評価ベンチマークDynamic OneEval-202605を継続更新

ガイド：Dynamic OneEvalベンチマークは今回2026-05バージョンに更新され、引き続き「自動合成データ＋人手による検証」方式を採用し、新たに190件の全く新しいテストケースを追加しました。GPT-5.5、DeepSeek V4-pro、QWEN-3.6-plusなどの最新モデルの異種知識源における推論能力を評価しました。関連する論文成果はIJCAI-2026に採録されています。

🌐 評価公式サイト＆オンラインランキング：http://oneeval.openkg.cn

完全なランキング、データセットの説明、継続的に更新される評価結果については公式サイトをご覧ください。

はじめに

推論型大規模言語モデル（LLM）の能力はかつてない速度で向上していますが、従来の静的ベンチマークの限界もますます顕著になっています。ランキングのスコアは上昇し続けていますが、境界条件におけるモデルの脆弱性を覆い隠している可能性があります。ベンチマークの再利用はデータ汚染のリスクをもたらし、「高スコア」が真の汎化能力と訓練による記憶を区別することを困難にしています。知識集約型の推論タスクにおいて、この問題は特に顕著です。モデルは正しい答えを提供するだけでなく、根拠を示し、最新の事実に追随し、多段階の推論連鎖を安定的に完了しなければならないからです。

図1 Dynamic OneEvalと既存評価ベンチマークの違い

そのため、OpenKGは2026年2月に動的ベンチマークDynamic OneEvalを発表しました。静的ベンチマークとは異なり、Dynamic OneEvalの核心理論は、モデルの既存の実際の失敗事例から出発し、「モデルがなぜ間違えたのか」を操作可能な生成制約に変換し、困難でありながらも難点の原因を追跡可能な評価サンプルを体系的に生み出すことです。

具体的には、Dynamic OneEvalは「エラー分析」から「難点の定向的再現」への閉ループアップグレードを実現しています。第一に、失敗の根本原因を特定し、知識記憶や多段階推論などの次元におけるモデルの具体的な弱点を特定します。第二に、制約駆動型合成により、失敗パターンを生成制約としてコード化し、困難なテストサンプルを定向的に合成します。第三に、動的反復更新により、評価結果が次のバッチのサンプル生成を導き、継続的に進化する評価の閉ループを形成します。

今回発表されたDynamic OneEval-202605には、新たに190件のテストサンプルが追加され、GPT-5.5、Qwen3.6-Plus、DeepSeek-V4-Proを含む国内外の主要なLLM18モデルが評価されました。OpenKGはOneEvalベンチマークプラットフォームを継続的に更新し、今後も新しいバージョンの評価結果を発表していきますので、ご期待ください。

展望：Dynamic OneEval-202605 総合ランキング

表1 Dynamic OneEval-202605 総合ランキング

統一された実験設定の下、Dynamic OneEval-202605を用いて18の最先端大規模モデルを評価しました。その中にはGPT-5.5、Qwen3.6-plus、Deepseek‑V4‑proなどの最新モデルも含まれています。結果が示すように、Dynamic OneEvalは合成データに基づいて構築されていますが、全体として依然として高い難易度を保っており、今回の総合スコアが最も高かったGPT-5.5でも56.2%に留まりました。スコア分布から、ランキングには以下の特徴が見られます。

1. トップ争いは熾烈

GPT-5.5が56.2%でClaude-opus-4.6-thinking（55.3%）を抜いて首位に立ち、その差はわずか0.9ポイントです。Gemini-3.1-pro（52.9%）とGemini-3-pro（52.8%）が僅差で続き、上位4モデルの差は3.4ポイントに過ぎず、トップ争いは「僅差の戦い」の段階に入っています。前バージョンでGemini-3-pro（46.4%）が2位に9.0ポイントの大差をつけていたのと比較すると、トップモデル間の差は大幅に縮まっています。

2. 中位から上位層は密集し、競争が激しい

Qwen3.6-plus（51.1%）、Glm-5（50.1%）、Qwen3.5-plus（49.4%）、GPT-5.4（47.6%）が第二集団を形成しています。続いてClaude-sonnet-4.5（43.4%）、Hunyuan-2.0（41.2%）、Deepseek‑V4‑pro（41.1%）、GPT-5.2（40.5%）が中位グループを構成し、これら4モデル間の最大差はわずか2.9%です。

3. 推論の罠よりも、知識の欠如が依然としてLLMの核心的な弱点

ほとんどのモデルで、K-StressのスコアがR-Stressを明らかに下回っています。Deepseek‑V4‑proのText K-Stressは25.0%（Text R-Stressは55.0%）、KG K-Stressはわずか8.0%（KG R-Stressは60.0%）であり、知識の欠如と推論能力の間に顕著な非対称性が存在することを示しています。

Dynamic OneEvalの構築戦略

図2 Dynamic OneEvalの構築フロー

Dynamic OneEvalは、「構造化エラー分析 — 二視点インスタンス合成 — 多基準ゲート選別」という三段階の閉ループ構築戦略を採用し、追跡可能で記憶による近道が困難な高難度の動的評価サンプルを持続的に生み出します。

段階1：構造化エラー分析（Structured Error Analysis）

シードデータセット上のモデルの失敗事例に対して構造化分析を実施します。LLMを分析器として利用し、モデルの推論軌跡を再構築し、失敗した推論ステップを特定し、原因タイプ（エンティティリンクの混同、部分的なエンティティ認識後の推論、証拠の見落としなど）を診断し、構造化された「難易度カード」（Difficulty Card）を生成します。つまり、推論のどの段階で問題が生じたのか？どの入力特徴がエラーを引き起こしたのか？を明確にします。これにより、「モデルがなぜ間違えたのか」を後続の生成のための操作可能な制約に変換します。

段階2：二視点インスタンス合成（Dual-Perspective Instance Synthesis）

難易度カードの診断結果に基づき、二つの補完的な視点から新しい問題を定向的に合成します：

知識ストレス（Knowledge-Stress）：モデルが「知識の欠如」により失敗した事例を対象とします。元の知識源は変更せず、欠落している重要事実を原子化された「知識ブラックボックス」として抽出し、その後、元の知識源から新しい事実を抽出して組み合わせ、新しい問答ペアを生成します。これにより、新しい問題が依然としてモデルの知らない事実に依存することを保証し、知識の欠如による失敗を安定的に再現します。
推論ストレス（Reasoning-Stress）：知識源に十分な情報が含まれているにもかかわらず、モデルが推論を誤った事例を対象とします。架空のエンティティを用いて仮想知識源を構築し（モデルがパラメトリック記憶を利用するのを防ぐため）、「推論スケルトン」手法によって元の失敗における推論のボトルネックとトリガー条件を継承し、新しい罠のような問題を生成します。

段階3：多基準ゲート選別（Multi-criterion Gating）

合成完了後、独立した二つのLLMレビュアーを導入して品質チェックを行います：

回答可能性レビュー：問題が該当するストレスタイプの下で回答可能であり、答えに明確な文脈上の裏付けがあることを確認します。
一貫性レビュー：独立して問題を解き、答えの一貫性と、難易度カードの難点が問題に真に反映されているかを検証します。

両方のレビューを通過したサンプルのみが最終データセットに組み込まれ、「難しくても回答可能で、曖昧さが制御された」高品質な評価データの生成が保証されます。

知識推論ランキング

テキスト、知識グラフ、表の三つの知識タイプから出発し、18の最先端モデルのK-Stress（知識圧力）とR-Stress（推論圧力）下でのパフォーマンスの違いをそれぞれ評価しました。テキスト推論とKG推論にはK-StressとR-Stressの両方の次元が含まれており、モデルの「知識の欠如」と「推論への罠設置」という二つの圧力下での能力分化を直接比較できます。表推論はR-Stressのみを設定しており、高度に構造化されたデータ上でのモデルの組み合わせ実行能力を反映しています。三つのグループ棒グラフは、各次元におけるモデルランキングとK/R-Stressの対比を示しています（下図参照）。総合的に見て、K-StressとR-Stressの差は、異なる知識タイプにおけるモデルの能力分布を反映するだけでなく、知識集約型推論における現在の大規模言語モデルの構造的弱点を一層浮き彫りにしています。

4.1 テキスト推論

図3 Dynamic OneEval-202605 テキスト推論ランキング

実験結果から見ると、テキスト推論は全体的な難易度が最も高い項目であり、各モデルは概してK-StressがR-Stressを上回るパターンを示しています。GPT-5.5の差が最も小さく（55.0% vs 45.0%、差は10ポイント）、Claude-opus-4.6-thinkingとGemini-3.1-proはいずれも30ポイント差、Qwen3.6-plusの差は45ポイント、GPT-5.2に至っては60ポイント（65.0% vs 5.0%）に達します。この結果は、現在のモデルのテキスト推論における「高スコア」が、真の論理導出というよりは、表層的な手がかりの接続とパターンマッチングに依存していることを示しています。知識が圧力によって隠蔽されても、モデルは文脈中の関連情報を通じて推論を完了できますが、推論経路が体系的に罠にかけられると、モデルの論理連鎖は極めて容易に崩壊します。これは、テキスト推論においては知識の欠如は文脈によって補償されうる一方で、推論連鎖の脆弱性こそがより深層的なボトルネックであることを意味します。

4.2 知識グラフ推論

図4 Dynamic OneEval-202605 知識グラフ推論ランキング

テキスト推論とは対照的に、KG推論は全く逆の様相を呈しています。全てのモデルでR-StressがK-Stressを大幅に上回っています。GPT-5.5が最もバランスが取れており（KG-K 42.0% vs KG-R 62.0%、差は20ポイント）、一方でDoubao-seed-1.6のKG-K-Stressはわずか2.0%であるのに対し、KG-R-Stressは62.0%と、差は60ポイントにもなります。Deepseek-V4-proも同様に極端な分化を示しています（8.0% vs 60.0%）。この極端な差異が明らかにするのは、知識グラフの構造化された表現は、本来的に推論ストレスに対する「足場」を提供するということです。つまり、グラフ内のエンティティ関係パスが推論の方向性を制約し、モデルがエッジに沿って探索し仮説を検証しやすくするのです。しかし、重要な事実が「知識ブラックボックス」として抽象化されると、グラフの構造上の利点は逆に構造的な盲点となります。モデルは欠落したノード間に有効な接続を確立できなくなります。これは、現在のKG推論モデルの能力が「知識駆動」というよりは「構造駆動」であり、形式的なグラフ構造が実質的な知識推論の弱点を覆い隠していることを示唆しています。

4.3 表推論

図5 Dynamic OneEval-202605 表推論ランキング

表推論はR-Stressのテスト項目のみが設定されていますが、全体のスコアは前の二つの次元を顕著に上回っています。Qwen3.5-plusが90.0%でトップに立ち、上位6モデル（Qwen3.5-plus, GPT-5.5, Gemini-3.1-pro, Claude-opus-4.6-thinking, Gemini-3-pro, Glm-5）はいずれも83.3%以上であるのに対し、Llama-3.1-8bはわずか26.7%で、その範囲差は63ポイントを超えます。この分布は、表の高度に構造化された提示方法（セルの整列、行と列の制約）がモデルに明確な操作境界を提供し、自由推論の不確実性を大幅に低減することを示しています。表の知識が容易には「ストレス化」されないという事実自体も、一つの特徴を反映しています。すなわち、表推論のボトルネックは知識の欠如ではなく、構造解析と条件制約の組み合わせ実行能力にあるということです。三つの次元を総合すると、現在のモデルの能力マップは「表＞テキスト＞ KG」という逓減構造を示していますが、テキスト推論とKG推論におけるK/R-Stressの逆転現象は、単一のスコアが構造的な弱点を容易に隠蔽してしまうことを警告しており、真の推論ロバストニスは、複数のストレスの組み合わせの下で総合的に評価される必要があることを示しています。

Dynamic OneEval vs. 静的ベンチマーク

一つの重要な疑問は、「Dynamic OneEvalの問題は一体どれほど難しいのか」ということです。

私たちはDynamic OneEvalでの結果を、シードデータセット上でのパフォーマンスと比較しました。DeepSeek-V3.2を例にとると、Dynamic OneEvalでのパフォーマンスは元のシードデータセットと比較して明らかに低下しています。テキスト推論では80%から30%へ、KG推論では70%から38.0%へと低下しました。このパフォーマンス低下は、Dynamic OneEvalが実際の失敗パターンを保持し再現することで、知識推論におけるモデルの深層的な脆弱性を暴露していることを示しています。