プロジェクトアドレス：https://github.com/Infinity-AILab/DeepResearchEval

深度研究AI評価の夜明け：人間はAIが本当に「研究」できるかをどう判断するのか？

一、研究背景：AIが「深度研究」を始めたとき、誰がその能力を評価するのか？

こんなシナリオを想像してみてください：あなたはAIに「2025年の半導体輸出規制がIoTハードウェアサプライチェーンに与える影響」を調査するよう依頼します。AIは複数回の情報検索、学術論文・業界レポート・ニュース報道の統合、最終的に数万字の深度レポートを生成する必要があります。これが現在最もホットな深度研究システム（Deep Research Systems）がやっていることです——彼らは単純な问答マシンではなく、人間の研究者のように多段階の情報検索、相互検証、多角的総合分析を行うことができます。

OpenAIのDeep Research、GoogleのGemini Deep Research、ClaudeなどのトップAIがこのレースで激しく競争しています。しかし問題があります：これらのAIが生成する長文研究レポートの品質をどう知るのか？どのシステムが本当に信頼できるのか、どのシステムがただ「でたらめを言っている」のか？

既存の評価ベンチマークには3つの大きな課題があります：

タスク構築が人手を非常に消費する：専門家が手動で研究タスクを設計する必要があり、コストが高く、更新が遅い
評価基準が硬直的すぎる：すべてのタスクを同じ基準で評価し、異なる研究問題の特殊な要求を捉えられない
事実検証に盲点がある：引用のある内容のみをチェックし、大量の未标注ソースの主張は誰も検証しない

これらの問題に対応するため、南洋理工大学と盛大グループの研究チームはDeepResearchEvalフレームワークを発表しました——研究タスクを自動生成し、レポート品質を智能的に評価し、能動的に事実を検証する完全な評価体系です。

上の図からわかるように、彼らは9つの主要な深度研究システムを評価し、Gemini-2.5-Proが総合品質で最高点（8.51/10）を獲得し、Manusが事実正確性で最高（82.3%の主張が正しいと検証された）ことを発見しました。より興味深いことに、すべてのシステムが「タスク固有の次元」での得点は「汎用次元」より明らかに低く、現在のAIが具体的な研究要求を満たすにはまだ大きな改善の余地があることを示しています。

二、関連研究：評価レースは百花繚乱だが、明らかな短所がある

深度研究システムの評価は新興分野であり、既存のベンチマークはそれぞれに重点を置いているが、すべてに限界があります。研究チームは十数個の関連ベンチマークを整理し、それらをいくつかのカテゴリーに分類しました：

初期ツール使用ベンチマーク（GAIA、HLEなど）は主にAIの推論とツール呼び出し能力を考察しますが、長文レポート生成は関与しません。ウェブナビゲーションベンチマーク（WideSearch、BrowseCompなど）は持続的なウェブ検索と情報検索に焦点を当てていますが、出力形式は短い答えまたはテーブルであり、完全なレポートではありません。

深度研究レポートに真正面から対応したベンチマークは近年になって登場し、DeepResearch Bench、LiveResearchBench、DRBenchなどが含まれます。しかし、それらはすべて高度に人手アノテーションに依存しています——専門家がタスクを設計し、参考答案を書き、採点基準を制定する必要があり、これによりタスク規模が小さく、更新が困難で、コストが高いという問題が生じています。

評価方法では、大多数のベンチマークが固定された評価次元（例えばすべて「正確性、完全性、明確性」という3つの次元を使用）を使用しており、異なるタイプの研究タスクの特殊な要求に適応できません。事実検証では、既存の方法は通常、レポートの中で标注された引用のある部分のみを検証し、大量の未标注ソースの主張（レポートの30-50%を占める可能性がある）には対応できません。

表1のように、DeepResearchEvalは初めて以下の5つの特性を同時に実現したベンチマークです：自動タスク生成、長文レポート出力、参考答案不要、適応型評価次元、能動的事実検証。これにより、新鮮で高品質なタスクを継続的に生成することができ、「生きた」ベンチマークのように、AIシステムの進化を長期的に監視するのに適しています。

三、核心方法：自動生成された現実的なタスク + 智能化された階層的評価

3.1 タスク構築：「人間像」を用いて研究問題を生成

伝統的な方法は専門家に直接研究問題を考えさせますが、専門家の背景と視野には限界があります。DeepResearchEvalの革新点は「人間像駆動」の方法でタスクを自動生成することです。全体の流れは3段階に分かれています：

第一段階：合成人物像（Persona Synthesis）研究チームはまず10の広範な分野（交通、政治、金融、歴史、ソフトウェア開発、産業、スポーツ、健康、科学技術、教育）を定義し、次にLLMに各分野ごとに5つの異なる背景を持つ人物を生成させます。各人物には詳細な個人履歴があり、所属機関、職位、教育背景、仕事経験、専門サブ分野が含まれます。例えば「産業」分野では、「IoTエンジニアEthan Kim、産業センサーネットワークゲートウェイを専門とし、半導体サプライチェーンに注目」という人物が生成されるかもしれません。

第二段階：人間像に基づくタスク構築（Task Construction）各人物に対して、LLMにその専門背景に合った深度研究タスクを4つ生成させます。これらのタスクは4つの厳格な要件を満たす必要があります：(1) 複数回の検索が必要；(2) 論文、レポート、フォーラムなど複数のソースを統合する必要がある；(3) 十分な分析深度（最新動向、データ分析、傾向評価、比較研究）を含む；(4) 明確な成果物と時間制約がある。最終的に200個の候補タスクが生成されます。

第三段階：2段階フィルタリング（Task Filtering）最初のフィルター「タスク資格選別」は、タスクが本当に最新知識、多ソース証拠、多層調査を必要とするか、そして人物像に合致しているかを評価し、信頼度>0.7のタスクのみを保持します。2番目のフィルター「検索必要性選別」は、LLMに検索ツールを使用せずにタスクに答えさせ、検索しなくてもうまく答えられる場合はタスクが簡単すぎると判断し、直接除外します。

このプロセスは最終的に155個の高品質タスクを出力します。自動化プロセスの信頼性を検証するため、研究チームは7人の博士専門家にこれらのタスクを独立して評価してもらい、その結果80%のタスクが少なくとも4人の専門家に認められたことがわかり、自動生成の品質が人手設計に匹敵することを証明しました。

3.2 品質評価：各タスクに合わせて採点基準をカスタマイズ

伝統的な評価方法はすべてのレポートを同じ基準で評価しますが、これは数学と国語を同じ試験で受けるようなもので、明らかに不合理です。DeepResearchEvalは適応型ポイントワイズ品質評価（Adaptive Point-wise Quality Evaluation）フレームワークを提案しました。

このフレームワークには2種類の評価次元が含まれています：

汎用次元（固定不変）：カバー率（Coverage）、洞察力（Insight）、指示遵守（Instruction-following）、明確性（Clarity）。これらの4つの次元はすべての研究レポートに適用されます。

タスク固有次元（動的生成）：各具体的なタスクに対して、LLMが1〜3個の専用次元を自動生成します。例えば、「米国、EU、中国の電動スケートボード規制フレームワークの比較」というタスクに対して、システムは「政策実用性（Policy Pragmatism）」や「比較総合性（Comparative Synthesis）」などの次元を生成します；一方、「植物由来肉製品の栄養品質評価」というタスクに対しては、「分類厳密性（Classification Rigor）」や「地域横断総合（Cross-Regional Synthesis）」などの次元を生成します。

各次元には重み（重要性を示す）があり、さらに複数の採点基準（criteria）に細分化され、各基準にも独自の重みがあります。LLMは各基準に点数（1〜10点、小数点以下2桁まで）を付け、最終的に加重集約によって全体の品質スコアを算出します：

この設計の妙味は、タスクをまたいだ比較可能な汎用次元を維持しながら、各タスクの独特な品質要求を捉えることができ、汎用性と特殊性の完璧なバランスを実現していることです。

3.3 事実検証：能動的に各文を検証

既存の方法はレポートの中で引用标注のある内容のみをチェックしますが、多くのAIが生成する主張には引用がなく、あるいは引用が装飾的なだけです。DeepResearchEvalは能動的事実検証エージェント（Active Fact-Checking Agent）を開発しました。これは外部証拠を能動的に検索し、レポート内の検証可能なすべての主張を検証します。

検証プロセスは4段階に分かれています：

段落処理：長文レポートを複数の段落に分割し、並列処理とコンテキスト保持を容易にする
主張抽出：各段落から数字、イベント、日付、場所、人物に関連する検証可能な主張を抽出する
証拠検索：各主張に対して、エージェントが検索ツール（Google Serper API）を呼び出し、関連証拠を探す
3分類判定：証拠に基づいてタグ付け——正解（Right）：主張が信頼できるソースで支持されている；誤り（Wrong）：主張が信頼できるソースと矛盾している；不明（Unknown）：証拠が不十分で検証できない

この設計の巧妙な点は、「未検証」と「誤り」を明確に区別していることです。多くのAIシステムの問題は明らかに間違ったことを言うことではなく、検証できない曖昧な主張を提出することです——「不明」とマークすることで、この種のリスクを明確に識別できます。

最終的な事実正確率は以下のように計算されます：

四、実験効果：最強の深度研究AIはどこ？ギャップはどこ？

研究チームは9つの主要な深度研究システムを包括的に評価しました。OpenAI Deep Research、Gemini-2.5-Pro Deep Research、Grok4、Claude-Sonnet-4.5、Qwen3-235B、DeepSeek、Perplexity、Doubao、Manusが含まれ、各システムが100件のレポートを生成し、合計で900件の深度研究レポートを評価しました。

4.1 総合品質：Geminiがリード、階層が明確

品質評価結果から、Gemini-2.5-Proが8.51の高得点で大きくリードし、すべての次元で優れたパフォーマンスを示しました。特にカバー率（9.2）、洞察力（9.0）、指示遵守（9.7）が際立っています。Claude-Sonnet-4.5が2位（7.53）で、同様にバランスの取れた能力を示しています。

中間グループにはOpenAI（7.28）、Qwen（7.17）、Doubao（7.06）が含まれ、彼らはカバー率と指示遵守で高い得点（8.5以上）を得ていますが、洞察力とタスク固有次元にはまだ改善の余地があります。

比較的弱いのはDeepSeek（5.25）とManus（5.95）で、指示遵守はまあまあですが、情報ですが、情報収集の広さと分析深度に明らかな不足があります。

最も注目すべき発見は、すべてのシステムが「タスク固有次元」での得点が「汎用次元」より明らかに低いことです。これは現在の深度研究AIに普遍的な問題があることを示しています——彼らは見た目は専門的な汎用レポートを生成するのが得意ですが、特定のタスクの独特な要求を満たす点ではまだ十分ではありません。例えば、政策分析タスクでは「実施可能な政策提案」と「量化可能な安全指標」が必要ですが、多くのシステムは漠然とした談論にとどまり、操作可能な具体的な内容を提供していません。

4.2 事実正確性：保守的な戦略 vs 高生産量のトレードオフ

事実検証では、ランキングに面白い変化があります。Manusが82.3%の正確率で1位を獲得し、Gemini（76.62%）とDeepSeek（76.44%）がそれに続きます。

データは重要なトレードオフを明らかにしています：

高正確率、低生産量戦略：DeepSeekは平均1件のレポートに25.08個の検証可能な主張を含み、正確率は76.44%で、誤った主張はわずか1.81個です。これは「保守的で慎重な」戦略です。
高生産量戦略：GeminiとDoubaoは平均86.99個と80.75個の主張を生成し、内容はより豊富で詳細ですが、正確率は低下します。ただし注目すべきは、Geminiは高生産量でも76.62%の正確率を維持しており、非常に珍しいことです。

もう一つの面白い発見：すべてのシステムの「誤った」主張は「不明」な主張よりはるかに少ないことです。例えばPerplexityには16.10個の不明な主張がありますが、誤った主張は9.08個だけです。これはAIシステムの主なリスクが明らかに間違ったことを言うことではなく、聞こえは良いが実際には検証できない曖昧な表現を提出することであることを示しています——これは明らかに誤ったことより危険かもしれません、なぜならユーザーはより簡単に誤解されるからです。

4.3 評価方法の検証：AI審査員は信頼できるか？

評価フレームワークの信頼性を検証するため、研究チームは3つの検証を行いました：

審査員間一致性：主審査員Gemini-2.5-Proに加え、GPT-5を第二審査員として使用しました。GPT-5はより厳格に採点し（得点は普遍的に低いですが）、9つのシステムのうち7つはランキングが完全に一致し、DoubaoとQwenだけが場所を交代（差はわずか1位）しただけでした。これはランキングが非常に安定していることを示しています。

ランダム性安定性：Gemini-2.5-Proで独立して3回評価を実行し、すべてのシステムのランキングは完全に不変で、得点の標準偏差は極めて小さく、評価プロセスが高度に安定していることを証明しました。

人間AI一致度：4人の専門家が80個の主張を手動でアノテーションし、AI審査員の判断と比較しました。**一致性は73%に達しました**。より興味深いことに、研究チームは20個の不一致ケースを深く分析し、AI判断が正しいのは70%、人間が正しいのは30%であることを発見しました——主な理由は、AIが徹底的に検索・検証できるのに対し、人間の専門家は一部の証拠を遗漏する可能性があるからです。

五、論文まとめ

この論文の最大の貢献は持続可能で拡張可能な深度研究AI評価パラダイムを提案したことです。伝統的なベンチマークと比較して、3つの大きな突破があります：

タスク構築の自動化：人間像駆動の方法を通じて、新鮮で高品質で現実的なニーズに近い研究タスクを継続的に生成でき、高価な専門家アノテーションに依存する必要がなくなります。これにより、ベンチマークは「生きた」ベンチマークのように絶えず更新され、技術の急速な迭代に適応できます。
評価の智能化：適応型評価次元設計はタスクをまたいだ比較可能性を保証しながら、各タスクの独特な要求を捉えます。これは「一刀両断」の固定基準より科学的で、システムの真の短所を発見しやすくなります。
検証の全面化：能動的事実検証は引用のある内容だけでなく、大量の未标注ソースの主張も検証し、事実検証の盲点を埋め、3分類（正解/誤り/不明）を通じて異なるタイプの問題を明確に区別します。

もちろん、このフレームワークにも限界があります。現在は主に英語環境に焦点を当てています。多言語および言語横断証拠統合へのサポートはまだ不十分です。また、評価コストが高いです——大量のGemini-2.5-ProとGPT-5-miniの呼び出し、頻繁な検索API呼び出しにより、大規模またはリアルタイム展開時にはコスト圧力に直面します。

しかし、瑕は瑜を掩いません。DeepResearchEvalは深度研究AIの評価に新しい基準を树立しました。AIシステムがますます複雑な研究タスクを担うようになるにつれて、私たちは単に「長文を生成できる」AIだけでなく、「信頼できる研究ができる」AIを必要としています。このフレームワークはAI研究能力に「ゴールドスタンダード」を設けたようなもの——それは、合格した深度研究システムは検索や要約ができることだけでなく、具体的な要求に合わせて分析をカスタマイズし、各主張に確かな根拠があることを確保できることを私たちに伝えます。

実験結果から見ると、Gemini-2.5-Proのようなトップシステムでも、タスク固有次元でのパフォーマンスには明らかなギャップがあり、事実正確率も76〜82%にとどまっています。これは深度研究AIが「完全に信頼できる」段階にはまだ遠いことを意味します。私たちは彼らの進化を継続的に監視するためのより良い評価ツールを必要としています——そしてDeepResearchEvalはまさにこの方向に向けた確かな一歩です。

DeepResearchEval震撼発表：自動で問題を生成し、智能的に採点するAI研究評価フレームワーク