項目地址：https://github.com/Infinity-AILab/DeepResearchEval

深度研究AI評測的黎明：人類如何判斷AI能否真正「做研究」?

一、研究背景：當AI開始「深度研究」，誰來評判它們的能力?

想像一下這個場景：你讓AI幫你調研「2025年半導體出口管制如何影響物聯網硬體供應鏈」，它需要搜尋多輪資訊、整合學術論文、行業報告、新聞報導，最後生成一份幾萬字的深度報告。這就是當下最火的深度研究系統（Deep Research Systems）在做的事情——它們不再是簡單的問答機器，而是能夠像人類研究員一樣，進行多步驟的資訊檢索、交叉驗證、多角度綜合分析。

OpenAI的Deep Research、Google的Gemini Deep Research、Claude等頂尖AI都在這個賽道上狂飆。但問題來了：我們怎麼知道這些AI生成的長篇研究報告質量如何？哪些系統真的靠譜，哪些只是在「胡說八道」？

現有的評測基準存在三大痛點：

任務構建太費人力：需要專家手工設計研究任務，成本高、更新慢
評價維度太死板：用同一套標準評估所有任務，無法捕捉不同研究問題的特殊要求
事實核查有盲區：只檢查有引用的內容，大量未標註來源的陳述無人驗證

針對這些問題，來自南洋理工大學和盛大集團的研究團隊推出了DeepResearchEval框架——一個能自動生成研究任務、智慧評估報告質量、主動核查事實的完整評測體系。

從上圖可以看到，他們評測了9個主流深度研究系統，發現Gemini-2.5-Pro在綜合質量上得分最高（8.51/10），而Manus在事實準確性上表現最佳（82.3%的陳述被驗證為正確）。更有意思的是，所有系統在「任務特定維度」上的得分都明顯低於通用維度，說明當前AI在滿足具體研究需求上還有很大進步空間。

二、相關工作：評測賽道百花齊放，但都有明顯短板

深度研究系統的評測是個新興領域，現有基準各有側重但都存在局限性。研究團隊梳理了十幾個相關基準，發現它們可以分為幾類：

早期工具使用類基準（如GAIA、HLE）主要考察AI的推理和工具調用能力，但不涉及長篇報告生成。網頁導航類基準（如WideSearch、BrowseComp）關注持續的網路搜尋和資訊檢索，但輸出格式是短答案或表格，不是完整報告。

真正針對深度研究報告的基準近年才出現，包括DeepResearch Bench、LiveResearchBench、DRBench等。但它們都高度依賴人工標註——專家需要設計任務、撰寫參考答案、制定評分標準，這導致任務規模小、更新困難、成本高昂。

在評估方法上，大多數基準使用固定的評價維度（比如都用「準確性、完整性、清晰度」這三個維度），無法適應不同類型研究任務的特殊需求。在事實核查方面，現有方法通常只驗證報告中有標註引用的部分，對於大量未標註來源的陳述（可能占報告的30-50%）則無能為力。

如表1所示，DeepResearchEval是第一個同時實現以下五大特性的基準：自動化任務生成、輸出長篇報告、無需參考答案、自適應評價維度、主動事實驗證。這使得它能夠持續產生新鮮的高質量任務，就像一個「活」的基準，適合長期監控AI系統的進化。

三、核心方法：自動生成真實任務 + 智慧化分層評估

3.1 任務構建：用「人設」生成研究問題

傳統方法是讓專家直接想研究問題，但專家的背景和視野有限。DeepResearchEval的創新點是用「人設驅動」的方式自動生成任務。整個流程分三步：

第一步：合成人物角色（Persona Synthesis）研究團隊先定義了10個廣泛領域（交通、政治、金融、歷史、軟體開發、工業、體育、健康、科技、教育），然後讓LLM為每個領域生成5個具有不同背景的角色。每個角色都有詳細的個人簡歷，包括所屬機構、職位、教育背景、工作經歷和專業子領域。比如在「工業」領域，可能生成一個「物聯網工程師Ethan Kim，專攻工業感測器網關，關注半導體供應鏈」。

第二步：基於人設構建任務（Task Construction）針對每個角色，讓LLM生成4個符合其專業背景的深度研究任務。這些任務必須滿足四個硬性要求：(1) 需要多輪搜尋；(2) 必須整合論文、報告、論壇等多種來源；(3) 包含足夠的分析深度（最新動態、數據分析、趨勢評估、對比研究）；(4) 有明確的交付物和時間約束。最終生成200個候選任務。

第三步：兩階段過濾（Task Filtering）第一道過濾器「任務資格篩選」評估任務是否真的需要最新知識、多源證據、多層次調查以及是否匹配角色背景，只保留置信度>0.7的任務。第二道過濾器「搜尋必要性篩選」讓LLM在不使用任何搜尋工具的情況下嘗試回答任務，如果不搜尋就能答得很好，說明任務太簡單，直接淘汰。

這個流程最終產出155個高質量任務。為了驗證自動化流程的可靠性，研究團隊邀請了7位博士專家獨立評估這些任務，結果顯示80%的任務得到至少4位專家認可，證明自動生成的質量完全可以媲美人工設計。

3.2 質量評估：給每個任務量身訂製評分標準

傳統評估方法用同一套標準評價所有報告，就像用同一張試卷考數學和語文——顯然不合理。DeepResearchEval提出了自適應逐點質量評估（Adaptive Point-wise Quality Evaluation）框架。

這個框架包含兩類評價維度：

通用維度（固定不變）：覆蓋度（Coverage）、洞察力（Insight）、指令遵循（Instruction-following）、清晰度（Clarity）。這四個維度適用於所有研究報告。

任務特定維度（動態生成）：針對每個具體任務，LLM自動生成1-3個專屬維度。比如，對於「比較美國、歐盟、中國的電動滑板車監管框架」這個任務，系統會生成「政策實用性（Policy Pragmatism）」和「比較綜合性（Comparative Synthesis）」等維度；而對於「評估植物基肉製品的營養質量」任務，則會生成「分類嚴謹性（Classification Rigor）」和「跨區域綜合（Cross-Regional Synthesis）」等維度。

每個維度不僅有權重（表示重要性），還會進一步細化為多個評分標準（criteria），每個標準也有自己的權重。LLM對每個標準打分（1-10分，精確到小數點後兩位），最終透過加權聚合得到整體質量分數：

這種設計的妙處在於：它既保留了跨任務可比較的通用維度，又能捕捉每個任務的獨特質量要求，實現了通用性與特異性的完美平衡。

3.3 事實核查：主動出擊驗證每一句話

現有方法只檢查報告中有標註引用的內容，但很多AI生成的陳述根本沒有引用，或者引用只是裝飾性的。DeepResearchEval開發了一個主動事實核查智慧體（Active Fact-Checking Agent），它會主動搜尋外部證據來驗證報告中的每一個可驗證陳述。

核查流程分四步：

分段處理：將長報告切分成多個段落，便於並行處理和保持上下文
提取陳述：從每個段落中提取涉及數字、事件、日期、地點、人物的可驗證陳述
檢索證據：對每個陳述，智慧體調用搜尋工具（Google Serper API）查找相關證據
三分類判定：根據證據給出標籤——正確（Right）：陳述得到可靠來源支持；錯誤（Wrong）：陳述與可靠來源矛盾；未知（Unknown）：證據不足無法驗證

這種設計的高明之處在於明確區分了「未驗證」和「錯誤」。很多AI系統的問題不是明顯說錯話，而是提出無法驗證的模糊陳述——透過標記「Unknown」，可以清楚識別這類風險。

最終的事實準確率計算為：

四、實驗效果：誰是最強深度研究AI？差距在哪裡？

研究團隊對9個主流深度研究系統進行了全面評測，包括OpenAI Deep Research、Gemini-2.5-Pro Deep Research、Grok4、Claude-Sonnet-4.5、Qwen3-235B、DeepSeek、Perplexity、Doubao和Manus，每個系統生成100份報告，總計評估了900份深度研究報告。

4.1 綜合質量：Gemini領跑，梯隊分明

從質量評估結果看，Gemini-2.5-Pro以8.51的高分遙遙領先，在所有維度上都表現優異，尤其是覆蓋度（9.2）、洞察力（9.0）和指令遵循（9.7）。Claude-Sonnet-4.5排名第二（7.53），同樣展現出均衡的能力。

中間梯隊包括OpenAI（7.28）、Qwen（7.17）和Doubao（7.06），它們在覆蓋度和指令遵循上得分較高（超過8.5），但在洞察力和任務特定維度上還有提升空間。

表現相對較弱的是DeepSeek（5.25）和Manus（5.95），儘管它們在指令遵循上還算可以，但在資訊收集的廣度和分析深度上明顯不足。

最值得注意的發現：所有系統在「任務特定維度」上的得分都明顯低於通用維度。這說明當前的深度研究AI普遍存在一個問題——它們擅長生成看起來專業的通用報告，但在滿足特定任務的獨特需求上還做得不夠好。比如一個政策分析任務需要「可實施的政策建議」和「可量化的安全指標」，很多系統只是泛泛而談，沒有真正提供可操作的具體內容。

4.2 事實準確性：保守策略vs高產出量的權衡

在事實核查方面，排名有了有趣的變化。Manus以82.3%的準確率拿下第一，Gemini（76.62%）和DeepSeek（76.44%）緊隨其後。

數據揭示了一個關鍵的權衡（trade-off）：

高準確率、低產出量策略：DeepSeek平均每份報告只包含25.08個可驗證陳述，但準確率高達76.44%，錯誤陳述僅1.81個。這是一種「保守謹慎」的策略。
高產出量策略：Gemini和Doubao平均生成86.99和80.75個陳述，內容更豐富詳實，但準確率會有所下降。不過值得注意的是，Gemini即使在高產出下仍保持76.62%的準確率，相當難得。

另一個有意思的發現：所有系統的「錯誤」陳述都遠少於「未知」陳述。比如Perplexity有16.10個未知陳述但只有9.08個錯誤陳述。這說明AI系統的主要風險不是直接說錯話，而是提出聽起來合理但實際無法驗證的模糊表述——這可能比明顯錯誤更危險，因為用戶更容易被誤導。

4.3 評估方法驗證：AI評審靠譜嗎？

為了驗證評估框架的可靠性，研究團隊做了三項驗證：

跨評審一致性：除了主評審Gemini-2.5-Pro，還用GPT-5作為第二評審。雖然GPT-5打分更嚴格（分數普遍更低），但9個系統中有7個排名完全一致，只有Doubao和Qwen換了位置（相差僅1名），說明排名非常穩定。

隨機性穩定性：用Gemini-2.5-Pro獨立運行三次評估，所有系統的排名完全不變，分數標準差極小，證明評估過程高度穩定。

人機對齊度：四位專家人工標註了80個陳述，與AI評審的判斷對比，**一致性達到73%**。更有意思的是，研究團隊對20個不一致的案例進行了深入分析，發現**AI判斷正確的占70%，人類正確的占30%**——主要因為AI能夠窮盡式搜尋驗證，而人類專家可能遺漏某些證據。

五、論文總結

這篇論文最大的貢獻在於提出了一個可持續、可擴展的深度研究AI評測範式。與傳統基準相比，它有三大突破：

任務構建自動化：透過人設驅動的方式，可以持續生成新鮮的、高質量的、貼近真實需求的研究任務，擺脫了對昂貴專家標註的依賴。這使得基準可以像「活」的基準一樣不斷更新，適應技術的快速迭代。
評估智慧化：自適應的評價維度設計既保證了跨任務的可比性，又捕捉了每個任務的獨特需求。這比「一刀切」的固定標準要科學得多，也更能發現系統的真實短板。
驗證全面化：主動事實核查不僅檢查有引用的內容，還能驗證大量未標註來源的陳述，堵住了事實驗證的盲區，並透過三分類（正確/錯誤/未知）清晰區分不同類型的問題。

當然，這個框架也有局限性。目前主要聚焦英語環境，對多語言和跨語言證據整合的支持還不夠。另外，評估成本較高——大量調用Gemini-2.5-Pro和GPT-5-mini，加上頻繁的搜尋API調用，在大規模或即時部署時會面臨成本壓力。

但瑕不掩瑜，DeepResearchEval為深度研究AI的評測樹立了新的標竿。隨著AI系統越來越多地承擔複雜的研究任務，我們需要的不僅是「能生成長文本」的AI，更需要「能做可靠研究」的AI。這個框架就像給AI研究能力設立了一個「黃金標準」——它告訴我們，一個合格的深度研究系統不僅要會搜尋、會總結，還要能根據具體需求定制分析、確保每一個陳述都有據可查。

從實驗結果看，即使是Gemini-2.5-Pro這樣的頂尖系統，在任務特定維度上的表現仍有明顯差距，事實準確率也只在76-82%之間。這意味著深度研究AI還遠未達到「可以完全信任」的程度，我們需要更好的評測工具來持續監督它們的進化——而DeepResearchEval正是朝著這個方向邁出的堅實一步。

DeepResearchEval震撼發布：首個能自動出題、智慧評分的AI研究評測框架