DeepResearchEval震撼發布:首個能自動出題、智慧評分的AI研究評測框架

圖片

項目地址:https://github.com/Infinity-AILab/DeepResearchEval

深度研究AI評測的黎明:人類如何判斷AI能否真正「做研究」?

一、研究背景:當AI開始「深度研究」,誰來評判它們的能力?

想像一下這個場景:你讓AI幫你調研「2025年半導體出口管制如何影響物聯網硬體供應鏈」,它需要搜尋多輪資訊、整合學術論文、行業報告、新聞報導,最後生成一份幾萬字的深度報告。這就是當下最火的深度研究系統(Deep Research Systems)在做的事情——它們不再是簡單的問答機器,而是能夠像人類研究員一樣,進行多步驟的資訊檢索、交叉驗證、多角度綜合分析。

OpenAI的Deep Research、Google的Gemini Deep Research、Claude等頂尖AI都在這個賽道上狂飆。但問題來了:我們怎麼知道這些AI生成的長篇研究報告質量如何?哪些系統真的靠譜,哪些只是在「胡說八道」?

現有的評測基準存在三大痛點:

  1. 任務構建太費人力:需要專家手工設計研究任務,成本高、更新慢
  2. 評價維度太死板:用同一套標準評估所有任務,無法捕捉不同研究問題的特殊要求
  3. 事實核查有盲區:只檢查有引用的內容,大量未標註來源的陳述無人驗證

針對這些問題,來自南洋理工大學和盛大集團的研究團隊推出了DeepResearchEval框架——一個能自動生成研究任務、智慧評估報告質量、主動核查事實的完整評測體系。

圖片

從上圖可以看到,他們評測了9個主流深度研究系統,發現Gemini-2.5-Pro在綜合質量上得分最高(8.51/10),而Manus在事實準確性上表現最佳(82.3%的陳述被驗證為正確)。更有意思的是,所有系統在「任務特定維度」上的得分都明顯低於通用維度,說明當前AI在滿足具體研究需求上還有很大進步空間。

二、相關工作:評測賽道百花齊放,但都有明顯短板

深度研究系統的評測是個新興領域,現有基準各有側重但都存在局限性。研究團隊梳理了十幾個相關基準,發現它們可以分為幾類:

早期工具使用類基準(如GAIA、HLE)主要考察AI的推理和工具調用能力,但不涉及長篇報告生成。網頁導航類基準(如WideSearch、BrowseComp)關注持續的網路搜尋和資訊檢索,但輸出格式是短答案或表格,不是完整報告。

真正針對深度研究報告的基準近年才出現,包括DeepResearch Bench、LiveResearchBench、DRBench等。但它們都高度依賴人工標註——專家需要設計任務、撰寫參考答案、制定評分標準,這導致任務規模小、更新困難、成本高昂。

在評估方法上,大多數基準使用固定的評價維度(比如都用「準確性、完整性、清晰度」這三個維度),無法適應不同類型研究任務的特殊需求。在事實核查方面,現有方法通常只驗證報告中有標註引用的部分,對於大量未標註來源的陳述(可能占報告的30-50%)則無能為力。

圖片

如表1所示,DeepResearchEval是第一個同時實現以下五大特性的基準:自動化任務生成、輸出長篇報告、無需參考答案、自適應評價維度、主動事實驗證。這使得它能夠持續產生新鮮的高質量任務,就像一個「活」的基準,適合長期監控AI系統的進化。

三、核心方法:自動生成真實任務 + 智慧化分層評估

3.1 任務構建:用「人設」生成研究問題

傳統方法是讓專家直接想研究問題,但專家的背景和視野有限。DeepResearchEval的創新點是用「人設驅動」的方式自動生成任務。整個流程分三步:

第一步:合成人物角色(Persona Synthesis)研究團隊先定義了10個廣泛領域(交通、政治、金融、歷史、軟體開發、工業、體育、健康、科技、教育),然後讓LLM為每個領域生成5個具有不同背景的角色。每個角色都有詳細的個人簡歷,包括所屬機構、職位、教育背景、工作經歷和專業子領域。比如在「工業」領域,可能生成一個「物聯網工程師Ethan Kim,專攻工業感測器網關,關注半導體供應鏈」。

圖片

第二步:基於人設構建任務(Task Construction)針對每個角色,讓LLM生成4個符合其專業背景的深度研究任務。這些任務必須滿足四個硬性要求:(1) 需要多輪搜尋;(2) 必須整合論文、報告、論壇等多種來源;(3) 包含足夠的分析深度(最新動態、數據分析、趨勢評估、對比研究);(4) 有明確的交付物和時間約束。最終生成200個候選任務。

第三步:兩階段過濾(Task Filtering)第一道過濾器「任務資格篩選」評估任務是否真的需要最新知識、多源證據、多層次調查以及是否匹配角色背景,只保留置信度>0.7的任務。第二道過濾器「搜尋必要性篩選」讓LLM在不使用任何搜尋工具的情況下嘗試回答任務,如果不搜尋就能答得很好,說明任務太簡單,直接淘汰。

這個流程最終產出155個高質量任務。為了驗證自動化流程的可靠性,研究團隊邀請了7位博士專家獨立評估這些任務,結果顯示80%的任務得到至少4位專家認可,證明自動生成的質量完全可以媲美人工設計。

3.2 質量評估:給每個任務量身訂製評分標準

傳統評估方法用同一套標準評價所有報告,就像用同一張試卷考數學和語文——顯然不合理。DeepResearchEval提出了自適應逐點質量評估(Adaptive Point-wise Quality Evaluation)框架。

這個框架包含兩類評價維度:

通用維度(固定不變):覆蓋度(Coverage)、洞察力(Insight)、指令遵循(Instruction-following)、清晰度(Clarity)。這四個維度適用於所有研究報告。

任務特定維度(動態生成):針對每個具體任務,LLM自動生成1-3個專屬維度。比如,對於「比較美國、歐盟、中國的電動滑板車監管框架」這個任務,系統會生成「政策實用性(Policy Pragmatism)」和「比較綜合性(Comparative Synthesis)」等維度;而對於「評估植物基肉製品的營養質量」任務,則會生成「分類嚴謹性(Classification Rigor)」和「跨區域綜合(Cross-Regional Synthesis)」等維度。

圖片

每個維度不僅有權重(表示重要性),還會進一步細化為多個評分標準(criteria),每個標準也有自己的權重。LLM對每個標準打分(1-10分,精確到小數點後兩位),最終透過加權聚合得到整體質量分數:

這種設計的妙處在於:它既保留了跨任務可比較的通用維度,又能捕捉每個任務的獨特質量要求,實現了通用性與特異性的完美平衡

3.3 事實核查:主動出擊驗證每一句話

現有方法只檢查報告中有標註引用的內容,但很多AI生成的陳述根本沒有引用,或者引用只是裝飾性的。DeepResearchEval開發了一個主動事實核查智慧體(Active Fact-Checking Agent),它會主動搜尋外部證據來驗證報告中的每一個可驗證陳述。

核查流程分四步:

  1. 分段處理:將長報告切分成多個段落,便於並行處理和保持上下文
  2. 提取陳述:從每個段落中提取涉及數字、事件、日期、地點、人物的可驗證陳述
  3. 檢索證據:對每個陳述,智慧體調用搜尋工具(Google Serper API)查找相關證據
  4. 三分類判定:根據證據給出標籤——正確(Right):陳述得到可靠來源支持;錯誤(Wrong):陳述與可靠來源矛盾;未知(Unknown):證據不足無法驗證

這種設計的高明之處在於明確區分了「未驗證」和「錯誤」。很多AI系統的問題不是明顯說錯話,而是提出無法驗證的模糊陳述——透過標記「Unknown」,可以清楚識別這類風險。

最終的事實準確率計算為:

四、實驗效果:誰是最強深度研究AI?差距在哪裡?

研究團隊對9個主流深度研究系統進行了全面評測,包括OpenAI Deep Research、Gemini-2.5-Pro Deep Research、Grok4、Claude-Sonnet-4.5、Qwen3-235B、DeepSeek、Perplexity、Doubao和Manus,每個系統生成100份報告,總計評估了900份深度研究報告。

4.1 綜合質量:Gemini領跑,梯隊分明

從質量評估結果看,Gemini-2.5-Pro以8.51的高分遙遙領先,在所有維度上都表現優異,尤其是覆蓋度(9.2)、洞察力(9.0)和指令遵循(9.7)。Claude-Sonnet-4.5排名第二(7.53),同樣展現出均衡的能力。圖片

中間梯隊包括OpenAI(7.28)、Qwen(7.17)和Doubao(7.06),它們在覆蓋度和指令遵循上得分較高(超過8.5),但在洞察力和任務特定維度上還有提升空間。

表現相對較弱的是DeepSeek(5.25)和Manus(5.95),儘管它們在指令遵循上還算可以,但在資訊收集的廣度和分析深度上明顯不足。

最值得注意的發現:所有系統在「任務特定維度」上的得分都明顯低於通用維度。這說明當前的深度研究AI普遍存在一個問題——它們擅長生成看起來專業的通用報告,但在滿足特定任務的獨特需求上還做得不夠好。比如一個政策分析任務需要「可實施的政策建議」和「可量化的安全指標」,很多系統只是泛泛而談,沒有真正提供可操作的具體內容。

4.2 事實準確性:保守策略vs高產出量的權衡

在事實核查方面,排名有了有趣的變化。Manus以82.3%的準確率拿下第一,Gemini(76.62%)和DeepSeek(76.44%)緊隨其後。圖片

數據揭示了一個關鍵的權衡(trade-off):

  • 高準確率、低產出量策略:DeepSeek平均每份報告只包含25.08個可驗證陳述,但準確率高達76.44%,錯誤陳述僅1.81個。這是一種「保守謹慎」的策略。

  • 高產出量策略:Gemini和Doubao平均生成86.99和80.75個陳述,內容更豐富詳實,但準確率會有所下降。不過值得注意的是,Gemini即使在高產出下仍保持76.62%的準確率,相當難得。

另一個有意思的發現:所有系統的「錯誤」陳述都遠少於「未知」陳述。比如Perplexity有16.10個未知陳述但只有9.08個錯誤陳述。這說明AI系統的主要風險不是直接說錯話,而是提出聽起來合理但實際無法驗證的模糊表述——這可能比明顯錯誤更危險,因為用戶更容易被誤導。

4.3 評估方法驗證:AI評審靠譜嗎?

為了驗證評估框架的可靠性,研究團隊做了三項驗證:

跨評審一致性:除了主評審Gemini-2.5-Pro,還用GPT-5作為第二評審。雖然GPT-5打分更嚴格(分數普遍更低),但9個系統中有7個排名完全一致,只有Doubao和Qwen換了位置(相差僅1名),說明排名非常穩定。

隨機性穩定性:用Gemini-2.5-Pro獨立運行三次評估,所有系統的排名完全不變,分數標準差極小,證明評估過程高度穩定。

人機對齊度:四位專家人工標註了80個陳述,與AI評審的判斷對比,**一致性達到73%**。更有意思的是,研究團隊對20個不一致的案例進行了深入分析,發現**AI判斷正確的占70%,人類正確的占30%**——主要因為AI能夠窮盡式搜尋驗證,而人類專家可能遺漏某些證據。

五、論文總結

這篇論文最大的貢獻在於提出了一個可持續、可擴展的深度研究AI評測範式。與傳統基準相比,它有三大突破:

  1. 任務構建自動化:透過人設驅動的方式,可以持續生成新鮮的、高質量的、貼近真實需求的研究任務,擺脫了對昂貴專家標註的依賴。這使得基準可以像「活」的基準一樣不斷更新,適應技術的快速迭代。

  2. 評估智慧化:自適應的評價維度設計既保證了跨任務的可比性,又捕捉了每個任務的獨特需求。這比「一刀切」的固定標準要科學得多,也更能發現系統的真實短板。

  3. 驗證全面化:主動事實核查不僅檢查有引用的內容,還能驗證大量未標註來源的陳述,堵住了事實驗證的盲區,並透過三分類(正確/錯誤/未知)清晰區分不同類型的問題。

當然,這個框架也有局限性。目前主要聚焦英語環境,對多語言和跨語言證據整合的支持還不夠。另外,評估成本較高——大量調用Gemini-2.5-Pro和GPT-5-mini,加上頻繁的搜尋API調用,在大規模或即時部署時會面臨成本壓力。

但瑕不掩瑜,DeepResearchEval為深度研究AI的評測樹立了新的標竿。隨著AI系統越來越多地承擔複雜的研究任務,我們需要的不僅是「能生成長文本」的AI,更需要「能做可靠研究」的AI。這個框架就像給AI研究能力設立了一個「黃金標準」——它告訴我們,一個合格的深度研究系統不僅要會搜尋、會總結,還要能根據具體需求定制分析、確保每一個陳述都有據可查。

從實驗結果看,即使是Gemini-2.5-Pro這樣的頂尖系統,在任務特定維度上的表現仍有明顯差距,事實準確率也只在76-82%之間。這意味著深度研究AI還遠未達到「可以完全信任」的程度,我們需要更好的評測工具來持續監督它們的進化——而DeepResearchEval正是朝著這個方向邁出的堅實一步。

圖片


分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.