最強多模態大模型在真實網頁搜尋中被人類碾壓？GPT-5.2 僅獲 36% 勝率，北大、華為等聯合開源全新深度搜尋基準 BrowseComp-V3

程式碼：https://github.com/Halcyon-Zhang/BrowseComp-V3

資料集：https://huggingface.co/datasets/Halcyon-Zhang/BrowseComp-V3

當多模態大型語言模型（MLLMs）接上網路，它們真的能像人類一樣在海量圖文資訊中「抽絲剝繭」、完成深度的調查研究嗎？

近年來，從 GPT-4o 到最新的 GPT-5.2、Gemini-3-Pro，模型的基礎能力實現了飛躍式發展。借助工具呼叫的加持，這些模型正加速向多模態網路瀏覽智能體（Multimodal Browsing Agents）演進。然而，當我們將這些前沿模型置於真實的、充滿噪音與跨模態資訊的開放式網際網路環境中時，它們的實際表現往往難以完全達到預期，在深度推理與複雜資訊整合方面依然面臨著諸多局限。

近日，由北京大學牽頭，聯合香港科技大學（廣州）、清華大學以及華為雲等頂尖機構的研究團隊，共同推出了全新多模態深度搜尋基準：BrowseComp-V³，並同步開發了通用多模態瀏覽智能體框架 OmniSeeker。

實驗結果令人深思：在面臨真實的開放世界多模態深度搜尋任務時，人類專家的成功率高達 68.03%，而即便是目前最強大的閉源模型 GPT-5.2，其成功率也僅有 36.17%。

這項工作不僅揭示了當前視覺智能體在複雜環境下的能力邊界，更為未來多模態大模型走向「慢思考」與「長程規劃」指明了方向。

一、為什麼我們需要一個全新的多模態搜尋基準？

在此之前，以 MM-BrowseComp 和 MMSearch-Plus 為代表的早期基準測試，已經為探索視覺智能體引入了多跳（multi-hop）設計和細粒度視覺推理，推動了該領域的起步。

然而，如果我們將目光投向真實世界的高階搜尋場景，現有的評估體系仍存在明顯的局限性：

任務複雜度仍然不足：早期的基準測試（如 MMSearch 等）大多局限於兩跳以內的淺層檢索，且視覺資訊往往只出現在初始階段。這就像是給 AI 安排了一場「開卷考試」，線索過於直接，無法反映真實世界中圖文交織、層層遞進的深度搜尋痛點。

關鍵資訊不可被工具檢索：在部分現有的複雜基準中，核心證據往往被藏在影片幀或不对外公開的私有文件中。這意味著，智能體即使邏輯正確，也可能因為「工具根本搜不到」而失敗。這嚴重破壞了基準測試的公平性和可複現性。

評估維度過於單一：絕大多數現有研究只關注「最終答案對不對」，卻忽略了智能體在多步搜尋過程中的行為軌跡。這種「黑盒式」的評估，讓我們很難診斷出模型到底是在視覺感知、資訊檢索，還是在邏輯推理的哪一步摔了跤。

為了打破這些瓶頸，BrowseComp-V³ 應運而生。

二、BrowseComp-V³：A Visual, Vertical, and Verifiable Benchmark for Multimodal Browsing Agents

BrowseComp-V³ 是一個專門為評估多模態深度瀏覽和搜尋能力而設計的全新基準。它包含了 300 個經過精心策劃、極具挑戰性的高階問題，橫跨科學、技術、社會、文化和生活 5 大領域（24 個子領域）。該基準的核心設計理念可以概括為三大原則：

1. 多維度的跨模態覆蓋（真實複雜的推理深度）

為了逼真模擬現實，BrowseComp-V³ 在兩個維度上拉滿了難度。首先是通過多跳（Multi-hop）變體拉長搜尋路徑；其次，團隊將跨模態互動的複雜度劃分為三個遞進的層級：

Level 1（區域內對齊）：關注局部區域內細粒度的圖文對齊能力。

Level 2（跨區域整合）：要求模型在單一圖像內，綜合處理和拼湊分佈在不同板塊的視覺與文本資訊。

Level 3（跨圖像推理）：挑戰模型在多張相互獨立的圖像和網頁之間進行聯想認知和複雜推理的能力。

這種設計徹底杜絕了模型依靠單一文本線索或內部參數知識「走捷徑」的可能。

2. 過程導向的細粒度評估（打破「唯結果論」）

除了常規的成功率（Success Rate），研究團隊引入了過程得分（Process Score）。

專家團隊為每個任務人工標註了必須達成的「中間子目標（Sub-goals）」。評估時，不僅看模型最後給出的答案，還要追蹤它在收集證據階段成功完成了幾個子目標。這一機制使得研究人員能夠像「看回放」一樣，精準定位模型的失敗模式（例如：是看錯圖了，還是搜錯詞了？）。

3. 絕對的高可靠性與可複現性

為了確保公平，BrowseComp-V³ 制定了極其嚴苛的資料過濾標準：所有關鍵證據必須能通過公共搜尋引擎獲取。團隊甚至為每道題提供了純手工標註的「黃金搜尋軌跡」。此外，題目偏向客觀、時間不變的知識，確保了自動化評估的標準化和長效性。

圖 1：BrowseComp-V³ 的統計資訊

三、資料是如何煉成的？五階段嚴苛品控

構建這樣一個高品質的資料集絕非易事。超過 20 位具備人工智慧及相關領域專業背景的碩博研究人員參與了 BrowseComp-V³ 的構建，整個過程遵循了閉環的五階段品質保證框架：

初始化與指南制定：專家團隊定義核心評估維度，撰寫高品質的初始示例（包含視覺輸入、查詢、子目標、答案和中繼資料），建立「黃金標準」。

工具增強的探索性標註：標註員根據專業領域分配任務，使用包含文字搜尋、網頁訪問、圖像搜尋、圖像裁剪等在內的工具套件進行真實的開放式網路衝浪。他們需要記錄完整的互動軌跡，並拆解子目標。

雙重驗證與對抗性過濾：收集到的資料首先經歷獨立核查員的「人工複現驗證」，確保邏輯連貫且證據確鑿。隨後，使用 SOTA 視覺大模型（如 GPT-5.2、Gemini-3-Pro）進行清洗，直接剔除掉那些模型能輕易答對的「簡單題」，保留真正具有長尾分佈或需要複雜推理的高難度樣本。

結構化格式轉換：將複雜的互動軌跡和多模態資料轉化為統一的、機器可讀的標準 JSON 格式。

專家終審把關：領域專家對安全性、隱私合規性以及事實準確性進行最終審計。

圖 2：資料構建過程

四、實驗大揭秘：人類與 AI 的真實差距有多大？

為了全面評估，研究團隊設置了四種測試環境：人類專家、無工具 MLLM（裸考）、官方工具增強 MLLM，以及 OmniSeeker 框架下的 MLLM。

核心發現 1：斷崖式的性能差距

測試結果非常殘酷。擁有博士級領域知識背景的人類專家，在使用標準瀏覽器的情況下，平均成功率（SR）達到 68.03%，過程得分（PS）高達 82.93%。

反觀大模型，沒有任何一款模型的成功率能突破 40%。當前最強的 GPT-5.2 僅獲得 36.17% 的成功率。這有力地證明了 BrowseComp-V³ 成功捕捉到了真實世界搜尋的極高複雜度。

核心發現 2：工具呼叫是「續命藥」

在「無工具（Tool-Free）」的裸考設定下，絕大多數模型的成功率驟降至 10% 左右。這說明，面對動態、長尾的跨模態證據鏈，大模型僅僅依靠「死記硬背」在肚子裡的參數化知識是完全不夠的。即時檢索和與環境的互動能力，是實現深度多模態推理的絕對剛需。

核心發現 3：開源模型的強勢逆襲

雖然閉源巨頭（如 GPT-5.2）依然佔據榜首，但優秀的開源模型正在迅速縮小差距。特別是當搭載了統一的 OmniSeeker 代理框架後，Doubao-Seed-1.8 展現出了極強的複雜推理能力，成功率飆升至 33.67%，甚至逼近了部分頂尖的閉源系統。這為未來打造高性價比的開源網頁瀏覽智能體提供了極大的信心。

核心發現 4：過程得分（PS）揭示的真相

實驗普遍發現，模型過程得分（PS）遠高於最終的成功率（SR）。這說明模型往往能跌跌撞撞地完成前幾個簡單的子目標，但在長序列任務中，它們極易「斷片」，無法保持邏輯的連貫性，最終功虧一簣。

圖 3：主要實驗結果

五、深度剖析：模型到底笨在哪裡？

為了探究模型失敗的根本原因，研究團隊進行了進一步的細粒度分析。

1. 任務複雜度越深，崩潰越快

從 Level 1 到 Level 3，隨著跨區域整合和跨圖像推理需求的增加，模型的性能出現了滑坡。這暴露出當前 MLLM 雖然能看懂單張圖，但在處理頁面級別的圖文穿插和多圖關聯推理時，依然顯得力不從心。

2. 能力邊界的本質差異：人類缺精力，AI 缺融合

有趣的是，隨著搜尋路徑（Hop）的增加，人類的成功率下降得比模型還要陡峭。人類的瓶頸在於資訊過載——閱讀大量長文本極度消耗認知精力；而大模型得益於龐大的上下文視窗，閱讀長文本不費吹灰之力。

然而，模型真正的死穴在於「多模態整合（Multimodal Integration）」與「視覺定位（Visual Grounding）」。在複雜的網頁排版和雜訊中，模型經常「眼盲」，無法精準提取和感知關鍵的視覺線索。

3. 賦予 AI「慢思考」：測試時計算（Test-Time Scaling）的威力

研究團隊還探索了增加測試時計算量對表現的影響。結果令人振奮：

增加互動輪數：給予智能體更多的探索步數，性能顯著提升。尤其是參數量更大的模型（如 Qwen3-VL-235B），展現出了更強的長程推理優勢，能夠更好地利用多出來的輪數進行試錯和自我糾正。

Best-of-N 採樣策略：讓模型獨立並行搜尋多次，然後從中挑選最佳答案，這種策略比單純的投票機制更具擴展性，能持續拉升最終的成功率。

六、結語與展望

本文通過提出 BrowseComp-V³ 基準與 OmniSeeker 框架，對多模態大模型在「開放世界深度搜尋」這一核心議題進行了系統性的深入研究。研究結果清晰地表明，僅僅賦予模型基礎的視覺感知和簡單的工具呼叫能力是遠遠不夠的。

要真正釋放多模態瀏覽智能體的潛力，未來的研究需要在跨模態資訊的深度整合，以及長程規劃上進行更深入的創新，以促進視覺感知、動態檢索與複雜邏輯推理之間產生真正的協同增益。BrowseComp-V³ 為衡量這一進展提供了可靠的標尺，希望能為多模態智能體領域的發展提供有益的參考與新的方向。