最強のマルチモーダル大規模言語モデルが実世界のウェブ検索で人間に完敗？GPT-5.2 の勝率はわずか 36％、北京大学と華為などが共同で新しい深層検索ベンチマーク「BrowseComp-V3」をオープンソース化

コード：https://github.com/Halcyon-Zhang/BrowseComp-V3

データセット：https://huggingface.co/datasets/Halcyon-Zhang/BrowseComp-V3

マルチモーダル大規模言語モデル（MLLM）がインターネットに接続されたとき、それらは人間のように膨大な画像やテキスト情報の中から「糸口をたぐり寄せ」、深層調査を完遂することができるのだろうか。

近年、GPT-4o から最新作の GPT-5.2、Gemini-3-Pro に至るまで、モデルの基礎能力は飛躍的な進歩を遂げている。ツール呼び出し機能の強化に伴い、これらのモデルは「マルチモーダル・ブラウジングエージェント」へと急速に進化を遂げつつある。

しかしながら、これらの最先端モデルを、ノイズが混在し異種混合の情報が飛び交う実世界のオープンなインターネット環境下に置いた場合、その実力は往々にして期待に届かず、深層推論や複雑な情報統合の局面において依然として多くの限界に直面しているのが実情だ。

このたび、北京大学が主導し、香港科技大学（広州）、清華大学、華為雲（ファーウェイクラウド）などのトップ機関と共同で、新たなマルチモーダル深層検索ベンチマーク「BrowseComp-V³」を発表するとともに、汎用マルチモーダル・ブラウジングエージェントフレームワーク「OmniSeeker」を同時に開発したことを報告する。

実験結果は示唆に富むものであった。実世界のオープンワールドにおけるマルチモーダル深層検索タスクにおいて、人間専門家の成功率は 68.03％に達したのに対し、現在最強のクローズドソースモデルである GPT-5.2 でさえも、その成功率は 36.17％に留まったのである。

本研究は、複雑な環境下における現在のビジョンエージェントの能力限界を浮き彫りにしただけでなく、今後のマルチモーダル大規模モデルが「スローシンキング（熟考）」や「長期計画」へと向かうべき道筋をも指し示すものとなった。

一、なぜ我々は新しいマルチモーダル検索ベンチマークを必要とするのか？

これ以前より、MM-BrowseComp や MMSearch-Plus といった初期のベンチマークが、ビジョンエージェントの探求に向けてマルチホップ（多段階）設計やきめ細かな視覚推論を導入し、同分野の幕開けに貢献してきた。

しかし、実世界の上級検索シナリオに目を向けると、既存の評価体系には明らかな限界が存在することがわかる。

タスクの複雑さが不十分： 初期のベンチマーク（MMSearch など）の多くは 2 ホップ以内の浅い検索に留まり、視覚情報も初期段階でのみ提示されることが多かった。これは AI に対して「カンニング OK の試験」を課すようなものであり、手がかりが直接的に過ぎ、実世界に見られるようなテキストと画像が入り混じり、段階的に深掘りする必要がある深層検索の痛手を反映できていなかった。
重要情報がツールで検索不可能： 既存の複雑なベンチマークの一部では、中核的な証拠が動画フレーム内や、一般公開されていない私有文書の中に隠されていることがあった。これは、たとえエージェントの論理が正しくとも、「ツールで検索できない」ために失敗に終わることを意味する。これはベンチマークテストの公平性と再現性を著しく損なうものだ。
評価次元が単一： 既存研究の绝大多数は「最終的な答えが正しいか」のみに注目し、多段階検索プロセスにおけるエージェントの行動軌跡を軽視してきた。この「ブラックボックス型」評価では、モデルが視覚認識、情報検索、論理推論のいずれの段階でつまずいたのかを診断することは極めて困難である。

これらのボトルネックを打破すべく、「BrowseComp-V³」は誕生した。

二、BrowseComp-V³：マルチモーダル・ブラウジングエージェントのための Visual, Vertical, Verifiable なベンチマーク

BrowseComp-V³ は、マルチモーダルな深層ブラウジングおよび検索能力を評価するために設計された全く新しいベンチマークである。科学、技術、社会、文化、生活の 5 大分野（24 の下位分野）にまたがる、慎重に策划された 300 問の極めて挑戦的な上級問題で構成されている。同ベンチマークの中核的な設計理念は、以下の 3 つの原則に要約できる。

1. 多次元にわたるクロスモーダルなカバレッジ（真に複雑な推論の深さ）

現実を忠実にシミュレートするため、BrowseComp-V³ は 2 つの次元で難易度を極限まで引き上げている。第一に、マルチホップ（Multi-hop）のバリエーションによって検索経路を延長。第二に、クロスモーダルな相互作用の複雑さを 3 つの階層に分類している。

レベル 1（領域内アライメント）： 局所的な領域内における、きめ細かい画像とテキストのアライメント能力に焦点を当てる。
レベル 2（領域横断的統合）： 1 枚の画像内で、異なるセクションに分散する視覚情報とテキスト情報を総合的に処理・統合する能力を要求する。
レベル 3（画像横断的推論）： 相互に独立した複数の画像やウェブページの間で連想し、認知し、複雑な推論を行う能力を問う。

この設計により、モデルが単一のテキストの手がかりや内部パラメータの知識に頼って「近道」をすることを完全に防いでいる。

2. プロセス志向のきめ細かい評価（「結果主義」の打破）

従来の成功率（Success Rate）に加え、研究チームはプロセススコア（Process Score）を導入した。

専門家チームは各タスクについて、達成必須となる「中間サブゴール（Sub-goals）」を手動でアノテーションした。評価時には、モデルが最終的に下した答えだけでなく、証拠収集の段階でいくつのサブゴールを達成できたかも追跡する。このメカニズムにより、研究者はモデルの失敗パターン（例：画像の見誤りか、検索ワードの間違いか）を「リプレイ映像」を見るがごとく正確に特定することが可能になる。

3. 絶対的な高信頼性と再現性

公平性を確保するため、BrowseComp-V³ は極めて厳格なデータフィルタリング基準を策定した。

すべての重要証拠は、公開検索エンジンで取得可能でなければならない。
チームは各問題に対し、手作業でアノテーションされた「ゴールドスタンダードの検索軌跡」を提供している。
出題は客観的で時間変化しない知識に偏重されており、自動評価の標準化と長期的な有効性を保証している。

図 1：BrowseComp-V³ の統計情報

三、データはいかにして作られたか？5 段階にわたる厳格な品質管理

これほど高品質なデータセットを構築することは容易ではない。20 名以上の AI および関連分野の専門的背景を持つ博士課程の研究者が BrowseComp-V³ の構築に参加し、全体は閉じたループを描く 5 段階の品質保証フレームワークに従って進められた。

初期化とガイドラインの策定： 専門家チームが中核的な評価次元を定義し、高品質な初期サンプル（視覚入力、クエリ、サブゴール、答え、メタデータを含む）を作成し、「ゴールドスタンダード」を確立する。
ツール強化型探索的アノテーション： アノテーターは専門分野に応じてタスクを割り当てられ、テキスト検索、ウェブアクセス、画像検索、画像トリミングなどのツールスイートを用いて、実世界のオープンなウェブサーフィンを行う。彼らは完全な対話軌跡を記録し、サブゴールへ分解する必要がある。
二重検証と敵対的フィルタリング： 収集されたデータはまず、独立した検証者による「人手による再現性検証」を受け、論理的一貫性と証拠の確実性を確認する。その後、SOTA の視覚大規模モデル（GPT-5.2、Gemini-3-Pro など）を用いてクリーニングを行い、モデルが容易に正解してしまう「簡単すぎる問題」を排除。真にロングテールな分布を示すか、複雑な推論を要する高難度サンプルのみを抽出する。
構造化フォーマットへの変換： 複雑な対話軌跡とマルチモーダルデータを、統一された機械可読の標準 JSON 形式に変換する。
専門家による最終監査： 分野の専門家が、セキュリティ、プライバシーコンプライアンス、および事実の正確性について最終監査を行う。

図 2：データ構築プロセス

四、実験の全貌：人間と AI の真の隔たりはどれほどか？

包括的な評価のため、研究チームは 4 つのテスト環境を設定した。人間専門家、ツールなし MLLM（丸暗記状態）、公式ツール強化型 MLLM、そして OmniSeeker フレームワーク下の MLLM である。

主要な発見 1：断崖的な性能差

テスト結果は極めて厳しいものであった。博士号レベルの分野知識を持つ人間専門家は、標準的なブラウザを使用した条件下で、平均成功率（SR）68.03％、プロセススコア（PS）82.93％を記録した。

対照的に大規模モデルは、成功率が 40％を突破したモデルは 1 つも存在しなかった。現在最強の GPT-5.2 でさえも成功率は 36.17％に留まった。これは、BrowseComp-V³ が実世界の検索が持つ極めて高い複雑さを的確に捉えていることを如実に証明している。

主要な発見 2：ツール呼び出しは「延命剤」

「ツールなし（Tool-Free）」という制約下では、ほとんどのモデルの成功率は 10％前後にまで急落した。これは、動的かつロングテールなクロスモーダルの証拠連鎖を前にして、大規模モデルが「丸暗記」したパラメータ知識のみでは全く不十分であることを示している。リアルタイム検索および環境との対話能力こそが、深層マルチモーダル推論を実現するための絶対的な必須要件なのである。

主要な発見 3：オープンソースモデルの逆襲

クローズドソースの大手（GPT-5.2 など）が依然として首位を占める一方、優れたオープンソースモデルがその差を急速に縮めている。特に、統一された OmniSeeker エージェントフレームワークを搭載した場合、Doubao-Seed-1.8 は極めて強力な複雑推論能力を示し、成功率を 33.67％まで急上昇させた。これは一部のトップクラスのクローズドシステムに匹敵する水準であり、今後、コストパフォーマンスに優れたオープンソースのウェブブラウジングエージェントを構築する上で大きな希望を与えた。

主要な発見 4：プロセススコア（PS）が暴く真実

実験全般を通じて、モデルのプロセススコア（PS）は最終的な成功率（SR）を大きく上回ることが判明した。これは、モデルが最初のいくつかの単純なサブゴールを何とか達成できても、長いシーケンスのタスクにおいては論理の一貫性を保てずに「途切れて」しまい、最終的に失敗に終わる傾向があることを示している。いわゆる「あと一歩のところで失敗する（功虧一簣）」状態だ。

図 3：主要な実験結果

五、深層分析：モデルは何がそんなに不得手なのか？

モデルが失敗する根本的な原因を探るため、研究チームはさらにきめ細かい分析を行った。

1. タスクが複雑になるほど、崩壊も早い

レベル 1 からレベル 3 へ移行するにつれ、領域横断的な統合や画像横断的な推論の必要性が高まるにつれて、モデルの性能は低下した。これは、現在の MLLM が 1 枚の画像を理解することはできても、ページレベルでのテキストと画像の交錯や、複数画像にまたがる関連推論を処理する際には、依然として力不足であることを露呈している。

2. 能力境界の本質的な差異：人間は「精力不足」、AI は「融合不足」

興味深いことに、検索経路（ホップ数）が増加するにつれ、人間の方がモデルよりも急激に成功率が低下した。人間のボトルネックは情報過多、つまり大量の長いテキストを読むことが極めて認知リソースを消費することにある。一方、大規模モデルは巨大なコンテキストウィンドウの恩恵を受け、長いテキストを読むことなど朝飯前である。

しかし、モデルの真の弱点は「マルチモーダル統合（Multimodal Integration）」と「ビジュアル・グランディング（Visual Grounding：視覚的基盤付け）」にある。複雑なウェブページのレイアウトやノイズの中で、モデルはしばしば「目が見えない」状態に陥り、決定的な視覚的手がかりを正確に抽出・知覚することができないのである。

3. AI に「スローシンキング」を：テスト時計算（Test-Time Scaling）の威力

研究チームはまた、テスト時の計算量を増やすことがパフォーマンスに与える影響も調査した。結果は朗報であった。

対話回数の増加： エージェントにより多くの探索ステップを与えると、性能は顕著に向上した。特にパラメータ数の多いモデル（Qwen3-VL-235B など）は、より優れた長距離推論の優位性を示し、追加されたステップを試行錯誤や自己修正により有効活用できていた。
Best-of-N サンプリング戦略： モデルに複数回の独立した並列検索を行わせ、その中から最良の答えを選択するという戦略は、単純な投票メカニズムよりも拡張性が高く、最終的な成功率を持続的に引き上げる効果があった。

六、結びと展望

本稿では、BrowseComp-V³ ベンチマークと OmniSeeker フレームワークを提案し、「オープンワールドにおける深層検索」という中核課題に対するマルチモーダル大規模モデルの取り組みを体系的かつ深く研究した。その結果、モデルに基礎的な視覚認識能力と単純なツール呼び出し能力を与えるだけでは全く不十分であることが明確に示された。

マルチモーダル・ブラウジングエージェントの真の潜在能力を解放するためには、今後の研究はクロスモーダルな情報の深層統合と長期計画において、より一層の革新を遂げる必要がある。それにより、視覚認識、動的検索、複雑な論理推論の間に真の相乗効果を生み出すことが求められるだろう。BrowseComp-V³ はこの進展を測るための信頼できる物差しを提供するものであり、マルチモーダルエージェント分野の発展に有益な指針と新たな方向性を提供することを願っている。

最強のマルチモーダル大規模言語モデルが実世界のウェブ検索で人間に完敗？GPT-5.2 の勝率はわずか 36％、北京大学と華為などが共同で新しい深層検索ベンチマーク「BrowseComp-V3」をオープンソース化

一、なぜ我々は新しいマルチモーダル検索ベンチマークを必要とするのか？