AINews
最新の記事
すべての記事
日本語
Light
Dark
System
カテゴリー: ベンチマーク評価
最強のマルチモーダル大規模言語モデルが実世界のウェブ検索で人間に完敗?GPT-5.2 の勝率はわずか 36%、北京大学と華為などが共同で新しい深層検索ベンチマーク「BrowseComp-V3」をオープンソース化
30Bモデルで研究、GPT-5.4を超え、性能が1.7%から33.3%へ向上
←
1
→