最新の記事
すべての記事

日本語

カテゴリー：ベンチマーク評価

オープンソース新着 | 大規模言語モデルはまだ「金魚の記憶」なのか？新基準RHELMが「真の長期記憶」の天井を測定
Claude 4.6は66%？Claw-Eval-Liveが示す「ターミナル操作ができても、部門横断の仕事はできない」AIエージェントの現実
最強のマルチモーダル大規模言語モデルが実世界のウェブ検索で人間に完敗？GPT-5.2 の勝率はわずか 36％、北京大学と華為などが共同で新しい深層検索ベンチマーク「BrowseComp-V3」をオープンソース化
30Bモデルで研究、GPT-5.4を超え、性能が1.7%から33.3%へ向上

←
1
→

AINews·AI 新聞聚合平台

© 2026 AINews. All rights reserved.