カテゴリー: ベンチマーク
- Claudeの合格率4%未満、SaaS-BenchがComputer-Useの「全自動オフィス」幻想を打ち砕く
- AIが初の科学研究競争で人類を打破!Opus 4.7、2930ステップの世界新記録を樹立
- GPT-5.5が世界初快挙!全AIが白紙答案だった最難関ベンチマークでソースコードなしの「ブラインドコーディング」に成功
- 静的評価はもう「時代遅れ」?OpenKGがLLM知識強化の動的評価ベンチマークDynamic OneEval-202605を継続更新
- AIシステムにおける正確性と正直さの分離:MASKベンチマーク
- FrontierSWE
- 世界最難の試験で劇的な大逆転!黒馬AIが36%を突破、トップモデル勢は揃って失速
- さよならSWE-Bench!Cursorが新たなAIコーディング評価ベンチマークを公開、Claudeを泣かせる
- モデルは本当に「コードの自己修正」ができるのか?北航がリポジトリレベルの理解生成ベンチマークを発表し、LLM理解評価パラダイムを刷新
- 合格率0%!コード神話の崩壊!LiveCodeBench Proがリリース!
- マルチモーダル大規模モデルが軒並み失敗、GPT-4oの安全合格率はわずか50%:SIUOがクロスモーダルな安全盲点を明らかに
- コスト1/8でClaude 3.7に匹敵、「欧州のOpenAI」Mistral AIがマルチモーダル新モデルを発表
- AI自己複製リスク:AISIがRepliBenchベンチマークを発表
- AI界の「オリンピック」?OpenAIが新しいベンチマークMRCRを発表、モデルの「干し草の山の中の針」能力が限界に挑む!
- DeepSeekが大幅進化!新モデルは数学の定理証明に特化し、複数の高難易度ベンチマークを大幅に更新。