カテゴリー: AI評価
- さよならSWE-Bench!Cursorが新たなAIコーディング評価ベンチマークを公開、Claudeを泣かせる
- Claude新モデル4.6登場!さらに多くの仕事が失われる:ウォール街の財務、コンパイラ、セキュリティホワイトハッカー、PPT…すべてが失守
- DeepResearchEval震撼発表:自動で問題を生成し、智能的に採点するAI研究評価フレームワーク
- 「LLM裁判」から「Agent裁判」へ:AI評価パラダイムの三段階進化総説
- おっしゃる通り、AGIは1年以内には現れない!27機関によるAGIの学術的定義が発表
- 合格率0%!コード神話の崩壊!LiveCodeBench Proがリリース!
- ICML 2025 | 「人間テスト法」でAIバブルを突き破る:能力指向型適応的評価の新パラダイムを構築する
- LLMは数学を理解できるのか?最新の研究が大規模モデルの数学的推論における致命的な欠陥を明らかに
- AIの後半戦:アルゴリズムから実用性へ