カテゴリー: AIベンチマーク
- MMLUはもう終わり?「人類最後の試験」がNatureに掲載:世界のAIモデルが集団不合格!
- Googleが挑戦状、DeepSeek、Kimiも参戦:初のAI大規模モデル対抗戦が明日開幕
- o3-proが「倉庫番」をクリア、懐かしのレトロゲームが大規模モデルの新たなベンチマークに
- AmazonがSOPベンチマークを発表:AIエージェントの究極のテスト。トップエージェントの成績は?
- AIが賢くなるほど言うことを聞かなくなる!新研究:最強の推論モデルの指示遵守率はわずか50%
- プロの医師はAIモデルにはるかに劣る?OpenAIが医療オープンソースベンチマークHealthBenchを発表、o3が最高のパフォーマンスを示す