最新の記事
すべての記事

日本語

カテゴリー： AIベンチマーク

MMLUはもう終わり？「人類最後の試験」がNatureに掲載：世界のAIモデルが集団不合格！
Googleが挑戦状、DeepSeek、Kimiも参戦：初のAI大規模モデル対抗戦が明日開幕
o3-proが「倉庫番」をクリア、懐かしのレトロゲームが大規模モデルの新たなベンチマークに
AmazonがSOPベンチマークを発表：AIエージェントの究極のテスト。トップエージェントの成績は？
AIが賢くなるほど言うことを聞かなくなる！新研究：最強の推論モデルの指示遵守率はわずか50%
プロの医師はAIモデルにはるかに劣る？OpenAIが医療オープンソースベンチマークHealthBenchを発表、o3が最高のパフォーマンスを示す

←
1
→

AINews·AI 新聞聚合平台

© 2026 AINews. All rights reserved.