最新の記事
すべての記事

日本語

カテゴリー：ベンチマーク

最新発見：AI大規模モデルは自分が評価されていることを知っている
Claudeの合格率4%未満、SaaS-BenchがComputer-Useの「全自動オフィス」幻想を打ち砕く
AIが初の科学研究競争で人類を打破！Opus 4.7、2930ステップの世界新記録を樹立
GPT-5.5が世界初快挙！全AIが白紙答案だった最難関ベンチマークでソースコードなしの「ブラインドコーディング」に成功
静的評価はもう「時代遅れ」？OpenKGがLLM知識強化の動的評価ベンチマークDynamic OneEval-202605を継続更新
AIシステムにおける正確性と正直さの分離：MASKベンチマーク
FrontierSWE
世界最難の試験で劇的な大逆転！黒馬AIが36％を突破、トップモデル勢は揃って失速
さよならSWE-Bench！Cursorが新たなAIコーディング評価ベンチマークを公開、Claudeを泣かせる
モデルは本当に「コードの自己修正」ができるのか？北航がリポジトリレベルの理解生成ベンチマークを発表し、LLM理解評価パラダイムを刷新
合格率0%！コード神話の崩壊！LiveCodeBench Proがリリース！
マルチモーダル大規模モデルが軒並み失敗、GPT-4oの安全合格率はわずか50%：SIUOがクロスモーダルな安全盲点を明らかに
コスト1/8でClaude 3.7に匹敵、「欧州のOpenAI」Mistral AIがマルチモーダル新モデルを発表
AI自己複製リスク：AISIがRepliBenchベンチマークを発表
AI界の「オリンピック」？OpenAIが新しいベンチマークMRCRを発表、モデルの「干し草の山の中の針」能力が限界に挑む！
DeepSeekが大幅進化！新モデルは数学の定理証明に特化し、複数の高難易度ベンチマークを大幅に更新。

←
1
→

AINews·AI 新聞聚合平台

© 2026 AINews. All rights reserved.