最新の記事
すべての記事

日本語

カテゴリー： AI評価

さよならSWE-Bench！Cursorが新たなAIコーディング評価ベンチマークを公開、Claudeを泣かせる
Claude新モデル4.6登場！さらに多くの仕事が失われる：ウォール街の財務、コンパイラ、セキュリティホワイトハッカー、PPT…すべてが失守
DeepResearchEval震撼発表：自動で問題を生成し、智能的に採点するAI研究評価フレームワーク
「LLM裁判」から「Agent裁判」へ：AI評価パラダイムの三段階進化総説
おっしゃる通り、AGIは1年以内には現れない！27機関によるAGIの学術的定義が発表
合格率0%！コード神話の崩壊！LiveCodeBench Proがリリース！
ICML 2025 | 「人間テスト法」でAIバブルを突き破る：能力指向型適応的評価の新パラダイムを構築する
LLMは数学を理解できるのか？最新の研究が大規模モデルの数学的推論における致命的な欠陥を明らかに
AIの後半戦：アルゴリズムから実用性へ

←
1
→

AINews·AI 新聞聚合平台

© 2026 AINews. All rights reserved.