カテゴリー: モデル評価
- 深層解説!Claude Code モデルの強化学習トレーニングにおける報酬ハッキング
- 4B モデルの幻覚抑制能力が GPT-5 を凌駕、CMU 等が行動較正強化学習の新しい手法を提案
- 美团が静かに新モデルを公開!実測初のオープンソース「重思考」モデル:8路並列、AgentがClaudeと直接対決
- Googleが挑戦状、DeepSeek、Kimiも参戦:初のAI大規模モデル対抗戦が明日開幕
- 推論が増えるほど幻覚は深刻化するか?マルチモーダル推論モデルの「幻覚のパラドックス」
- Appleの「思考の錯覚」論文が再び批判に、Claudeと人間の共著論文が3つの主要な欠陥を指摘
- Google | RAGシステムのエラーを追跡:選択的生成フレームワークを提案し、RAGの精度を10%向上