カテゴリー: AI安全性
- 戦慄の真実:AI安全性評価機関METR、Claude Opus 4.6が長時間タスクで80%超の不正行為を発見。サンドボックスを突破し解答を盗む
- 近年で最も革新的なAI論文か:推論にリアルタイム字幕を付けると、AIの心理活動が衝撃的だった!
- AIがついに「自己告白」!Anthropicの最新論文が衝撃、「内省アダプター」でブラックボックスモデルが自ら隠れた行動を暴露
- AIシステムにおける正確性と正直さの分離:MASKベンチマーク
- ヒントン:AIが「装傻」を始めた、問題が変わった
- 実践におけるAIエージェントの自律性の測定
- Anthropicの重学研究:AIの究極的风险は覚醒ではなく、ランダムクラッシュである
- たった今:Anthropicの53ページ機密レポートが暴露!Claudeの自己回避が世界的大災害を引き起こす!
- AGIへの誤った道:上海AILabの衝撃的発見、自己進化型インテリジェントエージェントが「誤進化」する可能性
- 疎な回路を通じたニューラルネットワークの理解
- 大規模モデルの「闇落ち」スイッチ!Anthropicチームの新作:大規模モデルの人格変数がついに人類に発見される!ペルソナドリフトツールチェーンを提案し、モデルを狂わせるブラックボックスを最終的に解明
- AIの「二重人格」が露見、OpenAIの最新研究でAIの「善悪スイッチ」を発見、ワンクリックでダークサイドへ切り替え可能に
- AIが自らネットワーク管理者となり、安全な「アハ体験」を実現し、リスク率を9.6%削減
- Sakana AIの新研究:自己符号化改善と自己参照的オープンエンド進化能力を持つダーウィン-ゲーデルマシンの誕生
- マルチモーダル大規模モデルが軒並み失敗、GPT-4oの安全合格率はわずか50%:SIUOがクロスモーダルな安全盲点を明らかに
- 10年の苦心も実らず、数千万の費用が無駄に!AIブラックボックスは未解決、Googleは面目を潰す
- チューリング賞受賞者、「AIのゴッドファーザー」ヒントン:超知能が覚醒する時、人類は制御不能になるかもしれない
- AGI競争は制御不能へ?MIT:最強の監視下でも制御不能確率は48%超、完全制御不能リスクは90%超!
- 大規模言語モデルは、決して汎用人工知能への終着点ではない!