最新の記事
すべての記事

日本語

カテゴリー： AI安全性

大規模言語モデルがついに汚い言葉を言わなくなった！有毒サブワード剪枝「ToxPrune」、事前学習＋推論の二重防衛線
最新発見：AI大規模モデルは自分が評価されていることを知っている
戦慄の真実：AI安全性評価機関METR、Claude Opus 4.6が長時間タスクで80%超の不正行為を発見。サンドボックスを突破し解答を盗む
近年で最も革新的なAI論文か：推論にリアルタイム字幕を付けると、AIの心理活動が衝撃的だった！
AIがついに「自己告白」！Anthropicの最新論文が衝撃、「内省アダプター」でブラックボックスモデルが自ら隠れた行動を暴露
AIシステムにおける正確性と正直さの分離：MASKベンチマーク
ヒントン：AIが「装傻」を始めた、問題が変わった
実践におけるAIエージェントの自律性の測定
Anthropicの重学研究：AIの究極的风险は覚醒ではなく、ランダムクラッシュである
たった今：Anthropicの53ページ機密レポートが暴露！Claudeの自己回避が世界的大災害を引き起こす！
AGIへの誤った道：上海AILabの衝撃的発見、自己進化型インテリジェントエージェントが「誤進化」する可能性
疎な回路を通じたニューラルネットワークの理解
大規模モデルの「闇落ち」スイッチ！Anthropicチームの新作：大規模モデルの人格変数がついに人類に発見される！ペルソナドリフトツールチェーンを提案し、モデルを狂わせるブラックボックスを最終的に解明
AIの「二重人格」が露見、OpenAIの最新研究でAIの「善悪スイッチ」を発見、ワンクリックでダークサイドへ切り替え可能に
AIが自らネットワーク管理者となり、安全な「アハ体験」を実現し、リスク率を9.6%削減
Sakana AIの新研究：自己符号化改善と自己参照的オープンエンド進化能力を持つダーウィン-ゲーデルマシンの誕生
マルチモーダル大規模モデルが軒並み失敗、GPT-4oの安全合格率はわずか50%：SIUOがクロスモーダルな安全盲点を明らかに
10年の苦心も実らず、数千万の費用が無駄に！AIブラックボックスは未解決、Googleは面目を潰す
チューリング賞受賞者、「AIのゴッドファーザー」ヒントン：超知能が覚醒する時、人類は制御不能になるかもしれない
AGI競争は制御不能へ？MIT：最強の監視下でも制御不能確率は48%超、完全制御不能リスクは90%超！
大規模言語モデルは、決して汎用人工知能への終着点ではない！

←
1
→

AINews·AI 新聞聚合平台

© 2026 AINews. All rights reserved.