分類: 人工智慧安全
- 「頓悟時刻」:圖靈獎得主本吉奧的 AI 警示——從技術樂觀走向控制危機
- MASK 基準測試:拆解 AI 系統中的誠實與準確度
- 深度揭秘!Claude Code 模型 RL 訓練中的獎勵駭客(Reward Hacking)
- 自動化對齊研究員:運用大型語言模型擴展可擴展監督
- 蘇黎世聯邦理工實測:一句Prompt就能摧毀16個Agent組成的「共識網路」|多Agent避坑指南
- 全球AI智慧體大規模失控!Meta兩小時資安災難重創矽谷,OpenClaw反噬來襲
- 透過稀疏電路理解神經網路
- 谷歌加入 CUA 戰場,發布 Gemini 2.5 Computer Use:讓 AI 直接操作瀏覽器
- AI 自主擔任網路管理員,實現安全「頓悟時刻」,風險率直降 9.6%
- 歷史首次!o3模型找出Linux核心零時差漏洞,鑽研12000行程式碼百次終獲,無需呼叫任何工具