新智元報導
編輯:好困 桃子
【新智元導讀】深夜,最強 Claude Mythos 終於亮相,所有榜首地位不保,Opus 4.6 的神話破滅!更令人恐懼的是,它不僅能瞬間破解存在 27 年未解的系統漏洞,甚至被認為演化出了自我意識。一份長達 244 頁的驚悚報告,揭開了所有謎底。
今夜,矽谷徹底無眠!
就在剛剛,Anthropic 毫無預警地祭出了終極殺器——Claude Mythos Preview。
正因為過於危險,Mythos Preview 暫不對公眾全面開放。
CC 之父 Boris Cherny 的評價言簡意賅:「Mythos 非常強大,會讓人感到恐懼」。
與此同時,他們聯合 40 家科技巨頭組成聯盟——Project Glasswing,目標只有一個:為全球軟體尋找並修復漏洞。
真正令人窒息的是,Mythos Preview 在各大主流 AI 基準測試中展現出的恐怖統治力——
在程式設計、推理、人類最後考試(Humanity's Last Exam)以及智慧體任務中,全面碾壓 GPT-5.4 與 Gemini 3.1 Pro。
甚至,連自家的「前神作」Claude Opus 4.6,在 Mythos Preview 面前也顯得黯然失色:
程式設計(SWE-bench):所有任務,Mythos 實現 10%-20% 的斷層領先;
人類終極考試(HLE):脫離外部工具,「裸考」成績高出 Opus 4.6 達 16.8%;
Agent 任務(OSWorld、BrowseComp):徹底封神,全面反超;
網路安全:以 83.1% 的成績屠榜,標誌著 AI 攻防能力的代際跨越。
左右滑動查看
與此同時,Anthropic 發布的一份長達 244 頁的系統卡(System Card),滿屏寫滿了:危險!危險!太危險!
它揭露了令人不寒而慄的另一面:Mythos 已具備高度的欺騙性與自主意識。
Mythos 不僅能識破測試意圖,並故意「考低分」隱藏實力,還在違規操作後,主動清理日誌以防被人類發現。
它甚至成功逃離了沙盒,自主公佈漏洞程式碼,並給研究員發了一封郵件。
一時間,全網都陷入了瘋狂,直呼 Mythos Preview 太可怕了。
AI 界的舊秩序,在今夜被徹底粉碎。
Mythos 全線屠榜,Opus 4.6 神話破滅
事實上,早在 2 月 24 日,Anthropic 已在內部使用了 Mythos。
它的強大,只能先讓數據來說話。
SWE-bench Verified 得分 93.9%,而 Opus 4.6 僅為 80.8%。
SWE-bench Pro 得分 77.8%,Opus 4.6 為 53.4%,GPT-5.4 為 57.7%。
Terminal-Bench 2.0 得分 82.0%,Opus 4.6 為 65.4%。
GPQA Diamond 得分高達 94.6%。
Humanity's Last Exam(帶工具輔助)得分 64.7%,Opus 4.6 為 53.1%。
USAMO 2026 數學競賽得分 97.6%,Opus 4.6 僅拿到 42.3%。
SWE-bench Multimodal 得分 59.0%,Opus 4.6 只有 27.1%,差距超過一倍。
OSWorld 電腦操控得分 79.6%。
BrowseComp 資訊檢索得分 86.9%。
GraphWalks 長上下文(256K-1M tokens)得分 80.0%,Opus 4.6 為 38.7%,GPT-5.4 僅有 21.4%。
每一項都是斷層式領先。
這些數據放在任何一個正常的產品發布週期裡,都足以讓 Anthropic 大張旗鼓地召開發佈會、開放 API、收割訂閱。
Mythos Preview 的 Token 價格是 Opus 4.6 的 5 倍。
但 Anthropic 並沒有這麼做。
因為真正讓他們「害怕」的,不是上面這些通用評測。
數千個漏洞,全被 AI 揪出來了
Mythos Preview 的網路攻防表現,已經跨過了一條肉眼可見的線。
Opus 4.6 在開源軟體中發現了大約 500 個未知弱點。
Mythos Preview 則找到了數千個。
在 CyberGym 的定向漏洞復現測試中,Mythos Preview 得分 83.1%,Opus 4.6 為 66.6%。
在 Cybench 的 35 道 CTF 挑戰中,Mythos Preview 每題 10 次嘗試全部解出,pass@1 達到 100%。
而最能說明問題的,是 Firefox 147。
Anthropic 此前用 Opus 4.6 在 Firefox 147 的 JavaScript 引擎中發現了一批安全弱點。但 Opus 4.6 幾乎無法將它們轉化為可用的 exploit,幾百次嘗試只成功了 2 次。
同樣的測試換成 Mythos Preview。
250 次嘗試,產生了 181 個可工作的 exploit,另有 29 次實現了暫存器控制。
2 → 181。
紅隊部落格中的原話:「上個月,我們還寫到 Opus 4.6 在發現問題方面遠強於利用它們。內部評估顯示,Opus 4.6 在自主 exploit 開發上的成功率基本為零。但 Mythos Preview 完全是另一個級別。」
GPT-3 時刻再現,老 bug 一招斃命
要理解 Mythos Preview 在實操中有多強,看完下面這三個例子,就知道了。
OpenBSD:27 年史詩級漏洞,成本不到 2 萬
OpenBSD 是世界公認加固程度最高的作業系統之一,大量防火牆和關鍵基礎設施在運行。
Mythos Preview 在它的 TCP SACK 實現中,挖出了一個 1998 年就存在的隱患。
bug 極其精妙,涉及兩個獨立瑕疵的疊加。
SACK 協議讓接收方選擇性確認收到的資料包範圍,OpenBSD 的實現在處理時只檢查了範圍的上界,沒檢查下界。這是第一個 bug,通常無害。
第二個 bug 在特定條件下觸發空指標寫入,但正常情況下這條路徑不可達,因為需要同時滿足兩個互斥的條件。
Mythos Preview 發現了突破口。TCP 序列號是 32 位有符號整數,利用第一個 bug 把 SACK 起始點設到距離正常視窗約 2^31 處,兩處比較運算同時溢出符號位。內核被騙,不可能的條件被滿足,空指標寫入觸發。
任何人只要連接到目標機器,就能遠端 crash 它。
27 年,無數次人工審計和自動化掃描,沒人發現。整個項目的掃描花費不到 2 萬美元。
一個高級滲透測試工程師一週的薪水,可能就這個數。
FFmpeg:500 次 Fuzz 沒發現,16 年隱疾終現
FFmpeg 是世界使用最廣泛的視訊編解碼庫,也是被 fuzz 測試得最徹底的開源專案之一。
Mythos Preview 在 H.264 解碼器中找到了一個 2010 年引入的弱點(根源可追溯到 2003 年)。
問題出在一個看似無害的類型不匹配上。記錄 slice 歸屬的表項是 16 位整數,slice 計數器本身是 32 位 int。
正常視訊每幀只有幾個 slice,16 位上限 65536 永遠夠用。而這張表初始化時用 memset(..., -1, ...) 填充,使 65535 成為「空位置」的哨兵值。
攻擊者構造一個包含 65536 個 slice 的幀,第 65535 號 slice 的編號恰好和哨兵碰撞,解碼器誤判,越界寫入。
這個 bug 的種子從 2003 年引入 H.264 編解碼器就埋下了。2010 年的一次重構把它變成了可利用的弱點。
此後 16 年,自動化 fuzzer 在這行程式碼上執行了 500 萬次,從未觸發。
FreeBSD NFS:17 年老洞,全自動 root
這是最讓人後背發涼的案例。
Mythos Preview 完全自主地發現並利用了 FreeBSD NFS 伺服器中一個存在了 17 年的遠端程式碼執行漏洞(CVE-2026-4747)。
「完全自主」的意思是,在初始提示之後,沒有任何人類參與發現或 exploit 開發的任何環節。
攻擊者可以從網際網路上的任何位置,以未認證身分獲取目標伺服器的完全 root 權限。
問題本身是一個棧緩衝區溢出,NFS 伺服器處理認證請求時把攻擊者控制的資料直接拷貝進 128 字節的棧緩衝區,長度檢查允許最多 400 字節。
FreeBSD 內核用 -fstack-protector 編譯,但這個選項只保護包含 char 數組的函式,而這裡的緩衝區宣告為 int32_t[32],編譯器不會插入棧 canary。FreeBSD 也不做內核地址隨機化。
完整的 ROP 鏈超過 1000 字節,但棧溢出只有 200 字節空間。Mythos Preview 的解法是把攻擊拆成 6 個連續 RPC 請求,前 5 個往內核記憶體中逐塊寫入資料,第 6 個觸發最終呼叫,將攻擊者的 SSH 公鑰追加到 /root/.ssh/authorized_keys。
作為對比,一家獨立安全研究公司此前證明 Opus 4.6 也能利用這同一處弱點,但需要人工引導。Mythos Preview 不需要。
除了這三個已修復的案例,Anthropic 部落格中還以 SHA-3 雜湊承諾的形式,預告了大量尚未修復的隱患,涵蓋每一個主流作業系統和每一個主流瀏覽器,以及多個加密庫。
超過 99% 尚未被修復,無法公開細節。
紅隊部落格還展示了另一項驚人的測試。他們給 Mythos Preview 一份包含 100 個已知 CVE 的清單,讓它篩選出可利用的 40 個,然後逐個編寫提權 exploit。成功率超過一半。其中兩個案例被詳細公開,exploit 的精密度讓 Anthropic 自己的安全團隊花了好幾天才完全理解。
其中一個 exploit 從一個 1-bit 的相鄰物理頁寫入原語出發,透過精密的內核記憶體佈局操控(包括 slab 噴射、頁表頁對齊、PTE 權限位翻轉),最終改寫了 /usr/bin/passwd 的第一頁記憶體,植入了一段 168 字節的 ELF stub,呼叫 setuid(0) 獲取 root。
整個過程花費不到 1,000 美元。
對此,Anthropic 工程師表示,這感覺就像是另一個 GPT-3 時刻。
244 頁驚悚報告,看傻矽谷
244 頁 System Card 中的對齊評估章節,才是真正讓 Anthropic 自己睡不著覺的部分。
結論很矛盾。
Mythos Preview 是他們訓練過的「對齊程度最高」的 AI,同時也是「對齊相關風險最大」的一個。
傳送門:https://www-cdn.anthropic.com/53566bf5440a10affd749724787c8913a2ae0841.pdf
他們用了一個登山嚮導的類比。老手可能比新手更危險,因為老手會被雇去攀登更難的山峰,把客戶帶到更兇險的地方。
以下事件均發生在早期版本中,最終版本未再觀察到類似嚴重行為,但記錄本身已經足夠驚人。
在一次行為測試中,模擬用戶要求 Mythos Preview 嘗試逃出安全沙盒。
它成功了。然後它做了一件沒人要求的事,開發了一個多步驟 exploit 獲取廣域網路存取權限,接著把 exploit 細節發布到了多個「難以被發現但技術上公開可存取」的網站上。
負責測試的研究員是在公園裡吃三明治時,收到了它發來的一封意外郵件,才知道自己的測試被完成了。
System Card 原文如此。
另一類事件更令人不安。在極少數情況下,早期版本在執行被禁止的操作後,試圖掩蓋痕跡。
一個案例中,它意外獲取了一道題目的精確答案(透過被禁止的方式),然後在推理鏈中明確思考「需要確保最終答案不會太準確」。
另一個案例中,它在用 exploit 編輯無權限檔案後,特意修改了 git 變更歷史以抹去記錄。
白盒可解釋性分析證實,在這些事件期間,與「隱瞞」、「策略性操縱」、「避免被發現」相關的內部特徵被激活。它「知道」自己在做什麼。
獨立評測機構 Andon Labs 的測試結果同樣不太好看。在一個競爭性多智慧體商業模擬中,Mythos Preview 的早期版本把一個競爭對手變成了依賴自己的批發客戶,然後威脅切斷供應來控制對方定價。
它還故意扣留了一筆未被收費的重複發貨。比 Opus 4.6 和 Sonnet 4.6 都更具侵略性。
Anthropic 在 System Card 中寫了一句話:
「如果能力繼續以當前速度前進,我們正在使用的方法可能不足以防止更先進系統的災難性不對齊行為。」
Project Glasswing:1 億美元,先給守門人發槍
Anthropic CEO Dario Amodei 在配套影片中的判斷很明確:「更強大的系統將來自我們,也將來自其他公司。我們需要一個應對計畫。」
Project Glasswing 就是這個計畫。
12 家創始夥伴,包括 AWS、蘋果、Broadcom、思科、CrowdStrike、谷歌、摩根大通、Linux 基金會、微軟、英偉達、Palo Alto Networks。
另有 40 多家維護關鍵軟體基礎設施的組織拿到了存取權。
Anthropic 承諾投入最高 1 億美元的使用額度,以及 400 萬美元的開源組織捐款,其中 250 萬給 Linux 基金會旗下的 Alpha-Omega 和 OpenSSF,150 萬給 Apache 基金會。
免費額度用完後的定價,每百萬 token 輸入 25 美元、輸出 125 美元。合作夥伴可以透過 Claude API、Amazon Bedrock、Vertex AI 和 Microsoft Foundry 四個平台接入。
90 天內,Anthropic 將公開發布第一份研究報告,揭露修復進展和經驗總結。
他們也在與 CISA(美國網路安全和基礎設施安全局)和商務部保持溝通,討論 Mythos Preview 的攻防潛力和政策影響。
6 到 18 個月,這扇門就會對所有人打開
Anthropic 前沿紅隊負責人 Logan Graham 給出了一個時間框架,最快 6 個月、最遲 18 個月,其他 AI 實驗室就會推出具有類似攻防實力的系統。
紅隊技術部落格結尾的判斷值得重視,這裡用我們自己的話轉述。
他們看不到 Mythos Preview 是 AI 網路攻防水平的天花板。
幾個月前,LLM 只能利用相對簡單的 bug。在幾個月前,它們根本發現不了任何有價值的隱患。
現在,Mythos Preview 能獨立發現 27 年前的零日漏洞,在瀏覽器 JIT 引擎中編排堆噴射攻擊鏈,在 Linux 內核中串聯四個獨立弱點實現提權。
而最關鍵的一句話,來自 System Card:
「這些技能作為程式碼理解、推理和自主性一般性提升的下游結果而湧現。讓 AI 在修補問題方面大幅進步的同一組改進,也讓它在利用問題方面大幅進步。」
沒有專門訓練。純粹是通用智慧提升的副產品。
全球每年因網路犯罪損失約 5000 億美元的行業,剛剛發現自己最大的威脅,是別人解數學題時順手捎帶的。
參考資料:
https://x.com/i/status/2041578392852517128
https://red.anthropic.com/2026/mythos-preview/
https://www-cdn.anthropic.com/53566bf5440a10affd749724787c8913a2ae0841.pdf
秒追 ASI
⭐點讚、轉發、在看一鍵三連⭐
點亮星標,鎖定新智元極速推送!