Claude新模型4.6來了!更多飯碗沒了:華爾街財務、編譯器、安全白帽、PPT…通通失守

衡宇 夢晨 發自 凹非寺量子位 | 公眾號 QbitAI

一睜眼,Anthropic上新模型,讓Claude Opus 4.6來給您拜!年!了!

消息一出,金融數據服務商FactSet最慘盤中暴跌10%,S&P Global、穆迪、納斯達克公司紛紛下跌,各大指數全線跳水。

圖片

這已經是Anthropic你小子本週第二次攪動市場了

幾天前,它旗下一款自動化法律工作的插件悄悄上線,直接引爆了萬億美元級別的軟體股暴跌。

投資者的恐慌聚焦在一個問題:誰能保證幾年內不被AI顛覆?不能就拋售。

想不到今天的Anthropic更狠。

今天以前,大家對Claude的印象,就是程式設計能力斷檔性的強。

Claude Opus 4.6冷笑一聲,梆梆一拳打破這個印象:俺在更多的領域都很強!

至少就官方說法而言,財務分析、研究,以及Office三件套,Claude Opus 4.6都可以玩兒得賊溜。

圖片

官網直接寫到:

在GDPval-AA(一項評估金融、法律和其他領域經濟價值知識工作任務的性能指標)上,Opus 4.6比行業下一最佳模型OpenAI  GPT-5.2高出144個Elo喲

(這意味著Claude Opus 4.6在大約70%的情況下在這個評估中獲得比GPT-5.2更高的分數,50%的情況下意味著分數相當)

圖片

當然,程式設計這塊它依舊獨領風騷。

在Agent程式設計評估Terminal-Bench 2.0中取得了最高分,並在「人類最後考試」中領先所有其他前沿模型。

圖片

好消息是加量不加價,Opus 4.6的定價保持原有標準:每百萬token輸入/輸出,價格是5美元/25美元

(為了方便閱讀,以下簡稱新模型為Opus 4.6)

帶著 1M 上下文和自適應思考殺回巔峰

Opus 4.6最直觀的進步就是有了1M Token超大上下文,這是Claude首次在Opus級別模型中引入這個長度的上下文窗口。

圖片

這極大改善了Opus 4.6在處理長文本時會出現的「上下文衰減」情況。

在MRCR v2 8-needle 1M基準測試——大海撈針——中,Opus 4.6得分76%,而Claude Sonnet 4.5只有18.5%。

伴隨而來的結果是搜尋能力的提升。

在BrowseComp評測(評估線上檢索難獲取資訊的能力)中,Opus 4.6排名行業第一,深度多步驟代理式搜尋表現最佳,能精準定位分散在長文件中的關鍵資訊。

圖片

Opus 4.6還引入了自適應思考(Adaptive Thinking)功能。

以前,使用Claude模型的開發者只能二選一,擴展思考模式要麼開,要麼關。

現在,Claude可以自己判斷什麼時候需要深度推理。

(講真,這一步比ChatGPT慢了哈,下次請搞快點上這種好功能)

配套的effort參數提供四檔選擇——low、medium、high、max——,預設high,遇到模型過度思考的情況可以手動調低。

另一個實用功能是上下文壓縮(Context Compaction)

當對話接近上下文窗口上限時自動摘要並替換舊內容,讓長對話和Agent任務更輕鬆。

圖片

編碼、知識工作、搜尋、推理等核心場景,殺爆了

官方博客顯示,Opus 4.6一出,幾乎無模型能與其爭鋒。

在編碼、知識工作、搜尋、推理等核心場景,Opus 4.6有顯著突破

多項評測成績超越前代及行業競品,be like:

圖片

看完有了個大概印象,我們再一個一個掰開說。

首先是程式設計能力。

Opus 4.6在Terminal-Bench 2.0中拿到了最高分。

從成績背後的實際能力來看,Opus 4.6能更周密地進行任務規劃,可在大型程式碼庫中穩定運行,程式碼審查與除錯精度提升。

而且能自主發現自身錯誤。

圖片

另一點是Opus 4.6支援多語言編碼,能處理跨語言軟體工程問題。

它能像高級工程師一樣完成數百萬行程式碼庫遷移,且用時實打實少一半那種。

寫到這裡的時候,我不禁在想:

工程師們看到這個消息到底是高興得頭髮都不掉了,還是會掉更快呢……(陷入沉思.jpg)

其次,Opus 4.6也在積極入侵傳統辦公領地。

這次它對Office三件套狠狠出手了。

  • 能直接在Excel裡攝入凌亂的非結構化數據,自行推斷合理的表格結構,一次操作中可處理多個複雜步驟;
  • 能銘記你公司的PPT模板,包括字體和佈局風格也記住,確保生成的PPT沒啥AI味,讓老闆以為是你熬夜框框一頓做的。
圖片

在Cowork環境下,Opus 4.6可以代表使用者自主多任務運行,一邊跑財務分析,一邊把研究成果整理成文件

感覺,Anthropic有點想把Claude從聊天框裡拉到更多空間裡的意思?

第三,我們來說說它在推理能力上的進步

先上個總結:

Opus 4.6在跨領域推理上,更強了。

在多學科複雜推理測試 「人類最後的考試」 中,Opus領先所有前沿模型。

在法律領域,Opus 4.6在40%為滿分的BigLaw Bench上,得分90.2%。

在金融、法律等經濟價值導向任務評測GDPval-AA 中,Opus 4.6以144 Elo超越「行業競品」OpenAI GPT-5.2。

無論是複雜的法律、金融專業知識還是刁鑽的學術研究,它的推理理解深度都達到了目前frontier models的頂峰。

難得的是,這種智力的飛躍並沒有以犧牲安全性為代價

在Anthropic最看重的自動化行為審計中,Opus 4.6的對齊水平極高,同時,欺騙、奉承等負面行為極低

Opus 4.6甚至解決了目前AI圈普遍頭疼的「過度拒絕」問題——

在面對正常的、無害的請求時,它比以往任何模型都更少地表現出那種死板的拒絕

圖片目前,Opus 4,6已經在官網、API和所有主流雲平台上線。

加量不加價,Opus 4.6的定價保持原有標準:每百萬token輸入/輸出,價格是5美元/25美元

不過在10M token上下文測試版本中,提示詞超過200k token的話會有額外付費。

劃!重!點!

想要使用Opus 4.6的話,需要在調用API的時候明確制定模型標識 「Claude-opus-4-6」。

更多飯碗沒了

16個Agent兩週寫完C編譯器,運行毀滅戰士

Opus 4.6帶來的一項核心能力升級是Agent Teams,即多個Claude實例並行協作,無需人類即時監督。

Anthropic安全團隊的研究員Nicholas Carlini拿它做了個壓力測試:讓16個Agent從零開始用Rust寫一個能編譯Linux核心的C編譯器。

兩週時間,近2000次Claude Code會話,燒掉20億輸入Token和1.4億輸出Token,總成本不到2萬美元。

最終產出是一個10萬行的編譯器,能在x86、ARM和RISC-V三個架構上編譯Linux 6.9,還能跑Doom。

已關注
關注
重播 分享
觀看更多
量子位

0/0

00:00/00:42
進度條,百分之0
00:00
/
00:42
00:42
全屏
倍速播放中

繼續觀看

Claude新模型4.6來了!更多飯碗沒了:華爾街財務、編譯器、安全白帽、PPT…通通失守

轉載
,
Claude新模型4.6來了!更多飯碗沒了:華爾街財務、編譯器、安全白帽、PPT…通通失守
量子位
已同步到看一看寫下你的評論

這套並行機制讓每個Agent跑在獨立的Docker容器裡,共享一個git倉庫。

為了防止多個Agent撞車,都屁顛顛跑去解決同一個問題,系統用了一個簡單的鎖機制。

Agent透過往current_tasks/目錄寫檔案來”認領”任務,git的同步機制自動處理衝突。Agent之間沒有專門的通訊協議,也沒有編排Agent,每個Claude自己決定下一步幹什麼。

Carlini在部落格裡寫道:

「當Agent開始編譯Linux核心時曾一度卡住,因為這是一個巨型單體任務,16個Agent全撞在同一個bug上互相覆蓋。」

解法是引入GCC作為”oracle”對照組,讓每個Agent只編譯核心的隨機子集,透過二分法定位問題檔案,這樣並行能力才真正發揮出來。

500個零日漏洞,開箱即挖

Opus 4.6在網路安全領域的表現讓Anthropic自己都有點意外。

在發布前的測試中,Anthropic的前沿紅隊把Opus 4.6扔進一個沙箱環境,給它Python和常規漏洞分析工具(fuzzer、debugger那些),沒有任何專門指令或領域知識,讓它自己去找開源代碼裡的漏洞。

結果它挖出了超過500個此前未知的高危零日漏洞

每一個都經過了Anthropic團隊成員或外部安全研究員的驗證的哦。

圖片

具體案例包括:

  • 在GhostScript(一個處理PDF和PostScript文件的常用工具)中發現了一個可導致崩潰的漏洞,而且是在傳統fuzzing和人工分析都沒找到問題之後,Claude自己翻了專案的git提交歷史才挖出來的;
  • 在OpenSC(處理智慧卡數據的工具)和CGIF(處理GIF文件的工具)中發現了緩衝區溢出漏洞;在CGIF那個案例裡,Claude甚至主動寫了PoC(概念驗證代碼)來證明漏洞真實存在。

Anthropic前沿紅隊負責人Logan Graham說,如果這成為未來開源軟體安全審計的主要方式之一,他一點也不驚訝。

不過Anthropic也承認,這種能力可能被濫用。

為此,團隊加了六套新的網路安全探測機制,未來可能會上線即時攔截系統來阻止惡意流量。

One More Thing

官網顯示,Anhtropic現在已經是「用Claude構建Claude」。

自家工程師每天都在用Claude Code編寫代碼,每個新模型首先都在自己的工作環境中進行測試。

圖片

參考連結:[1]https://www.anthropic.com/news/Claude-opus-4-6[2]https://www.anthropic.com/engineering/building-c-compiler[3]https://x.com/i/trending/2019496145987232014[4]https://www.axios.com/2026/02/05/anthropic-Claude-opus-46-software-hunting[5]https://techcrunch.com/2026/02/05/anthropic-releases-opus-4-6-with-new-agent-teams/[6]https://www.reddit.com/r/singularity/comments/1qwrrn7/Claude_opus_46_is_out/

— 歡迎AI產品從業者共建 

📚「AI產品知識庫」是量子位智庫基於長期產品庫追蹤和用戶行為數據推出的飛書知識庫,旨在成為AI行業從業者、投資者、研究者的核心資訊樞紐與決策支援平台。

圖片

一鍵關注 👇 點亮星標

科技前沿進展每日見


分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.