簡短結論:偏科生終成全才
基本情況:
Anthropic 對任務有獨特的理解,從 2.0 時代起就開始培養面向上班族的創意寫作和數據分析能力,到了 3.7 時代一舉點亮程式設計技術線,讓 Claude 系列成為 Vibe Coding 的代名詞。到了 4.5 時代,Sonnet 和 Opus 雙雄在程式設計和數據分析的地位幾乎難以撼動。
而 OpenAI 的攻勢不可謂不猛,GPT 系列只是之前不重視程式設計,不代表高智商的 GPT 學不會寫程式。面對 GPT 以高打低的態勢,Claude 當家的 Opus 必須扛起重擔,把硬智力提升上去,備戰 2026。
好消息是,Opus 4.6 各方面與 GPT-5.2 相差不大,數理方面智力相當,Agent 能力更勝一籌。
壞消息是,這需要花費接近 2 倍成本,考慮到 Agent 應用是 Token 黑洞,實際的費用差距還會更高一些。
邏輯成績:
*1 表格為了突出對比關係,僅展示部分可比對模型,不是完整排序。
*2 題目及測試方式,請參見:大語言模型—邏輯能力橫評 26-01 月榜。新增 #56 題。
*3 完整榜單更新於 https://llm2014.github.io/llm_benchmark/
以下重點對比 Opus 4.6 推理模式與 GPT-5.2 推理模式。當提到非推理模式時,會特別標記。
優勢:
字元處理:字元處理能力一直是 Claude 系列的看家本領,到 4.6 這一代更加精進,讓眾多模型止步不前的 #41 錯亂文字解析,Opus 首次通過了超過半數的案例,即便在非推理模式下也有半數通過。Opus 的下限也高於 GPT-5.2 的上限。在 1 月新題 #55 障礙地圖問題中,要拿滿分也需要過硬的字元處理能力,之前最好的模型就是 GPT-5.2,犯了多處小錯誤,而 Opus 在 1 Pass 中拿到滿分,其他 2 Pass 也只錯 1 處。Opus 在字元處理上的表現通常領先其他模型 8 個月以上。
計算:計算原本是 Opus 非推理模式的弱項,4.5 的相關得分甚至不如同梯隊的國產模型。但 4.6 一轉攻勢,計算精度大幅提升,相關問題雖然無法滿分,但可以穩定在高位,僅有少量小數誤差。而大哥推理模式自然是穩定滿分,複雜計算表現甚至優於 GPT-5.2。
複雜推理:在需要一定思維技巧、解題方法論類的題目上,比如數獨、變形數獨、ARC-AGI 類似物等,Opus 顯然經過了特別訓練,解題效率有顯著提升。#49 題之前只有 GPT-5.2 能拿滿分,現在 Opus 也可以穩定滿分,甚至非推理模式也可以偶爾拿到滿分。不過隨著這類題目在筆者測試中佔比逐漸下降,Opus 未來分數預期會小幅下降。
洞察力:作為面向上班族的模型,數據處理能力是無法繞過的必選題。其中就涉及數據洞察和規律洞察問題。這方面之前也是 GPT 系列的領先範圍,Opus 也逐漸追上。相關題目上,Opus 的得分情況與 GPT-5.2 相同。但 Opus 通常需要消耗多 20%~130% 的 Token,在效率上還是差一些。
不足:
幻覺:Opus 的幻覺略高於 GPT,畢竟低幻覺是 OpenAI 長期的技術壁壘之一,Anthropic 要追趕並不容易。幻覺的分佈與上下文長度關係不大,即便在只有幾千字的「短」文字中,Opus 也有不小機率疏忽,看漏一些文字、數字,導致最後結果誤差。而 GPT 則可以多 Pass 穩定正確。#42 年報整理文字更長,需要提取的資訊更多,Opus 得分也就更低。這類問題在 Agent 模式下固然可以用搜尋工具完成,但幻覺同樣會影響自己產生的上下文,因此能觀察到 Opus 在需要智力不高、但中間步驟特別多的問題上,穩定性大幅下降,無法穩住得分。
賽博史官曰:
Claude 在補智力,GPT 在補程式設計工程思維。OpenAI 把重心放在模型的安全性、穩定性、低幻覺,以及單位 Token 效率這些更底層和基建的工作上。Anthropic 則點亮了多 Agent 協作、自我進化、長上下文,朝著讓大模型取代傳統辦公軟體的大路上狂飆。看似雙向奔赴,實則分道揚鑣。兩家頂尖的人工智慧公司都對 AI 的未來有清晰明確的規劃,兩家公司沒有重複競爭,而是各自探索,乃是時代之幸。
Opus 4.6 將加入程式設計工程測試,成績在未來幾天陸續上傳到網站。