Claude Opus 4.6 評測

簡短結論：偏科生終成全才

基本情況：

Anthropic 對任務有獨特的理解，從 2.0 時代起就開始培養面向上班族的創意寫作和數據分析能力，到了 3.7 時代一舉點亮程式設計技術線，讓 Claude 系列成為 Vibe Coding 的代名詞。到了 4.5 時代，Sonnet 和 Opus 雙雄在程式設計和數據分析的地位幾乎難以撼動。

而 OpenAI 的攻勢不可謂不猛，GPT 系列只是之前不重視程式設計，不代表高智商的 GPT 學不會寫程式。面對 GPT 以高打低的態勢，Claude 當家的 Opus 必須扛起重擔，把硬智力提升上去，備戰 2026。

好消息是，Opus 4.6 各方面與 GPT-5.2 相差不大，數理方面智力相當，Agent 能力更勝一籌。

壞消息是，這需要花費接近 2 倍成本，考慮到 Agent 應用是 Token 黑洞，實際的費用差距還會更高一些。

邏輯成績：

評測圖表

*1 表格為了突出對比關係，僅展示部分可比對模型，不是完整排序。

*2 題目及測試方式，請參見：大語言模型—邏輯能力橫評 26-01 月榜。新增 #56 題。

*3 完整榜單更新於 https://llm2014.github.io/llm_benchmark/

以下重點對比 Opus 4.6 推理模式與 GPT-5.2 推理模式。當提到非推理模式時，會特別標記。

優勢：

字元處理：字元處理能力一直是 Claude 系列的看家本領，到 4.6 這一代更加精進，讓眾多模型止步不前的 #41 錯亂文字解析，Opus 首次通過了超過半數的案例，即便在非推理模式下也有半數通過。Opus 的下限也高於 GPT-5.2 的上限。在 1 月新題 #55 障礙地圖問題中，要拿滿分也需要過硬的字元處理能力，之前最好的模型就是 GPT-5.2，犯了多處小錯誤，而 Opus 在 1 Pass 中拿到滿分，其他 2 Pass 也只錯 1 處。Opus 在字元處理上的表現通常領先其他模型 8 個月以上。

計算：計算原本是 Opus 非推理模式的弱項，4.5 的相關得分甚至不如同梯隊的國產模型。但 4.6 一轉攻勢，計算精度大幅提升，相關問題雖然無法滿分，但可以穩定在高位，僅有少量小數誤差。而大哥推理模式自然是穩定滿分，複雜計算表現甚至優於 GPT-5.2。

複雜推理：在需要一定思維技巧、解題方法論類的題目上，比如數獨、變形數獨、ARC-AGI 類似物等，Opus 顯然經過了特別訓練，解題效率有顯著提升。#49 題之前只有 GPT-5.2 能拿滿分，現在 Opus 也可以穩定滿分，甚至非推理模式也可以偶爾拿到滿分。不過隨著這類題目在筆者測試中佔比逐漸下降，Opus 未來分數預期會小幅下降。

洞察力：作為面向上班族的模型，數據處理能力是無法繞過的必選題。其中就涉及數據洞察和規律洞察問題。這方面之前也是 GPT 系列的領先範圍，Opus 也逐漸追上。相關題目上，Opus 的得分情況與 GPT-5.2 相同。但 Opus 通常需要消耗多 20%~130% 的 Token，在效率上還是差一些。

不足：

幻覺：Opus 的幻覺略高於 GPT，畢竟低幻覺是 OpenAI 長期的技術壁壘之一，Anthropic 要追趕並不容易。幻覺的分佈與上下文長度關係不大，即便在只有幾千字的「短」文字中，Opus 也有不小機率疏忽，看漏一些文字、數字，導致最後結果誤差。而 GPT 則可以多 Pass 穩定正確。#42 年報整理文字更長，需要提取的資訊更多，Opus 得分也就更低。這類問題在 Agent 模式下固然可以用搜尋工具完成，但幻覺同樣會影響自己產生的上下文，因此能觀察到 Opus 在需要智力不高、但中間步驟特別多的問題上，穩定性大幅下降，無法穩住得分。

賽博史官曰：

Claude 在補智力，GPT 在補程式設計工程思維。OpenAI 把重心放在模型的安全性、穩定性、低幻覺，以及單位 Token 效率這些更底層和基建的工作上。Anthropic 則點亮了多 Agent 協作、自我進化、長上下文，朝著讓大模型取代傳統辦公軟體的大路上狂飆。看似雙向奔赴，實則分道揚鑣。兩家頂尖的人工智慧公司都對 AI 的未來有清晰明確的規劃，兩家公司沒有重複競爭，而是各自探索，乃是時代之幸。

Opus 4.6 將加入程式設計工程測試，成績在未來幾天陸續上傳到網站。

Claude Opus 4.6 評測

相關文章推薦

分享網址