剛剛，Claude 4.6 與 GPT-5.3-Codex 同時發布！

在春節來臨之前，海外大模型先來了一波硬碰硬強勢的發布。

北京時間 2 月 6 日凌晨，Anthropic 與 OpenAI 相繼推出了新版本基礎大模型，分別是 Claude Opus 4.6 與 GPT-5.3-Codex。

昨天兩家還在因為 AI 裡面的廣告而論戰，今天在大模型發布上又撞車了。話不多說，直接看他們的模型能力如何。

Claude Opus 4.6

Claude Opus 4.6 是 Anthropic 對其旗艦人工智慧模型的一次重大升級。在這代模型上，規劃更加謹慎，能夠維持更長時間的自主工作流程，並在關鍵的企業基準測試中超越了包括 GPT-5.2 在內的競爭對手。

新模型首次擁有 100 萬 token 的上下文視窗，使 AI 能夠處理和推理比以往版本多得多的資訊。Anthropic 還在 Claude Code 中引入了類似於 Kimi K2.5 的「智慧體團隊」功能——一項研究預覽功能，它允許多個 AI 智慧體同時處理編碼項目的不同方面，並進行自主協調。

Anthropic 強調，Opus 4.6 可將其增強的功能應用於一系列日常工作任務，包括運行財務分析、進行研究以及使用和建立文件、電子表格和簡報。現在在 Cowork 環境中，Claude 可以自主地執行多任務，Opus 4.6 可以代表人類運用所有這些技能。

Opus 4.6 在多項評估中均表現出色。例如，它在智慧體編碼評估工具 Terminal-Bench 2.0 中取得了最高分，並在「人類最後的考試」（一項複雜的多學科推理測試）中領先於所有其他前沿模型。在 GDPval-AA（一項評估模型在金融、法律和其他領域中具有經濟價值的知識工作任務上的表現的測試）中，Opus 4.6 的表現比業界次優模型（OpenAI 的 GPT-5.2）高出約 144 個 Elo 分數，比其前身（Claude Opus 4.5）高出 190 分。此外，Opus 4.6 在 BrowseComp 測試中也優於其他所有模型，該測試用於衡量模型在線查找難尋資訊的能力。

Claude Opus 4.6 現已在 claude.ai、API 以及所有主流雲平台上線，定價保持不變，每百萬 token 5 美元 / 25 美元。

目前大模型的一個常見問題是「上下文腐爛」，即當對話 token 數量超過一定閾值時，模型性能會下降。Opus 4.6 的性能顯著優於其前代產品：在 MRCR v2 的 8 針 1M 變體測試中（該測試如同大海撈針），Opus 4.6 的得分為 76%，而 Sonnet 4.5 的得分僅為 18.5%。這標誌著模型在保持最佳性能的同時，能夠利用的上下文資訊量發生了質的飛躍。

為了證明 Opus 4.6 的強大智慧體能力，Anthropic 的一名研究員使用 16 個智慧體從零開始構建了一個基於 Rust 的 C 語言編譯器，設定任務後就基本放手不管了。最後 AI 輸出的代碼長達 10 萬行，可以編譯 Linux 內核，耗資 2 萬美元，超過 2000 次 Claude Code 會話，歷時兩週。

該編譯器可以在 x86、ARM 和 RISC-V 上構建可啟動的 Linux 6.9，它通過了 GCC 99% 的壓力測試，可以編譯 FFmpeg、Redis、PostgreSQL、QEMU，還通過了開發者的終極考驗：編譯並運行了 Doom 遊戲。

該編譯器的代碼：https://github.com/anthropics/claudes-c-compiler

雖然沒有人類參與編寫代碼，但研究人員不斷重新設計測試，在智慧體程式互相干擾時構建 CI 管道，並在所有 16 個智慧體程式都卡在同一個 bug 時建立變通方法。

看起來，在未來加入 AI 的工作流程中，人的角色已經從編寫代碼轉變為構建讓 AI 能夠編寫代碼的環境。

GPT-5.3-Codex

在 OpenAI 這邊，新一代模型 GPT-5.3-Codex 的發布緊隨其後。奧特曼稱其擁有目前最佳的編碼性能，進一步釋放了 Codex 的潛能。

GPT-5.3-Codex 在多項基準上刷新紀錄：在 SWE-Bench Pro 上達到 56.8%，在 Terminal-Bench 2.0 上達到 77.3%，同時相比此前版本運行更快、消耗的 token 更少。

OpenAI 表示，該模型融合了 GPT-5.2-Codex 的前沿編碼性能和 GPT-5.2 的推理及專業知識能力，速度提升了 25%。這使其能夠勝任需要研究、工具使用和複雜執行的長時間任務。

它就像一位真正的同事一樣，你可以在 GPT-5.3-Codex 工作時對其進行指導和交互，而不會丟失上下文資訊。借助 GPT-5.3-Codex，Codex 從一個能夠編寫和審查代碼的代理，變成了一個幾乎可以執行開發人員和專業人士在電腦上的任何操作的代理。

除了更加強大的編碼能力外，GPT-5.2-Codex 在 OpenAI 長期關注的美學方面又一次有了長足的進步。

在這次發布中，OpenAI 讓 GPT-5.3-Codex 構建了兩款遊戲：一款是 Codex 應用發布時推出的賽車遊戲的第二版，另一款是潛水遊戲。

OpenAI 表示，GPT-5.3-Codex 利用其網頁遊戲開發技能以及預先設定的通用後續提示（例如「修復錯誤」或「改進遊戲」），自主地迭代開發了數百萬個 token。

這次發布的 GPT-5.3-Codex，OpenAI 對其的期望遠不止步於一個智慧編碼模型，而是一個能夠「Beyond coding」，實現工作助理的智慧體。

GPT-5.3-Codex 能夠支援軟體生命週期中的所有工作——除錯、部署、監控、編寫產品需求文件、編輯文案、用戶研究、測試、指標分析等等。

GPT-5.3-Codex 輸出淨值分析表示例

OpenAI 認為，隨著模型能力的不斷增強，差距不再僅僅在於智慧體能夠做什麼，而在於人類如何輕鬆地與多個並行工作的智慧體進行交互、指導和監督。鑑於此，Codex 應用可以讓管理和指導智慧體變得更加便捷，而 GPT-5.3-Codex 的加入更使其交互性更強。

借助新模型，Codex 會頻繁更新，讓你隨時了解關鍵決策和進展。人們無需等待最終輸出，即可實時互動——提出問題、討論方法，並共同探索解決方案。GPT-5.3-Codex 會語音播報其運行過程，回應回饋，並讓你從始至終掌握整個流程。

最後，OpenAI 表示，GPT-5.3-Codex 的訓練和部署使用了 Codex，OpenAI 的許多研究人員和工程師都表示，他們現在的工作與兩個月前相比發生了根本性的變化。

例如，研究團隊使用 Codex 來監控和除錯本次版本的訓練運行。它不僅加速了基礎設施問題的除錯，還幫助追蹤整個訓練過程中的模式，對交互質量進行深入分析，提出修復方案，並構建了豐富的應用程式，使研究人員能夠精確地了解模型行為與先前模型之間的差異。

工程團隊使用 Codex 對 GPT-5.3-Codex 框架進行了優化和適配。當出現影響用戶的異常極端情況時，團隊成員利用 Codex 識別上下文渲染錯誤，並找出快取命中率低的根本原因。在整個發布過程中，GPT-5.3-Codex 透過動態擴展 GPU 集群來應對流量高峰並保持延遲穩定，持續為團隊提供支援。

在 Alpha 測試期間，一位研究人員想要了解 GPT-5.3-Codex 每回合能完成多少額外工作，以及由此帶來的生產力提升。GPT-5.3-Codex 生成了幾個簡單的正則表示式分類器，用於估算用戶澄清請求的頻率、正面和負面回饋以及任務進度，然後將這些分類器可擴展地應用於所有會話日誌，並生成一份包含結論的報告。

GPT-5.3-Codex 已包含在 ChatGPT 的付費套餐中，但 API 還需要等待一段時間。

OpenAI 報告說，由於基礎設施和推理堆疊的改進，Codex 用戶現在運行 GPT-5.3-Codex 的速度也提高了 25%，從而實現了更快的交互和更快的結果。

結語

海外的大模型已經輪番上陣，在春節前的最後這幾天，國內大模型也必然會捲起來，包括 DeepSeek v4 也許即將到來。

你期待住了嗎？

參考內容：

https://www.anthropic.com/news/claude-opus-4-6

https://www.anthropic.com/engineering/building-c-compiler

https://openai.com/index/introducing-gpt-5-3-codex/

剛剛，Claude 4.6 與 GPT-5.3-Codex 同時發布！

相關文章推薦

分享網址