深夜凌晨2點,我剛準備睡覺。
然後,GPT-5.4,突然發布。
一下子激動的睡不著了。
真的,這真不是我天天咋咋呼呼什麼的,我真的也很少會用激動的睡不著覺這種表述。
這是因為,我一直在等正式版的GPT-5.3或者GPT-5.4,來作為我的OpenClaw的首選模型。
理由特別簡單,因為現代世界三十年,本質上基層都是程式碼,我們現在看到的關於電腦和網際網路的一切,幾乎都建立在程式碼的基礎之上。
所以你可以理解為,程式碼能力,在很多時候,就代表著Agent能力的一根粗壯的腿。
一個優秀的Agent基座模型,在我的理解裡,一般來說,需要三種都很強:
程式碼能力、世界知識、多模態理解。
當你這三個都能SOTA的時候,你幾乎必然就是最厲害的Agent模型,當然,還有一個重要的因素,就是價格。
在過去,Claude Opus 4.6,幾乎就是Agent模型的代名詞,因為程式碼、世界知識都很強,多模態能力雖然比不過Seed 2.0和Gemini 3.1 Pro,但是在一些場景裡面,也夠了,因為現在的Agent,跟現實物理交互還沒有那麼多,那個已經是具身智慧的範疇了。
而我過去很喜歡的GPT-5.3-Codex,程式碼能力確實強,在做任務執行的時候,那簡直就是指哪打哪。
但是最大的問題,這玩意是一個程式設計特化模型啊,世界知識就是一坨屎,連GPT-5.2都不如,所以OpenAI當時也是沒辦法,為了跟Claude打一打,只能加個Codex的後綴給放出來了。
所以你會發現,在規劃能力上,是完全比不過Claude Opus 4.6的,但是最大的問題,其實還是因為世界知識的問題,就導致這玩意。
它說天書,講的那些話,真的,我不是工程師出身,我看那個話,看的就真的超級費勁。
就比如說,我讓他之前對我的一個AI熱點網站的專案進行審查,主要就是review一下我的文件規範和我整個程式庫。
然後,這哥們寫的文件,我暈。。。
你再對比一下Claude Opus 4.6寫的。
對比起來應該一目了然。。。
就是因為這玩意不說人話,世界知識也不行,所以,只是在Codex裡面用用還好,但是你要是把它接到你的OpenClaw裡面,去當做預設模型,你就知道什麼叫災難了,這哥們幾乎沒有人味,說起話來我想揍他。
所以我當時試了一下,就直接棄了,還是在我的OpenClaw裡面,用的Claude Opus 4.6和Sonnet 4.6,做了一下場景調用。
那為什麼說,我很期待GPT-5.4呢。
因為,Claude哪都好,但是,它貴啊!!!
它真的好貴啊!!!!!!
而且因為Anthropic這個呆瓜,它把OpenClaw給封了,所以我訂閱的Claude的Max Plan的額度,是完全不能給OpenClaw用的,只能在Claude Code用,你想在OpenClaw上用,只能硬接API Key用。
但是大家都知道,Claude的API有多貴,那根本不是我們這種窮鬼團隊能用得起的,小規模用用還好,大規模用那公司直接破產了。
之前還有一條路是用反代,把Google家的Antigravity裡面的Claude額度用外掛代理出來,扔給OpenClaw用。
但是後面Google開始大批量封帳號,導致也沒辦法用了。
我過年的時候Google帳號還被封了,被迫用AI去給Google寫了一份聲淚俱下的郵件。
我說我錯了,我再也不會了。
後面Google才給我解封,但是反代肯定是用不了了。
而OpenAI就不一樣了,最開始Claude瘋狂封OpenCode帳號的時候,OpenAI大手一揮,就站了出來,說我們不封,大家全力使用。
這是御三家中,唯一一個這麼支援態度的,可以用第三方的工具,調用Codex的額度的。
那對OpenClaw自然也不例外了,也是幾個頂級模型裡面,為數不多的,可以直接走登入的,其他的都得用API。
真的,OpenAI這會真的是大善人。
還瘋狂的給Codex加額度。
所以啊,Claude在OpenClaw裡用,好是好,但是不能使用訂閱額度,只能用API,貴得要命。
OpenAI的模型倒是可以使用訂閱額度,但是GPT-5.2程式碼又不行,GPT-5.3-codex又不說人話。
你看,要多尷尬有多尷尬。
而這一次,GPT-5.4來了!!!
終於把這個短板給補上了!
程式碼能力跟GPT-5.3-Codex齊平,世界知識比GPT-5.2還要強,還能使用訂閱額度,20塊美金就可以用得超級爽。
你就說,這不是最適合OpenClaw的天選模型,還有誰是?嗯?
從今天開始,用OpenClaw的,都把預設模型切換到GPT-5.4去,真的,信我。
回到GPT-5.4,老規矩,先看跑分。
就很爽。
先看最關鍵的幾個。
GDPval:83.0%
這個是測AI在真實工作任務中表現的,包括金融、法律等44種職業的知識工作。
GPT-5.4 Thinking拿了83.0%,Claude Opus 4.6是78.0%,GPT-5.3 Codex是70.9%。
在真實業務場景裡,GPT-5.4不只是會寫程式碼,它還能跟你聊業務、聊金融、聊法律、聊各種專業領域的東西。
而且是用人話聊,不是用天書聊。
SWE-Bench Pro:57.7%
這個是測AI解決真實軟體工程問題的,不只是Python,而是測四種程式語言。
GPT-5.4 Thinking拿了57.7%,GPT-5.3 Codex是56.8%。
基本持平。
這就是我最想看到的結果。
程式碼能力保住了GPT-5.3 Codex的水準,世界知識又補上來了。
OSWorld-Verified也是,75.0%。這個是測AI操作電腦的能力的,就是讓AI像人一樣,用滑鼠點擊、用鍵盤輸入、在不同應用之間切換,完成各種任務。
GPT-5.4 Thinking拿了75.0%,超過了Claude Opus 4.6的72.7%,也保持了跟GPT-5.3-Codex的持平。
而且,GPT-5.4操作電腦的速度,快得離譜。
看下這個沒有加速過的影片,會更直觀。
ToolAthon:54.6%
這個是測AI使用工具的能力的,也就是Agent能力的核心指標之一。
GPT-5.4 Thinking拿了54.6%,Claude Sonnet 4.6是44.8%。
差了將近10個百分點。
至於學術知識之類的,跟GPT-5.3-codex就沒法比了,因為OpenAI自己也知道,所以,直接當時就沒跑。
總之,翻譯成大白話就是。
GPT-5.4 = GPT-5.3 Codex的程式碼能力 + 比GPT-5.2還強的世界知識 + 更強的工具使用能力 + 超級便宜的codex額度。
這四樣加在一起,就是一個完美的OpenClaw天選基座模型。
然後還有幾個很棒的特性更新:
1. 100萬token的上下文視窗。
這是GPT-5.4的一個大升級。
之前GPT-5.3的上下文視窗是40萬token,GPT-5.4直接翻了一倍多,到了100萬。
這對Agent來說太重要了。
因為Agent在執行任務的時候,需要保持對整個任務的上下文理解。如果上下文視窗不夠大,Agent做著做著就會忘事,前面說的東西後面就不記得了。
100萬token,基本上足夠應對絕大部分的Agent任務了。
當然,OpenAI也不傻,他們說,超過27萬token之後,你的額度就算兩倍了。
不過因為Codex給的額度實在是太多太多了,所以即使是2倍,其實也還好。
2. 原生電腦使用能力。
這個是GPT-5.4的另一個大賣點。
OpenAI說,GPT-5.4是他們第一個內建原生電腦使用能力的主線模型。
它在編寫通過Playwright等函式庫操作電腦的程式碼方面表現非常的出色,同時也能根據螢幕截圖發出滑鼠和鍵盤命令。
也就是程式碼和視覺齊飛,我感覺,這個小龍蝦接入以後,就真的可以,直接用視覺,操控你電腦上絕大多數的軟體了,真的,原生操控,想想都激動。
他們基於此,還發布了一個新的skills,叫playwright-interactive。
允許Codex同時以程式碼和視覺的兩種方式,除錯Web和Electron應用。
網址在此,大家可以自行安裝。
https://github.com/openai/skills/tree/main/skills/.curated/playwright-interactive
3. 支援了工具搜尋。
以前呢,當模型被賦予工具時,所有工具定義都會預先包含在提示中。
對於擁有大量工具的系統,這可能會為每個請求增加數千甚至數萬個token,而且絕大多數的時候,都毫無意義,平白無故的導致成本上升、回應變慢,並在上下文中充斥模型可能永遠不會使用的資訊。
所以呢,這次他們也支援了工具搜尋,就是GPT‑5.4不再直接接收完整工具定義,而是接收一份可用工具的輕量列表以及工具搜尋功能。
當模型需要使用某個工具時,它可以查找該工具的定義並在當時將其追加到對話中。
就非常像Skills漸進式呈現的方式,目的很簡單,還是最佳化上下文工程。
OpenAI在自己測試完以後,發現工具搜尋配置在保持相同準確率的同時將總體token使用量減少47%,這個就非常厲害了。
GPT-5.4 Thinking大概就是這樣。
這次他們其實還發布了個GPT-5.4 Pro,我就不細說了,反正就是一切都更厲害了,但是對於大多數人來說,太貴了,也沒什麼大用,必須得200美金的Pro會員才能用。
API的整體價格還是得說一下,雖然大家大概率用的都會是訂閱的額度。
相比於GPT-5.2,價格是漲了的,但是還是比Claude Opus 4.6,便宜不少,Claude Opus 4.6的價格是$5/$25每百萬token(輸入/輸出),GPT-5.4只有他們一半。
目前ChatGPT已經上線了。
Codex也已經支援了,我自己在Codex裡面粗淺體驗了一下。
首先撲面而來的,那自然是清新沁人的人話。。。
比如我讓它去把OpenAI官網的影片給抓下來,你看看這個發言:「這種活最煩」,「省得跟Cloudflare互相折壽」。。。
還有這個。
真的,Codex的輸出,我真的能看得懂了。。。
做出來的東西,前端審美有了不錯的進步,但還是不如Opus 4.6和Gemini。
寫作粗略測了一下,還是一股子莫名其妙的愛用排比句的詭異的味道。
奇奇怪怪。
然後有點可惜的就是,我等到了凌晨6點多,OpenClaw目前使用Codex登入的方式,還是沒有支援GPT-5.4。
這就導致,我還是沒有機會測GPT-5.4在小龍蝦上的效果。
不過估計我一覺睡醒,估計小龍蝦就支援了。
因為社群裡已經看到很多使用者在催了,而且先行者們,都普遍回饋效果很好。
坐等支援,我真的已經迫不及待了。
又是開心的一晚。
如果你也在用OpenClaw,那記得OpenClaw支援了以後,把預設模型切換到GPT-5.4。
如果你還沒用過OpenClaw,那正好,現在是一個很好的開始時機。
畢竟,有了GPT-5.4這個天選模型,體驗只會更好。
2026年,真是瘋狂的一年啊。
睡了。
以上,既然看到這裡了,如果覺得不錯,隨手點個讚、在看、轉發三連吧,如果想第一時間收到推播,也可以給我個星標⭐~謝謝你看我的文章,我們,下次再見。
作者:卡茲克
投稿或爆料,請聯繫信箱:wzglyay@virxact.com