OpenAI 新模型上線首日遭嫌棄！排名慘跌，竟不如一月底發布的陸製模型

OpenAI 剛推出的 GPT-5.4 mini，上線首日（Day 0）就已經被嫌棄了。

根據公開的大型語言模型評測基準 Vals，今天新出的 GPT-5.4 mini 僅排行第 13 名，表現甚至優於 OpenAI 半年前發布的 GPT-5。

模型排名截圖

值得一提的是，排行第 12 的是一月底出的 Kimi 2.5，而 Kimi 2.5 比新出的 5.4 mini 便宜一倍多，延遲還更低。

在同步的拓撲證明中，新出的 mini 和 nano 模型在全球範圍內表現也只是中規中矩，分別排行第九、第十，不如早前發布的 Kimi、Qwen、DeepSeek 等模型。

（OpenAI 這次可是後來居下啊）

全球模型排名截圖

還有人指出，這次 GPT‑5.4 mini 的基準對比的是老 GPT‑5 mini（運行速度快兩倍），也就是大半年前的版本，而不是其他廠家的新模型。

版本對比截圖

不少網友甚至直言，換新 GPT‑5.4 mini「還真沒必要」。

網友評論截圖

雖然 OpenAI 的博客表示，在輸出 tokens 上，性能近似的 mini 版本比 GPT‑5.4 便宜三倍，nano 版本則幾乎便宜十二倍。

但如果你拿 GPT‑5.4 mini 與舊版 GPT‑5 mini 對比，會發現同為 mini 檔的模型，價格卻上漲了大約三倍。

價格對比截圖

可以說，在龍蝦熱中，全球所有模型廠都在漲價，奧特曼這麼精的小子自然也沒放過。

所以，這是拿著專門優化過編程和 Agent 的小模型就來了？

新版 mini 和 nano 模型

今天，OpenAI 推出主打快速和經濟的GPT-5.4 mini和nano模型，專門針對編程、計算機操作、多模態理解以及子代理（subagent）做了優化。

新模型特點介紹

相比前代 GPT‑5 mini，新版 mini 和 nano 在性能上有不錯的提升，同時運行速度提升超過兩倍。

性能提升對比

值得注意的是，在多個評測中，mini/nano 模型與滿血版 GPT‑5.4 的差距已經不大，性能上也基本與谷歌、Anthropic 的輕量模型持平。

與滿血版及其他廠商模型對比

根據 OpenAI 官方博客，新模型主打編程和子代理。

官方博客截圖

其中，GPT‑5.4 mini在編程、推理、多模態理解和工具使用方面進行了優化，運行速度提升超過兩倍，在 SWE-Bench Pro 和 OSWorld-Verified 等評測中表現接近滿血版 GPT‑5.4。

GPT-5.4 mini 表現

GPT‑5.4 nano則是 GPT-5.4 系列中最小、最經濟的版本，適合速度和成本敏感的任務，例如分類、數據提取、排序，以及處理較簡單的輔助編程任務。

總的來說，這倆新模型適合延遲直接影響產品體驗的工作負載，比如編碼助手、子代理、螢幕截圖解析、多模態應用。

說白了就是龍蝦這類已經抽象出 skill 的 agent，部署在 mini/nano 這類反應快速、能力夠用的小模型就更實惠。

在具體的使用上，GPT‑5.4 mini 可在 API、Codex 和 ChatGPT 中調用，而 nano 僅能通過 API 使用。

價格方面，mini 版本每百萬輸入 tokens 0.75 美元，每百萬輸出 tokens 4.5 美元。Nano 版本在 API 中費用更低，每百萬輸入 0.2 美元，每百萬輸出 1.25 美元。

不過，橫向對比來看，有網友指出，Gemini Flash 3 lite 則更智能，而且總體要便宜六倍多。

與 Gemini 對比

評測結果

在實際評測中，mini 和 nano 主要是針對編程和 Agent 任務做了優化。

在編程任務中，它們能夠低延遲完成代碼修改、調試循環和庫導航，快速迭代，高效處理需要速度和成本兼顧的工作流程。

Mini 的通過率接近 GPT‑5.4，同時速度更快。

編程任務評測

在子代理場景中，開發者可以讓大模型負責決策和規劃，同時將較小的任務並行委派給 mini 子代理，比如搜索代碼庫、處理文檔或輔助操作。

隨著小型模型越來越快，這種模式的價值愈發凸顯。

在計算機操作和多模態任務中，mini 表現同樣出色，能夠快速解析複雜用戶界面截圖，高效完成操作任務。

在 OSWorld-Verified 測試中，它的表現幾乎接近滿血版 GPT‑5.4，同時明顯優於 GPT‑5 mini。

OSWorld 測試結果

有些網友的實際測試也佐證了這些亮點。

Reddit 網友 Rent_South 系統地測試新版 mini 在分類、總結、翻譯等任務上的表現，並給出了高度評價：

我在它們身上跑了些基準測試，結果發現——在一些真實場景任務中，它們更便宜、更快，也更好用。自從大約一年前，我在構建一個 RAG 流水線時，gpt‑4.1-mini 在某些代理任務步驟上打敗了 GPT-4 原版之後，我對 mini/nano 版本的熱情就比對原版還高。

在分類任務中，nano 準確率達 70%，成本比 GPT‑5.4 降低十二倍。

分類任務測試

當調用超過一萬次時，GPT-5.4 大約花費 20.30 美元，GPT-5.4-nano 則只有 1.64 美元，節省幅度約 91.9%。

在翻譯任務上，nano 得分略低，為 55 分，但與 GPT‑5.4 的 63 分差距不大，仍可作為替代選擇。在超萬次調用後，節省幅度仍達到了 91.3%！

翻譯任務測試

在寫作任務中，mini 版本反倒得分最高，成本比滿血版低約六成。在超過 1 萬次調用時，mini 花費 29.61 美金，nano 僅花費 10.30 美金。

寫作任務測試

此外，還有網友測試了模型描述圖片的能力，nano 在描述博物館照片時，輸出詳細準確，使用 token 極少，總成本甚至不到一分錢。

比如，這位網友讓 nano 模型描述自己隨手拍的博物館的照片：

博物館照片

nano 模型輸出了以下描述：

圖片顯示了一間博物館展廳的內部，有一面長長的展牆。白色磚牆上整齊排列著許多裝框肖像畫。肖像畫下方是多個玻璃展示櫃，木框深色，頂部/前方為玻璃，展示櫃內擺放著各種歷史文物和設備。房間鋪設了拋光木地板，吊頂上有懸掛燈具及電線，牆頂附近可見少量管道。前景中，沿房間長度排列的玻璃櫃映出了其他展區的物品。

生成這麼一段描述這次操作用了 2751 個輸入 tokens 和 112 個輸出 tokens，費用為 0.069 美分（不到一分钱的十分之一）。

即便在創意任務上，如生成鵜鶘騎自行車的 SVG 圖，nano 和 mini 與滿血版 GPT‑5.4 仍有一定差距，但它們完成基礎創作任務完全可行。

起碼隨著推理強度的提升，我們能看到畫面可以保持相對的正確性。

創意任務測試

整體看下來，這次模型跟 OpenAI 自家的產品來比，的確是可圈可點。

但這是否就是市面上最好的、最經濟的小模型，還有待討論。

One more thing

有趣的是，在 OpenAI 總裁 Greg Brockman 發布新模型的評論區，最火熱的討論居然不是新模型的能力，也不是價格，甚至幾乎和新模型本身沒有關係。

評論區截圖

評論區裡刷屏的，幾乎全是帶 keep4o 標籤的：「讓 4o 回來！」

評論截圖 1 評論截圖 2 評論截圖 3

參考連結：

[1] https://x.com/gdb/status/2034003374627049909

[2] https://simonwillison.net/2026/Mar/17/mini-and-nano/

[3] https://www.reddit.com/r/OpenAI/comments/1rwd9hd/breaking_openai_just_dropped_gpt54_mini_and_nano/

[4] https://x.com/scaling01/status/2033958931874099560

— 完 —

人工智慧 OpenAI 科技產業模型評測 GPT-5.4

相關文章推薦

剛剛，Anthropic首個神話級Claude 5正式解禁！人工智慧

Google I/O大會：Gemini 3.5、Agent全家桶亮相，Android被擠下牌桌？人工智慧

AI的下一步是多模型融合？AI獨角獸發布Fugu：號稱基準測試比肩Fable！網友：這不就是AI服務包裝器？人工智慧

Anthropic最新報告：會寫程式的人不如懂業務的管理者人工智慧

豆包大模型2.1發布，程式編寫能力躍居國際第一梯隊人工智慧

分享網址

原始網址：https://mp.weixin.qq.com/s/KTmh5zxZHVnelVr8iu5R1A