OpenAI の新モデル、発表初日で早くも敬遠される！ランキングは散々、1 月末発表の中国製モデルに劣る

henry 発・凹非寺より
量子位 | 公式アカウント QbitAI

OpenAI が発表したばかりの「GPT-5.4 mini」が、発表初日（Day 0）にして早くもユーザーから敬遠される事態となっている。

公開されている大規模言語モデルの評価ベンチマーク「Vals」によると、本日発表された GPT-5.4 mini のランクは 13 位。OpenAI が半年前にリリースした GPT-5 をわずかに上回る程度だ。

特筆すべきは、12 位にランクインしているのが 1 月末に発表された「Kimi 2.5」である点だ。Kimi 2.5 は、新たに発表された 5.4 mini に比べて価格が半額以下でありながら、レイテンシもさらに低いという優位性を持っている。

また、同時に行われたトポロジカル証明（論理的推論）のベンチマークにおいても、新モデルの mini および nano は、世界規模で見ても「並み」の出来栄えに留まった。それぞれ 9 位、10 位であり、以前から存在する Kimi、Qwen、DeepSeek といった各モデルには及ばなかった。

（OpenAI が後発劣勢に立たされている現状を象徴する結果だ）

さらに指摘されているのが、GPT-5.4 mini のベースライン比較対象が、他社最新モデルではなく、半年以上前にリリースされた旧型の「GPT-5 mini（動作速度が 2 倍速いバージョン）」に合わせているという点だ。

多くのネットユーザーが「新しい GPT-5.4 mini への移行は、正直なところ不要ではないか」と率直にコメントしている。

OpenAI の公式ブログでは、トークン出力量あたりのコストで見れば、性能が近似する mini バージョンは GPT-5.4 よりも 3 倍安く、nano バージョンに至っては約 12 倍も安価であると主張している。

しかし、GPT-5.4 mini を旧バージョンの GPT-5 mini と比較すると、同じ mini クラスのモデルでありながら、価格は約 3 倍に高騰していることがわかる。

昨今の「ロブスター（※AI 開発競争の隠語）ブーム」に乗じて、世界中の AI モデル企業が価格改定に動く中、サムの別名を持つアルトマン氏とて、この流れを見逃すはずもなかったというわけだ。

つまり、プログラミングやエージェント機能に特化して最適化された小型モデルを、満を持して投入してきたということだろうか。

新バージョンの mini および nano モデル

本日、OpenAI は「高速性」と「経済性」を売りにするGPT-5.4 miniおよびnanoモデルを発表した。これらはプログラミング、コンピューター操作、マルチモーダル理解、そしてサブエージェント（subagent）タスクに特化して最適化が図られている。

前世代のGPT-5 miniと比較して、新バージョンの mini および nano は性能面で着実な向上を遂げており、特に実行速度は 2 倍以上に強化されている。

特筆すべきは、複数の評価基準において、mini/nano モデルとフルスペック版 GPT-5.4 との性能差はもはや僅かであり、Google や Anthropic が提供する軽量モデルともほぼ互角の性能を叩き出している点だ。

OpenAI の公式ブログによれば、新モデルはプログラミングとサブエージェント活用を主眼に置いているという。

その中で、GPT-5.4 miniはプログラミング、推論、マルチモーダル理解、ツール使用の各面で最適化が施され、実行速度は 2 倍以上に向上。SWE-Bench Pro や OSWorld-Verified などのベンチマークでは、フルスペック版 GPT-5.4 に匹敵するスコアを記録している。

一方、GPT-5.4 nanoは GPT-5.4 シリーズ中で最小・最安価なモデルであり、分類、データ抽出、ソーティング、あるいは比較的単純なプログラミング補助タスクなど、速度とコストが最重要視される場面で真価を発揮する。

総じて、これら 2 つの新モデルは、レイテンシがダイレクトにユーザー体験を左右するワークロード、例えばコーディングアシスタント、サブエージェント、スクリーンショット解析、マルチモーダルアプリケーションなどに適している。

平たく言えば、ロブスター（※AI エージェント）のように、すでにスキルとして抽象化されたタスクを処理する際、mini や nano といった反応が速く、かつ必要十分な能力を持つ小規模モデルに任せる方が、コストパフォーマンスに優れているというわけだ。

具体的な利用方法としては、GPT-5.4 mini は API、Codex、ChatGPT から呼び出せるが、nano は API 経由での利用に限定される。

価格設定は、mini バージョンが入力 100 万トークンあたり 0.75 ドル、出力 100 万トークンあたり 4.5 ドル。nano バージョンはさらに安価で、API 利用時に入力 100 万トークンあたり 0.2 ドル、出力 100 万トークンあたり 1.25 ドルとなっている。

ただし、横並びの比較においては、Gemini Flash 3 lite の方が賢く、かつ全体的なコストは 6 倍以上も安いと指摘する声もある。

評価結果

実際の評価テストにおいて、mini および nano は、プログラミングとエージェントタスクに最適化されていることが確認された。

プログラミングタスクでは、コード修正、デバッグサイクル、ライブラリナビゲーションを低遅延でこなし、迅速なイテレーションと、速度とコストの両立が求められるワークフローを効率的に処理可能だ。

Mini のパス率は GPT-5.4 に肉薄し、かつ速度はそれを上回る。

サブエージェントのシナリオでは、開発者は大規模モデルに意思決定や計画立案を任せつつ、コードベースの検索、ドキュメント処理、補助操作などの小規模タスクを mini サブエージェントへ並列で委譲することが可能になる。

小型モデルの高速化が進むにつれ、こうしたアーキテクチャの価値はさらに高まっている。

コンピューター操作やマルチモーダルタスクにおいても、mini の出来は上々で、複雑なユーザーインターフェースのスクリーンショットを即座に解析し、タスクを効率的に完遂する。

OSWorld-Verified テストでは、そのパフォーマンスはフルスペック版 GPT-5.4 にほぼ匹敵し、GPT-5 mini を明らかに凌駕している。

これらの特長を裏付けるような、一般ユーザーによる実際のテスト結果も報告されている。

Reddit ユーザーの Rent_South 氏は、新版 mini が分類、要約、翻訳などのタスクでどのように振る舞うかを体系的にテストし、高い評価を下している。

「いくつかのベンチマークを実行してみた結果、いくつかの現実的なタスクにおいては、より安価で、より高速で、より使い勝手が良いことがわかった。約 1 年前、RAG パイプラインを構築していた際、gpt-4.1-mini がエージェントタスクのいくつかのステップで GPT-4 オリジナル版を打ち負かして以来、私はオリジナル版よりも mini/nano バージョンの方を好んで使うようになっている」

分類タスクにおいて、nano は精度 70% を達成し、コストは GPT-5.4 の 12 分の 1 に抑えられた。

1 万回以上の呼び出しを行った場合、GPT-5.4 での費用が約 20.30 ドルかかるのに対し、GPT-5.4-nano はわずか 1.64 ドル。削減幅は約 91.9% に達する。

翻訳タスクでは、nano のスコアは若干低めの 55 点だったが、GPT-5.4 の 63 点との差は大きくなく、代替案として十分機能する。1 万回を超える呼び出し後でも、コスト削減幅は 91.3% に達した。

執筆タスクにおいては、むしろ mini バージョンが最高得点を記録し、コストはフルスペック版より約 6 割安くなった。1 万回以上の呼び出し時、mini は 29.61 ドル、nano は 10.30 ドルという内訳だ。

さらに、画像記述能力をテストしたユーザーもおり、nano は博物館の写真を説明する際、極めて詳細かつ正確な出力を行い、使用トークン数も極めて少なく、総コストは 1 セント（約 0.15 円）にすら満たなかった。

例えば、あるユーザーが nano モデルに、自身が撮影した博物館の写真を説明させてみたところ：

nano モデルは以下の通りの説明を出力した。

「画像は博物館の展示室内部を映しており、長い展示用の壁がある。白いレンガの壁には額縁に入った多くの肖像画が整然と並んでいる。肖像画の下には複数のガラス製展示ケースがあり、木枠はダークカラーで、上部・前面がガラス製。ケース内には様々な歴史的遺物や機器が展示されている。部屋は磨き上げられたフローリングで、天井からは照明器具や配線が吊り下げられており、壁の上部近くには配管がわずかに見える。手前には、部屋の奥に向かって並んだガラスケースが、他の展示物の姿を映し出している」

この記述生成には、入力 2751 トークン、出力 112 トークンが使用され、費用は 0.069 セント（1 セントの 10 分の 1 以下）だった。

創造性が求められるタスク、例えば「ペリカンが自転車に乗っている SVG 画像の生成」などにおいては、nano や mini はフルスペック版 GPT-5.4 にまだ及ばない部分があるものの、基礎的なクリエイティブタスクをこなすには十分実用可能だ。

少なくとも、推論の強度が上がるにつれて、画面の整合性をある程度保てていることは確認できる。