深夜2時、もう寝ようとしていたところだった。
すると、GPT-5.4が、突然リリースされた。
一瞬で興奮して、もう眠れなくなった。
本当に、これ別に私が毎日大げさに騒いでいるわけじゃない。私も滅多に「興奮して眠れない」なんて表現は使わない。
なぜなら、私はずっとOpenClawの主要モデルとして使えるGPT-5.3かGPT-5.4の正式版を待ち続けていたからだ。
理由はとてもシンプルだ。現代社会の過去30年間、本質的に基盤となっているのはコードであり、私たちが今コンピュータやインターネットについて目にするすべては、ほぼコードの上に成り立っている。
だから、コード能力は多くの場面で、Agent能力の太い柱を代表していると理解できる。
優秀なAgentベースモデルは、私の理解では、一般的に3つの能力がすべて強い必要がある:
コード能力、世界知識、マルチモーダル理解。
この3つすべてでSOTAを達成できれば、ほぼ間違いなく最強のAgentモデルになる。もちろん、もう一つの重要な要素は価格だ。
これまで、Claude Opus 4.6は、ほぼAgentモデルの代名詞だった。なぜなら、コード能力と世界知識がどちらも強く、マルチモーダル能力はSeed 2.0やGemini 3.1 Proには及ばないものの、一部のシーンでは十分だったからだ。現在のAgentはまだ現実の物理世界とのやり取りがそれほど多くなく、それはすでに身体性知能の領域になっている。
そして私が以前好んで使っていたGPT-5.3-Codexは、コード能力が確かに強く、タスク実行時には指した場所を的確に撃つような動きだった。
しかし最大の問題は、これはプログラミング特化モデルであり、世界知識がひどく、GPT-5.2以下だったことだ。だからOpenAIも当時は仕方なく、Claudeに対抗するためにCodexのサフィックスを付けてリリースした。
そのため、プランニング能力ではClaude Opus 4.6には全く太刀打ちできないことがわかる。しかし最大の問題は、やはり世界知識の問題で、これが...
天書(理解不能な言葉)を語る。その言葉、本当に、私はプログラマー出身じゃないから、その言葉を読むのが本当に超苦痛だった。
例えば、以前私のAIニュースサイトのプロジェクトをレビューしてもらった時、主にドキュメント規範とコードベース全体をレビューしてもらった。
そして、こいつが書いたドキュメント、マジで...
これをClaude Opus 4.6が書いたものと比べてみてほしい。
比べれば一目瞭然だ...
こいつが人間の言葉を話さず、世界知識もダメだから、Codexの中で使う分にはまだいいが、OpenClawに接続してデフォルトモデルとして使おうとすれば、それがどんな災難かわかる。こいつにはほとんど人間味がなく、話していると殴りたくなる。
だから私は当時試してみて、すぐに諦めた。それでOpenClawでは、引き続きClaude Opus 4.6とSonnet 4.6を使って、シーンごとに使い分けていた。
じゃあなぜ、私はGPT-5.4をそんなに期待していたのか。
なぜなら、Claudeは何もかもいいけど、高い!!!
本当に高い!!!!!!
しかも、AnthropicがOpenClawをブロックしたから、私が購読しているClaudeのMax Planの額はOpenClawでは全く使えず、Claude Codeでしか使えない。OpenClawで使いたければ、API Keyを直接繋ぐしかない。
でも皆知ってる通り、ClaudeのAPIは本当に高くて、私たちのような貧乏チームが使えるようなものじゃない。小規模で使う分にはいいけど、大規模に使えば会社が即破産する。
以前は、GoogleのAntigravityの中のClaudeの額をプラグインでプロキシして、OpenClawに使わせる逆プロキシという方法があった。
でもその後、Googleが大量にアカウント停止を始めて、使えなくなった。
正月に私のGoogleアカウントも停止されて、AIに涙ながらのメールを書いてもらった。
「私は間違っていました。もう二度としません」と書いた。
その後、Googleはアカウント停止を解除してくれたが、逆プロキシはもう使えない。
一方、OpenAIは違う。最初ClaudeがOpenCodeのアカウントを次々と停止していた時、OpenAIは大きく手を振り、「我々は停止しない、皆全力で使ってくれ」と宣言した。
これは大手3社の中で、唯一これほど支持姿勢を示し、サードパーティのツールでCodexの額を使えるようにしている。
OpenClawももちろん例外ではなく、トップクラスのモデルの中で、数少ないログイン方式で直接使えるモデルだ。他は全部APIを使わなきゃいけない。
本当に、OpenAIは今回は本当に大善人だ。
しかもCodexの額を激増やしてくれている。
だから、ClaudeをOpenClawで使うのはいいけど、購読額は使えず、APIしか使えない。超高い。
OpenAIのモデルは購読額を使えるけど、GPT-5.2はコード能力がイマイチで、GPT-5.3-codexは人間の言葉を話さない。
もう、どれだけ不便か。
そして今回、GPT-5.4が登場した!!!
ついにこの弱点が補われた!
コード能力はGPT-5.3-Codexと同等、世界知識はGPT-5.2より強く、さらに購読額が使えて、20ドルで超快適に使える。
これがOpenClawに最適な運命的なモデルじゃないなら、何なの?え?
今日から、OpenClawを使っている人は、デフォルトモデルをGPT-5.4に切り替えてほしい。本当に、信じて。
GPT-5.4に話を戻そう。いつものように、まずはベンチマークを見てみよう。
かなり爽快だ。
まず最も重要な指標を見てみよう。
GDPval:83.0%
これはAIが実際の業務タスクでどれだけのパフォーマンスを発揮できるかを測定するもので、金融、法律など44種類の職業の知識業務を含む。
GPT-5.4 Thinkingは83.0%を獲得し、Claude Opus 4.6は78.0%、GPT-5.3 Codexは70.9%だった。
実際の業務シーンにおいて、GPT-5.4はコードを書くだけでなく、ビジネス、金融、法律、様々な専門分野についても議論できる。
しかも人間の言葉で話してくれて、天書(理解不能な言葉)じゃない。
SWE-Bench Pro:57.7%
これはAIが実際のソフトウェアエンジニアリングの問題を解決する能力を測定するもので、Pythonだけでなく4つのプログラミング言語を対象にしている。
GPT-5.4 Thinkingは57.7%を獲得し、GPT-5.3 Codexは56.8%だった。
ほぼ同等だ。
これこそ私が最も見たかった結果だ。
コード能力はGPT-5.3 Codexのレベルを維持しつつ、世界知識も補強された。
OSWorld-Verified:75.0%
これはAIがコンピュータを操作する能力を測定するもの。AIが人間のようにマウスでクリックし、キーボードで入力し、異なるアプリケーションの間を切り替えて、様々なタスクを完了する。
GPT-5.4 Thinkingは75.0%を獲得し、Claude Opus 4.6の72.7%を上回り、GPT-5.3-Codexとも同等のレベルを維持している。
しかも、GPT-5.4がコンピュータを操作する速度は、驚くほど速い。
この加速されていない動画を見ると、より直感的にわかる。
ToolAthon:54.6%
これはAIがツールを使用する能力を測定するもので、Agent能力の核心的な指標の一つだ。
GPT-5.4 Thinkingは54.6%を獲得し、Claude Sonnet 4.6は44.8%だった。
約10ポイントの差がある。
学術知識などについては、GPT-5.3-codexとは比較にならない。OpenAIもそれを分かっているから、そもそもベンチマークを実施しなかった。
とにかく、平たい言葉に翻訳すると:
GPT-5.4 = GPT-5.3 Codexのコード能力 + GPT-5.2より強い世界知識 + より強力なツール使用能力 + 超安価なcodexの利用枠。
この4つが組み合わさって、完璧なOpenClawの運命的なベースモデルが完成した。
さらに、いくつかの素晴らしい新機能も追加された:
1. 100万トークンのコンテキストウィンドウ
これはGPT-5.4の大きなアップグレードだ。
以前のGPT-5.3のコンテキストウィンドウは40万トークンだったが、GPT-5.4は倍以上の100万トークンになった。
これはAgentにとって非常に重要だ。
なぜなら、Agentがタスクを実行する際、タスク全体のコンテキストを理解し続ける必要があるからだ。コンテキストウィンドウが十分でないと、Agentは途中で作業しているうちに忘れてしまい、前の内容を後で覚えていなくなる。
100万トークンあれば、ほとんどのAgentタスクに十分対応できる。
もちろん、OpenAIもバカではない。27万トークンを超えると、利用枠は2倍換算されると言っている。
ただ、Codexの利用枠が本当に大量にあるので、2倍換算でもそれほど問題ない。
2. ネイティブコンピュータ使用能力
これはGPT-5.4のもう一つの大きなセールスポイントだ。
OpenAIは、GPT-5.4がネイティブコンピュータ使用能力を内蔵した初のメインラインモデルだと言っている。
Playwrightなどのライブラリを通じてコンピュータを操作するコードを書く点で非常に優れており、同時にスクリーンショットに基づいてマウスとキーボードのコマンドを発行することもできる。
つまり、コードと視覚が融合している。これがOpenClaw(小龍蝦)に接続されれば、本当に視覚を使って、コンピュータ上のほとんどのソフトウェアを直接操作できるようになると思う。本当にネイティブ操作、想像するだけでワクワクする。
彼らはこれに基づいて、playwright-interactiveという新しいスキルもリリースした。
Codexがコードと視覚の両方の方法で、WebとElectronアプリを同時にデバッグできるようにする。
URLはこちら。各自インストール可能。
https://github.com/openai/skills/tree/main/skills/.curated/playwright-interactive
3. ツール検索のサポート
以前は、モデルにツールが提供されると、すべてのツール定義が事前にプロンプトに含まれていた。
大量のツールを持つシステムの場合、これが各リクエストに数千、場合によっては数万トークンを追加する可能性がある。しかも、ほとんどの場合、無意味で、コストの増加、レスポンスの遅延、そしてモデルが使わないかもしれない情報でコンテキストが埋まってしまう。
そこで今回、ツール検索もサポートされた。GPT-5.4は完全なツール定義を直接受け取るのではなく、利用可能なツールの軽量なリストとツール検索機能を受け取る。
モデルが特定のツールを使用する必要がある時、そのツールの定義を検索し、その時点で会話に追加する。
これはスキルの段階的な提示方法に非常に似ており、目的はシンプルで、コンテキストエンジニアリングの最適化だ。
OpenAIが自社でテストした結果、ツール検索設定は同じ精度を維持しながら、総トークン使用量を47%削減した。これは本当にすごい。
GPT-5.4 Thinkingについてはだいたいこんな感じだ。
今回、彼らはGPT-5.4 Proもリリースしたが、詳しくは触れない。とにかくすべてがより強力になっているが、ほとんどの人にとっては高すぎるし、それほど実用的ではない。200ドルのPro会員しか使えない。
APIの全体的な価格についても触れておく必要がある。皆、おそらく購読の利用枠を使うことになるだろうが。
GPT-5.2に比べると価格は上がったが、それでもClaude Opus 4.6よりはかなり安い。Claude Opus 4.6の価格は100万トークンあたり$5/$25(入力/出力)だが、GPT-5.4はその半分だ。
現在、ChatGPTで既に利用可能になっている。
Codexもサポート済みだ。私はCodexで軽く体験してみた。
まず最初に感じたのは、やはり清々しいほどの人間の言葉だ...
例えば、OpenAI公式サイトの動画をダウンロードさせた時、この発言を見てみよう:「こういう作業は一番面倒なんだよね」「Cloudflareと消耗し合うのを避けられるし」...
これも。
本当に、Codexの出力が、私にも理解できるようになった...
作成されたものは、フロントエンドの美的センスがかなり向上したが、それでもOpus 4.6やGeminiには及ばない。
文章作成について軽く試してみたが、やはり妙な並列句を使いがちな奇妙な味がする。
変な感じ。
そして残念なのは、朝6時過ぎまで待ったが、OpenClawが現在Codexのログイン方式でGPT-5.4をサポートしていないことだ。
そのため、GPT-5.4がOpenClaw(小龍蝦)でどのような効果を発揮するか、まだテストできていない。
でも、おそらく目が覚めたら、小龍蝦がサポートしているだろう。
コミュニティでは既に多くのユーザーが催促しており、先行者たちは概ね良いフィードバックをしている。
サポートを待つだけだ。本当に待ちきれない。
また楽しい夜だった。
もしOpenClawを使っているなら、OpenClawがサポートしたら、デフォルトモデルをGPT-5.4に切り替えるのを忘れずに。
まだOpenClawを使ったことがないなら、今が良いスタートのタイミングだ。
なんといっても、GPT-5.4という運命的なモデルがあれば、体験はさらに良くなる。
2026年、本当に狂気の年だ。
もう寝る。
以上、ここまで読んでくれたなら、良かったら「いいね」、「見てる」、「転送」のトリプルアクションをお願いします。一番早く通知を受け取りたいなら、スター⭐をつけてください~記事を読んでくれてありがとうございます。また次回お会いしましょう。
>/ 作者:卡兹克
>/ 投稿や情報提供は、メール:wzglyay@virxact.com