夢晨(アオフェイ寺より)
量子位(公众号 QbitAI)
GPT-5.5 が、今まさに降臨した。
公式の位置づけは、「実務とエージェントのために設計された新たな知能」である。
今回はサム・アルトマン氏自身が「初体験で眩暈がして座り込み、まるで原爆を見たようだった」などと語ることはなく、代わりに初期テストユーザーたちを「代弁者」として招き入れた。
その中に一人の NVIDIA エンジニアがいた。彼は早期テスト終了後に一時的に GPT-5.5 へのアクセス権を失い、こう述べたという。
「GPT-5.5 を失うことは、まるで手足を失うようなものだ」
冗談はさておき、冗談では済まない。
OpenAI と NVIDIA の今回の連携は、前例のないものだ。
第一に、GPT-5.5 は NVIDIA の GB200 および GB300 NVL72 システムと共同設計されており、トレーニングからデプロイまで、モデルとハードウェアは誕生の瞬間から相互に最適化されている。
第二に、Codex の NVIDIA 社内全体への展開だ。アルトマン氏はジェンスン・フアン氏(通称:お黄さん)とのメールのやり取りまでも公開した。
その成果を、まずはデータで確認しよう。
前バージョンの GPT-5.4 と比較し、新モデルは「コード作成」「知識労働」「科学研究」の 3 分野ですべて他を圧倒する性能を見せた。
総合評価指標である Artificial Analysis Intelligence Index の結果には、2 通りの解釈が可能だ。
1 つ目は、GPT-5.5 が Claude Opus 4.7 や他モデルと同程度のスコアを獲得するのに、はるかに少ないトークン数で済んだこと。
2 つ目は、同じトークン数を消費した場合、GPT-5.5 の方がより多くのタスクを完了できたことだ。
しかし、最も驚くべきはベンチマークのスコアではない。
これまでのモデルアップグレードでは、「より強く」なることと「より遅く」なることはセット販売が常識だった。
これがスケーリング則の代償だ。モデルが大きく、パラメータが増えれば、思考時間は長くなる。ユーザーは知能に対して代金を払うと同時に、レイテンシという代償も払わされてきた。
GPT-5.5 はこの鉄の掟を打ち破った。
実際の本番環境下において、トークンあたりの遅延時間は GPT-5.4 と同等でありながら、同じタスクを完了するのに必要なトークン数は GPT-5.4 よりも少なかった。
効率は向上し、機能は強化された。
(ただし、価格は 2 倍だが)
記事執筆時点で、Codex の最新アップデート版ですでに GPT-5.5 が利用可能となっている。
コンテキストウィンドウも 400K へ拡張
プログラミングに「チート級」の進化をもたらす
プログラミングは、GPT-5.5 が最も飛躍的に向上させた分野だ。
前世代のモデルを使う際は、タスクを慎重に細分化し、一歩ずつ進捗を確認し、必要に応じて軌道修正する必要があった。
しかし GPT-5.5 は違う。要件を投げ渡せば、自らタスクを分解し、実行し、チェックする。人間が見るのは結果だけでよい。
OpenAI は、Codex 上で GPT-5.5 が生成した 3D アクションゲームのデモを公開した。ブラウザ上で直接動作する。
TypeScript と Three.js を用いた戦闘システム、敵とのエンカウント、HUD(ヘッドアップディスプレイ)によるフィードバック、さらに GPT が生成した環境テクスチャまでが含まれている。
複雑なコマンドライン操作のワークフローを測定する難易度の高いベンチマーク「Terminal-Bench 2.0」において、GPT-5.5 は 82.7% のスコアを記録した。
前バージョンの GPT-5.4 は 75.1%、現在の最強競合である Claude Opus 4.7 は 69.4% だ。
つまり、このレベルの難題に対し、前世代モデルでは約 3 分の 1 が詰まっていたのが、今回は 4 分の 1 以下に抑えられたことになる。
ここで、初期テストユーザーたちの声を聞こう。
スタートアップ企業の CEO であり、精力的な AI プロダクト開発者であるダン・シッパー氏の実験だ。
彼のアプリにバグが発生し、トップクラスのエンジニアにリファクタリングを依頼したところ、時間をかけて解決策が提示された。
そこでシッパー氏は時間を巻き戻す思考実験を行った。バグのあるコードをモデルに提示し、あのエンジニアと同じ判断を自力で下せるか試したのだ。
GPT-5.4 には不可能だった。GPT-5.5 には可能だった。
シッパー氏は、プログラミングモデルに対してこれほどまでに「概念の明確さ」を感じたのは初めてだと語った。
単なる受け答えではなく、問題を理解した上で、自ら解決策を導き出しているからだ。
ベテランエンジニアたちの間からも、同じような報告が相次いでいる。GPT-5.5 は推論能力と自律性の両方で、GPT-5.4 や Claude Opus 4.7 を明らかに凌駕しているという。
明示的な指示がなくても、事前に問題を発見し、テストやレビューの必要性を予測することさえある。
プログラミングはその入り口に過ぎない。同様の能力の飛躍が、知識労働や科学研究という 2 つの方向へも拡散しようとしている。
プログラミングの先へ
GPT-5.5 が Codex 上で成し遂げるのは、コード作成だけではない。ドキュメントの生成、表の整理、プレゼン資料の作成までこなす。
OpenAI は何度も、GPT-5.5 は前世代よりも「ユーザーの意図を理解する」と強調する。
さらに重要なのは、自らツールを使いこなし、出力結果が正しいか自己検証する点だ。曖昧なアイデアを投げれば、残りを補完してくれる。
興味深いデータがある。OpenAI 社員の 85% 以上が、毎週 Codex を業務に活用しているという(残りの 15% は何をしているのだろうか?)。
まずは評価結果を見てみよう。
知識労働のベンチマーク「GDPval」において、GPT-5.5 は 84.9% を獲得。Claude Opus 4.7 を 4.6 ポイント上回った。
未発表の論文やトップ研究者による未解決問題が出題される、現在最も困難な数学ベンチマークの一つ「FrontierMath Tier 4」ではどうだろう。
GPT-5.5 Pro は 39.6% を記録。Claude Opus 4.7 の 22.9% を大きく引き離し、その差はほぼ倍だ。
本当に興味深いのは、科学者たちがそれをどう活用しているかだ。
ポーランドのアダム・ミツキェヴィチ大学数学助教授であるバルトシュ・ナスクレッキ氏は、Codex に一言指示しただけで、11 分後に代数幾何学の可視化アプリケーションが完成した。
そのアプリは 2 つの二次曲面の交線を描画して赤く表示し、リーマン・ロッホの定理を用いて交線をワイエルシュトラス曲線の標準形に変換する機能まで備える。後にさらに安定した特異点の可視化機能も追加された。
「一言で、11 分」。以前なら、プロジェクトの枠組みを組むだけで半日かかっただろう。
ジャクソンゲノム医学研究所の免疫学教授、デリヤ・ウヌトマス氏は、GPT-5.5 Pro を用いて遺伝子発現データセット(62 サンプル、約 2 万 8000 遺伝子)を分析し、完全な調査報告書をまとめ上げた。
「本来ならチームで数ヶ月かかっていた」と彼は語る。
OpenAI は研究における GPT-5.5 の位置づけを、「一度きりの回答エンジンではなく、研究パートナーである」と的確に要約している。
初期テストユーザーは、単なる情報検索以上の用途に活用している。論文の添削を何度も繰り返し、議論の欠陥を指摘し、新たな分析案を提示する。研究の全容を記憶し、対話のすべてが前回の文脈を踏まえて成り立っている。
GPT-5.5 は数学界である偉業を成し遂げた。
組み合わせ数学の中核的な問題の一つ、「ラムゼー数」だ。
平たく言えば、「ある秩序が必ず現れるために、ネットワークはどれほど大きくなければならないか」を研究するものだ。
例えば、「6 人いれば、互いに知り合いの 3 人組か、互いに初対面の 3 人組のどちらかが必ず存在する」というのが、最も単純なラムゼーの定理だ。
これは数学界において数十年も解かれていない難問であり、特に非対角ラムゼー数の漸近的性質は長らく未解決のままだ。
GPT-5.5 は、既知の方法の再現ではなく、新たな証明経路を発見した。その後、この証明は数学界で最も厳格な形式検証ツールの一つである Lean によって誤りないことが確認されている。
AI が純粋数学の核心領域において、形式検証ツールに認められた独自の貢献を果たしたのだ。
1 年前なら、想像すらできなかっただろう。
「強く、しかも速い」の秘密
「より強く、しかも速い」状態はいかにして実現されたのか。
その答えは、特定の工程を最適化しただけではない。OpenAI は推論システム全体をゼロから作り直したのだ。
前述の通り、GPT-5.5 は NVIDIA の GB200 および GB300 NVL72 システムと共同設計されており、その結果、同等の遅延時間で知能レベルが飛躍的に向上した。
しかし、もう一つの物語がある。
GPT-5.5 を搭載した Codex システムは、数週間分の本番トラフィックデータを分析し、負荷分散のためのパーティション分割ヒューリスティックアルゴリズムを自ら記述した。
従来、リクエストは固定数のブロックに分割され、アクセラレータに配信されていた。しかし、この固定分割戦略はトラフィックパターンによって最適とは限らず、分割が粗すぎたり細かすぎたりして、リソース利用率が不安定になることがあった。
Codex は数週間の実トラフィックデータを学習し、実際のトラフィック形態に応じて動的に分割戦略を調整する適応型アルゴリズムを自ら生み出した。
その結果、トークン生成速度は 20% 以上向上した。
モデルが自らのインフラを最適化したのだ。AI が、自分自身をより速く走らせたのである。
推論システムの抜本的再構築と、モデル自身による最適化。この 2 つが重なり合い、この結果をもたらした。
OpenAI はこれを「コンピューターを使って作業を行う新しい手法への一歩」と表現する。
しかし、モデルがすでに自身の稼働インフラを最適化し始めているとすれば――。
その一歩は、いったいどこまで進んでしまったのだろうか。
One More Thing
GPT-5.5 の登場により、OpenAI は今後モデルのリリースペースを加速させると予想している。
「短期的には相当な進歩を、中期的には極めて劇的な進歩を目撃するだろう」
「ここ数年の進展は、予想外に遅すぎたと考えている」
そう語ったのは、記者会見の場に登壇した主席科学者のヤクブ・パホツキ氏だ。
参考リンク:[1] https://openai.com/index/introducing-gpt-5-5/
[2] https://x.com/firstadopter/status/2047378435555651856?s=20
— 完 —
🔹 2026 年を代表する AI はどれか?
ロブスターが話題を呼び、エージェントやその派生製品ブームを巻き起こしている。
しかし、長期的に注目すべき AI 企業や製品は、それだけにとどまらないかもしれない。
もしあなたが、これらの変化に関わっている、あるいは目撃しているなら、ぜひ申告してほしい。
あなたの姿を、より多くの人に見てもらうために。
👉 https://wj.qq.com/s2/25829730/09xz/
ワンクリックでフォロー 👇 スターマークを点灯
テクノロジー最前線の進捗を毎日お届け