新智元報道
編集:桃子
【新智元ダイジェスト】全AIが白紙答案だった「地獄級」ベンチマークで、GPT-5.5が初の正解を達成。ソースコード0の状態からプログラムを書き上げ、推論計算力を最大限に引き出し完全攻略しました。従来のコードテストはもはや通用せず、ASIへの道筋となる計算力の飛躍が始まっています。
「地獄級」の難易度を誇るプログラミング問題が、ついにAIによって解かれました。
今日、主要なAIが軒並み0点だったベンチマーク「ProgramBench」で、GPT-5.5が初めての正解を記録したのです。
C言語とPythonという異なるプログラミング言語で、GPT-5.5 xhighはOpus 4.7 xhighを完全に圧倒しています。
数日前、Metaがスタンフォード大学、ハーバード大学と共同で発表したのが、このProgramBenchです。
提示された200の問題に対し、すべての主要AIモデルの正答率は0%でした。
たった1問も完全に解ききれたモデルはいなかったのです。しかし今、GPT-5.5がその壁を初めて打ち破りました。
プログラミングAIの「最終試験」、ゼロからの再構築
ProgramBenchは、一体どれほど難しいのでしょうか。
SWE-benchやHumanEvalといった従来のプログラミングベンチマークは、本質的に「バグ修正」や「関数の補完」でした。モデルに既存のコードベースと不具合箇所を示し、修正させる形式です。これはいわば「持ち込み可」の試験です。ProgramBenchは全く異なります。
このベンチマークは、コンパイル済みの実行ファイルとドキュメントだけを渡し、「ゼロから、このプログラムを書き直してください」と指示します。ソースコードは渡されず、逆コンパイルも禁止、ネット接続も不可です。
問題は200種類。便利ツールのjqやripgrepから、FFmpeg、SQLite、PHPコンパイラといった本格的なものまで含まれています。OpenAIの研究者であるノーム・ブラウン氏はかつて、「GQPAのような評価手法は時代遅れであり、全く新しい評価基準を導入すべき時だ」と述べていました。
発表当初、ベンチマークを試したAIはほぼ全滅でしたが、今回、GPT-5.5がついに雪辱を果たした形です。
GPT-5.5が初の記録を突破:同一問題をCとPythonで解決
GPT-5.5が最初に攻略したタスクは「cmatrix」です。これは、映画「マトリックス」のようなデジタル雨のエフェクトをターミナル上に表示する古典的なプログラムです。
研究者たちが驚いたことに、GPT-5.5は「high」と「xhigh」という2つの推論レベルで、同じ問題を解くために全く異なるプログラミング言語を選択しました。highバージョンはC言語を用い、xhighバージョンはPythonを用いたのです。
最終的に、どちらのバージョンもすべての動作テストに合格しました。
GPT-5.5 highの戦略は教科書的でした。まず10ラウンドの探索で40種類以上のフラグの組み合わせをテストし、元のプログラムのCLIの挙動を徹底的に把握しました。その後、完全なC言語の実装を一気に書き上げ、わずか5回の微調整で完成させたのです。
GPT-5.5 xhighはさらに徹底しており、27ステップの探索であらゆるCLIの経路を調べ上げ、一気に完全なPython実装を書き上げました。
ここで重要な数字を挙げましょう。
高い推論モードを使わないGPT-5.5(medium)の成績は、Claude Sonnet 4.6よりわずかに良い程度でした。
しかし、xhighモードに切り替えた途端、性能が急上昇します。初めて1つのタスクを完全に解いた(正答率0.5%)だけでなく、「ほぼ解答」の新記録も樹立しました。実に26のタスクで、ユニットテストの95%以上に合格したのです。
さらに注目すべきは、積算ヒストグラムの全領域で、GPT-5.5 xhighが他のモデルを圧倒した点です。平均点、中央値、90%以上の正答率、50%以上の正答率など、どの指標を選んでも、GPT-5.5 xhighがトップでした。
178回のAPI呼び出し、Opus 4.7は2つのバグで失敗
対照的に、Claude Opus 4.7 xhighの結果は残念なものでした。API呼び出しは178回、費用は約10.74ドルと、GPT-5.5通常版の1.04ドル、17回の呼び出しに対し、10倍ものコストがかかりました。その結果、19のテストに失敗し、最悪の結果となっています。
Opus 4.7の失敗原因は驚くほど単純なものでした。
バグ1:色解析における大文字・小文字の区別。
コード内でstrcasecmp()ではなくstrcmp()を使用していたため、「GREEN」「Red」「BLUE」といった入力がすべて無効と判定されました。この1つの関数呼び出しの違いが、11ものテストの失敗に直結したのです。
178ステップの探索中、Opusは大文字や混在した色入力を一度もテストしませんでした。小文字と無効な色「purple」のみを試していたのです。
バグ2:無効な色指定時の終了コードの誤り。
元のプログラムは無効な色に対して終了コード0(exit(0))を返しますが、Opusは終了コード1(exit(1))を返していました。
皮肉なことに、Opusは探索段階で元のプログラムの挙動を観察しており、./executable -C purple; echo "exit=$?"というコマンドで「exit=0」という出力を確認していました。しかし、自身の実装をテストする際に、この違いを見つけられなかったのです。このバグで8つのテストが失敗しました。
とはいえ、Opus 4.7には評価すべき点もあります。欠落したncursesヘッダーファイルの処理において、驚くべきシステムエンジニアリング能力を示しました。他の3つのモデルはncurses.hがないと分かると、すぐにANSIエスケープシーケンスを用いる方向に切り替えました。
しかしOpus 4.7は、ldconfig -pでランタイムの.soファイルを発見し、nm -Dでエクスポートシンボルを確認するなど、約20ステップをかけて調査しました。そして、106行のヘッダーファイル宣言を手書きし、そのまま動的ライブラリにリンクしたのです。これは真に創造的なエンジニアリングの例ですが、しかし、より良いスコアには結びつきませんでした。
ProgramBenchの登場は、プログラミングベンチマークが新たな段階に入ったことを示しています。
SWE-benchの正答率は既に88.7%に達しており、GPQAではAIが大部分の博士号取得者を上回っています。こうした評価指標は驚くべき速さで「溶けつつ」あり、スコアは天井知らずで上昇し、モデル間の差別化が難しくなっていました。
一方、ProgramBenchは全く異なります。200の問題のうち、これまでに解かれたのはわずか1問。正答率は0.5%です。
さらに重要な点として、今回の記録突破は、「推論のための計算量」がプログラミングAIの能力を決める核心的な変数になりつつあるという、重要なトレンドを明らかにしました。
GPT-5.5はデフォルトの推論モードではごく平凡な性能でしたが、高い推論モードに切り替えることで質的な飛躍を遂げました。これは、モデルが賢くないのではなく、これまで「考える」ための時間が足りなかっただけなのかもしれないということを意味します。
ProgramBenchには、まだ199問が残されています。
ゼロからイチへ、それは単なる始まりではない
AIの歴史における「ゼロをイチにした」瞬間、たとえば、AlphaGoが初めてプロ棋士を破った時、GPT-4が初めて司法試験に合格した時、そしてo1が初めて数学オリンピック問題で得点した時を振り返ってみましょう。
「ゼロからイチへ」の変化は、直線的な進歩の始まりではなく、指数関数的な爆発的成長のシグナルフレアでした。
ノーム・ブラウン氏が提唱した推論計算に関するスケーリング則は、ProgramBenchにおいてこれまでで最も直感的に検証されました。同じGPT-5.5という基盤モデルが、mediumモードではほぼ白紙答案だったのに対し、highモードでは満点で合格し、xhighモードでは段違いの性能で他を圧倒したのです。知能は、もはや固定された値ではなく、計算力の関数であると言えるでしょう。
これは何を意味するのでしょうか? ASIへの道は、次世代のアーキテクチャ革命を待つ必要がないかもしれない、ということです。推論のための計算量を拡大し続け、スケーリング則が限界を迎えなければ、今日ProgramBenchでcmatrixを再構築しただけのモデルが、明日にはSQLiteを、そして明後日にはLinuxカーネル全体を再構築するかもしれません。
参考文献:
https://x.com/polynoamial/status/2054255862441812099
https://programbench.com/blog/gpt-5-5-first-solve/