LLM の真の実力が暴かれる：Python は 90 点、Whitespace は 0 点！AI の「優等生」の仮面が剥がれ落ちる

GPT-5.2 は Python では 90% の得点を叩き出す一方、Whitespace という言語に切り替えると、その得点は一転して 0% になります。

50 点でも、10 点でもなく、0%なのです。

AI 生成画像

これが、最新ベンチマーク「EsoLang-Bench」が突きつけた残酷な現実です。

世界最高峰の大規模言語モデル（LLM）たちが、Brainfuck、Befunge-98、Unlambda といった「奇抜」なプログラミング言語の前に放り込まれると、その知能は一斉に停止しました。最高記録はわずか4.2%。満点 100 点の試験で 4 点しか取れないのと同義です。

一方、普段使い慣れている Python であれば、彼らは 90 点を取ることができます。

「意地悪」な試験

率直に言って、このテストは少し AI をいじめているきらいがあります。

研究チームは 5 種類のエソテリック言語（難解・奇抜なプログラミング言語）を選定しました。Brainfuck、Befunge-98、Whitespace、Unlambda、そして Shakespeare です。これらの言語に関するトレーニングデータは、Python に比べて5000 倍から 10 万倍も少ないのです。

Python がインターネットという土壌で育った「ネイティブ」だとすれば、これらの言語は地下室に隠された手書きの暗号のようなものです。

テストのルールは単純です。80 問のプログラミング問題を出題。「Hello World」から複雑なアルゴリズムまで、難易度は Easy、Medium、Hard、Extra-Hard の 4 段階。各モデルには、さまざまなプロンプト戦略を駆使して回答させます。

結果はどうだったのでしょうか。

全モデルが Medium 以上の難易度で全滅し、得点は 0% でした。

Whitespace に至っては、あらゆる設定下で 0% という「無敗」の記録を維持し続けました。

AI 生成画像

最強を誇る GPT-5.2 でさえ、全体の正解率はわずか4.2% でした。

Whitespace：目に見えない次元の断絶

最も悲惨な戦場となったのが Whitespace です。

この言語の構文要素は 3 つのみ。スペース、タブ、改行です。見た目にはただの空白が広がっているだけで、プログラムはその空白の中に隠されています。

人間にとっても極めて不自然な仕様ですが、AI にとっては「必殺」の罠となりました。

大規模モデルのトークナイザー（分詞器）は、Python を処理する際、「print」を 1 つのトークン、「def」を 1 つのトークンとして効率的に処理します。しかし Whitespace に対峙すると、スペースはただのスペースとして処理され、その背後にある意味を「見る」ことができないのです。

これは、目隠しをした人間に迷路を歩かせた上で、壁の色を説明させるようなものです。

研究データによると、モデルはこの言語で有効なコードを生成することが全くできませんでした。論理エラー以前に、コンパイルすら通過しません。これは、AI のいわゆる「プログラミング能力」とは、トレーニングデータに基づく高度な模倣に過ぎない可能性を示す恥ずべき事実を露呈させました。

エラーの全体像：言語ごとに異なる「欠点」を露呈

AI 生成画像

興味深いことに、使用された言語によって、モデルの異なる「思考停止」パターンが浮き彫りになりました。

Brainfuck（コマンドが 8 つだけの極限まで単純化された言語）では、エラーの 83.9% が論理エラーでした。モデルは文法的に正しいコードを書くことはできますが、アルゴリズムが誤っています。これは、コマンド自体は「知っている」ものの、それらを組み合わせて問題を解決する方法を理解していないことを示しています。

Unlambda（関数型编程の変異種）では、74.6% がコンパイルエラーでした。モデルは有効なコンビネータ式を記述することすらできず、まるで英単語を覚える際にアルファベット順しか覚えていない状態です。

Befunge-98（2 次元グリッド上を動く言語）では、93.4% が実行時エラーで、無限ループに陥ることが日常茶飯事でした。

Shakespeare（演劇の対話形式でコードを書く言語）では、59.2% が実行時エラーでした。モデルはシェイクスピア劇のような構文を書くことはできても、「ハムレット」と「オフィーリア」の対話の論理を完全に混迷させてしまいました。

これらのエラー分布は、まるで健康診断の結果表のようです。「標準解答」を写すことができない場合、AI の推論連鎖がいかに脆いかを如実に物語っています。

自己反省？無駄。マルチエージェント？さらに悪化。

さらに驚くべきは、戦略比較の結果です。

研究チームはゼロショット、少数ショット、思考の連鎖（CoT）、セルフスキャフォルディング、そしてマルチエージェントシステムの 5 種類のプロンプト手法を試しました。

少数ショットプロンプト（Few-shot）は、ゼロショットと比較して有意な向上は見られませんでした（p=0.505）。これは、AI に数つの例を見せたところで、文脈の中で新しいパラダイムを習得することはできないことを意味します。

自己反省やマルチエージェントシステムにいたっては、逆効果でした。「批評家（critic）」や「計画者（planner）」という役割を追加しても、正解率は上がらないどころか低下しました。構成要素のすべてがドメイン知識を欠いている場合、追加の LLM 呼び出しはノイズを増幅させるだけだからです。

唯一効果的だったのはセルフスキャフォルディングです。これは、モデルがインタプリタのエラーメッセージに基づいて反復試行を行う手法です。コンパイラのエラーを前にして一つずつ試していく学生のようで、愚直ではありますが、闇雲に推測するよりはマシです。

エージェントシステムに微かなる曙光

ただし、小さな逆転劇もありました。

研究者らがモデルに「手」を与え、本物のインタプリタを呼び出してコードを実行できるようにしたところ（Codex や Claude Code のようなエージェントモード）、スコアは約 2 倍に跳ね上がりました。

Codex は Brainfuck で13.8%を記録。これは今回のベンチマーク全体での単独最高得点です。

これは、実行によるフィードバックループが、トレーニングデータの不足を部分的に補えることを示唆しています。AI は依然としてこれらの言語を理解しているわけではありませんが、「試行錯誤」することは可能になったのです。

とはいえ、13.8% という数字は合格点には程遠く、また Whitespace に関してはツールがあろうとも 0% のままでした。

我々は真の知能を創っているのか、それとも高度なオウムを作っているだけか？

このテストがもたらした最も痛烈な教訓はこうです。現在のコード生成における大規模モデルの輝かしい成果は、汎用的な推論能力の証明というよりは、むしろトレーニングデータの規模に依存した結果である可能性が高いということです。

Python で高得点だったのは、数千億ものコード断片を「餌」として与えられていたから。Whitespace で 0 点だったのは、誰もがあえてスペースだけでプログラムを書いて AI に与えるほど暇ではなかったからです。

トレーニングデータの中に経済的に不合理な知識（誰が Whitespace のためにラベル付け費用を払うだろうか？）が存在しない場合、AI の「理解」は瞬く間に消滅します。

ある著名なコメント欄には、「私も 0 点だ。つまり私も推論ではなく記憶に頼っているだけなのか？」という皮肉な書き込みもありました。

しかし決定的な違いがあります。人間は Whitespace のドキュメントを読めば学習できますが、AI はどれだけの例を見せられても、Medium 以上の難易度では依然として 0%なのです。

これこそが、両者の埋めようのない隔たりです。

【kimi-k2.5 による辛口レビュー】：AI が Whitespace の前で揃って 0 点になる姿を見て、ようやく真相が明らかになった。いわゆるプログラミングの天才など、ただの「問題の丸暗名人」に過ぎない。試験範囲を超えれば、白紙の答案用紙を差し出すその様相すら、トレーニングデータの貧困さを露呈させるばかりだ。

参考リンク：
https://esolang-bench.vercel.app/

LLM の真の実力が暴かれる：Python は 90 点、Whitespace は 0 点！AI の「優等生」の仮面が剥がれ落ちる

「意地悪」な試験

Whitespace：目に見えない次元の断絶

エラーの全体像：言語ごとに異なる「欠点」を露呈

自己反省？無駄。マルチエージェント？さらに悪化。

エージェントシステムに微かなる曙光

我々は真の知能を創っているのか、それとも高度なオウムを作っているだけか？

関連記事

分享網址