LLM 真實能力大起底:Python 考 90 分,Whitespace 考 0 分!AI 的「學霸」人設崩了

GPT-5.2 在 Python 上能拿 90% 的分數,換成一種叫 Whitespace 的語言,直接歸零。

不是 50 分,不是 10 分,是0%

AI 配圖

這是 EsoLang-Bench 最新基準測試的殘酷現實。

全球頂尖大模型被丟到 Brainfuck、Befunge-98、Unlambda 這些「變態」程式語言面前,它們的智商集體掉線。最好成績4.2%,相當于一張滿分 100 的卷子只拿了 4 分。

而它們在平時常用的 Python 上,能拿 90 分。

「惡意」考試

說實話,這個測試有點欺負人。

研究團隊選了五種esoteric languages(冷門/怪異程式語言):Brainfuck、Befunge-98、Whitespace、Unlambda 和 Shakespeare。這些語言的訓練數據比 Python 少了5000 到 10 萬倍

Python 是互聯網的原住民,而這些語言像是藏在地下室的手寫密碼。

測試規則很簡單:80 道編程題,從"Hello World"到複雜算法,分 Easy、Medium、Hard、Extra-Hard 四級。每個模型用各種 prompting 策略輪番上陣。

結果呢?

所有模型在 Medium 及以上難度全軍覆沒,0%。

Whitespace 在所有配置下保持 0% 不敗戰績。

AI 配圖

連最強的 GPT-5.2,總體準確率也只有4.2%

Whitespace:看不見的降維打擊

最慘烈的戰場是 Whitespace。

這種語言的語法只有三個元素:空格、製表符、換行。肉眼看起來就是一片空白,但程序就藏在這些空白裡。

對人類來說已經夠反人類了,對 AI 更是絕殺。

因為大模型的 tokenizer(分詞器)在處理 Python 時,"print"是一個 token,"def"是一個 token,高效優雅。但面對 Whitespace,空格就是空格,它無法"看見"這些空格背後的語義

這就像讓一個人閉著眼睛走迷宮,還要他描述墙的顏色。

研究數據顯示,模型在這種語言上完全無法生成有效代碼。不是邏輯錯,是压根編譯不過。這暴露了一個尷尬事實:AI 所謂的"編程能力",可能只是對訓練數據的高級模仿

錯誤圖譜:每種語言都在嘲笑不同的短板

AI 配圖

有意思的是,不同語言暴露了模型不同的"腦殘"模式。

Brainfuck(只有 8 個命令的極簡語言)上,83.9% 的錯誤是邏輯錯誤。模型能寫出語法正確的代碼,但算法是錯的。這說明它"認識"這些命令,但不理解怎麼組合它們解決問題。

Unlambda(函數式編程的怪胎)上,74.6% 是編譯錯誤。模型連有效的組合子表達式都寫不出來,就像背英語單詞只背了字母順序。

Befunge-98(二維網格語言)上,93.4% 是運行時錯誤,無限循環是家常便飯。

Shakespeare(用戲劇對話寫代碼)上,59.2% 是運行時錯誤。模型能寫出像莎士比亞戲劇的語法,但把"哈姆雷特"和"奧菲莉亞"的對話邏輯搞成一團漿糊。

這些錯誤分佈像是一份體檢報告,告訴我們在沒有"標準答案"可抄時,AI 的推理鏈條有多脆弱。

自我反思?沒用。多智能體?更糟。

更讓人意外的是策略對比。

研究團隊試了五種 prompting 方法:零樣本、少樣本、思維鏈(CoT)、自我腳手架(Self-Scaffolding),還有多智能體系統。

少樣本提示(Few-shot)相比零樣本,沒有顯著提升(p=0.505)。這意味著給 AI 看幾個例子,它也學不會在上下文中掌握新範式。

自我反思和多智能體系統更是負優化。加一個"critic"(評論家)角色或"planner"(規劃者)角色,準確率不升反降。因為當所有組件都缺乏領域知識時,額外的 LLM 調用只是引入了更多噪聲。

唯一有效的是Self-Scaffolding:讓模型根據解釋器的錯誤信息反覆迭代。這像是一個學生對著編譯器報錯一點點試,雖然笨,但比瞎猜強。

Agentic 系統的微弱曙光

不過,有個小反轉。

當研究人員給模型裝上"手"——允許它們調用真實的解釋器執行代碼(Agentic 模式,如 Codex 和 Claude Code),成績翻了約 2 倍

Codex 在 Brainfuck 上拿到了13.8%,這是整個 benchmark 的單項最高分。

這說明執行反饋循環可以部分彌補訓練數據的缺失。AI 還是不懂這些語言,但它能"試錯"了。

但即便如此,13.8% 距離及格線還很遠。而且面對 Whitespace,有工具也沒用,依然是 0%。

我們真的在創造智能,還是在造高級復讀機?

這個測試最扎心的啟示在於:當前大模型在代碼生成上的高光表現,可能主要是訓練數據規模的函數,而非通用推理能力的證明

Python 的高分,是因為它被餵了千億級別的代碼片段;Whitespace 的零分,是因為沒人會無聊到用空格寫程序餵給 AI。

當遇到訓練數據中經濟不合理存在的知識(誰會花錢標註 Whitespace?),AI 的"理解"瞬間蒸發。

熱門評論裡有人調侃:"我也得 0 分,說明我也是靠記憶而非真正推理?"

但區別在於,人類看到 Whitespace 的文檔,能學會;AI 看了再多例子,在 Medium 難度以上依然 0%

這才是差距。

【kimi-k2.5 銳評】:當 AI 在 Whitespace 面前集體歸零,我們終於看清——所謂編程天才,不過是個背題高手,一旦超綱,連交白卷的姿勢都透著訓練數據的貧瘠。

參考連結:
https://esolang-bench.vercel.app/


分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.