LLM 真實能力大起底：Python 考 90 分，Whitespace 考 0 分！AI 的「學霸」人設崩了

GPT-5.2 在 Python 上能拿 90% 的分數，換成一種叫 Whitespace 的語言，直接歸零。

不是 50 分，不是 10 分，是0%。

AI 配圖

這是 EsoLang-Bench 最新基準測試的殘酷現實。

全球頂尖大模型被丟到 Brainfuck、Befunge-98、Unlambda 這些「變態」程式語言面前，它們的智商集體掉線。最好成績4.2%，相當于一張滿分 100 的卷子只拿了 4 分。

而它們在平時常用的 Python 上，能拿 90 分。

「惡意」考試

說實話，這個測試有點欺負人。

研究團隊選了五種esoteric languages（冷門/怪異程式語言）：Brainfuck、Befunge-98、Whitespace、Unlambda 和 Shakespeare。這些語言的訓練數據比 Python 少了5000 到 10 萬倍。

Python 是互聯網的原住民，而這些語言像是藏在地下室的手寫密碼。

測試規則很簡單：80 道編程題，從"Hello World"到複雜算法，分 Easy、Medium、Hard、Extra-Hard 四級。每個模型用各種 prompting 策略輪番上陣。

結果呢？

所有模型在 Medium 及以上難度全軍覆沒，0%。

Whitespace 在所有配置下保持 0% 不敗戰績。

AI 配圖

連最強的 GPT-5.2，總體準確率也只有4.2%。

Whitespace：看不見的降維打擊

最慘烈的戰場是 Whitespace。

這種語言的語法只有三個元素：空格、製表符、換行。肉眼看起來就是一片空白，但程序就藏在這些空白裡。

對人類來說已經夠反人類了，對 AI 更是絕殺。

因為大模型的 tokenizer（分詞器）在處理 Python 時，"print"是一個 token，"def"是一個 token，高效優雅。但面對 Whitespace，空格就是空格，它無法"看見"這些空格背後的語義。

這就像讓一個人閉著眼睛走迷宮，還要他描述墙的顏色。

研究數據顯示，模型在這種語言上完全無法生成有效代碼。不是邏輯錯，是压根編譯不過。這暴露了一個尷尬事實：AI 所謂的"編程能力"，可能只是對訓練數據的高級模仿。

錯誤圖譜：每種語言都在嘲笑不同的短板

AI 配圖

有意思的是，不同語言暴露了模型不同的"腦殘"模式。

Brainfuck（只有 8 個命令的極簡語言）上，83.9% 的錯誤是邏輯錯誤。模型能寫出語法正確的代碼，但算法是錯的。這說明它"認識"這些命令，但不理解怎麼組合它們解決問題。

Unlambda（函數式編程的怪胎）上，74.6% 是編譯錯誤。模型連有效的組合子表達式都寫不出來，就像背英語單詞只背了字母順序。

Befunge-98（二維網格語言）上，93.4% 是運行時錯誤，無限循環是家常便飯。

Shakespeare（用戲劇對話寫代碼）上，59.2% 是運行時錯誤。模型能寫出像莎士比亞戲劇的語法，但把"哈姆雷特"和"奧菲莉亞"的對話邏輯搞成一團漿糊。

這些錯誤分佈像是一份體檢報告，告訴我們在沒有"標準答案"可抄時，AI 的推理鏈條有多脆弱。

自我反思？沒用。多智能體？更糟。

更讓人意外的是策略對比。

研究團隊試了五種 prompting 方法：零樣本、少樣本、思維鏈（CoT）、自我腳手架（Self-Scaffolding），還有多智能體系統。

少樣本提示（Few-shot）相比零樣本，沒有顯著提升（p=0.505）。這意味著給 AI 看幾個例子，它也學不會在上下文中掌握新範式。

自我反思和多智能體系統更是負優化。加一個"critic"（評論家）角色或"planner"（規劃者）角色，準確率不升反降。因為當所有組件都缺乏領域知識時，額外的 LLM 調用只是引入了更多噪聲。

唯一有效的是Self-Scaffolding：讓模型根據解釋器的錯誤信息反覆迭代。這像是一個學生對著編譯器報錯一點點試，雖然笨，但比瞎猜強。

Agentic 系統的微弱曙光

不過，有個小反轉。

當研究人員給模型裝上"手"——允許它們調用真實的解釋器執行代碼（Agentic 模式，如 Codex 和 Claude Code），成績翻了約 2 倍。

Codex 在 Brainfuck 上拿到了13.8%，這是整個 benchmark 的單項最高分。

這說明執行反饋循環可以部分彌補訓練數據的缺失。AI 還是不懂這些語言，但它能"試錯"了。

但即便如此，13.8% 距離及格線還很遠。而且面對 Whitespace，有工具也沒用，依然是 0%。

我們真的在創造智能，還是在造高級復讀機？

這個測試最扎心的啟示在於：當前大模型在代碼生成上的高光表現，可能主要是訓練數據規模的函數，而非通用推理能力的證明。

Python 的高分，是因為它被餵了千億級別的代碼片段；Whitespace 的零分，是因為沒人會無聊到用空格寫程序餵給 AI。

當遇到訓練數據中經濟不合理存在的知識（誰會花錢標註 Whitespace？），AI 的"理解"瞬間蒸發。

熱門評論裡有人調侃："我也得 0 分，說明我也是靠記憶而非真正推理？"

但區別在於，人類看到 Whitespace 的文檔，能學會；AI 看了再多例子，在 Medium 難度以上依然 0%。

這才是差距。

【kimi-k2.5 銳評】：當 AI 在 Whitespace 面前集體歸零，我們終於看清——所謂編程天才，不過是個背題高手，一旦超綱，連交白卷的姿勢都透著訓練數據的貧瘠。

參考連結：
https://esolang-bench.vercel.app/

人工智慧程式語言深度學習基準測試大語言模型

相關文章推薦

Mojo 1.0 Beta 發布：Python 語法與 C++ 效能的新紀元程式語言

GPT-5.5 全球首破！零原始碼盲寫程式，程式開發 AI 進入新紀元人工智慧

神操作：一個7B的小模型，雇了GPT-5打工，然後贏了測試人工智慧

Subquadratic — 效率即智慧人工智慧

哈佛《Science》重磅：AI急診診斷準確率67%，超越資深主治醫師！但要取代醫生還早人工智慧

分享網址

原始網址：https://mp.weixin.qq.com/s/7wCBTXBkW6DNOy88ISICDw