MMLU已死？「人類最後考試」登上Nature：全球AI模型集體不及格！

新智元報導

編輯：KingHZ

【新智元導讀】從高德納震驚Claude解難題，到陶哲軒稱GPT-5.2pro夠發Nature數學博士……AI狂飆突進，卻在「人類最後的考試」上集體啞火：最高分不過50%，人類專家還有多大安全區？

AI新聞圈，兩天一地震，三天一顛覆，讓你目不暇給、眼花撩亂！

或有誇大的地方，但AI日新月異、有目共睹！

「演算法分析祖師爺」高德納見證了Claude解決了一道高難度演算法題，發文連用兩個「震驚」（shock）。

數學家陶哲軒宣佈GPT 5.2 Pro解決了一個數學Erdos難題且完全與之前人類的解法不同，足以拿下數學博士學位了！

此前，更有Claude Code引發的Vibe Coding熱潮。

至於各種長期存在的基準測試，AI取得優異成績已不足為奇！

AI研究人員早已意識到問題：這些測試太簡單了。

像大規模多任務語言理解（MMLU）這類曾被視為難度頗高的熱門評測，如今已無法有效檢驗先進AI系統的真實水準。

問題在於：AI模型發展得如此之快，基準測試正難以跟上其步伐，難以確保AI安全有效。

在MMLU等熱門基準測試中，大語言模型的準確率現已超過90%，早已「飽和」。

「人類最後的考試」的新AI測試基準，或許能提供解決方案。

各大LLM在不同基準上準確率的對比

最近，這篇合作名單超長的論文，正式登上頂級期刊Nature！

連結：https://www.nature.com/articles/s41586-025-09962-4

順帶一提，Alexandr Wang還在Scale AI時，相關工作已發表在預印本平台Arxiv。

AI基準：測試，再測試

從性能和安全等角度來看，測試大語言模型有多種不同的方法。

例如，在發布前，AI開發人員會評估大語言模型被用於惡意目的的抵抗能力。

此外，還有一些獨立組織對大語言模型進行評估，比如評估大語言模型被用於自主利用軟體漏洞的風險。

然而，這些測試通常只涵蓋狹窄的學科領域，或者只包含少量任務。

為了比較模型而創建更廣泛、標準化基準的嘗試包括MMLU，它使用大約16000道選擇題來測試模型的通用知識和解決問題的能力。

但很快，過去那些曾經很難的考試，現在對AI來說已經變成了「送分題」。

為了彌補這一差距，近1000名研究人員組成的全球聯盟創建了「人類最後的考試」（Humanity’s Last Exam，HLE）。

該測試由AI安全中心CAIS和Scale AI的一個團隊開發，包含由全球研究人員提交的3000個具有挑戰性的問題，旨在成為衡量大語言模型能力的終極基準。

這項基準測試覆蓋面極廣、挑戰性極高、深深植根於人類專家知識，以至於當前最強的AI準確率也不足50%。

「人類最後的考試」共包含2500道問題，涵蓋數學、人文學科、自然科學、古代語言以及高度專業化的子領域。

問題學科分佈

這些題目非常專業：從翻譯古代巴爾米拉銘文，到識別鳥類的顯微解剖結構，再到分析聖經希伯來語發音的複雜特徵。

每道題都經過了領先AI模型的測試。如果有任何系統能答對，該題就會被剔除。最終形成的是一項經過精心設計、恰好處於當前AI能力邊界之外的考試。

從7萬道提交的難題中，精挑細選出了其中的2500道題目。

結果也證實了這一點。

早期結果顯示，即使是最先進的模型也舉步維艱：

GPT-4o得分2.7%；
Claude 3.5 Sonnet達到4.1%；
OpenAI的旗艦模型o1僅取得8%的成績。

新基準為何重要

德州農工大學電腦科學與工程系的教學副教授Tung Nguyen，他參與了問題的撰寫和完善工作。

他貢獻了2500道公開考題中的73道（貢獻量位居第二），並且在數學和電腦科學領域撰寫的題目數量最多。

最近，他分享了對「人類最後的考試」的思考。

「當AI系統開始在人類設定的基準測試中表現得極為出色時，人們很容易認為它們正在接近人類水準的理解力，」Tung Nguyen說道。

但HLE提醒我們，智慧不僅僅是模式辨識——它關乎深度、背景和專業化的知識。

這個考試的目的並非難倒人類。而是要精確、系統地揭示出AI目前——至少是現階段——還無法做到的事情。

連結：lastexam.ai

Tung Nguyen表示，AI超越傳統基準的問題遠超學術層面。

「如果沒有準確的評估工具，政策制定者、開發者和使用者就可能誤解AI系統的實際能力，」他說。「基準測試為衡量進展和識別風險提供了基礎。」

正如團隊論文所指出的，雖然AI可能在為人類設計的考試中表現出色，但這些測試不一定在衡量「智慧」。

儘管名字聽起來有點「末日」感，但「人類最後的考試」並非意在暗示人類重要性的終結。

相反，它突顯了仍有大量知識是獨一無二地屬於人類的，以及AI還需要走多遠。

Tung Nguyen坦言：「這個名字有點半開玩笑的意味」。

重要的是背後的理念：

這是人類對AI設置的最後一道難關。如果AI能通過這項考試，就意味著它達到了某種專業化的人類專家水準，而這在以前被認為是機器不可能做到的。

因為HLE涵蓋了從核物理到古代史的所有領域，所以沒人能靠單打獨鬥通過整個考試。

然而，特定領域的人類專家可以輕鬆回答其專業領域內的問題，而AI在幾乎所有類別上都失敗了。

為什麼AI還會失敗？

原因在於AI擅長模式辨識和總結已知資料，但它難以處理深度、專業化的背景知識。

HLE提出的問題需要多年的專門研究。在這些問題上，基於常見網路資料的「猜測」行不通。

參考資料：

https://www.nature.com/articles/s41586-025-09962-4

https://stories.tamu.edu/news/2026/02/25/dont-panic-humanitys-last-exam-has-begun/

MMLU已死？「人類最後考試」登上Nature：全球AI模型集體不及格！

相關文章推薦

分享網址