MMLUはもう終わり？「人類最後の試験」がNatureに掲載：世界のAIモデルが集団不合格！

新智元報道

編集：KingHZ

【新智元編集部より】 高德納（ドナルド・クヌース）がClaudeの問題解決能力に衝撃を受けたことや、テレンス・タオがGPT-5.2proは数学の博士号を取れると評したこと……AIは猛スピードで進化していますが、「人類最後の試験」では集団で沈黙しています。最高スコアでも50%に満たず、人類の専門家はどれほど安全圏にいるのでしょうか？

AIニュース界隈は、二日に一度は地震が起き、三日に一度はパラダイムシフトが起きるかのように、目まぐるしいほどの変化を見せています！

誇張があるかもしれませんが、AIが日進月歩であることは誰の目にも明らかです！

「アルゴリズム解析の祖」である高德納（ドナルド・クヌース）は、Claudeが高難易度のアルゴリズム問題を解くのを目撃し、投稿で「衝撃」という言葉を二度連続して使用しました。

数学者のテレンス・タオは、GPT 5.2 Proが数学のエルデシュ問題を解決し、しかもその解法が以前の人類の解法とは完全に異なっていたと発表し、これは数学の博士号を取得するのに十分なレベルであると述べました！

さらに以前には、Claude Codeが引き起こした「Vibe Coding」ブームがありました。

長年存在する様々なベンチマークテストにおいて、AIが優秀な成績を収めることはもはや珍しくありません！

AI研究者たちはとっくに問題を認識しています。これらのテストは簡単すぎるのです。

大規模多タスク言語理解（MMLU）のような、かつては難易度が高いとされ注目を集めていた評価テストも、今や先進的なAIシステムの真の実力を効果的に測定することはできなくなっています。

問題は、AIモデルの発展があまりにも速すぎて、ベンチマークテストがその歩みに追いつけず、AIの安全性と有効性を確保することが難しくなっている点にあります。

MMLUなどの主要なベンチマークテストにおいて、大規模言語モデルの正解率はすでに90%を超えており、とっくに「飽和」状態にあります。

「人類最後の試験」という新しいAIテストベンチマークが、解決策を提供してくれるかもしれません。

各大LLMの異なるベンチマークにおける正解率の比較

最近、この共同研究者名簿が異常に長い論文が、トップジャーナルNatureに正式に掲載されました！

リンク：https://www.nature.com/articles/s41586-025-09962-4

ちなみに、Alexandr Wang氏がまだScale AIに在籍していた頃、関連する研究はプレプリントサーバーのArxivに投稿されていました。

AIベンチマーク：テスト、そして再テスト

性能や安全性といった観点から、大規模言語モデルをテストするには様々な方法があります。

例えば、リリース前に、AI開発者は大規模言語モデルが悪意のある目的に利用されることへの耐性を評価します。

さらに、大規模言語モデルが自律的にソフトウェアの脆弱性を悪用するリスクなどを評価する独立した組織も存在します。

しかし、これらのテストは通常、狭い学術分野しか網羅していなかったり、少数のタスクしか含まれていなかったりします。

モデルを比較するために、より広範で標準化されたベンチマークを作成する試みには、約16000問の多肢選択問題を用いてモデルの一般的な知識と問題解決能力をテストするMMLUなどがあります。

しかしすぐに、かつては難しかった試験も、今やAIにとっては「おまけの問題」になってしまいました。

このギャップを埋めるため、約1000名の研究者からなる世界的な連合が「人類最後の試験（Humanity's Last Exam、HLE）」を作成しました。

このテストは、AI安全性センター（CAIS）とScale AIのチームによって開発され、世界中の研究者が投稿した3000問の難問が含まれており、大規模言語モデルの能力を測る究極のベンチマークとなることを目指しています。

このベンチマークテストは範囲が極めて広く、難易度が非常に高く、人間の専門家の知識に深く根ざしているため、現在最高峰のAIでも正解率は50%に満たないのです。

「人類最後の試験」には合計2500問が含まれており、数学、人文学、自然科学、古代語、そして高度に専門化されたサブフィールドを網羅しています。

問題の学問分野別分布

これらの問題は非常に専門的です。古代パルミラ銘文の翻訳から、鳥類の顕微解剖学的構造の同定、さらには聖書ヘブライ語の発音の複雑な特徴の分析に至るまで様々です。

各問題は、最先端のAIモデルによるテストを経ています。もしどのシステムも正解できた問題は除外されます。その結果、綿密に設計され、現在のAIの能力の境界線ちょうど外側に位置する試験が完成しました。

投稿された7万問の難問から、厳選された2500問

結果もそれを裏付けています。

初期結果によると、最も先進的なモデルでさえ苦戦しています：

GPT-4oのスコアは2.7%
Claude 3.5 Sonnetは4.1%
OpenAIの旗艦モデルo1はわずか8%の成績

新しいベンチマークが重要な理由

テキサスA&M大学計算機科学・工学科の教育准教授Tung Nguyen氏は、問題の作成と改善作業に参加しました。

彼は公開された2500問のうち73問（貢献数2位）を提供し、数学・計算機科学分野での問題作成数は最多でした。

最近、彼は「人類最後の試験」についての感想を共有しました。

「AIシステムが人間の設定したベンチマークテストで極めて優れた成績を収め始めると、AIが人間レベルの理解力に近づいていると考えやすくなります」とTung Nguyen氏は述べています。

しかしHLEは、知能とは単なるパターン認識ではなく、深さ、文脈、専門知識に関わるものであることを思い起こさせてくれます。

この試験の目的は、人間を困らせることではありません。AIが現時点では——少なくとも現段階では——まだできないことを正確かつ体系的に明らかにすることにあります。

リンク：lastexam.ai

Tung Nguyen氏によれば、AIが従来のベンチマークを超えてしまう問題は、学術的な側面をはるかに超えています。

「正確な評価ツールがなければ、政策立案者、開発者、ユーザーがAIシステムの実際の能力を誤解する恐れがあります」と彼は言います。「ベンチマークは進歩を測り、リスクを特定するための基盤を提供します。」

研究チームの論文が指摘しているように、AIは人間用に設計された試験で優秀な成績を収めるかもしれませんが、こうしたテストが必ずしも「知能」を測定しているわけではありません。

名前は少し「終末」を思わせる響きですが、「人類最後の試験」は人類の重要性の終わりを暗示するものではありません。

むしろ、依然として大量の知識が人間に固有のものであること、そしてAIにはまだまだ遠い道のりがあることを浮き彫りにしています。

Tung Nguyen氏は「この名前には少し冗談めいた意味がある」と認めています。

重要なのはその背後にある理念です：

これは人間がAIに対して設定した最後の難関です。もしAIがこの試験に合格できれば、ある種の専門化された人間の専門家レベルに達したことを意味し、これは以前は機械には不可能だと考えられていたことです。

HLEは核物理学から古代史まであらゆる分野を網羅しているため、単独で試験全体に合格できる人は誰もいません。

しかし、特定分野の人間の専門家はその専門分野の問題なら簡単に回答できるのに対し、AIはほぼすべてのカテゴリーで失敗しています。

なぜAIはまだ失敗するのでしょうか？

その理由は、AIはパターン認識や既知データの要約は得意ですが、深く専門的な背景知識の処理は苦手だからです。

HLEで出題される問題には、何年もの専門研究が必要です。こうした問題では、一般的なインターネットデータに基づいた「推測」は通用しません。

参考資料：

https://www.nature.com/articles/s41586-025-09962-4

https://stories.tamu.edu/news/2026/02/25/dont-panic-humanitys-last-exam-has-begun/

MMLUはもう終わり？「人類最後の試験」がNatureに掲載：世界のAIモデルが集団不合格！

AIベンチマーク：テスト、そして再テスト

新しいベンチマークが重要な理由

参考資料：

関連記事

分享網址