新智元報道
編集:Ding Hui、Haokun
【新智元読者へのガイド】Google DeepMindの最新AIエージェントAletheiaが、FirstProofチャレンジにて単独で6つの世界級数学難問を攻略し、競技レベルから博士課程(PhD)研究レベルへの質的転換を達成した。人類数学研究の「手作業時代」はまさにカウントダウンに入ったかもしれない。
つい先ほど、人類数学界の最後の防衛線が全面崩壊を宣言した!
野次馬までもが驚きを隠せない:AIはただ問題を解くだけでなく、今や博士号レベルの純粋数学研究まで独力でやり遂げられるようになったのだ。
ここ数日、Google DeepMindの最新AI研究エージェントAletheiaが、数学界で「FirstProof」と呼ばれる頂点決戦において、世界中で未解決とされる10の数学難問のうち6問を一気に解決してしまったのだ!
DeepMind幹部のThang Luong氏はXで興奮を隠せずに投稿している。
「私にとって、これは昨年の歴史的なIMO(国際数学オリンピック)金メダル獲得という成果より、はるかに意義が重大です!」
これは普通の数学競技ではない。これらの問題は、世界で最もトップクラスの数学家でさえ極めて手強いと感じるものだ。
結果として、Aletheiaは自主的に答えを導き出しただけでなく、そのうちの第7問の予想を立てた数学者Jim Fowler氏自身が、公式に確認のために名乗りを上げた。
「AIの解答プロセスは、完全に正しい」
現代世界で最も傑出した天才数学家、タオ・タオ(陶哲軒)氏でさえ、最新のインタビューで次のように述べている。AIは、私の「初級共著者」になった。
Aletheiaの「神の一手」:力技による推演
Aletheiaは一体どれほどすごいのか?
Google DeepMindの主席科学者兼研究ディレクターであり、超推論チーム責任者であるThang Luong氏の話を聞いてみよう。
「超興奮しています!我々の数学研究AIエージェント #Aletheia が、悪名高いほど難しいFirstProofの課題10問のうち6問を完全自律的に解き、初代の総合優勝を勝ち取りました!」
この言葉の重みを味わってほしい。
Luong氏は遠まわしに言わない。
「私見ですが、これは昨年我々がIMO(国際数学オリンピック)金メダルレベルに達した歴史的な瞬間よりも、はるかに価値が高い!」
なぜなら、これらの問題は、今日世界で最も優秀な数人の大御所数学家でさえ頭を悩ませる「超難関」だからだ。
今回は、DeepMindはGemini 3 DeepThinkに基づいて構築されたAletheiaのバージョンを2つ(違いはベースモデルのみ)走らせた。
多くの専門家によるクロスチェック「会診」の結果、それらは10問のうち6問(それぞれ第2、5、7、8、9、10問)を联手で解決した。
この問題セットの採点評価は、まさに地獄の難易度だということを知っておく必要がある。
なぜなら、この中のいくつかの問題を理解できる専門家は、この世界でも鳥の目のような存在だからだ。
だからこそ、DeepMindの研究プロセスは強迫的なまでに厳格だった。
解答プロセス全体は純粋にマシンの独走で、プロセス全体で「ゼロ人間介入」、しかも完全にFirstProofの規定する締め切り内に提出された。
これは記念碑的な瞬間である。
もはや人間が一歩一歩式を教えるのではなく、AIエージェントが極めて複雑な研究課題にへばりついて長時間格闘し、何千もの袋小路で壁にぶつかりながらも、最後には戻ってきて人間に対して淡々と「解決しました(あるいは失敗しました)」と報告するようになったのだ。
DeepMindは、Aletheiaがこのプロセスで消費した計算量(推論コスト)を完全に可視化した——
その中で最も爆発的なのは、なんといっても第7問(P7)の驚異的な逆転劇だ。
これは数年間誰も解けなかった非典型的な難問だ。
同分野の専門家Tony Feng氏によると、今回の大会ではAletheia以外、正解に近づいたAIはいなかったという。
走らせた当初、DeepMindチーム自身も「Aletheiaは今回無理だろう」と思っていたが、結果的に正解を導き出してしまった!
P7を攻略するため、Aletheiaは膨大な計算量を投入した——それは当初Erdős-1051問題を解いた時の整整16倍だ!
数学界の権威Sang Hyun Kim氏はAIの解答ステップを見た後、極めて高い評価を下した。
「私がこれまで見た中で初めて、完璧な形でいくつかの極めて深遠な数学定理を連鎖的に適用した例だ。間違いなく唯一無二の稀なケースだ!」
DeepMindによるFirstProofの解釈と実験の詳細はすべてここにある:
論文アドレス:https://arxiv.org/abs/2602.21201
デタラメを言わない、それがAI最大の強み
DeepMindの論文を深掘りすると、Aletheiaがなぜこれほど安定しているか、その根本原因はある重要なスキルを握っていることにある。「自己フィルタリング」だ。
従来のAI大規模モデルには、わからないことを知ったかのように振る舞う(幻覚)という悪癖がある。
何を聞かれても、もっともらしく答えをでっち上げてしまう。
しかし、研究レベルのハイレベルな場面では、数学家に極めて合理的に見えるが推敲に耐えないゴミを投げるのは、渡さないよりマシだ。
DeepMindはこの問題をどう解決したのか?
彼らはAletheiaの内部に2つの「サブ人格」を設計した。
一つは「生成者」で、大胆な発想で解法の路径を妄想し続けることを担当。もう一つは、冷淡無情な「検証者」で、「生成者」の粗探しを専門とする。
解決のブラックボックス内で、この2つのサブシステムは狂ったように互いに格闘する。
解けない4問に直面した際、Aletheiaは無理やりでっち上げて誤魔化すことを選ばず、人間に対して直接「解法が見つかりません」と通知するか、時間制限になって直接口を閉ざした。
でっち上げをせず、確信がない箇所で人間の専門家の精力を無駄に消耗しない——これこそがAletheiaがトップ学者に最も信頼される点だ。
論文に書かれている通り:「精度を高めるために、我々は特定の問題を解く能力を犠牲にすることもいとわない」。
解決コストに関しても、P7のように計算量を16倍も消費した「神問」を除けば、他の数問の解決にも、昨年Erdős-1051難問を解決した際の極値をはるかに上回る「脳力」が費やされた。
完全なインタラクションログと解答プロセス(正解も誤答も、ありのまま全公開)を見たい場合は、こちらをクリック:
GitHubアドレス:
https://github.com/google-deepmind/superhuman/tree/main/aletheia
Aletheiaは具体的にどのような「常軌を逸した難問」を引き裂いたのか?
まず、特筆されたP7を見てみよう。
問題背景:代数的位相幾何学 / 微分幾何学。2次のねじれ要素を持つ半単純リー群の一様格子が、有理同調で無輪(サイクルを持たない)な普遍被覆を持つ、境界のないコンパクト多様体の基本群になり得るかを判定する。
答え:不可能。
AIの神々しい解法:
証明アプローチ1:純粋な位相幾何学的手法(レフシェッツ数の矛盾)
普遍被覆のQ-無輪という条件を利用し、2次の要素γのコンパクトサポートを持つレフシェッツ数は非ゼロでなければならないと計算する。しかしγは自由作用する(不動点を持たない)ため、オイラー標数の乗法性からレフシェッツ数はゼロでなければならない。0 = ±1、矛盾。
証明アプローチ2:幾何学的手法(対称空間の剛性)
格子の幾何構造を利用し、普遍被覆から対称空間への等変写像を構築し、γの両側でのレフシェッツ数が等しくなければならないことを証明する。しかし、普遍被覆側ではゼロ(自由作用)、対称空間側では非ゼロ(カルタンの不動点定理により不動点が存在する)となる。再び矛盾。
何が素晴らしいのか?
証明1は「少ない」点が優れている。問題には多くの条件が与えられているが、すべて使われていない。最も基礎的な位相ツールだけで問題を解決しており、実際にはより強い結論を証明している:ねじれを含む離散群であれば何でもダメだ。チェーンは極めて短く、レフシェッツ数を計算し、片側非ゼロ、片側ゼロ、矛盾、終了。
証明2は「深い」点が優れている。問題で与えられた幾何的条件をすべて使い、普遍被覆から対称空間への写像を構築し、最終的に対称空間上でカルタンの不動点定理を用いて矛盾を見つける。この道のりは長いが、より本質的な問題に答えている。
問題背景:数論 / 表現論。非アルキメデス局所体上の行列群の表現において、局所Rankin–Selberg積分がすべての対表現に対して非ゼロとなるような「万能の」ウィッタカー関数が存在することを証明する。
答え:可能。そのような「万能」Wは存在する。
AI神々しい解法:
まず特別なウィッタカー関数Wを選び、積分領域をコンパクト集合に圧縮し、複素パラメータsを完全に消去させ、問題を有限汎関数が非ゼロであることの証明に単純化する。次に背理法を用いる:すべてのVに対してゼロであると仮定すると、有限フーリエ解析を通じてテスト関数が「並進不変性」を持つことを導き出し、これは表現πがその導子(conductor)より粗い部分群の下で不変ベクトルを持つことを強制するため、導子の定義と矛盾する。
何が素晴らしいのか?
証明全体で最も重要なのは、最初のウィッタカー関数Wを選ぶステップだ。この一つの選択が同時に3つのことを実現している:1)積分領域をコンパクト集合に圧縮した、2)複素パラメータsを消去した、3)無限次元の解析問題を有限次元の代数問題に変えた。しかもこのWは対になる表現πに依存しない——同じ選択がすべてのπに有効で、これは表現論では非常に稀だ。
背理法部分の「レベル低下」も見事だ:汎関数が恒等的にゼロであると仮定し、有限フーリエ解析を通じて段階的にテスト関数がmod p^{c-1}下で不変であることを導き出すが、πの導子は丁度p^cであり、このレベルでは不変ベクトルは存在し得ない。矛盾がちょうど導子の定義に一致し、一步も多すぎず少なすぎない。
他の問題については、興味のある読者は論文やGitHubプロジェクトを各自で参照されたい。
人間が問題を出す速度が、もう追いつかない
なぜ特に数学が、AIの実力を検証する最終的な擂台(りんじ)になったのか?
理由は簡単だ——数学の答えは白黒はっきりしており、正解は正解、不正解は不正解で、人間が「手加減」して感情点を与える余地が一切ないからだ。
しかし今の問題は、問題を作る速度が、解答する速度に地面に叩きつけられるように圧倒されていることだ。
2024年11月、Epoch AIは最前線のAIの数学推論能力を探るためのベンチマーク「FrontierMath」を公開した。
公開当初、最強のAIですら問題の2%も解けなかったが、今ではGPT-5.2とClaude Opus 4.6が基礎問題の40%以上を解けるようになり、50問の究極の難易度を持つレベル4課題でも、正解率が30%を突破した。
もっとも、FrontierMathがどれだけ難しくても、本質的には「人間が既に標準解答を持ち、AIが解けるかどうかを見る」ものであり、要するに試験だ。
しかしFirstProofの10問は、11人のトップ数学家が自身の実研究から持ち出した、未公開の難問だ。
プロジェクト主页:https://1stproof.org/
しかも、このチャレンジ大会の結末はドラマチックだった。
2月6日に問題が公開されると、専門家、アマチュアの達人、各大AI研究室がこぞって参加した。
2月14日に回答が発表された時、全問を制した人やチームはいなかった。
その後、出題者自身がGemini 3.0 Deep ThinkとChatGPT 5.2 Proで一通り回してみたが、2問しか解けなかった。
最終的に、OpenAIの最強内部システムが限定的な人間の監視下で5問を解決した。
これと比較しても、今回Aletheiaが「ゼロ人間」介入で6問を解いたことの価値の高さが際立つ。
数学界の反応は複雑だ:「常軌を逸している」と叫ぶ人もいれば、「10問のうち4問が残っており、数学家の代替には程遠い」と感じる人もいる。
しかし、一つの不可逆的なトレンドがすべての人の前にある——
我々はAIをテストするためのより難しい問題集が必要であり、しかも迅速に行動しなければならない。なぜなら、既存のすべてが肉眼で見える速度で陳腐化しつつあるからだ。
Epoch AIもこれを意識したようだ。
FirstProofの開催と同時期に、彼らは自分たちの切り札「FrontierMath: Open Problems」を公開した。
左右にスワイプして表示
この全く新しい問題集には、専門の数学家が長年格闘したが、現在に至るまで全滅している真の未解決の謎が16題収録されている。
さらに秀逸なのは、標準解答はないが、Epoch AIは各問題に対し、AIの解が成立しているかを判定する自動採点プログラムを用意したことだ。
公開以来、どのAIも1問も解けていない——この「ゼロ点」の現状こそが、逆に問題集の価値を証明している。
FirstProofチームも引く気配はなく、3月14日に難易度がさらに狂った第2ラウンドを開催すると公式発表した。
タオ・タオ:AIは私の「初級共著者」
では、数学界の絶対的な頂点に立つ人は、この嵐をどう見ているのか?
最新のインタビューで、タオ・タオ氏は非常に的確な位置づけを与えた:AIは今、私の「初級共著者」だ。
彼は2023年に2026年までにAIが論文の共著者レベルに達すると予測しており、当時は賛否両論だったが、現在は進捗が完全に合致し、やや先行していることさえある。
しかし、この肩書きよりも重要なのは、タオ・タオ氏が描写した全く新しい数学研究のパラダイムだ。
彼によれば、伝統的な数学研究は「ケーススタディ」のようなもので、一篇の論文が一つ二つの問題に固執して執拗に取り組む、これは数学家数百年間の働き方だ。しかし、AIによって数学家は初めて「大規模な調査(センサス)」を行う能力を得つつある。
同時に、数学研究には人間が極めて嫌う極めて煩雑な計算が大量に存在するため、数学家たちは頭を絞って賢い方法で回避しようとする。しかしAIはそれを嫌がらず、喜んでこれらの退屈な推演を根気強くすべて完了させてくれる。
AIが人間のワークフローに統合されると、これまで人々を尻込みさせていた障害は直接越えられるようになる。
また、別の次元では、AIは独自の能力——人間が触れる余裕のない問題の長裾(ロングテール)を体系的にスキャンする能力——を示している。
エルデーシュが残した1000以上の数学問題を例にとると、AIはそれらを最初から最後まで走査し、突破可能な問題を選んで一つ一つ撃破することができる。
人間には不可能だが、AIには可能だ。しかも、すでにそうしている。
タオ・タオ氏は、AIの解答プロセスから自分が学んだことさえ認めている。
おそらく、私が見たことのない1960年の論文にある小さなテクニックを使ったのかもしれない。それは人間の専門家が一目見て試そうともしないことを実行できるのだ。
次のカウントダウンはすでに始まっている
この嵐全体を振り返ると、一筋の明確な主線が浮かび上がってくる:
FrontierMathが急速に制覇され、FirstProofでAletheiaがゼロ人間介入で6問を制し、タオ・タオ氏がAIが自分の「初級共著者」であると認めた。
すべてのシグナルが同一の事実を指している:
AIが不可逆的な姿勢で、人類の数学研究のコアプロセスに埋め込まれつつある。
そして最も興味深いのは、Epoch AIの現在「ゼロ点」に留まる「Open Problems」問題集だ。
その存在自体が隠喩になっている:
人類が今、AIを試すために使える最後の武器は、自分たちも答えを知らない問題だ。
この防衛線はあとどれくらい持つだろうか?誰も保証できない。
しかし、一つだけほぼ確実なことがある——
3月14日にFirstProof第2ラウンドチャレンジが始まった瞬間、今日のこの記事のすべての数字は、すでに古くなっている可能性がある。
参考資料:https://x.com/rohanpaul_ai/status/2026559039241597070?s=20
https://www.theatlantic.com/technology/2026/02/ai-math-terrance-tao/686107/