ChatGPTの数学進化の道！OpenAI研究員が語る：数も数えられなかったChatGPTがエルデシュ問題に新解法を提示するまで。数学はモデル進歩の重要なベンチマーク。AI自動化研究員の展望。

編集｜玉澄

ChatGPTの数学力は、どうやって「計算もおぼつかない」状態から、フィールズ賞受賞者を支援できるまでに向上したのか？

OpenAIの公式ポッドキャストで、社内研究員のセバスチャン・ブベック氏とアーネスト・リュウ氏がこの疑問に答えた。誰もが気になっていることだからだ。

リュウ氏は最近OpenAIに研究員として加わったばかり。以前はカリフォルニア大学ロサンゼルス校（UCLA）の数学教授で、最適化と機械学習理論を研究していた。彼はChatGPTで数学の未解決問題を解こうと試みた最初の一人だ。

2025年、彼はChatGPTを活用し、数学界を42年間悩ませてきたネステロフ加速勾配法の問題を解決した。対談で彼は、以前は自分だけで40時間以上費やして失敗したが、GPTとの協業ではわずか12時間でこの難問を解決できたと語った。

もう一人のゲスト、セバスチャン氏はプリンストン大学で教授を務め、マイクロソフトにも在籍した経験を持ち、数学研究に20年近く携わっている。OpenAI入社後は、AIが数学研究をどう支援できるかの理解と、困難な数学問題解決におけるAIの進歩評価に尽力してきた。

ポッドキャストの冒頭で、両氏は「2025年夏にChatGPTが国際数学オリンピックで金メダル級の成績を収めた」ニュースが数学界に大きな衝撃を与えたとの認識で一致した。ChatGPTの登場は2023年だったことを考えれば当然だ。さらに2025年初頭には、アーネスト氏がChatGPTに、3人でのキャンプ費用の割り勘や、異なるタイムゾーンの参加者を考慮したオンライン会議の時間設定を依頼しても、うまく計算できなかったのだ。

ChatGPTの数学的進歩はなぜこれほど速いのか？セバスチャン氏の答えはこうだ。OpenAIでは単なるモデルの大規模化（スケーリング）だけでなく、多くの研究と技術革新を行ってきた。多くの要素が複合的に作用した結果であり、一概には言えないようだ。

しかしセバスチャン氏が強調したのは、「数学は過去4年間、モデルの進歩を観測する完璧なベンチマークだった」という点だ。そして現在でも「数学ができること」は推論モデルの目標であり続けている。なぜなら、数学問題の解決には長時間の思考が必要であり、その過程で論理的一貫性が求められるからだ。

また、数学界が広く注目した進展として、ChatGPTが数学者ポール・エルデシュの残した未解決問題のいくつかを解決できるようになったことが挙げられる。何千もの無関係な論文をスキャンし、全く異なる二つの数学分野の間に橋を架けることで、モデルは10件のエルデシュ問題の解答を導き出した。

当初、多くの数学者はこの事実を信じなかったが、今ではモデルが文献に存在しなかった10件以上の全く新しい解法を生み出すに至っている。セバスチャン氏いわく、それらの解法は「組合せ数学のトップジャーナルに十分掲載可能なレベル」だという。

対談では「自動化研究員」のビジョンについても語られた。これは、モデルまたはモデルの集合体が長期間にわたって自律的に作業するという構想だ。セバスチャン氏は、AIの思考時間はすでに「数秒」から「数分」、「数時間」、「数日」へと段階的に拡張されてきたと説明する。現在は「数日」から「1週間」の段階にあり、将来的には「数週間」、さらには「数ヶ月」の思考時間を実現したいとしている。

モデルが「自動化研究員」になったとき、人間の役割とは何だろうか？

セバスチャン氏の答えはこうだ。我々が問題を解くのは、より深遠な何かを理解しようとしているからであり、それは自らの環境をよりよく制御するためだ。「何が重要な問題か」という点において、我々はAIを制御し導き続けなければならない。例えば、「AIは病気を治そうとは思わない。彼らは我々のように病に苦しむことはない。しかし我々はそれを気にかけている」。これこそが非常に明るい未来につながると彼は言う。

未来に目を向けると、両研究員はAI時代の数学は、より多様な解法が生まれ、より楽しく、理論間の相互接続性が強まり、結論が検証されるスピードが上がり、より信頼性が高まると考えている。同時に、深い理解はこれまで以上に価値を持つようになる。専門知識を持たない人がAIを使うと、一見もっともに見えて実際には荒唐無稽な「幻覚証明」を生み出す危険性があるからだ。

それと同時に、彼らはAIの数学的能力が全ての科学分野に拡張され、科学者をより効率的かつパワフルにし、より優れた成果を達成できるようになることを期待している。

以下は、このポッドキャストの対談全文である。

LLMによる数学の進歩は職業数学者たちをも驚愕させた

アンドリュー・メイン：多くの人は、これらのモデルは数学が苦手だと思っていると思います。何しろ「言語モデル」ですから。この状況はどう変わったのでしょうか？何が起きたのですか？

セバスチャン・ブベック：ええ、ここ数年の進歩はまさに奇跡だと思います。心に留めておいていただきたいのは、2年前の我々には推論モデルすらなく、ましてや難しい数学の定理を証明できるモデルなど存在しなかったということです。そして2年後の今、これらのモデルは日常業務でフィールズ賞受賞者を支援できるようになっています。この飛躍は本当に驚異的です。もう一点付け加えるなら、この進歩には我々を含む全員が驚いているという事実が重要です。

一つ話をしましょう。1年半ほど前、私が数学者の同僚たちと会議のワークショップに参加したとき、大規模言語モデル（LLM）のスケーリングが重要な未解決問題の解決に役立つかどうかという討論に参加しました。約1年半前の討論で、会場の意見は真っ二つでした。実際、開始時に行われたアンケートでは、約80％の人が「いや、ありえない」と答えました。討論が進み、終了時にはその割合はほぼ50対50になっていました。その1時間でかなりの進展があったのです。

結果論ですが、これは明らかに大きな間違いでした。そのわずか8か月後、モデルは研究レベルの数学に取り組めるようになっていたのです。

アンドリュー・メイン：AIと数学の間に素晴らしい接点があると気づいた、あなたにとってのブレイクスルーの瞬間は何でしたか？

アーネスト・リュウ：2025年の夏、大きなニュースはChatGPTが国際数学オリンピック（IMO）で人間のトップレベルに到達し、金メダル級のパフォーマンスを見せたことです。それは驚くべきニュースでした。少なくとも競技数学レベルでは、モデルの論理能力が非常に高く、人間の最も優秀な高校生と肩を並べられることを証明したのです。しかし、競技問題は「パターン化された問題」です。解法は比較的短く、数時間以内に解くことが求められます。また、それらは独創的ではありません。問題が出題されるということは、必ず解答が存在するからです。ですから、それはまだ研究レベルの数学ではありませんでした。私は好奇心を抱き、多くの人も同様に疑問に思いました。ChatGPTは研究レベルの数学ができるのか？ネット上では多くの議論が交わされました。それで私は、自分の問題で試してみようと思ったのです。人から聞くよりも、自分自身が数学者なのだから、自分で試して判断しようと。

そこで私は、自分の専門である応用数学の一分野、最適化理論における古典的な未解決問題を選びました。具体的な問題は、ネステロフ加速勾配法と呼ばれる有名なアルゴリズムに関するものです。問題は、それが常にこの収束挙動を示すのか、それとも極端なケースでは、何らかの発散挙動が存在する可能性があるのかというものでした。この問題は真の未解決問題でした。なぜなら、ほとんどの場合においてアルゴリズムが良好に動作し収束することは分かっていましたが、人々は反例が存在するかどうかを本当に知らなかったからです。最悪のシナリオでは発散するのか？その答えは「イエス」であると証明されました。

どうやってそれを発見したか、非常にはっきりと覚えています。息子の就寝時間は夜8時で、私は真夜中を過ぎてまで起きていることはできるだけ避けています。そのため、何かに集中したい場合、通常は夜に4時間の個人時間があります。そこで私は、よし、この問題に数日間取り組もうと決めました。3日間、合計12時間にわたって、私はこの問題についてChatGPTと対話しました。プロンプトを入力すれば答えが返ってくるという単純なものではありませんでした。私は検証者の役割を果たしました。モデルが間違えるたびに、私はそれを修正しました。また、私が斬新だと思う方法論の領域に対話を導こうともしました。しばらくして証明が完成し、私はそれをチェックしました。ChatGPTにもダブルチェックさせましたが、結果は正しかったのです。こうして、42年間未解決だった問題が解決されました。解答を得た後、私にとって最も面白い発表方法は何だろうと考えました。論文を書くこともできましたが、それはあまり面白くありません。そこで私は、Twitter（現X）でこの件について話すことにしました。とても楽しかったです。これはAIが実際の数学の未解決問題を解決した最も初期の事例の一つだったと思うので、多くの注目を集め、本当に面白い経験でした。

2025年初頭までは、ChatGPTは通常の数学問題で依然として不十分だった

アンドリュー・メイン：あなたがその点を指摘するのは興味深いですね。「おい、何かクールなもの、あるいは斬新なものを発見したぞ」と言う人を時折見かけますが、それが暴かれることもあれば、精査に耐えることもあります。ソーシャルメディアは少し怖いものですが、このようなフィードバックループが必要なようです。私たちの多くにとって難しいのは、「国際数学オリンピック」のような言葉を聞いても、それが難易度の尺度として何を意味するのか理解しにくいことだと思います。私なら四則演算は理解できます。モデルが、最初はどうにか対応できる程度の状態から、数学ができ、ツールを使いこなし、暗黙的に数学を理解するまでに至った例を挙げてもらえますか？

アーネスト・リュウ：2023年初頭にChatGPTが登場したとき、私はテストを始めました。モデルが通常の数学問題でどの程度のパフォーマンスを示すのか興味がありました。これには高校レベルの問題も含まれますし、日常生活で数学的な性質を持つ問題も含まれます。

例えば、こんなシチュエーションを想像してください。私たち3人がキャンプに行き、私がこれに支払い、アンドリューが別のものに支払ったとします。最終的に清算し、均等に費用を分担したい。ChatGPTはこれを計算できるでしょうか？17品目も購入した場合、これは中程度の複雑さです。2023年、2024年、そして2025年の初めでさえ、モデルはうまくできなかったと記憶しています。

別の例としては、私が韓国に、セバスチャンがパリに、アンドリューがカリフォルニアにいて、Zoom会議を設定したいとします。いつが適切でしょうか？こちらも同様に、2025年初頭の時点ではモデルはうまくできませんでした。

しかし突然、状況が変わりました。当時私はOpenAIにいなかったので、皆さんが具体的に何をしたのか完全に把握しているわけではありませんが、モデルは突然IMOの問題を解き始めました。さらに一歩進んで、研究レベルの問題も解き始めたのです。現在の私の評価はこうです。新しい数学理論を発見しようとしている職業数学者でない限り、もし物理学や化学の専門家で、複雑な数学（微分方程式や微分幾何学など）を使う必要があるが、新しい数学を発明しているわけではないのであれば、ChatGPTはあなたが必要とするすべての数学を処理できます。

基本的に、STEM分野の高度な数学ユーザーは誰でも、今やChatGPTを使って数学の問題を処理できるのです。それでもある程度の注意は必要です。結果が正しいかどうかをチェックし、シミュレーションを実行して再確認する必要があります。モデルは間違いを犯しますから。しかし今では、人々が解決したいと考える数学の問題の99％に対して、モデルは対応可能です。

アンドリュー・メイン：私がGPT-4のリリース作業に関わったとき、スケジューリングを例として使ったことがあります。3人のスケジュールを入れて、空き時間を見つけさせることはできました。しかし、それをさらに推し進めるのは難しかったです。なぜこのような変化が起きたのでしょうか？アーネスト氏は、突然モデルが強力になったのを発見したとおっしゃいましたね。その要因の一つに、計算機の使用などのツール活用があることは分かっています。しかし、モデル自体にも他の変化が起きたのでしょう。

セバスチャン・ブベック：先ほどお話しした討論に話を戻しますが、当時の論点は、LLMのスケーリングだけで数学研究のブレイクスルーが達成できるかどうかでした。それは誤った枠組みでした。私たちOpenAIでは、単なるモデルのスケーリングだけでなく、多くの研究と革新を行ってきました。昨年中頃に何が起こってモデルが突然数学問題を解けるようになったのかと問われれば、それは多くの要因が複合的に作用した結果なのです。非常に多くの研究を行い、それらすべてを同時に推し進めなければなりませんでした。ですから、単一の要因に帰することはできません。

アンドリュー・メイン：しかし、それは本当にツールを必要とせずに達成されたのですね。

セバスチャン・ブベック：ええ。アーネスト氏が進捗状況や、モデルが以前は扱えなかったスケジューリングの問題について述べたことを、もう一度強調する必要があると思います。2年前には推論モデルがなかったと言いましたが、4年前を考えてみてください。4年前はChatGPT登場以前です。当時GoogleがMinervaという数学モデルを発表したのを覚えています。私は驚きのあまり椅子から転げ落ちそうになりました。何にそんなに驚いたのか？平面上の点の座標をモデルに与えるだけで、それらの点を通る直線を引けたのです。今の時代にこれを話すと、ほとんどの人が理解に苦しむでしょう。「何を言ってるんだ？そんなのできて当然だろう？」と。ですから、物事がどれほど速く進展したかを、私たちは少し忘れてしまっていると思うのです。そして今、アーネスト氏が言うように、新しい数学を発明したいのでなければ、モデルは基本的に必要なレベルに達しています。さらに言えば、モデルが新しい数学さえも発明できる兆しも見え始めています。

LLMが数学をできることは、モデルの進歩を測る重要なベンチマークである

アンドリュー・メイン：それを分解してもらえますか？新しい数学の分野を開拓したり、新しい定理を証明したりすることに興味がある人以外にとって、これは他のことにどのような影響を与えるのでしょうか？科学への影響は？あなた方が取り組んでいる他の仕事への影響は？なぜこれが単に「わあ、すごい、問題が解けるようになった」ということ以上に、それほど重要なのでしょうか？

セバスチャン・ブベック：「数学ができる」ようになることは、モデル開発の過程において進捗を測るベンチマークとして非常に重要だと思います。数学の利点は、問題が非常に明確で曖昧さがないことです。問題の要求事項について全員が合意できます。これが第一の点です。第二に、答えの検証が可能です。モデルが答えを出せば、それが正しいか間違っているか、全員が意見の一致を見ます。研究レベルの評価はそれほど単純ではありませんが、研究レベル以下なら、評価は非常に簡単です。ですから、数学は過去4年間、モデルの進歩を観測する完璧なベンチマークでした。今では、この分野はかなり飽和してきたと言えるでしょう。では、モデルが数学をできるようになった今、次のステップは何かと問うことができます。

次のステップとして、モデルを数学に長けさせることは他の多くのことにもプラスになると言えます。その理由を説明しましょう。数学の重要な特徴の一つは、問題を解決するために、非常に長い時間、場合によっては数日、数週間、さらには数年も考えなければならないことです。この長時間の思考は、単に時間が長いだけでなく、思考プロセスが終始論理的一貫性を保つことを要求します。推論の連鎖のどこか一つでも間違いがあれば、証明全体が台無しになります。たとえそれ以降がすべて正しくても意味がありません。たった一つの破綻点が、証明全体を崩壊させるのです。この特性こそが、推論モデルが追求する目標となっています。すなわち、もし間違いを犯したとしても、それを自己修正できるようになることです。私たちは、数学を通じて獲得されたこの能力が他の分野にも応用されることを期待しています。これは、人間の場合とまったく同じです。なぜ人間に数学を学ばせるのか？面白いし、私は数学を愛し、これを生業としていることもあります。しかし、人間に数学を学ばせる理由はまったく同じで、それは非常に厳密な論理的思考能力を身につけさせることにあるのです。

アンドリュー・メイン：これらの発見について議論する新しい方法を考える必要があるのでしょうか？

アーネスト・リュウ：ええ。個人的には、ここ最近の進歩を研究コミュニティに広く伝えようと努めることも私の役割の一部だと思っています。元数学者であり、今はAIの先端で働いているという二重の背景があるからです。確かに、Twitterやソーシャルメディアは進展を説明するのに良い場所です。特に、この進歩のスピードがあまりにも速いからです。

ChatGPTがエルデシュ問題に解答

アンドリュー・メイン：例えば、エルデシュ問題と、それをめぐって起きた幾つかの論争について話ができますね。最初にアーネスト氏の例が出て、その後も他のいくつかの問題が解決されました。ポール・エルデシュとは誰なのか、ついでに紹介してもらえますか？彼がなぜそれほど特別なのか、そして彼の問題がなぜ興味深いのかを知りたい人も多いでしょう。

セバスチャン・ブベック：もちろんです。ポール・エルデシュは前世紀で最も多作な数学者の一人です。彼は1500本の研究論文を書いたと思います。彼は非常に独特な人物でした。家もアパートも持たず、ある大学から別の大学へと旅をして、新しい共同研究者を探していたのです。訪れた先では、基本的に質問を投げかけました。彼の才能は質問をすることにありました。彼の出す問題すべてが興味深いわけではありませんが、非常に示唆に富んでいました。研究コミュニティは彼と多くの論文を共著しました。「エルデシュ数」という概念さえあります。これは、共著者の連鎖の中で、あなたがエルデシュからどれだけ離れているかを示すものです。私のエルデシュ数は2です。私はエルデシュと共著したことがある人と共著したことがあります。

アンドリュー・メイン：わあ、それはすごいですね。

アーネスト・リュウ：私の数は3です。

セバスチャン・ブベック：彼と一緒に電車に乗って、降りる頃には論文を仕上げて共同署名しているかもしれない、というジョークもあります。

アーネスト・リュウ：その通りです。「2対3」というのが、基本的には私たちの年齢差を反映しているのでしょう。

セバスチャン・ブベック：ともかく、エルデシュはそうした問題をすべて残しました。トーマス・ブルームが、未解決のエルデシュ問題をすべて追跡する素晴らしいウェブサイトを立ち上げました。そのサイトには約1000の問題があります。トーマス自身が組合せ数学の専門家です。彼は問題に対して「これは未解決」、「これは解決済み」と明示できます。もちろん、彼がすべての問題の答えを知っているわけではありません。問題が「未解決」とマークされているからといって、本当に誰も解けないとは限りませんが、人々がコメントしたり解法を説明したりできる双方向のプラットフォームにもなり得ます。私たちがGPTに数学の研究問題を解かせ始めたとき、これはモデルを試すための宝庫のように見えました。いくつか試してみました。

大きな驚きだったのは、モデルが「未解決」とマークされた問題のいくつかに答えを出したことです。私たちはこれに非常に興奮しました。昨年の10月頃、私は「深い文献検索」の結果についてツイートしました。これが何を意味するか説明しましょう。GPTが極めて広範な文献検索を行い、数千もの論文をスキャンしたことを意味します。そして、ある無関係な分野でその問題の解答を見つけたのです。ここで重要なのは、無関係な分野で誰かが「エルデシュ問題を解決しています」と書いていたわけではない、という点を理解することです。それは完全に異なる言葉で書かれており、異なる数学分野に属していました。この二つの部分を結びつける作業が必要であり、GPTはそれをやってのけたのです。これは魔法のようです。当時はまだ、ChatGPTのインターフェース上で手動で試していたに過ぎませんが。これらを目の当たりにした後、我々のチームのマーク・セルケが、より体系的なアプローチですべての問題に挑むことを決意し、モデルは10件のエルデシュ問題の解法を提示しました。覚えておいてください、当時はモデルが最先端技術を超えて新しい数学を発見、発明できるかどうかについて、まだ激しい議論が交わされていたのです。

私はこの結果に非常に興奮してツイートしました。そのツイートは後に少し「悪名高い」ものになりました。人々が私の意図を誤解し、モデルが文字通り、文献に全く存在しない非常に困難な未解決問題10件に対する全く新しい解法を何もないところから考え出したと思ったからです。しかし、事実はそうではありませんでした。それは以前の状況、つまり「深い文献検索」に関連したものでした。当時は、このような結果をどう表現するかについて、GoogleのDemisとの間でちょっとした議論もありました。しかし、今ではその点は非常に驚くべきものとなっています。それから数か月後の今、私が言ったのは文献に存在する解法でした。では、ここで問題です。文献に全く存在しない解法を見つけることはできるのか？これまでに、我々は真に全く新しい解法を10件以上既に手にしています。これらは組合せ数学のトップジャーナルに掲載できる、完全にChatGPT、または我々の内部モデルによって導き出された解法なのです。これは再び加速を示しています。わずか数か月の間に、「エルデシュ問題を10問解けると言うのは馬鹿げている」という状況から、「それが実際に起こっており、加速している」という状況に変わったのです。

AIは科学進歩の本質に対する我々の理解を再定義させる

アンドリュー・メイン：これは非常に興味深いですね。なぜなら、第一歩はモデルに優れた文献調査ができるようにすることだったようです。これまでにも、「ここの問題は実は別の場所で既に解決されている」という文献調査の発見によって、多くの重要な論文が出され、賞が授与されてきました。ですから最初の一歩でそれを達成したのはクールですが、今や本当に独創的な研究を行っているのです。私がAI研究で非常に気に入っている点の一つは、それが知性や研究、進歩、そして我々がどのように新しいものを発見するのかといった重大な問いに向き合わざるを得なくなることです。特に、我々が科学で目にする進歩というのは、結局のところ、異なる断片を組み合わせ、少しの推論を加えただけのものなのか、それとも本当に天才的なひらめきが存在するのか、ということです。

セバスチャン・ブベック：もちろん、誰もがアインシュタインの相対性理論を指すでしょうが、正直なところ、それが本当に当てはまるかは分かりません。結局のところ、単純な「再結合」に「少しの思考」を加えるというプロセスによって、人類の知識が無限に増加し得るのか、それとも何らかの形で人間だけが持つとされる「天才のひらめき」が本当に必要なのかについては、まだ結論は出ていません。

アンドリュー・メイン：アインシュタイン自身も、誰かが考えたことの功績を認めています。誰だったか忘れましたが、その人は例え話と視覚化の手法を提案しました。彼は、それは自分が発明したものではなく、誰がやったかを明示し、自分はそれを明らかに一歩前進させただけだと言いました。我々は時に、こういう単純な小話に夢中になりすぎるようで、現実は往々にしてそれよりもずっと複雑です。

セバスチャン・ブベック：はい、全くその通りです。

アンドリュー・メイン：AIに優れた数学ツールが組み込まれた場合、より広範な科学者たちにとって何を意味するのでしょうか？それは生物学や材料科学などの他の分野にどのような影響を与えますか？

セバスチャン・ブベック：これが他の科学分野にどのように影響するかについては、この点を理解することが非常に重要です。我々は数学のためだけに何か特別なことをしているわけではありません。我々の技術とトレーニング手法は非常に汎用的であり、すべてに適用可能です。ですから、我々の予想としては、数学でより多くの進歩が見られる理由の一つは、ベンチマークが非常に容易で進歩が見えやすいからというだけであって、これが数学だけでなく、すべての科学分野で起こると完全に期待しているのです。

AI「自動化研究員」の構築：より長いタイムスパンで稼働するモデルを目指して

アンドリュー・メイン：AIは、「もしこれが真なら、あれも真である」といった推論と、そのような記述の長い連鎖を完成させるのが非常に得意なようです。これは他にも多くの応用があります。「自動化研究員」という言葉を聞いたことがあります。これについて詳しく話してもらえますか？

セバスチャン・ブベック：現在の我々の働き方は、まさにアーネスト氏が説明した通りで、実際には「インタラクション（対話）」です。これは教授と学生の関係に少し似ています。ChatGPTが学生で、教授が最初の問題を与え、学生が戻ってきてフィードバックし、対話します。学生はまた1週間研究に戻り、その後再び戻ってくる。もちろん、重要な点は、このモデルがタイムラインを大幅に圧縮していることです。アーネスト氏の問題解決の例では、12時間かかりましたが、ChatGPTがなかったら、どれくらいかかっていたと思いますか？

アーネスト・リュウ：AIがない状態で、既に40時間以上費やして失敗していました。すべて自分だけでやるとしたら、1か月はかかったかもしれません。

セバスチャン・ブベック：まさにそうです。つまり、ここにはタイムラインを圧縮する効果があるわけです。そして「自動化研究員」について語るとき、それは少し異なるビジョンです。モデルまたはモデルの集合体が、長期間にわたって自律的に作業できるようにするというビジョンです。現在の水準を超えようと思えば、これは不可欠です。「学生が1週間後に戻ってくる」ような教授と学生の対話モデルでは、真のブレイクスルーを達成したり、何年も未解決の研究難題を解決したり、ウェットラボとの相互作用や様々な実験を必要とする生物学のような極めて難しい分野で進歩を遂げることは難しいのです。真のブレイクスルーを追求しようと思った瞬間、我々はモデルがより長いタイムスパンで作業することを必要とします。まさにここで自動化研究員が介入してくるのです。

あるいは別の言い方をすれば、私が非常に気に入っている概念に「AGI時間」があります。AGI秒、分、時、日などを持つことができます。これは、人間の思考を模倣できるAIを持っているが、それがどれだけの時間持続できるかということを意味します。アーネスト氏が言ったように、2年前のモデルは、数分間の問題を考える高校生を模倣している程度だったかもしれません。今や我々は、数時間、あるいは数日間思考し続けることができる研究員を模倣できます。我々は本当にこの方向へ進みたいと考えています。そしてこの進歩は、過去4年間非常に一貫しており、文字通り思考時間が秒から分へ、時間へ、日へと拡張してきました。現在、我々はおおむね「日」から「1週間」の段階にいます。我々はこれを「週」や「月」へと拡張したい。これは未解決の研究課題であり、地球上で正確な方法を誰も知らないと思います。しかし、これは再びあの点に立ち返ります。我々は多くの研究と革新を行っており、すべてが噛み合ったとき、「AGI時間」における持続的な進歩の弧が見えてくると私は考えています。これが自動化研究員の方向性なのです。

アーネスト・リュウ：私が話した他の数学者たちのAIの使用パターンは、ChatGPTを開いて、そのコンテキストウィンドウ内で対話するというものです。複数のセッションを持つことはできますが、各セッションには有限のコンテキスト長があり、それは数学の論文約50ページ分に相当する容量です。これは、真に深遠な数学、先駆的な数学のブレイクスルーを成し遂げるには十分な長さではありません。多くの数学論文は50ページを超えますから。さらに、10ページや30ページの論文を生み出すために投入される人間の思考量は、通常、最終的なアウトプットよりも数桁多いものです。

ですから、有限のコンテキストウィンドウは一つの制約です。しかし、Codexを使ったことのある人なら分かるでしょうが、実際にはCodexで非常に長い作業セッションを行うことができます。あなたが書きたいコードについての指示を出し続ければいいのです。そしてあなたが扱っているコード自体、つまりコードベース（数学の文脈では、あなたが書いた数学ノートに相当します）は、非常に長くなり得ます。Codexはこの状況を扱うのが非常に得意です。時折、会話内容を圧縮し、巨大なコードベースと非常に長い会話のコンテキストにわたって、非常に複雑なタスクを達成する真に驚くべきエージェントになる方法を持っています。

数学研究でも同じことが起こると私は信じています。私たちは、大規模言語モデル（LLM）が50ページを超える思考プロセスを必要とする問題を解決できるようになるでしょう。これが人間の数学者のやり方です。ある問題について一日考え、アイデアをまとめてノートに記録し、翌日または翌週にまた研究に戻ります。何か月もかけて、長い時間考え抜かれますが、それは管理しやすいパターンにまとめられ、組織化されます。そして最終的に、最終的なアウトプットは、数か月、あるいは数年にわたる思考を要約した30ページの論文になります。

AIによる科学研究の加速

アンドリュー・メイン：ええ、それは起こると思います。週末に、皆さんにとっては非常に滑稽に見えるかもしれない問題に取り組んでいました。LLMを使って、小さなLLMに数学をさせる方法を見つけ出そうとしていたんです。途中でベンチマークが必要になり、「Easy Math」（小規模LLM向けのベンチマーク）を見つけましたが、それは単なる論文で、データがあまりありませんでした。Codexでの作業の途中で、「ここでベンチマークを作成して、データを生成してくれないか」と頼みました。5分後には手に入っていました。それは私にとって魔法のようでした。以前はジェネレーターを書くのに何時間も費やさなければならなかったからです。

セバスチャン・ブベック：もちろん、それはバックグラウンドで動作しているのです。皆さんが「大人レベル」の問題に取り組んでいる時の様子は想像もつきません。あなたが説明しているのは、まさに私たちが『GPT-5を用いた科学加速の初期実験』というタイトルの論文で追求したことそのものです。あなたが体験したのは、文字通りの「加速」です。以前なら数日かかっていたかもしれません。

アンドリュー・メイン：あるいは、単にあきらめていたでしょう。

セバスチャン・ブベック：ええ、それが核心です。これは、あらゆる分野の科学者に力を与えます。例えば数学者がコードを使えるようにする。我々の友人の多くはコードを書きませんが、今や突然Codexを手に入れました。彼らは、以前ならかわいそうな大学院生に頼むしかなかった実験を、すべて自分で遂行できます。今では非常に簡単にできるのです。逆に言えば、ChatGPTのおかげで、あらゆる分野の科学者がより高度な数学も使えるようになります。

重要な問題を解決するために、人間はAIを制御し導き続けなければならない

アンドリュー・メイン：以前、ボブ・メトカーフ氏と一緒に座って、Codexを使ってR言語を書く方法を教えたことがあります。彼があるプロジェクトに取り組んでいて、Rは彼にとって全くの初めてだったからです。偉大な頭脳を持つ人を連れてきて、「ほら、細部に何時間も費やす必要はない、これが道具だ」と伝えるのは非常に興味深い経験でした。しかしもちろん、先ほどお話しがあったように、これらすべてにおける人間の役割について議論すべきです。特に未来について考え始めるときには。私は未来予測に夢中になるよりも、既に起こったことを説明する方が好きですが…。何が起こると思いますか？

セバスチャン・ブベック：これには私の直感と理性的な考察の両方があります。理性的な考え方はこうです。見てください、過去4年間の進歩は非常に一貫しています。数秒の数学問題を解くところから、数分、数時間、数日へと。この傾向が止まる理由は何もありません。現状を観察している人なら誰でもこう言うでしょう。「1年後には、数週間考え続けられるシステムができているだろう。2年後には、数年考え続けられるシステムができているだろう」。それだけではありません。今日、我々のモデルは、論文の誤りを指摘するなど、ある面で人間を超えることが可能であることが既に分かっています。内部的に、論文を見つけて「おい、これは実は間違っている。正しい答えはこれだ」と指摘できるエージェントが存在します。

それだけでなく、人々はAIは質問に答えるのが得意なだけだと考えがちです。そうではなく、「質問をする」ことも非常に得意です。もちろん、これには幾つかの研究革新が必要であり、我々はそれを達成しました。今や我々のモデルは質問をするのが非常に得意で、人間がその質問を見て「おや、多分この質問を元に論文を書くべきかもしれない」と言うレベルにまで達しています。これは既に起きています。言いたいのは、1、2年後には、人間の研究者が行っているほぼすべての作業をモデルが完了できるようになるかもしれない、ということです。では、その次は何でしょう？人間の役割とは何でしょうか？なぜ我々は科学を営むのでしょうか？その意義は何でしょうか？意義は、問題を解くことだけを目的とすることにあってはなりません。我々が問題を解くのは、何かを「理解」しようとしているからです。

理解こそが鍵です。我々が論文を書くためだけに、あるいは隣人よりも10倍多くの論文を書いたことを証明するために問題を解くのではありません。それが本質ではありません。もし問題を解くこと自体が好きなら、競技チェスに参加すればいいのです。我々はより深遠な何かを理解しようと試みているのです。なぜ深遠なことを理解するのか？それは、身の回りの環境をより良くコントロールしたいからです。病気を治したいし、物事をより良く、より速く、より強固に作りたい。ですから私は、「どのような問題が重要か」という点について人間が制御を維持し導き続ける限り、我々は非常に明るい未来を迎えると思います。AIは病気を治すことなど気にかけません。彼らは我々のように病気に苦しめられたりしません。しかし我々は気にかけている。だから、これらの問題を解決するよう我々が制御し導かなければならないのです。

AI時代の数学は、より面白く、より相互接続され、より信頼でき、より速くなる

アンドリュー・メイン：最初のコンピューターが登場したとき、「計算手」という職業が実際の機械に取って代わられた時、ある人々は我々は皆数学から物理学に転向しなければならないと考えました。物理学には難問があるが、数学の難問はすべてコンピューターが解いてしまうだろう、と。それは1940年代、50年代の話ですが、そうはならなかったことが証明されました。計算は全く新しい分野を切り開きました。この傾向は続き、今日の高校生の数学者たちは、今まさに起きていることゆえに、30年後には非常にエキサイティングな未来を持っているのです。

アーネスト・リュウ：数学は非常に面白くなると思います。AI時代以前は、一つの問題を解くのに何か月も費やしました。楽しみはありますが、そのプロセスは非常に厳しいものです。それは苦痛で、非常に苦痛です。しかし真に解答を見つけたとき、ドーパミンが急増します。そしてこの経験は加速されるでしょう。より多くの解法、より多くの楽しみです。

そして、数学はより豊かになるでしょう。なぜなら、その相互接続性が強まるからです。研究レベルでは、多くの数学は非常に「ニッチ」です。論文を書くとき、現在生きている5人しか気にしないだろうと分かっています。しかし、その結果が好きだから発表します。20年後、それはどこかのアーカイブに埋もれ、誰にも読まれません。しかし今やAIが存在します。AIはそれを読むでしょう。もし何か有用なつながりがあれば、セバスチャン氏が述べたように、AIがそれを浮かび上がらせるでしょう。100年後の人々がそれを発見し、使うでしょう。ですから私は今、自分の発表した研究が、将来役立つものであれば必ず利用されると、より確信を持っています。同時に、より広範な方法で数学に触れることもできます。私が学んでいない分野もあります。しかしもし関連する結果が出てきて、以前ならそれを使う前にまずその分野を研究しなければならなかったとしたら、AIの支援なしではその結果を見つけることすらできなかったでしょう。しかし今ではそれが手に届きます。モデルが「ねえ、これを使えばあなたの問題を解決できるよ」と教えてくれ、私はそれを試すことができます。ですから、数学は相互接続性がより高い営みになるでしょう。

さらに、数学の正しさの検証は、実際には非常に複雑です。非常に重要な問題を解決したと主張する300ページの長さの証明を想像してみてください。著者の評判は良く、論文の表面上はもっともに見えます。それが正しいとどうやって断定できるでしょうか？この検証プロセスにはしばしば数年を要します。たった一人が読んだだけでは不十分であり、多くの人が読み、拡張を試み、詳細を深く掘り下げる必要があります。このプロセスは非常に遅いものです。時には、致命的な誤りのある証明が発表されることさえあります。その結果、分野全体が最初にその結果を受け入れ、後になってそれが救済不可能で、切り捨てなければならないことに気づくのです。AIがあれば、これは大幅に加速されるでしょう。現在のChatGPTや我々のAIモデルは数学の検証においてまだ完璧ではありませんが、既に非常に優れています。そして、人間よりも忍耐強いのです。

セバスチャン・ブベック：その通りです。事実として、発表された数学研究の多くには小さな誤りがあり、多くは大きな誤りさえあります。我々はモデルでテストしたのでそれを知っています。しかし、数学のより豊かな未来はAI検証を通じて実現されると私は考えています。我々は、どの結果が正しく、どれが間違っているかについて、より高い確信を持ち、より速いフィードバックを得るようになるでしょう。1週間前に発表された論文について、すぐに検証が得られるのです。我々は、それが正しいと確信するのに5年も待つことなく、安心してその上に構築することができます。総じて、数学はより面白く、より相互接続され、より信頼でき、より速くなり、数学者はより困難でより興味深い問題を解決するようになるでしょう。

AIへの過度の依存による浅薄化を防げ。深い理解はこれまで以上に価値がある

セバスチャン・ブベック：全く同感です。しかし、現在の進歩に伴う潜在的な危険性にも触れておきたいと思います。それは、我々が「城の鍵」をAIに渡してしまい、人間がスキルを習得するための厳しい訓練をせずにシステムを過度に信頼し始める可能性です。以前は結果を理解するために、何時間も、何日も、時には何週間も辛抱強く座り込んでいたのに、今ではChatGPTに簡単な言葉で説明させるだけで済ませてしまうかもしれません。私は、道具への過度な依存が理解の浅薄化につながることを恐れています。ですから視聴者の皆さん、そして全ての聴取者の皆さんがこの点を理解することが非常に重要だと思います。専門知識はこれまで以上に価値があるということです。我々がChatGPTからこれらの結果を引き出せたのは、長年の訓練とその分野への深い理解があったからこそです。これらがなければ、最先端技術の進歩を推し進めることはできません。その例は既に見てきています。何千人もの非数学者が突然新しい結果を証明できるようになったわけではないのです。実際、ソーシャルメディア上で、非数学者がこれらのツールを使って定理を証明しようと試み、数十ページにも及ぶ証明を書いたものの、すべて間違っていたという反例を目の当たりにしています。これこそが我々が立ち向かわなければならない危険なのです。

アンドリュー・メイン：これは多くのことにおいて問題になるようです。人々が現在のモデルを使うのは、往々にして自分が聞きたいことを強化するためだけという場合があります。「統一場理論のようなものを提唱しよう」といった具合です。どうなると思います？それはずっと難しいでしょうね。

アーネスト・リュウ：この「精神の萎縮」の問題は、プログラミングの分野でも非常に顕著です。私はコンピューター専門ではありませんが、授業を受けたこともありますし、自分でもコードを書いてきました。デバッガと格闘した経験がありますが、私と同年代のほとんどの人が経験しているはずです。しかし今では、大学の授業でさえそれを経験する必要がありません。これは非常に危険なことだと思います。

AIは若い世代がより早く科学の最前線に到達するのを助ける

アンドリュー・メイン：科学界の一部の人々が進歩について非常に楽観的で、「我々はもう科学者を必要としない」とまで言うのを耳にします。

セバスチャン・ブベック：いいえ、全く違います。わあ、その言い方は非常に恐ろしいですね。これを聞いている方は誰もそんなことを言わないでほしいと心から願います。それは我々が必要としていることとは正反対です。我々はこれまで以上に科学者を必要としています。その科学者たちはより効率的で、よりパワフルになり、より素晴らしい成果を上げるでしょう。しかし、彼らがその道の技量において非常に、非常に優れていることが必要なのです。明らかにOpenAIがすべてを賄えるわけではなく、既存の機関（アカデミア）には非常に重要な役割があります。アカデミアは進歩のスピードを理解すると同時に、このプロセスの中で自らの役割を取り戻す必要があります。

アンドリュー・メイン：私の希望と予想としては、より多くの人が科学分野に参入するようになると思います。人生の比較的遅い段階で参入を決意したとしても、集中さえすれば、世界最高のメンターを手に入れられるので、追いつくのがはるかに容易になるでしょう。OpenAIはChatGPTに視覚的な説明ツールを追加しました。AIモデルがあるベンチマークで頂点に立ったからといって、それで任務完了というわけではありません。それはまるで、「小学校の算数は解決した。おめでとう、AIは完成だ」と言っているようなものです。いいえ、次なるレベル、そのまた次なるレベルがあり、それらすべてに人間が必要です。

セバスチャン・ブベック：ええ、AIは若い世代がより早く科学の最前線に到達するのを助けるでしょう。もし私が十代の頃にChatGPTを持っていたら、想像もできません。当時、マクスウェル方程式を見て、「これは一体何を意味しているんだ？彼らはどうやってこれを思いついたんだ？」と思ったのを覚えています。今なら直接尋ねれば、非常に美しく説明してくれます。これは大きな意味を持ちますが、それでもなお、その上に努力を積み重ねる必要があります。

アンドリュー・メイン：コードベースなどで、人々が提出する修正が実際の修正になっていない、といったケースを見かけます。この問題をどう解決しますか？もし今私が数学関係者やジャーナルの編集者だったら、少し怖いと思うでしょう。

セバスチャン・ブベック：ええ、アーネスト氏も言っていたように、AIもまた助けになると考えています。システムの反対側にAIエージェントを配置して、すべての内容をチェックさせ、可能な限り検証させることができます。もちろん、論文やコメントの採否を決定するためにAIの検証を完全に信頼するわけにはいきませんが、AIエージェントに特定の潜在的な問題点をフラグ付けさせることは可能です。例えば、「おい、この部分はよく分からない」と警告するのです。これによりプロセスが加速され、基本的には人間が自ら検証しなければならない作業量を減らす助けになります。

アーネスト・リュウ：そして、数学やコードの社会構造に何らかの変化が必要だと思います。それは、コードを提出した人やエージェントを制御する人が責任を負うというものです。数学界には既に、誤った証明を発表すると評判を傷つけるという文化が存在します。署名入りの論文を発表するとき、あなたは自らの評判を担保にしているのです。私たちはこの種の制約をさらに必要としていると思います。

ChatGPTで数学を学ぶ：自分の盲点に沿って質問し、質問をさせる

アンドリュー・メイン：もし視聴者や聴取者の中に数学に興味があり、もしかすると自分は「数学の天才」タイプではないと感じているけれど、始めてみたいと思っている人がいたら、何と言いますか？

アーネスト・リュウ：ChatGPTと話してみてください。学習に興味があるなら、非常に役に立ちます。研究レベルであっても、新しい概念を学ぶ必要があるとき、習慣としてウィキペディアを調べますが、あれは非常に難解です。30秒もすると、「よし、ChatGPTに聞いてみよう」と思います。質問し、さらに掘り下げて質問します。そうすることで、非常に実用的な情報が得られます。その情報は、私の知識の中で欠けている部分に合わせてカスタマイズされています。なぜなら、自分の盲点に基づいて質問しているからです。

ChatGPTに自分の数学のバックグラウンド、読んだ本、学んだ教材について伝え、そして、あなたの専門レベルで理解できる未解決の問題を提案してもらうこともできます。セバスチャン氏もこの点に言及していましたが、これらの大規模モデルが優れた質問を投げかけられることに人々はまだ気づいていないと思います。しかし、私はそれが可能だと思います。ですから、数学や問題について対話できるパートナーがいれば、モデルに問題を解いてもらうことができます。一度答えが出たら、対話を続け、次の問題や関連するバリエーションを提案することができます。これにより、プロセスははるかに豊かなものになります。一人で部屋に閉じこもっていても、孤独なプロセスには感じられなくなります。そしてこれこそが数学の真の楽しみです。なぜなら、数学は本質的に社会的な営みだからです。

アンドリュー・メイン：面白いパズルもすごく楽しそうですね。私は人々に、「浴槽にM&M'sチョコレートが何個入るか」のような、ばかばかしい質問から始めてもいいんだよと伝えています。質問を始めると、次には「去年、何語読んだと思う？どうやって計算する？」といった質問につながります。そして素晴らしい会話が始められます。いつの間にか、あなたはますます複雑な数学に触れ始め、それが自分に与える影響を認識するようになるのです。お二人とも、本当に素晴らしい時間をありがとうございました。セバスチャン、アーネスト、感謝します。

セバスチャン・ブベック：ありがとうございました。

アーネスト・リュウ：ご招待いただきありがとうございます。

参考リンク：

https://www.youtube.com/watch?v=9-TVwv6wtGQ

ChatGPTの数学進化の道！OpenAI研究員が語る：数も数えられなかったChatGPTがエルデシュ問題に新解法を提示するまで。数学はモデル進歩の重要なベンチマーク。AI自動化研究員の展望。

関連記事

分享網址