Googleが「AI共同数学者」を発表:最高難度の数学ベンチマークでSOTAを更新、オックスフォード大教授と数十年未解決の問題を克服

画像

群論の分野で数十年にわたり未解決だった第21.10号問題が、Google DeepMindの新しいエージェントシステム「AI Co-Mathematician」の支援を受けて、オックスフォード大学の数学者マーク・ラッケンビー氏によってついに解決されました。

これまでの数学研究では、研究チームは問題の境界を繰り返し確認し、どの文献が本当に関連しているかを判断し、小規模な計算実験を通じて直感を養う必要がありました。AIの数学的能力向上も、推論能力の強化、形式証明の成熟、ツール活用の簡便化といった部分的な能力に留まっていました。しかし、これらの能力は持続的な研究プロセスに組み込まれてはいませんでした。

AI Co-Mathematicianが解決しようとしているのはまさにこの点です。単に推論の一手順を答えたり証明の一部を補完するだけでなく、長期的な共同研究を可能にするマルチエージェントのワークベンチを構築することを目指しています。この群論問題の解決において、AIは直接的な解答を提供したわけではなく、非常に示唆に富む証明の方針を提示しました。不完全な草稿の中に、オックスフォード大学の数学者マーク・ラッケンビー氏は突破口を見出し、エージェントとのやり取りを繰り返すことで、ついに問題解決へと漕ぎ着けました。

この新しいエージェントの発表に際し、Google DeepMindの研究チームは論文の中で、AI Co-Mathematicianが最も難易度の高い数学ベンチマークで最高性能(SOTA)を更新し、FrontierMath Tier 4において48%の正答率を達成したと述べています。これは、このエージェントの参加が共同研究のあり方を変えただけでなく、定量化可能な性能向上ももたらしたことを示しています。

Image

論文リンク:https://arxiv.org/abs/2605.06651

AI Co-Mathematician:長期共同研究を可能にするマルチエージェントワークベンチ

AI Co-Mathematicianは、数学研究のために特別に設計されたマルチエージェントシステムです。

論文によると、このシステムでは、ユーザーは主に最上位のプロジェクト調整エージェントと対話します。このエージェントは、まず問題の境界を明確にし、研究目標を確認した上で、タスクを異なるワークフローに分割して割り当てます。各ワークフローはさらに、文献検索、コード実験、証明試行、結果レビューなどのサブエージェントを呼び出し、中間結果を共有ファイルシステムに書き戻します。最終的に提供されるのは、文脈が失われやすい単なる対話ログではなく、傍注、出典情報、内部リンク、レビュー痕跡が保持された、継続的に更新される研究文書です。

Image

図|典型的なAI Co-Mathematicianのワークスペースにおける、各種エージェントの組織構造を示す簡略図。矢印は、ユーザーから情報を収集し、各エージェントへ指示を配布するための標準的な情報伝達経路を表します。

研究チームは、エージェントが失敗した仮説や行き詰まった方針、レビューで露見した欠陥を全て継続的に記録し、これらを単に破棄するのではなく、正式な研究コンテキストとして保存することを強調しています。彼らは、数学研究において「どの方法が機能しないか」という情報自体が重要であると提唱しています。そのため、失敗した探索は無視できるノイズではなく、その後の問題設定の見直し、戦略の調整、新たな研究経路の開拓を行う上での重要な根拠となります。一つの研究目標に対し、このシステムは複数のワークフローを並行して進めることができ、必要に応じていつでもワークフローを追加できます。各ワークフローは段階的な進捗を継続的に報告し、レビュー済みのレポートを生成します。もし、あるワークフローが最終的にタスクを完了できなかった場合、システムは明確な警告を発します。

Image

図|単一のワークフローは、ワークフロー調整エージェントによって実行される一連のアクションから成り、プロジェクトの状態やユーザーインターフェースの更新を引き起こす可能性があります。

同時に、研究チームは「不確実性の管理」にも制約を設けています。コードがテストに合格しなければ完了とは見なされず、レポートがレビューに合格しなければ最終確定できません。もし研究経路が長期間停滞した場合、エージェントはその問題をユーザーに明確に提示しなければならず、形式的に整った文書で論理的な欠陥を覆い隠し続けてはなりません。

Image

図|研究課題と目標が決定されると、プロジェクトコーディネーターは目標達成に向けて各ワークフローを編成します。

最高難度の数学AIベンチマークでSOTAを更新、実際の数学研究に貢献

ベンチマークテストにおいて、AI Co-MathematicianはFrontierMath Tier 4で48%の正答率を達成し、このベンチマークにおけるAIの新たな最高性能(SOTA)スコアを記録しました。具体的には、公開サンプル問題2題を除いた48題の非公開問題のうち、23題に正答しました。

FrontierMathは、Epoch AIが開発した高難度の数学ベンチマークで、現代数学の複数の分野を網羅する350題のオリジナル問題で構成されています。このうち最も難しいTier 4はわずか50題です。Epochのチームは、このレベルの問題の中には、AIが今後数十年にわたって解決できない可能性があり、人間の専門家でさえ1題解くのに通常数日を要するものもあると説明しています。

これに対し、基盤モデルであるGemini 3.1 Proの同じテストでの正答率は19%でした。さらに研究チームは、正答した23題のうち3題は、これまで評価されたどのシステムにも解けなかった問題であることを強調しています。

Image

図|Gemini 3.1 Pro、Gemini 3.1 Deep Think、そしてAI Co-Mathematician(同じくGemini 3.1ベース)の、内部の研究レベルの数学ベンチマークテストにおける正答率スコア。

実際の使用事例も注目に値します。研究チームは、これらの結果はすべて数学者自身によって直接達成されたものであり、Google DeepMindの研究者が介在することはなかったと指摘しています。

その中で、オックスフォード大学の数学者マーク・ラッケンビー氏は、このシステムを活用して「Kourovka Notebook」の第21.10号問題の研究を進展させました。数学者セモン・レズチコフ氏はハミルトン系の関連部分問題において、鍵となる補題を含む証明方針を得ました。数学者ゲルゲイ・ベルツィ氏は、スターリング係数問題に関する証明の試行と計算上の証拠を獲得しました。ただし、ベルツィ氏の研究において関連する証明は、論文中で依然として「詳細な人間によるレビュー中」と注記されており、レズチコフ氏の研究比較も主に個別事例の経験に基づくもので、対照実験ではありません。これは、研究ループにおけるこのモデルの協働形態がすでに現実的な価値を持ちつつあることを示していますが、エージェントがすでに安定的かつ独立的にオープンな数学研究を完了できると直接的に結論付けることはできません。

課題と今後の方向性

研究チームは、このエージェントシステムの欠点も認めています。

例えば、複数回のレビューが必ずしも、より信頼性の高い結果をもたらすとは限らない点です。元々欠陥があった論証が、修正を重ねるうちにまるで「レビューを通過した」かのように見えてしまうことがありますが、実際の欠陥は解消されていません。また、異なるエージェント間で合意形成が遅々として進まず、エージェントが際限のない修正と却下のループに陥り、推論の質がかえって低下し続ける場合もあります。

同時に、このエージェントシステムは現在、人間の継続的な介入なしに長期的な研究タスクを安定的に完了することはまだできません。長時間の自律稼働は、ユーザーが一部の制御権を手放すことも意味しますが、現在のモデルは予期せぬ困難に直面した際、どこで停止し、いつ助けを求めるべきかの判断力が、人間の研究者に比べて著しく劣っています。さらに、精巧に組版されたLaTeX文書は、簡単に「内容が厳密である」という錯覚を引き起こします。

加えて、研究チームの今後の方向性に関する見解も、比較的控えめなものです。彼らは、次の重要なステップは単に強力な結果生成能力を追求することではなく、協働効果やステートフルな探索能力、不確実性の厳格な管理を測定するための新たな評価フレームワークを開発することだと考えています。それと同時に、自動化されたアウトプットがもたらすセマンティックノイズをどのように制御し、ピアレビューの負担を軽減し、論文の価値に対する人間の総合的な判断力を維持するかも、将来の研究者が直面しなければならない問題です。

AI Co-Mathematicianは、難問を単独で克服できる「数学者」になりつつあるというよりも、むしろ別の可能性を顕在化させつつあると言えるでしょう。それは、長く曲がりくねり、試行錯誤に満ちた研究プロセスにおいて、AIが人間が継続的に協働できる対象として存在する、という可能性です。

画像
関連記事

分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.