2016 年 3 月、韓国ソウル。
囲碁の世界チャンピオン、李世石九段の相手を務めたのは、1 つのプログラムでした。
第 2 局、第 37 手が打たれました。プロの棋士であれば誰もその手は選びません。
解説者は当初、操作ミスではないかと疑いましたが、その 100 手以上も後に AlphaGo が勝利を収めました。
その夜、この対局の生中継を視聴していたのは2 億人。会場には 1 分近く沈黙が続きました。
10 年後、デミス・ハサビス氏はこの出来事を振り返り、あの「第 37 手」が打たれた瞬間、技術は準備ができたと悟ったと語っています。
囲碁に勝つ準備ができただけでなく、真の科学的難題に挑む準備が整ったのです。
その判断は、今や完全に正しかったと証明されています。
囲碁の盤上には 10 の 170 乗通りもの可能な局面が存在し、この数は宇宙に存在する全原子の総数をも凌駕します。
伝統的な総当たりと枝刈りの手法は、チェスでは限界に達していましたが、囲碁の前では全く役に立ちませんでした。
AlphaGo はディープニューラルネットワーク、強化学習、そしてモンテカルロ木探索を組み合わせました。
まずは人間の棋譜からどの手が妥当かを学習し、直感的なモデルを構築します。
次に数十万局の自己対戦を行い、強化学習の仕組みで勝率の高い戦略を強化していきます。
最後に実戦では、最も価値のある分岐のみを探索します。
この組み合わせの本質は、ルールではなく学習に頼り、力業ではなく探索に依存することで、AI が経験から人間の経験を超えた戦略を生み出させることにあります。
AlphaGo の後、DeepMind はさらに研究を推進しました。
AlphaGo Zero は人間の棋譜を完全に捨て去り、ランダムな手から自己学習を開始。最終的に史上最强の棋手となりました。
さらにその後は AlphaZero へ。同じシステムがゼロから数時間以内にチェスを習得し、当時最強の専用チェスエンジン Stockfish を破り、人間がかつて見たことのない新たな戦略を生み出しました。
ハサビス氏によるこの歴史の要約は、ただ一言です。
「この方法が正しいと証明された。今こそ、現実世界に応用する時だ」
AlphaGo は、AI が「学習+探索」によって人間が到達しえなかった解を見つけられることを証明しました。
この手法は、科学分野へも直接的かつ強力に移転されています。
これは人類が 50 年間にわたり挑んできた難問です。
タンパク質がアミノ酸配列から 3 次元構造へと折りたたまれるプロセスが、その機能を決定します。
この構造を理解することは、疾病の克服や新薬の開発に不可欠ですが、その予測計算には膨大な計算量が必要でした。
2020 年、AlphaFold 2 がこの問題を解決しました。
その後、DeepMind は既知の2 億個のタンパク質構造をすべて予測し、オープンソースデータベースに登録。世界中で無料公開しました。
現在、世界中で300 万人以上の研究者が AlphaFold データベースを利用して研究を進めています。
2024 年、デミス・ハサビス氏とジョン・ジャンパー氏はこの功績によりノーベル化学賞を受賞しました。
これは AlphaGo から最も直接的に派生した分野です。
AlphaProof は、言語モデルに AlphaZero の強化学習と探索アルゴリズムを組み合わせ、形式化された数学的命題の証明を学習します。
本質的には AlphaGo が「最適解」を探すのと同じ枠組みであり、探索空間が盤上から数学的命題の空間に変わっただけです。
2025 年、AlphaProof と AlphaGeometry 2 は連携し、初めて国際数学オリンピック(IMO)で銀メダルレベルの成績を収めました。
その後、Gemini Deep Think はさらに先へ進みました。
AlphaGo に触発された手法を用い、2025 年の IMO で金メダルを獲得したのです。
この分野を代表するのが AlphaEvolve です。
AlphaEvolve は、ほぼすべての現代ニューラルネットワークの基盤となる行列演算の新たな方法を発見しました。数十年にわたり研究されてきたこの分野で、人類がかつて発見しえなかった手法を AlphaEvolve が見つけ出したのです。
ハサビス氏はこれを「AlphaEvolve による第 37 手の瞬間」と呼んでいます。現在、データセンターや量子計算の問題最適化に活用されています。
AI 協働科学者システム(AI co-scientist)は、AlphaGo の議論型探索の原則を研究プロセスに組み込んだものです。
複数の AI エージェントに科学的仮説を「議論」させ、最も価値のある方向性を選別します。
インペリアル・カレッジ・ロンドンでの実証研究では、このシステムが数十年分の文献を分析し、研究者たちが数年かけて検証したのと同じ抗菌薬耐性の仮説を独自に導き出しました。
AlphaGo が証明した手法は、現在 Gemini の中で動作しています。
最新世代の Gemini モデルの推論メカニズムには、AlphaGo や AlphaZero が切り開いた探索・計画技術が採用されています。
Gemini は最初からマルチモーダルとして設計されています。画像や音声をいったんテキストに変換するのではなく、複数のモダリティ上で直接世界理解を構築します。
ハサビス氏の構想では、AGI への道筋には 3 つの要素が同時に成立する必要があります。Gemini による世界モデル、AlphaGo 型の探索・計画能力、そして AlphaFold のような専用ツールの連携です。
この 3 つが揃って初めて、「真に汎用的」な AI となります。
ハサビス氏はさらに高次元な基準を提示しています。
「真の AGI とは、囲碁で人間が思いつかなかった戦略を見つけるだけでなく、囲碁と同じくらい深遠で優雅、人類が数百年も研究するに値するようなゲームを『発明』できる存在であるべきだ」
この 2 つの差は、およそ「答えを見つけること」と「問いを立てること」の距離に相当します。
現在の AI は前者においてはるかに進んでいますが、後者までにはまだどれほどの時間が必要か、誰にもわかりません。
記事の最後でハサビス氏は、かつて AlphaGo に敗れた世界チャンピオン、李世石氏自身の言葉を引用しています。現在、李氏は韓国・蔚山科学技術院の客員教授を務めています。
「AlphaGo が示した最も重要な教訓は、人工知能時代への決定的な予告だった。それは遠く曖昧な未来ではなく、まさに到来しつつある現実だと証明した。未来からのロードマップであり、人類への明確な信号だった。世界は変わりつつある」
10 年が過ぎ、そのロードマップ上の多くの地点を、DeepMind はすでに到達しています。
タンパク質の構造予測から数学の金メダルへ、アルゴリズムの最適化から AI による共同研究まで。AlphaGo の技術的遺産は盤上を飛び出し、科学そのもののあり方の中に染み込んでいます。
次の「第 37 手」は、どこで生まれるのでしょうか?
ハサビス氏は答えを明かしていません。しかし、目標はすでに地平線上にある、と語っています。
おすすめ記事:
1. 強化学習の父・チューリング賞受賞者サットン氏、同じくチューリング賞受賞者ヒントン氏に遠隔回答「現在の AI は理解不足で、パラメータ調整過多」