您想知道的人工智慧乾貨,第一時間送達
轉自新智元,僅用於學術分享,如有侵權留言刪除
編輯:傾傾
【導讀】十年前,AlphaGo 的神之一手讓專業棋手當場沉默;十年後,Demis Hassabis 說:那一刻,我們知道 AI 已經準備好去做真正重要的事了。從蛋白質摺疊到數學奧林匹克金牌,AlphaGo 開創的技術路徑正在重塑科學本身。
2016 年 3 月,首爾。
圍棋世界冠軍李世石,他的對手是一台程式。
第二局,第 37 手落下,無論哪位職業棋手都不會下在這裡。
解說員一度以為這是操作失誤,但在一百多手之後,AlphaGo 贏了。
當晚有2 億人在看這場比賽的直播,全場的沉默持續了近一分鐘。
十年後,Demis Hassabis 在回顧這段歷史時說,它下出「第 37 手」這一刻,他意識到:技術已經準備好了。
不是準備好贏圍棋,而是準備好去攻克真正的科學難題。
那個判斷,現在看來完全正確。
數億種局面,一次窮舉都沒有
圍棋棋盤上有 10 的 170 次方種可能的局面,這個數字遠超宇宙中所有原子的總數。
傳統的窮舉 + 剪枝方法,在國際象棋上已經走到了極限,在圍棋面前根本不夠用。
AlphaGo 把深度神經網絡、強化學習、蒙地卡羅樹搜尋合在一起。
先從人類棋譜中學習哪些落子是合理的,建立一個初步的直覺模型。
然後自我對弈數十萬局,讓強化學習機制不斷強化勝率更高的策略。
最後在實戰中只搜尋最有價值的分支。
這套組合的本質是用學習代替規則,用搜尋代替蠻力,讓 AI 從經驗中湧現出超越人類經驗的策略。
AlphaGo 之後,DeepMind 繼續推進。
AlphaGo Zero 完全拋棄了人類棋譜,從隨機落子開始自我學習,最終成為史上最強棋手。
再往後是 AlphaZero。同一套系統,從零開始,幾小時之內學會了國際象棋,並且擊敗了當時最強的專用象棋引擎 Stockfish,同時還下出了人類棋手從未見過的新策略。
Hassabis 對這段歷史的總結只有一句話:
這證明了方法是對的,是時候用到真實世界了。
從棋盤到實驗室:AlphaGo 的技術遷移
AlphaGo 證明了,AI 可以透過學習 + 搜尋找到人類從未有過的解。
這個方法,在科學領域的遷移直接且強力。
蛋白質摺疊
這是人類研究了 50 年的難題。
蛋白質從胺基酸序列摺疊成三維結構,決定了它的功能。
理解這個結構,對於攻克疾病和開發新藥至關重要,但預測計算量巨大。
2020 年,AlphaFold 2 解決了這個問題。
隨後,DeepMind 把2 億個已知蛋白質的結構全部預測出來,放進開源資料庫,免費向全球開放。
現在,全球超過300 萬名研究人員在用 AlphaFold 資料庫工作。
2024 年,Demis Hassabis 和 John Jumper 因此獲得諾貝爾化學獎。
數學推理
這是 AlphaGo 最直接的傳承方向。
AlphaProof 用語言模型加上 AlphaZero 的強化學習和搜尋演算法,學習證明形式化的數學陳述。
它本質上和 AlphaGo「找最優解」是同一套框架,只是搜尋空間從棋盤換成了數學命題空間。
2025 年,AlphaProof 和 AlphaGeometry 2 聯手,首次在國際數學奧林匹克中達到銀牌水平。
後來,Gemini Deep Think 走得更遠。
它用一套受 AlphaGo 啟發的方法,在 2025 年 IMO 上拿下了金牌。
演算法發現
AlphaEvolve 是這個方向的代表。
就像 AlphaGo 搜尋下一步最優落子,AlphaEvolve 搜尋的是「下一個更高效的演算法」。
它找到了一種新的矩陣乘法方式。這是驅動幾乎所有現代神經網絡的基礎操作,被研究了數十年,AlphaEvolve 發現了人類從未找到過的方案。
Hassabis 把這稱為「AlphaEvolve 的第 37 手時刻」。目前它正在被用於優化數據中心和量子計算問題。
科學協作
AI 協作科學家系統(AI co-scientist)將 AlphaGo 的辯論式搜尋原則嵌入科研流程。
它讓多個 AI 智慧體「辯論」科學假設,篩選最有價值的方向。
在帝國理工學院的驗證研究中,這套系統分析了數十年的文獻,獨立推導出了研究人員花了數年時間才驗證出的同一個抗菌素耐藥性假設。
十年後,AlphaGo 在 Gemini 裡延續
AlphaGo 證明的那套方法,現在正在 Gemini 裡運行。
最新一代 Gemini 模型的推理機制,用到了 AlphaGo 和 AlphaZero 開創的搜尋與規劃技術。
Gemini 從一開始就被設計為多模態。不是把圖像和音頻轉成文字再處理,而是直接在多種模態上同時建立對世界的理解。
在 Hassabis 的設想中,通向 AGI 的路徑需要三件事同時成立:Gemini 提供的世界模型,AlphaGo 式的搜尋和規劃能力,以及 AlphaFold 這類專用工具的協同調用。
這三者加在一起,才是「真正通用」的 AI。
他在文章裡還講了一個更高維度的標準:
真正的 AGI,不只是能在圍棋裡找到人類從未想到的策略,而是能發明一款像圍棋一樣深邃、優雅、值得人類研究幾百年的遊戲。
這兩件事的差距,大約就是「找到答案」和「提出問題」之間的距離。
目前的 AI 在前者上已經走得很遠,後者還沒人知道需要多久。
文章末尾,Hassabis 引用了李世石本人的話。
這位曾被 AlphaGo 擊敗的世界冠軍,如今是韓國蔚山科學技術院的兼職教授。他這樣評價那場比賽:
我認為 AlphaGo 給出的最重要的啟示,是對人工智慧時代的一次決定性預告——證明了這不是某個遙遠、模糊的未來,而是一個正在到來的現實。它就像一份來自未來的路線圖,向人類發出了清晰的信號:世界正在改變。
十年過去了,那張路線圖上的很多節點,DeepMind 已經走到了。
從蛋白質摺疊到數学金牌,從演算法優化到 AI 協作科研,AlphaGo 的技術遺產已經溢出了棋盤,滲進了科學本身的運作方式裡。
下一個「第 37 手」,會發生在哪裡?
Hassabis 沒有給出答案,但他說,目標已經在地平線上了。
參考資料:
https://x.com/GoogleDeepMind/status/2031399096267718847
文章精選:
1. 強化學習之父、圖靈獎得主 Sutton 隔空回應 圖靈獎得主 Hinton:目前的 AI「理解不足,調參有餘」
2. 警鐘敲響!圖靈獎得主 Hinton 最新萬字演講:怒懟喬姆斯基、定義「不朽計算」、揭示人類唯一生路
3. 警鐘敲響!圖靈獎得主 Hinton 最新萬字演講:怒懟喬姆斯基、定義「不朽計算」、揭示人類唯一生路
4. 圖靈獎和諾貝爾獎雙料得主傑弗里·辛頓:《AI 和我們的未來》完整演講影片 + 文字
5. 圖靈獎和諾獎雙料得主辛頓最新演講:別嘲笑 AI「幻覺」,你的記憶本質也是一場「虛構」
6. 圖靈獎得主理查德·薩頓(Richard Sutton)最新演講:大模型只是一時狂熱,AI 的真正時代還沒開始
7. 圖靈獎得主 Bengio 預言 o1 無法抵達 AGI!Nature 權威解讀 AI 智能驚人進化,終極邊界就在眼前
8. 圖靈獎得主、強化學習之父 Rich Sutton:大語言模型是一個錯誤的起點