DeepMind諾獎CEO最新訪談：現有大模型路徑不是死路，但大家都在用的暴力方法可能錯了；中國模型在開源領域已處於領先地位

編輯 | 玉澄

近日，谷歌 DeepMind CEO Demis Hassabis 現身 Y Combinator（YC）旗艦訪談系列節目《如何構建未來》（《How to Build the Future》）。

這一系列最早是由 OpenAI CEO Sam Altman 在幾年前發起，主要邀請科技領域頂尖人物，討論前沿技術、創業、AI 未來、科學突破等宏大話題。後來節目曾短暫中止，Garry Tan 接任 YC 總裁後將其重啟，繼續由他本人主持。

部分讀者可能對 Demis 已有了解，可能還有不熟悉他的讀者，這裡再簡單介紹一下：

Demis 小時候是一名西洋棋神童，17 歲時就設計出一款熱門電子遊戲《主題公園》。他畢業創業後又重返學術界取得了認知神經科學博士學位，當時專注於研究大腦中記憶和想像力的運作機制。

2010 年，他與人共同創立了 DeepMind，使命只有一個：攻克智慧。

從那之後，他們的成果 AlphaGo 擊敗了圍棋世界冠軍；AlphaFold 系列破解了生物學界 50 年的「蛋白質結構預測」難題，也由此讓他在 2024 年獲得了諾貝爾化學獎。現在，他領導著谷歌 Deepmind 構建 Gemini，朝著通用人工智慧（AGI）前進。

聽了這場訪談，小編發現他和 OpenAI 的創始人之一 Greg Brockman 在對 AI 的熱愛和使命感方面非常相似，他們都從年紀很小、AI被認為「行不通」的時候就認定研究 AI 是最有影響力的事情。

Demis 認為現有的主流大模型路徑並不是一條死路，像大規模預訓練、RLHF（基於人類回饋的強化學習）、思維鏈（Chain of Thought）這些範式會成為 AGI 最終架構的一部分。

他講到目前 AGI 的實現阻礙包括持續學習、長期推理和記憶等難題。

人類大腦在持續學習方面十分出色，在夢境周期中的快速動眼睡眠階段，海馬體高度活躍參與記憶回放，這能幫助鞏固記憶，將新知識融入已有知識庫之中。而當下模型仍缺乏這種持續學習機制，他認為這是阻礙智慧體執行完整任務的因素之一。

在長期推理方面，他舉了一個自己和 Gemini 下西洋棋的例子。透過觀察 Gemini 的思考過程，他發現有時 Gemini 會考慮一個走法，並且意識到那是步臭棋，但因為找不到更好的，所以還是走了那個走法。

但「在一個非常精確的推理系統中，你不應該看到這種情況發生」，所以他認為 AI 在「內省」自己的思考過程方面還缺少點什麼，也就是在思維鏈監控方面還有很大改進空間。

同時，他強調要實現 AGI 就必須擁有一個能夠主動為你解決問題的「主動系統」，而智慧體就是這條必經之路，並且他稱「從 DeepMind 成立之初，我們就一直在研究智慧體」，他認為當下才剛剛起步。

對於 AI 是否具有創造力，Demis 無法給出明確答案。他認為如果 AI 能夠發明圍棋，能夠提出「一套新的、被頂尖數學家認為同樣深刻、有意義、值得投入一生去研究和解決的千禧年大獎難題」，能夠像愛因斯坦一樣在1901年的物理知識背景下提出其在 1905 年發表的包括狹義相對論在內的「奇蹟年（Annus Mirabilis）」成果，那他就認同 AI 具有創造新事物的能力。

他預測 AGI 的到來會是 2030 年左右，這比 Anthropic CEO Dario Amodei預測的 2026 年年底或 2027 年晚得多。在 Garry 請他給出面向想要從事 AI 行業的年輕人的創業建議時,他提到大家要去想像 AGI 已經實現的世界會是什麼樣子，要構建一些當 AGI 時代到來後仍能派上用場的東西。

此外，他還很反常識地強調小模型的價值。他說透過蒸餾（distillation），小模型能獲得與大模型同樣的能力。同時，小模型能極其快速、高效、延遲極低和廉價地為 AI 應用提供服務，比如支援谷歌十幾個用戶數超十億的產品。它們也更適合在手機、智慧眼鏡和機器人等邊緣設備上運行。

說到邊緣設備，他講用於邊緣設備上的模型最好是開源模型。在開源領域中國模型正處於領先地位，而 Gemma 也非常有競爭力。

小編真心覺得 Demis 講話全是乾貨、每句話都有價值，Garry 的提問也非常有水平、直擊重點，這是場高品質的對談，訪談中還有很多精彩觀點，全文如下：

當前模型範式會成為 AGI 最終架構的一部分

Garry：你思考 AGI 的時間比幾乎任何人都長。當你審視當前的範式，即大規模預訓練、RLHF（人類回饋強化學習）、思維鏈（Chain of Thought）時，你認為我們已經掌握了 AGI 最終架構的多少？現在根本上還缺少什麼？

Demis：關於這個問題，我認為你剛才提到的那些組件肯定會成為 AGI 最終架構的一部分。它們已經走過了如此漫長的道路，我們也已經證明了它們能做這麼多事情。我無法想像過幾年後我們會發現這是一條死路，這對我來說沒有意義。

但在我們已知有效的技術之上，可能仍缺少一兩個關鍵點。比如持續學習、長期推理以及記憶的某些方面，這些目前仍未解決。此外，如何讓系統在各方面表現得更加一致。我認為這些對於 AGI 來說都是必需的。現在的情況可能是，現有技術通過一些創新和增量改進就能擴展到那一階段。但也可能還有一兩個核心大問題需要被攻克。我不認為如果真的存在這些問題，數量會超過一兩個。我的賭注是：大約 50/50 的概率屬於這種情況。當然，在 Google DeepMind，我們同時在這兩個方向上努力。

記憶等領域還有很大創新空間：持續學習，夢境周期和海馬體

Garry：我想，在處理一系列智慧體系統時，最讓我感到不可思議的是，它們在很大程度上是在重複使用相同的權重。持續學習這個概念非常有趣，因為目前我們有點像是用膠帶把它湊合在一起，比如利用晚上的「夢境周期（dream cycles）」之類的方法。

Demis：沒錯，夢境周期非常酷，我們過去常從片段記憶的鞏固角度來思考這個問題。實際上，這就是我博士期間研究的內容：海馬體是如何工作，它如何優雅地將新知識整合到現有知識庫中的。大腦在這方面做得非常出色，它在睡眠期間（尤其是快速動眼睡眠階段）重放重要的片段，以便你能從中學習。事實上，我們最早的雅達利（Atari）程序 DQN 能夠精通遊戲的方法之一就是通過「經驗回放」。我們從神經科學中借鑑了這一點，多次回放成功的軌跡。那是在 2013 年，AI 的「黑暗時代」，那是一件非常重要的事情。

我同意你的觀點，我們現在有點像在用「膠帶」湊合，比如把所有東西都塞進上下文窗口。但這看起來有點差強人意，對吧？實際上，儘管我們處理的是機器而非生物大腦，理論上你可以擁有數百萬或數千萬規模的上下文窗口或記憶，並且它可以是完美的，但查找並找到與你當下必須做出的特定決策相關的正確訊息，仍然是有成本的。即使你潛在地可以存儲所有內容，這種成本也是不可忽視的。我認為在記憶等領域實際上還有很大的創新空間。

Garry：我的意思是，令人驚嘆的是，感覺百萬級別的 Token 上下文窗口已經很大了，說實話已經足夠大了。

Demis：對於大多數應該使用它的場景來說，它確實足夠大了。如果你把上下文窗口看作等同於「工作記憶」，人類只有幾個數字的容量，大約是 7 個左右，而我們現在有百萬甚至千萬級的上下文窗口。但問題是，我們試圖把所有東西都存進去，包括不重要的、錯誤的東西。目前這種方式相當暴力，看起來不太對。此外，如果你嘗試處理即時影片並天真地記錄所有 Token，那麼一百萬 Token 其實並不多，大約只夠 20 分鐘。所以，如果你想要一個能理解你生活中發生的事情（比如一個月或兩個月跨度）的系統，你實際上需要更多。DeepMind 歷史上一直傾向於強化學習（RL）和搜尋，比如 AlphaGo、AlphaZero 和 MuZero。

構建 Gemini 的許多想法來自 AlphaGo 的早期探索

Garry：這種哲學有多少已經嵌入到你們今天構建 Gemini 的過程中了？RL 是否仍然被低估了？

Demis：是的，我認為可能確實被低估了。這就像潮汐一樣起起伏伏。從 DeepMind 成立之初，我們就一直在研究智慧體，事實上，那是我們宣稱的工作重點。所有的 Atari 工作，尤其是 AlphaGo，都是智慧體系統。我們所謂智慧體是指能夠自主完成目標、做出主動決策並製定計劃的系統。當然，為了使其具有可操作性，我們是在遊戲領域進行的，然後是像《星海爭霸》（AlphaStar）這樣日益複雜的遊戲。我們基本上玩遍了市面上所有的遊戲。接下來的問題是，你是否可以將這些模型泛化為世界模型或語言模型，而不僅僅是簡單或複雜遊戲的模型？這就是過去幾年我們所做的事情。

但實際上，你可以認為我們今天所做的很多事情，包括所有領先模型的「思考模式」和「思維鏈推理」，都是 AlphaGo 早期探索的某些方面的回歸。我實際上認為我們當時做的很多工作在今天仍然非常有意義。我們正在以更通用的方式在大規模生產中重新審視那些舊想法，包括蒙地卡羅樹搜索（MCTS）以及在現有強化學習基礎上增強 RL 的其他方法。我認為來自 AlphaGo 和 AlphaZero 的許多想法與我們今天的基座模型（Foundation Models）高度相關。我認為未來幾年我們將看到的大部分進展都會源於此。

透過蒸餾，小模型獲得和大模型同樣的能力

Garry：我有一個問題。顯而易見，今天你需要越來越大的模型來變得越來越聰明，但我們也看到「蒸餾」正在發揮作用，更小的模型可以運行得快得多。你們擁有不可思議的 Flash 模型，我發現它們的效果大約能達到前沿模型的 95%，而價格只有十分之一，對嗎？

Demis：我認為這是我們的核心優勢之一。雖然你必須構建最大的模型來擁有前沿能力，但我們最大的優勢之一是一直以來能非常迅速地將這種能力蒸餾並打包進越來越小的模型中。顯然，是我們發明了這種蒸餾過程，像 Jeff 和 Oriol 等人都是這方面的世界專家。而且我們有巨大的需求去做這件事，因為我們必須支持可能是世界上最大的 AI 應用面。顯然有帶有 AI 概覽的搜尋，然後是 Gemini 應用，現在 Google 的每一個產品（Maps、YouTube 等）都有 Gemini 或其相關技術的影子。那是數十億用戶、十幾個用戶數超十億的產品，它們必須被極其快速、高效且廉價地提供服務，並且延遲要極低。這給了我們一個非常重要的動力去把 Flash 甚至更小的 Flashlight 模型做得極其高效。希望這最終能對你們所有人使用的許多工作負載非常有用。

Garry：我很好奇這些更小的模型到底能聰明到什麼程度。蒸餾過程是否存在極限？比如一個 50B 或 400B 的模型能像今天的 Mythos（此處或指代頂級大模型）一樣聰明嗎？

Demis：我不認為我們已經遇到了任何形式的信息極限，或者至少目前我們中還沒有人知道。也許在某個點上會存在一個無法超越的訊息密度，但目前我們的假設是：在我們的一個領先 Pro 模型或前沿模型發布一年或半年後，你就能在非常微小的邊緣設備模型中獲得同樣的能力。你也可以在我們的 Gemma 模型中看到這一點，我希望大家都在使用 Gemma 2 模型，我認為相對於它們的尺寸，它們擁有驚人的力量。這再次使用了大量的蒸餾技術，以及如何讓這些微小模型變得極其高效的想法。所以我目前還沒有看到任何理論上的極限，我認為我們距離那個極限還很遠。

小模型成本更低、速度更快，更適合本地部署

Garry：這太神奇了。這真的很好，因為我們現在看到的最奇怪的事情之一是，工程師的工作量可以達到六個月前的 500 到 1000 倍。在這個房間裡，有些人的工作量大約是 2000 年代 Google 工程師的 1000 倍，正如 Steve Yegge 所談論的那樣。

Demis：我認為這非常令人興奮。小模型有很多用途。一個是成本，但速度同樣關鍵。如果你考慮程式設計或其他事情，你可以迭代得快得多，尤其是當你與系統協作時。對於快速系統有很多需求，也許它們不完全是前沿級別的，就像你說的，達到 95% 或 90%，但這已經足夠好了，而且你從迭代速度中獲得的收益遠超那丟失的 10%。我認為另一件大事是在邊緣設備上運行這些系統，這不僅是為了效率，也是為了隱私和安全。如果你考慮運行這些處理極其私人訊息的系統的不同設備，或者考慮機器人技術，比如你家裡的機器人，我認為你會想要非常高效且強大的本地模型。這些本地模型也許會由雲端的某些大模型或前沿模型來編排，但你只在特定情況下才委託給它們。也許你在本地處理所有的音影片流，並且資料保留在本地。我可以想像那會是一個非常理想的最終狀態。

為了獲得完全的一般智慧，必須攻克「持續學習」難題

Garry：回到上下文和記憶。目前的模型是無狀態的，但如果開發者使用一個具有「持續學習」能力的任務模型，開發體驗會是什麼樣的？你對如何引導它有什麼想法嗎？

Demis：我覺得這非常有趣。我認為目前缺乏持續學習是阻礙智慧體執行完整任務的因素之一。它們現在對於任務的某些方面非常有用，你可以把它們拼湊在一起做一些很酷的事情，但它們不能很好地適應你所處的背景。我認為這是讓它們真正實現「射後不理（fire and forget）」並由它們自己搞定一切所缺失的一塊。它們需要能夠學習關於你將它們置入的具體背景的知識。為了獲得完全的一般智慧，我們必須攻克這個難題。

AI 在「內省」自己的思考過程方面還缺少點什麼

Garry：我們在推理方面進展如何？模型現在可以進行令人印象深刻的思維鏈，但在一些優秀的大學生都不會出錯的事情上，它們仍然會失敗。具體需要改變什麼？你期望在推理方面看到什麼進展？

Demis：在「思考範式」中仍有很多創新空間。我想說，我們現在的做法還相當簡單且暴力。可以想像，在監控思維鏈方面還有很大空間，比如在思考過程中間進行干預。我經常對我們的系統以及競爭對手的系統產生一種印象：它們幾乎是在「過度思考」，陷入了某種循環。

我有時喜歡做的一件事是和 Gemini 下西洋棋。所有領先的基座模型在遊戲上的表現都相當糟糕，這很有趣。觀察它們的思考軌跡（thinking traces）非常酷，因為這些是可以被很好理解的。我可以很快判斷出它是否跑題了，而且它的思考是否有效是非常可證明的。我們看到的是，有時它會考慮一個走法，它意識到那是臭棋，但它找不到更好的，所以它又回到那個走法並還是那麼走了。

在一個非常精確的推理系統中，你不應該看到這種情況發生。所以我認為仍然存在巨大的差距，但需要明確的是，可能只需要一兩次微調就能修復這些差距。這些差距是顯而易見的。這就是為什麼你會看到這種「參差不齊的智慧」：一方面，它可以解決 IMO（國際數學奧林匹克）中超難的金牌題目；但另一方面，正如我們所見，如果你以某種方式提問，它仍然會犯基礎的算術錯誤或基礎的推理錯誤。所以，對我來說，關於它對自己思考過程的某種「內省（introspection）」，可能還缺少了點什麼。

智慧體是實現 AGI 的必經之路，現在才剛剛起步

Garry：智慧體現在非常火熱。有人說它們被過度炒作了。我個人認為它們才剛剛開始。這完全是瘋狂的。DeepMind 的內部研究告訴你，智慧體的實際能力與外界的炒作相比處於什麼位置？

Demis：我同意你的觀點，我認為我們才剛剛開始。要實現 AGI，你必須擁有一個能夠主動為你解決問題的「主動系統」，這一點對我們來說一直很清晰。所以，智慧體就是那條必經之路，而我認為我們才剛剛起步。

我認為我們所有人都在適應如何最好地開展工作，而你自己在個人實驗中在這方面處於領先地位。我相信你們中的許多人也在這樣做。我認為關鍵在於如何將其融入你的工作流程，使其不僅僅是一個「錦上添花」的東西，而是開始處理一些根本性的事務。我的印象是，目前我們都在進行各種實驗，但可能只是在過去的幾個月裡，我們才開始發現真正有價值的應用場景，而且技術可能也才剛剛好到足以支撐這一點，對吧？它不再是一種類似玩具的演示，而是真正為你的時間和效率增加價值。

我經常在想，我看到很多人在嘗試，比如啟動幾十個智慧體運行 40 個小時，但我不確定我是否看到了能證明這種投入是值得的產出，但我認為這一天會到來的。所以，我仍然認為我們處於實驗階段。我們還沒看到哪個 3A 大作是在排行榜登頂且完全由「氛圍程式設計（vibe coded）」搞定的，對吧？我見過，也親自編寫過，我相信我們都做過一些很棒的小演示，比如我現在可以在半小時內做出《主題公園》的原型，而這在我 17 歲時花了 6 個月時間。

這確實令人心碎且震撼，我甚至產生了一種感覺：如果我花整個夏天去鑽研它，真的能做出一些不可思議的東西，但它仍然需要工藝，需要人類的「靈魂」和品味。我認為這是你必須確保帶入到你所構建的任何事物中的東西。而且我認為這也能體現出目前它還差那麼一點火候，因為為什麼我們還沒看到一個孩子做出一個賣出 1000 萬份的熱門遊戲呢？考慮到已經投入的努力，這應該是可能的。所以，某種程度上仍然缺失了一些東西。也許與流程有關，或者與工具有關，我不完全確定。你們可能比我更清楚，因為我相信你們都在這方面做實驗。我還沒看到我預期的那種結果，那種真正釋放全部價值的結果，我認為這將在未來 6 到 12 個月內出現。

不確定 AI 是否具有創造力

Garry：這其中有多少是自主完成的，還是說……我的意思是，我不認為我們會先看到「自主優先」。我們實際上可能會先看到這個房間裡的人以 1000 倍的效率運作，這是你應該先看到的，然後你們中的許多人，比如遊戲公司或其他類型的公司，會利用這些工具構建出某種暢銷應用或遊戲，這是首先會發生的，然後更多的部分才會被自動化。我的意思是，這其中有人類的參與，而人類目前還不想說這些是智慧體做的。

Demis：如果我們想討論創造力，我經常說的一點是，看看我們已經做過的事情，比如 AlphaGo。顯然大家都知道第二局中的第 37 手。對我來說，我當時一直在等待那樣的時刻，以此來啟動像 AlphaFold 這樣的科學項目。我們在從首爾回來那天就開始了 AlphaFold，那是 10 年前的事了，我之後還要去韓國慶祝 AlphaGo 十週年。但僅僅想出「第 37 手」是不夠的。這很酷，也很有用，但它能發明圍棋嗎？這才是我想要看到的。我想要一個系統，如果你給它一個高層級的描述，它就能發明出圍棋。比如這種描述：一個你可以在 5 分鐘內學會規則，但需要幾輩子才能精通的遊戲；它在美學上很漂亮，但你可以在一個下午的幾個小時內玩完。你可以想像這就是我給出的描述，然後我想要返回的結果就是圍棋。顯然，今天的系統還做不到這一點。所以問題在於為什麼，我認為那裡仍然缺少一些東西。

Garry：也許這個房間裡的某個人就能把它做出來。

Demis：如果是那樣，答案就是「什麼都不缺」，只是我們使用系統的方式問題。這實際上可能就是答案。可能我們今天的系統已經具備了這種能力，只要有一個足夠天才、有創造力的人去使用它，提供項目的衝勁和靈魂，並且能夠精通工具到幾乎與工具合而為一的程度。我可以想像，如果你整天整夜地嘗試這些工具（正如你們中的許多人正在做的那樣），並將這種體驗與真正的深度創造力結合起來，就能做出更不可思議的事情。

中國模型在開源領域領先，邊緣設備上最好是開源模型

Garry：換個話題談談開源模型，或者說開放權重模型。最近發布的 Gemma，你們正在製作能力極強且可存取的開源模型，甚至可以在本地運行。你認為這對你意味著什麼？AI 會變成掌握在用戶手中，而不是主要留在雲端的東西嗎？這是否會改變誰能利用這些模型進行構建？

Demis：總的來說，我們是開源和開放科學的堅定支持者。你一開始提到了 AlphaFold，我們將它全部免費公開了，甚至直到今天，我們所有的科學工作依然發表在各大頂級期刊上。我們希望建立在同尺寸下處於世界領先水平的模型，希望 Gemma 已經做到了這一點。我們非常致力於這條道路，希望你們都能在 Gemma 上進行實驗、構建並享受它的使用。我想現在的下載量已經達到 4000 萬次了，而且這僅僅用了兩週半。所以我們對此感到非常興奮。

同時，我認為在開源領域擁有「西方技術棧」也很重要。顯然，很多中國模型非常出色，他們在開源領域目前處於領先地位，而我們認為 Gemma 在各方面的尺寸上都非常有競爭力。對於我們來說，這涉及資源、人才和計算力的問題，沒有人有足夠的閒置算力去同時製作兩個具有不同屬性的最大規模前沿模型。這非常困難。但目前我們決定的是，對於我們的邊緣模型（也就是我們想用於 Android、智慧眼鏡和機器人上的東西），它們最好是開源模型，因為一旦你把它們部署到這些終端，它們在表面上本來就是易得的。所以它們最好是完全開放的，對吧？因此我們做出了一個決定，在「Nano（奈級）」尺寸水平上統一這一點。這在戰略上也對我們有效。我們希望盡可能多的人基於它進行構建，當然，我們自己也會在上面構建。

多模態模型 Gemini 有長遠優勢，Genie 對機器人技術十分重要

Garry：早些時候，在我們上場之前，我向你展示了我那個版本的《她》裡面的 Samantha 演示。對我來說，試圖向你演示東西是挺讓人緊張的。但它成功了，這太棒了。Gemini 誕生時就是多模態的。我花了很多時間研究這些模型，我的意思是，直接與模型進行語音互動時的上下文深度和工具調用能力，說實話，它是目前最強的，沒有之一。

Demis Hassabis：是的。我認為這仍然是 Gemini 系列中一個稍被低估的方面，即我們從一開始就將其設計為多模態。這實際上在一開始讓任務變得更難了，比單純專注於文本要難，但我們相信從長遠來看會從中受益。我認為現在在構建世界模型方面已經看到了成效。比如我們在 Gemini 基礎上構建的 Genie，我認為這對機器人技術非常重要。這就是為什麼 Gemini Robotics（你們中很多人可能已經嘗試過）將基於多模態基座模型構建。

我們認為 Gemini 在多模態方面的強大優勢使我們具有競爭優勢。我們正越來越多地將其應用於 Waymo 等項目中。而且，如果你想像一下隨身進入現實世界的設備和助手（可能是手機、眼鏡或其他設備），它需要理解你周圍的物理世界、直覺物理學以及你所處的物理背景。這正是我們的系統極其擅長的，我想這就是為什麼你喜歡在你的設置中使用它。我們計劃在這方面繼續走下去，我認為在處理這類問題上，我們擁有目前最強的模型。

參考連結：

https://www.youtube.com/watch?v=JNyuX1zoOgU

——好文連結——

DeepSeek多模態技術報告曝光！細節滿滿：七千倍極致壓縮，用視覺原語思考，破解指代鴻溝！消耗的算力僅為其他頂級模型的幾十分之一！

Karpathy：不喜歡Plan模式！人類必須負責Plan！別去追LLM的逃逸速度，構建自己的RL環境！App理論上不應該存在！刷演算法題的招聘已經過時了

谷歌Gemini開啟王炸模式：一句話直接生成PDF、Word、Excel，30多種不同格式檔案，實用效率神器，改變遊戲規則！