權重凍結是AI進步的敵人！DeepMind頂尖AI研究員：AI自我改進的關鍵在於評估，需借鑑形式化驗證！專家模型是通往泛化AGI的基石！

編輯 | 玉澄

Google DeepMind 的「開外掛」級 AI 先驅研究員 Mostafa Dehghani 的深度專訪來了！

這位大老的經歷簡直拿了主角劇本，從大名鼎鼎的 Universal Transformers、Vision Transformer (ViT)，到原生多模態的 Gemini 系列，甚至連大家超愛的 Nano Banana 圖像生成模型，背後都有他的核心貢獻。

在這次對談中，Mostafa Dehghani 提出了一個頗具顛覆性的判斷：AI 自我提升的最大瓶頸並不在算力或模型能力，而在於「評估」。搞清楚 AI 到底提升了多少甚至成了一個哲學問題：如果你無法衡量它，你就無法改進它。

他進一步強調，AI 的自我提升循環必須建立在「接地氣」的反饋機制之上，千萬不能閉門造車，一定要引入真實世界的外部訊號。儘管形式化驗證在數學與程式碼領域表現出色，但其難以涵蓋複雜的現實場景，產業需要建構類似「緊密反饋循環」的替代機制。

與此同時，Dehghani 對「專業化與泛化」的路徑給出了階段性的答案：短期內，專家模型是探索能力邊界的高效手段；長期來看，泛化能力仍是達到 AGI 終極目標的必經之路。

說起多模態，Mostafa 認為由於人類語言傾向於描述「異常」而非「常態」，所以語言是具有偏見的，而原生多模態是 AI 理解物理規律和引力等「常識」的捷徑，而非單純的功能增加。

在談及 Universal Transformer 時，他說到，後來被稱為「負稀疏性」的深度遞迴和參數復用是一個與混合專家模型相反的概念。MoE 是「不增加算力的參數」，而遞迴循環則是「不增加參數的算力」。

至於當下熱度超高的 Agent，他也潑了盆冷水，面對超長任務，即使每一步的成功率高達 95%，完成一個 100 步任務的綜合成功率也將低於 1%。這意味著使用者直接感知到的會是必然發生的失敗，這對建立社會信任是極大的挑戰。

有趣的是，這位大老當年也差點跟機遇擦肩而過。2017 年，當 Mostafa 收到研究 Transformer 團隊的實習邀請時，他曾一度想拒絕，心裡嘀咕：「大家都在搞 LSTM，我為什麼要跑去跟一群研究這種隨機架構的人工作？那玩意肯定會過時。」結果這次「被迫」的實習直接改變了他的人生軌跡。

在開發 ViT 時，研究團隊也曾想過各種花俏的設計，結果全都失敗了。最後真正奏效的竟然是那個最簡單粗暴的想法：直接把圖片切成 16x16 的方塊。

Mostafa 還透露，在 DeepMind 內部，最震撼的時刻往往是推理工程師路過你桌子時隨口說一句：「順便說下，我剛把模型速度提升了 10 倍。」

最後，對於孩子們該學什麼，Mostafa 坦言面對一歲半的女兒時，他也無法給出好建議。但他深信，比起單純的學科專家，擁有全局戰略眼光和持續影響力才是保持競爭力的關鍵。

以下是本次播客的全部內容，大家 enjoy！

AI 中的更高循環是自我提升

Matt Turk： AI 中的「循環」究竟意味著什麼？目前 AI 研究中最熱門的概念之一似乎就是「循環」。所以我認為這是一個有趣的切入點。這種觀點認為，模型提升的方式不再是變得更大，而是透過遞迴思考。這具體意味著什麼？

Mostafa Dehghani： 這絕對是幾乎每個實驗室都在投入的最活躍的頂尖領域之一，它在不同層面運作。在微觀層面，基本上是我們在架構中使用的循環，或者是在推理時用於「測試時運算」等任務的循環。而在更高層面，基本上是我們對這些模型開發過程進行的循環，我們通常稱之為「自我提升」。

如果想簡單點說，這實際上只是我們幾十年趨勢的延續。想一想經典的機器學習，人類必須坐下來手動設計特徵，你必須決定模型實際上應該關注什麼。隨後深度學習和神經網路出現了，它們說「讓我們去掉這個環節，讓模型自己找出表徵」，這在當時是一件大事，我們以某種方式消除了巨大的人力瓶頸和人為偏見。接著，我們不僅設計架構，還開始學習架構。我們不再精挑細選每一條訓練訊號，而是擴展到數據驅動的方法，讓數據說話。

而自我提升和這種開發中的循環只是同一方向上的下一步。其核心理念和意義在於，你正在消除改進這些模型時的人力瓶頸和偏見。現在你不僅不需要人類手工構建特徵，也不希望人類在模型每次需要變好時都參與其中。我認為這就是開發端的邏輯。所以它並非全新的，而是同一個故事的新篇章。我認為每當我們從這個過程中移除人類的判斷時，我們通常都會克服一個瓶頸。這種自我提升和開發循環，可以說是在最高層面（即改進模型本身）做這件事。

如果你想進入更詳細的循環層面，我們可以討論增加模型測試時運算的方法，以及我們如何讓模型在特定問題中對自身處理過程進行循環，從而提煉、思考。我認為最熟悉的形式就是思維鏈，讓模型透過額外的 token 進行思考。你還可以思考不同的點子，比如讓模型增加針對特定問題的計算量。如果我有一些佔位 token，可以將它們作為「讀寫帶」來重新驗證我所做的工作，審視我跨步驟執行的方案或過程，並理解哪些地方做錯了，接下來該做什麼。甚至還有「負稀疏性」，即多次重複使用模型的某些部分。這種新的循環也被證明非常有用，主要是因為它允許模型在困難問題上投入更多計算。這就是推理時的自我提升。

AI 構建 AI 在過去幾個月已經發生了

Matt Turk： 你剛才提到了一個更大的概念，這在以前更像是科幻小說，但現在似乎正迅速成為現實，即「遞迴自我提升」。這似乎是很多人都在談論的話題，未來幾週會有一些相關的論文發表。那麼，RSI 作為一個概念究竟是什麼？

Mostafa Dehghani： 很有趣，你把它稱為看起來像科幻的情境，即模型實際上在改進自身。這確實是真的，因為幾年前如果你想談論這個，你只能在會議上寫一篇前瞻性論文，在極高的層面談談。但如果我們現在去查看實際發生的情況，它在很大程度上已經發生了。

大多數人沒有意識到，這在過去幾個月裡已經發生了。在幾乎每個實驗室，新一代模型都是利用前一代模型大量構建的。我認為現在到處都是這種情況。目前它還沒有完全自動化，但方向非常明確，很容易想像我們將進入完全自動化的境地。這些模型將自我改進並不斷從世界中學習。

這與其他概念有關，比如持續學習，雖然我們還沒達到最先進的程度。但如果有人過來說，「我有一個主意，能讓模型在運行中計算梯度並更新其權重」，這聽起來會非常正常，不再是什麼驚天動地的大新聞。我認為目前缺失的是長時程和完全自動化，而我們正朝著這個方向飛速邁進。一旦我們實現了完全自動化，我們就可以閉合自我提升的循環。到時候，問題主要變成了為模型提供運算資源，讓它們做想做的事。正如我之前所說，我們剛剛擺脫了改進模型的人力瓶頸，我預料這種發展將再次帶來巨大的飛躍。

Matt Turk： 人們可能看過或聽說過 Karpathy 幾週前的「自動研究」專案。那是這種遞迴循環的一個例子嗎？

Mostafa Dehghani： 絕對是。我認為那是早期看到模型在研究端實際做出明智舉動的例子之一。我們一直看到它們在改進開發循環中的工程部分做得很好，但在研究方面——你可能認為這需要某種直覺，或者需要經驗豐富、長期研究這些模型的研究員才能做到，而模型未必行。

但我們已經看到了跡象，即研究員直覺中那種「成功秘訣」的關鍵部分，正在透過模型進入開發循環。現在很難說這意味著我們是否能很快用這些模型取代每一位天才研究員，也許吧，但這絕對是某個跡象。我們當時有點懷疑，你知道幾年前我們簡直不敢相信這會這麼早發生，這非常令人興奮。

Matt Turk： 我想再確認一下，以確保聽眾明白：我們談論的是「AI 構建 AI」。幾個月前，如果和研究員交流，他們會說「我們已經在用 AI 構建 AI 了」，但那通常意味著用 AI 工具和推理模型來產生點子。但這裡我們談論的是 AI 以遞迴方式自動更新自身、更新權重，從而可能導致進展的劇烈加速。你認為這在很大程度上取決於我們，且主要是一個長時程和更多運算資源的問題，對嗎？

Mostafa Dehghani： 我認為是這樣的。這是一方面。另一方面，我並不是說我們很快就能讓這些模型完全自動化，實際上還有很多問題需要解決。但從方向上看，我可以看到這是如何發生的。它很難，但是非常可能的。

AI 自我提升循環中最大的瓶頸：評估

Matt Turk： 那麼障礙是什麼？你提到了計算。評估是其中之一嗎？因為模型需要理解答案品質的對錯。

Mostafa Dehghani： 100%。歸根結底，你只能改進你能衡量的東西。而獲得評估結果非常困難。到頭來，這幾乎變成了一個哲學問題，而不只是技術問題。如果你有一支非常有能力的團隊，如果有一個具體的評估標準，他們通常能在問題上取得巨大進展。但如果沒有評估，就很難推進。

事實上，我們甚至還沒有定義出能夠衡量「我們離實現自我提升循環有多近」的評估標準。缺乏這種衡量方式使得在這個方向上的進展更難被量化。雖然有一些替代指標，比如評估模型朝這個方向邁出的每一步，或者評估模型在特定框架內幫助自身改進的能力。建立評估系統的難點還在於，運行極其複雜的評估所需的基礎設施也非常複雜。

有趣的是，有時我們要弄清楚如何為模型創建一個能安全運行的環境。例如，在 Google 內部，如何讓它安全地執行研究工程師或研究科學家能做的所有工作？因為現在我們還沒信心讓它們一直做正確的事。衡量它們能推進到什麼程度、能堅持多久是非常困難的。將所有這些點連接到一個模型運行的環境中，並高效運行它們，同時為評估帶來多樣性，絕對是取得進展的瓶頸之一。

持續自我提升的方法：借鑑形式化驗證，保持「接地」

Matt Turk： 幾週前，我們與 Axiom Math 的 Karina Hong 討論了「形式化驗證」。從你的角度看，這是一個有前景的領域嗎？形式化驗證能確保提升循環持續進行嗎？

Mostafa Dehghani： 在我看來，形式化驗證是開啟自我提升最強大的鑰匙之一，但它不是唯一的鑰匙。對於數學、程式碼邏輯，它非常出色。你可以運行一個證明，它要麼通過，要麼不通過。但如果你進入其他更混亂的領域，比如你無法透過形式化證明來判斷醫生的建議是否良好。

因此，將形式化驗證擴展到現實世界的所有領域並不容易。但一個非常相關的問題是，我們如何借鑑形式化驗證的方法，為現實世界中混亂的部分構建那種緊密且誠實的反饋循環。這非常鼓舞人心，即在形式化驗證方法的基礎上進行構建，以擴展到那些不易驗證的領域，你需要某種清晰、緊密的反饋循環才能取得進展。

Matt Turk： 這就像強化學習面臨的問題。一旦你偏離了數學和程式碼，就會進入非常混亂的領域。那麼「模型坍縮」是一個需要考慮的問題嗎？

Mostafa Dehghani： 模型坍縮絕對是一個風險。我會說模型坍縮主要發生在循環完全閉合的情況下。如果你沒有任何外部訊號，只是模型在自言自語，或者在一個受限的環境中運行，那麼模型很有可能坍縮。但如果你有一個強大的驗證器，或者某種能錨定 AI 生成數據的現實獎勵訊號，它就會非常強大。這裡的關鍵是保持「接地」，錨定在真實事物上，這樣你多半能避免模型坍縮。

Matt Turk： 為了讓大家都能理解，你能先定義一下什麼是模型坍縮嗎？

Mostafa Dehghani： 簡單來說，就是當模型交互的數據和環境是由另一個模型設計的。然後你會變得非常擅長這一個特定部分，但突然間，你失去了對除此之外任何事物的泛化能力。這就是模型坍縮的一種定義或案例。

專業化模型是通往泛化模型的鋪路石

Matt Turk： 你提到了失去「泛化能力」。在 RSI 的概念中，這是一個令人擔憂的問題嗎？即你要麼擁有自我強化的循環但它們非常狹隘，要麼擁有更通用的模型但失去了循環優勢？

Mostafa Dehghani： 這是一個有趣的問題：泛化還是專業化。長期來看，你想要一個無所不知的模型，並且知道什麼時候該往深處走，什麼時候該往廣處走。想像一個智慧代理人，如果是編程代理人，它在操作的每一步都極強，是一個非常優秀的程式設計師。這很棒，非常專業化。但對於許多編程問題，你需要某種規劃、理解現狀、收集資訊並根據上下文做決定。在你定義好步驟後，超強的專業化才會介入。在此之前，作為通才非常有用。

泛化是達到 AGI 終極目標的必經之路。但短期內，構建專家模型可能是學習「什麼才是真正可能的」的最快方式。在許多情況下，這些專業化模型正成為通往通才模型的鋪路石。你可以想像，如果我在考慮自我提升，我需要確保在某個特定領域（比如編程）能做成，如果成功了，再考慮如何拓寬。我常說，人們並不關心他們的問題屬於什麼類別。如果人類把某件事稱為「問題」，AI 就應該能解決它。這是通才的根本需求。所以歸根結底你需要泛化。在通用和專業之間權衡，更多是關於長期和短期，以及在這個過程中如何利用每一方的優勢。

Matt Turk： 今天的專業化模型是什麼樣的？是一個獨立的模型，還是一個透過強化學習（RL）以特定方式訓練的通用大模型？

Mostafa Dehghani： 以前我們受限於運算資源，如果你想推高一個模型，我們會選擇特定的維度並分配計算量，使其成為該領域的專家。這是在運算預算有限時的權衡。隨著計算變得更便宜、更易獲得，我們可能轉而受限於數據。

另一個權衡出現在後訓練階段。有時很難讓模型在所有領域都表現出色。你試圖讓它擅長多模態，結果發現它在程式碼上有所退步；你讓它擅長程式碼和多模態，它在數學和推理上又比之前的模型稍差。這是因為後訓練會產生一點「過擬合」。後訓練本質上是嘗試將其擬合到你所擁有的最佳局部最優解。當問題變成「如何找到最佳局部最優解」時，由於沒有一個解對所有事都完美，你必須做出選擇。

比如有些公司非常專注於程式碼，這比那些想做一個全方位優秀模型的競爭對手要容易實現。短期內這非常有效，因為在開發期間你不用操心所有維度，能讓研究員和工程師騰出精力去把這一件事推到極限。專業化模型就是挑選一個特定的軸線，讓模型看起來非常出色。

AI 開始自我創造，但 AI 研究員還沒有失業

Matt Turk： 你剛才提到的一個觀點非常耐人尋味：像 Karpathy 這樣的人，或者像你這樣的人，未來都可能被自動化。如果世界上最聰明的頭腦被自動化了，AI 開始自我創造，會發生什麼？是否會出現某個時間點，再也沒有人知道 AI 是如何運作的？

Mostafa Dehghani： 這部分非常哲學。我不知道。分享一點我前幾天的想法：我有一個一歲半的女兒。過去幾年我深受觸動，有趣的是，我對時間表的預測被多次證明是錯的。有時我說這將在 6 個月內發生，結果沒發生；有時我覺得這太難了，10 年內絕無可能解決，結果砰的一聲，兩三個月後某人就有了天才的想法並解決了。

關於未來真的很難預測。你說到 Karpathy 等研究員，我在想下一代。如果我女兒以後問我：我該學習什麼？推薦什麼專業？我該深入研究哪個科學分支並成為專家？我真的沒有一個好的答案。

我所知道的是，有幾項技能可能是對世界產生影響並保持競爭力的關鍵。其中之一是戰略眼光，在做決定時能把所有參數都擺在桌面上。而在不久的將來，成為某個非常具體學科的絕對專家可能不再那麼有用。我認為 Karpathy 的才華不在於他是一個好程式設計師（當然他確實是），而在於他有極佳的全局觀。透過讓自己置身於訊息流中，他能決定下一件最有影響力的事情是什麼。他現在產生影響力的方式與 5 年前已經完全不同了。我認為他能持續做到這一點。5 年後他會做什麼？我不知道，但我知道他足夠聰明，能弄清楚如何持續對世界產生影響。所以 AI 研究員還沒失業，希望我們足夠聰明能應對。

數據方面的工作可能轉向「構建環境」

Matt Turk： 這是一個宏觀問題。如果 AI 持續自我創造，數據在那個等式中還重要嗎？還是說一切都關乎計算？

Mostafa Dehghani： 「數據」的概念會比「token」更寬泛。如果你將數據視為模型可以從中獲取訊號的任何事物——無論是預訓練中的下一個 token 預測，還是模型交互並獲取訊號的超複雜環境——數據或其價值都不會消失。

我認為數據方面的工作可能會轉向「構建環境」，或者確保這些模型能與物理世界交互並獲得反饋。這就變成了：我該如何為這些模型提供更多「接地氣」的機會？它們擅長自我提升，但前提是我必須讓它們接觸現實世界的數據和環境。提供數據將變成：我該如何給這個模型提供它從未接觸過的資訊？

再說一個有點科幻的想法：我如何讓 AI 接觸到「氣味」？現在還沒有好的辦法。但對於人類，由於我們所有的感官，獲取資訊非常容易。我坐在這裡，知道椅子有多硬，房間溫度是多少。所有這些感官資訊都匯聚到我這裡，我看到的下一個詞是基於所有這些輸入的。為自我提升的模型提供這些感官資訊是一個很難的問題。所以數據工作將轉向使這些感官資訊更易獲得，從而使模型能以更有效的方式真正提升自己。

模型研究仍會在預訓練和後訓練間來回擺動

Matt Turk： 過去一年的大主題是後訓練和預訓練的共同加速。你預計未來幾個月的進步會來自哪裡？

Mostafa Dehghani： 這取決於你什麼時候問這個問題。顯然，我們會在預訓練和後訓練之間來回擺動。歸根結底，預訓練仍然是基礎，你永遠無法透過後訓練把一個糟糕的基礎模型救回來。但目前，後訓練的投資回報率非常強。我幾個月前開始參與 Gemini 的後訓練（主要是程式碼和智慧代理人方向）。我能看到一個天才的小點子如何以預訓練成本的一小部分，讓模型在行為上變好 10 倍。

但另一方面，在 Google DeepMind（GDM），許多令人興奮的研究工作正投入到預訓練端——新的配方、新的想法。我認為我們在預訓練上所做的工作將解鎖許多下游的可能性。後訓練對我來說只是一個不同的運作模式，雖然我也剛接觸這一塊。但我始終預計在兩者之間會有一種交替。

Matt Turk： 你對預訓練的看法似乎反駁了幾個月前那種「預訓練已死」的言論。

Mostafa Dehghani： 我認為每個人在預訓練方面都有主意。到底要不要去實現那個主意，取決於複雜性和預期收益。有時你會覺得有些果實更容易摘到。

我手頭有一個預訓練方案，它簡單、優雅且極具擴展性，我打算先推進這個方案，然後將精力轉向後訓練階段。在某個時間點，基礎模型本身會成為瓶頸，那時你會很樂意採用那個複雜的方案並將其引入預訓練中，然後繼續推動它。

至於「預訓練已死」這種說法，我覺得，談論「舊」和「新」往往很微妙，因為時間跨度的定義非常主觀。所以當我說「舊」的時候，我可能指的就是兩週前的事情。但我們一兩年前做預訓練的方式，確實已經出現了明顯的收益遞減。然而，我能看到新想法正在為預訓練注入全新的活力，並突然開啟一扇通往奇異新領域的大門，這可能會隨著時間的推移徹底改變基礎模型的能力。

自我提升和持續學習的「共同敵人」是權重凍結的模型

Matt Turk： 那麼，等 Gemini 4 發布時一定會有很多令人興奮的東西。你之前提到了持續學習，這也是人們一直在討論的熱門話題之一。你能幫我們定義一下什麼是持續學習嗎？好讓這次談話對更廣泛的聽眾具有教育意義。或許可以將它與「自我提升循環」進行對比。雖然它們是不同的兩件事，但請幫我們理解其中的區別。

Mostafa Dehghani： 它們確實相關，但又是不同的。自我提升是指模型隨著時間的推移變得更聰明，提高自身的能力，這由模型自主完成。而持續學習主要是關於模型如何保持「與時俱進」。想像一位醫生，他不斷閱讀新的研究成果，更新自己的知識儲備，努力確保知識不會過時。

自我提升和持續學習共同的「敵人」是權重被凍結的模型。隨著世界的流轉，如果你的模型權重是凍結的，世界在向前走，那麼你既無法實現自我提升，也無法實現持續學習。持續學習更側重於確保當世界產生新知識時，模型的知識切斷點不會停留在過去。所以它是持續更新的。比如一夜之間，世界上發生的所有新聞、所有變動都會被同步。這樣如果你今天向模型提問，那些非常新鮮的知識已經存在於模型的權重中了，它不需要依賴外部來源來獲取。

這很難，真的非常非常難。其中一個大問題是災難性遺忘。即當你讓模型在完成主訓練階段後去學習新資訊時，你會突然發現它在主訓練階段學到的舊知識出現了退化。這正是目前一個非常活躍的研究領域。

Matt Turk： 那麼持續學習目前的現狀如何？是已經內建到現有系統中了，還是說還完全沒到那一步？

Mostafa Dehghani： 這可以從兩方面來看。一方面，我認為研究還沒有達到那種「這就是終極方案，我只需要去開發並推向生產化」的程度。基本上，每當你遇到一個關鍵的新問題時，都會經歷一個探索階段。人們會嘗試不同的想法，從一個點跳到另一個可能完全不同的點。當你對這種方法在某種程度上奏效有了信心，你才會進入「利用」模式，精益求精，將其推向極致。我們會為此擴展規模、開發基礎設施、提高速度、實現生產化。

我認為目前還沒到那一步。另一方面，正如我所說，因為我們從未擁有一個非常有把握的持續學習方案，所以在這種情況下投資基礎設施、構建高速系統是非常困難的。話雖如此，我在 Google DeepMind 內部看到了這方面非常顯著的進展。這很有意思，因為它可能具有很強的理論性。我見過一些做純理論研究的人投入到這個問題中，玩得很開心，也產生了很多影響。儘管取得的進步令人印象深刻，但我認為目前還沒有哪一個想法能讓所有人都公認「就是它了，我們就照這個做吧」。

Universal Transformer 的誕生：參數復用和深度遞迴→測試時計算→自適應計算

Matt Turk： 太好了。我想聊聊你和你的背景。能花幾分鐘講講你的故事嗎？你是如何開始這項工作的？你通往 AI 領域的歷程是怎樣的，又是如何加入 Google DeepMind 的？

Mostafa Dehghani： 我在阿姆斯特丹大學獲得了機器學習博士學位，主要研究方向是語言模型、文本以及搜尋與檢索。至於是什麼促使我真正想要進入主流視野，並成為這群拼命追求進步的人的一員，是因為我在 2016 年和 2017 年做了幾次實習。有趣的是，2017 年初我在 Google Brain 實習，那段經歷太棒了。我加入的那個團隊當時在研究用 LSTM 做摘要生成。摘要生成是當時最有趣的問題之一。我當時驚呆了，我想：「這太酷了，我餘生只想一直做這個。就是它了。」

於是我在同年年底收到了重返實習的錄用通知。招聘人員告訴我，有一個團隊剛剛發表了一篇論文，你可能聽說過，叫 Transformer，他們正在招實習生。我記得我和 Łukasz Kaiser 聊過，Łukasz 興致勃勃地跟我描述如何基於 Transformer 構建算法機器。聊完後，我開始給招聘人員發訊息說：「我不確定我想不想去那個團隊。他們做的東西感覺很隨機。大家都在搞 LSTM，我為什麼要跑去跟一群研究 Transformer 這種隨機架構的人工作呢？那玩意肯定會過時的。」

結果他沒能幫我找到其他可以加入的團隊，所以我還是作為實習生加入了那個團隊。那改變了我的人生。能與這群超級聰明、才華橫溢的人共事，當幾乎所有人都在為別的事情興奮時，他們卻堅信自己的願景和方向，這非常鼓舞人心。後來我們將那個「算法機器」的想法轉化成了 Universal Transformer 論文，其中深度遞迴和參數復用的概念就是在那時產生的。在將近 10 年後的今天，它依然有著巨大的影響力。

Matt Turk： 簡單跟我們講講那個。那是 2019 年吧？你是那篇論文的共同作者，那篇論文的想法非常契合我們談話開始時提到的循環和遞迴。

Mostafa Dehghani： 《Universal Transformer》是我們 2018 年寫的，我記得當時還被某個會議拒絕過一次。後來在 2019 年被錄用了，我不記得確切是哪，好像是 ICLR，但之前被 NeurIPS 之類的拒絕過。核心直覺在於，參數復用以及讓模型再次處理自己的輸出是有某種價值的。基本上就是你生成了一些東西，然後把它再次傳回模型，讓模型有機會再次處理。我記得 Łukasz 當時有一個他稱之為「算法任務」的數據集。

那是基於 TensorFlow 的程式庫的一部分，叫 Tensor2Tensor。程式碼現在還在，我甚至還能找到我當時提交 Universal Transformer 程式碼的合併請求。我們發現，在處理一些問題時——比如將輸入複製到輸出，或者處理超長輸入的算法任務——這對普通模型（像普通 Transformer）來說極其困難，表現得很糟糕，但透過循環可以完美解決。當時我記得我們用了 Meta 的 bAbI 數據集，表現也非常好。

接著「測試時計算」的想法出現了：你用固定的計算量訓練，但在測試時，你可以釋放模型的潛力，讓它針對輸入投入更多的計算量。我們對此感到非常興奮。最終我們在其中引入了自適應計算機制，這其實靈感來自 Alex Graves 關於 LSTM 的那篇論文。那是一段非常有意思的歷程。當時我們追求的東西聽起來很前衛，但我猜當時整個領域太過於關注如何利用自適應計算來降低簡單問題的成本了。

但現在我們知道，其實可以用它來增加困難問題的計算成本。這其實是同一枚硬幣的兩面。因為當時我們受限於資源，所以總在想：為什麼要花那麼多算力跑完所有層？如果一個句子的結尾只是一個句號，我們真的需要跑滿 24 層嗎？如何能減少計算量？但現在我們有了不同的視角：比如對於一個物理問題，為了跑推理，我們可能願意讓它跑上兩個星期。所以如何增加計算量？

能和這群天才共事真的很有趣。這種深度上的遞迴和參數復用，或者後來有人將其稱為「負稀疏性」，是一個非常好的概念。這可以很好地將它與混合專家模型聯繫起來。在 MoE 中，你擁有「不增加算力的參數」。而在循環中，你擁有「不增加參數的算力」。你不需要額外的參數，就能在同一個問題上投入額外的算力。這走向了稀疏性的另一個方向，而且非常有效。我想人們正在意識到這一點，我們在這個方向上看到了很多令人興奮的進展。

ViT 模型的誕生：圖像切片、餵給 Transformer、擴大規模

Matt Turk： 引人入勝。你在該領域做出的另一個具有根本重要性的貢獻是視覺方面。視覺 Transformer 是如何改變 AI 的？我們在 2022 年看到了那篇 Transformer 論文，題目叫《一張圖片等同於 16x16 個字：用於大規模圖像識別的 Transformer》。你能帶我們了解一下那是什麼嗎？

Mustafa Dehghani： 那也有個有趣的故事。我是透過那篇論文進入視覺和多模態領域的。在此之前我從未研究過視覺問題，主要是因為我當時正坐在研究視覺的同事旁邊。我的辦公桌緊挨著他們，在他們的交談中我產生了興趣，覺得這真的很意思。我記得當時我正和 Aakash 等人一起研究外部稱為 PaLM 的論文。我當時就在想，為什麼我們擁有 4000 億參數的語言模型，而視覺領域最大的模型卻只有大概 1 億參數（比如 ResNet）？為什麼規模化沒有帶來收益？

Mustafa Dehghani： 我開始和同事們研究：也許 Transformer 中有一些東西能讓它具備可擴展性，也許我們可以拋棄卷積來嘗試一下。老實說，我不想說那是實現規模化的唯一途徑，如果有一群人花足夠的時間在卷積上，也許也能讓它變得同樣可擴展且出色。但採用 Transformer 還有一個好處：當時整個機器學習領域研究語言的人都在使用這種架構，他們正在為它構建基礎設施，讓它變得更快。有時硬體在短期內也是基於這種架構設計的。

於是我們開始推進。我記得當時我們有很多想法，比如「如果每個像素都是一個 Token 會怎樣？」，但那樣成本太高了，上下文序列會變得超級長。我們經歷了反覆的討論，有趣的是，我們最初是從非常複雜的角度去思考這個問題的。我們試圖模擬卷積來讓它工作，但結果是，我在蘇黎世的一些同事嘗試了一個簡單的想法：如果直接把圖像分成 16x16 的像素塊呢？把每個像素塊當作一個 Token，忘掉重疊的像素塊或視窗之類的複雜設計。

就這樣，切碎圖像，餵給 Transformer，然後開始堆規模——用大量數據、從判別式任務開始訓練這個模型。結果它成功了。這讓我們都有點驚訝，因為我們之前想的都是些花俏且複雜的集成卷積之類的方案，但真正起作用的卻是這個簡單的想法：切片、餵給 Transformer、擴大規模。砰！一個非常出色的表示學習模型就誕生了。

Matt Turk： 站在最高維度來複述，這基本上意味著你可以將 Transformer 架構應用於圖像。而過去這是兩個不同的家族：文本屬於 Transformer 世界，圖像屬於 CNN（卷積神經網路）世界。你們的突破證明了 Transformer 同樣可以很好地擴展到圖像，這基本上為今天的 Gemini 3 鋪平了道路，因為它是一個原生的多模態模型。這樣說公平嗎？

Mustafa Dehghani： 是的，沒錯。基於此，我們邁出了一步，讓視頻和音頻也開始採用 Transformer。即使它不是實現多模態的唯一架構，但它讓原生地訓練這些模型變得非常簡單，因為你可以用單一架構在訓練期間包含所有模態。

原生多模態最讓 Mustafa 興奮的是：瞥見模態間的遷移

Matt Turk： 這完美過渡到了你在 Nano Banana 團隊的工作以及圖像 AI 的未來。你是 Nano Banana 團隊的一員，產品發布後徹底走紅，這一定很有趣。在那之後又有幾次發布：2025 年 11 月的 Nano Banana Pro，以及幾週前發布的 Nano Banana 2，也就是 Gemini 3.1 Flash Image。很多人認為圖像生成就像翻譯器：AI 讀取提示詞，翻譯成繪畫指令，然後畫出來。但正如我們所說，Gemini 是原生多模態的。那它是如何工作的？模型如何同時處理文本和像素來構建圖像？

Mustafa Dehghani： 我進入生成領域的原因……順便提一句，我並不是圖像生成的專家。剛開始工作時，我和別人開會，他們談論電腦圖形學和各種老派的直覺，我完全聽不懂在說什麼。我只知道如何訓練 Transformer 並擴大規模，如果這有幫助，我就能做出貢獻。

與這群聰明絕頂的人合作非常有趣。我之所以興奮，是因為我對模態間的「正向遷移」很感興趣。當你思考原生多模態時，一方面是增加能力：模型能理解圖像、視頻、音頻和文本，也能生成所有這些模態。從產品角度看這很棒。但對我來說，最興奮的部分是能否瞥見模態間的遷移。

例如，如果我訓練一個模型擅長生成圖像，它會變得更擅長生成文本嗎？語言學文獻中有一個古老的概念叫「報告偏見」。比如你去朋友家，看到一個香蕉形狀的沙發。當你回家後，你談論這個沙發的機率比談論一個普通沙發的機率要高得多。你會告訴朋友：「我去那兒了，他們的沙發是香蕉形狀的，真有趣。」但如果沙發很普通，你特意提起它就顯得很奇怪。

這就是語言報告偏見：語言不會討論分佈中心（平凡）的事物。但如果你有圖像輸入，這些資訊就在那裡，不需要被「報告」。因此，透過語言獲取世界知識效率並不高。我不是說不可能，而是沒效率。比如學習引力，如果讓模型看視頻，它比讀所有教科書來理解引力概念要容易得多。

引入多模態是讓模型成為世界模型的捷徑

Matt Turk： 這就是內建在圖像表示中的「世界模型」概念嗎？

Mustafa Dehghani： 沒錯。你希望這些模型成為世界模型，了解這個世界。雖然透過文本教模型是有可能的，但透過引入多模態是實現這一目標的捷徑。而學習一個模態最好的方式就是學習如何生成它。Gemini 從第一天起就是多模態的。我們之所以在 2.5 版本而不是 1 或 2 版本才發布圖像生成，是因為之前效果不夠好，需要推一把。後來我們找到了在不退化模型其他能力的前提下，將原生生成引入的方法。

這是讓我非常感興趣的一點。但不幸的是，看到明顯的「正向遷移」非常困難。雖然訓練出的模型很出色，但很直觀地看到「我訓練了圖像，文本的困惑度就下降了」。但我的希望是，多模態訓練最終能實現跨模態的正向遷移。

那些專家對視覺品質有著極佳的品味。有時我覺得模型很棒，發給他們，他們卻說不行。他們能指出兩張在我看來一模樣的圖片的細微差別。正是他們的這種直覺成就了 Nano Banana。但我當時在想，如果我們將這推向傳統圖像生成之外呢？

與其做一個「文本到圖像」的翻譯器，不如做一個關於圖像的「思考機器」。例如，實現交錯的文本圖像生成，模型不僅能用文本 Token 思考，還能在像素空間思考。它生成一段文本，然後生成一張圖，再生成文本。這可以用於講故事，比如童書。

另一個讓我興奮的是「增量生成」。如果你讓 DALL-E 或 Imagine 這種獨立模型生成一個包含 50 個細節的場景，它們可能會失敗。你可以訓練一個能處理 55 個細節的模型，但到了 60 個又會出問題。單次生成總是存在瓶頸。但如果有增量生成，模型可以一個一個地生成細節。你不再期望模型第一槍就畫出完美圖像，而是期望它進行規劃。它會想：「讓我先從大物體開始，因為如果先放小物體，大物體可能放不下了。」這種規劃避開了單次生成的性能瓶頸。

Nano Banana 2 快速生成的背後：模型輕量、蒸餾研究、推理優化

Matt Turk： 這是否有助於提高效率？尤其是 Nano Banana 2，它有 Flash 的特性，生成速度極快。幕後英雄是什麼？

Mustafa Dehghani： 首先，我參與了最初的 Nano Banana 和 Pro 版本，最後一個版本是由團隊交付的，因為我轉向了後訓練和智慧代理人。從高維度看，讓模型更快、更高效的原因，部分在於模型大小（Flash 版本參數配置更輕量）。另一部分是人們花了大量時間研究蒸餾方案，將複雜過程蒸餾得更輕量。

令人驚訝的是，推理服務的基礎設施工作也非常重要。我們有非常天才的推理工程師。有時你坐在桌前，他們走過來隨口說：「順便說下，我剛把模型速度提升了 10 倍。」你會覺得這太不可思議了。這些模型的操作方式與普通語言模型不同，優秀的工程師能針對性地優化推理流程。

對 AI 領域的批判性看法：持續學習被低估、AI 技術進步速度快於世界配套機制的發展

Matt Turk： 對話接近尾聲，我們來聊聊幾個犀利觀點。目前 AI 領域有哪些做法是錯誤的？

Mustafa Dehghani： 很難只點出一件事，但這只是我的個人看法。我認為我們低估了修復「參差不齊的智慧」有多難。人們看到一個模型能解複雜的數學題，卻數不清單詞裡的字母，通常只是笑笑就過去了。但我認為這指向了這些系統在表示和處理知識方面的一些深層且尚未解決的問題。這不僅僅是一個可以打補丁的 Bug，而是模型學習方式的結構性特徵。

Matt Turk： 目前 AI 研究中有哪些被低估的想法？

Mustafa Dehghani： 持續學習。正如我所說，問題往往停留在探索階段，直到我們有信心才會進入利用階段。我認為現在已經到了必須將其推向生產化的時候了。目前的基礎模型本質上是「凍結」在時間裡的，訓練結束，它就固定了。所有的 RAG 管道、微調流程、檢索系統都是基於「模型是凍結的」這一假設構建的。這個假設太強了，我們需要更積極地思考如何改變它。

Matt Turk： 你認為 RAG 會隨時間消失嗎？

Mustafa Dehghani： 它不會像今天這樣，但我不確定它會完全消失。RAG 不僅僅是帶來新鮮資訊，還有上下文學習。模型權重裡的知識與上下文裡的知識是有區別的。也許它不再需要為每件事都觸發 RAG，但對於長尾分佈的資訊，我們仍會使用 RAG。

Matt Turk： 你認為人們對什麼過於自信了？

Mustafa Dehghani： 人們認為只要推動技術側就足夠了，只要模型更聰明，其他一切都會迎刃而解。在我看來，如果一個版本的 AI 在技術問題上很出色，但在其他方面有盲點，它是無法創造有意義的世界進步的。治理、監管、社會信任、訪問權的分配、機構的吸收能力，這些都不是已解決的問題，甚至比技術部分更難。目前技術進步的速度明顯跑在了世界發展配套機制的能力之前，這個差距正在擴大。

Mustafa 當下感興趣的方向：超長時程任務、「接地」問題、智慧的定義

Matt Turk： 最後一個問題。如果你今天從零開始，你會研究什麼？

Mustafa Dehghani： 我不想從零開始（笑），那太難了。但我可以告訴你我非常興奮的一個方向，那就是超長時程任務的全自動化。現在的智慧代理人 Demo 很有市場，但大家對「複合可靠性問題」談論得不夠。

想像一下，如果一個智慧代理人需要 100 個連續步驟來完成任務，假設每一步的成功率是 95%（這已經非常樂觀了），那麼完成整個任務且不出錯的機率是：

這種數學邏輯是殘酷的。長時程自動化需要極高的單步可靠性和錯誤恢復能力，而目前的系統還不具備。人們體驗的不是模型的平均性能，而是它的失敗。一個愚蠢的錯誤對信任造成的傷害，遠比做對 100 件事帶來的好處要大。

此外，我還會研究「接地」問題，以及如何建立與物理世界連接的穩定 AI 系統。我們必須擺脫文本和像素中的統計模式。最後，即使是定義「智慧」本身也是一個具有實際意義的問題。我們一直在追求讓模型更聰明，但智慧的定義非常模糊，很難衡量真正的進展。我們需要一種系統化的方式來定義智慧，明確目標，然後全速前進。

Matt Turk： Mustafa，這是一次非常精彩的對話。非常感謝你抽出時間。

Mustafa Dehghani： 謝謝邀請，聊得很開心。

參考連結：

https://www.youtube.com/watch?v=Bo19sXssYXI

權重凍結是AI進步的敵人！DeepMind頂尖AI研究員：AI自我改進的關鍵在於評估，需借鑑形式化驗證！專家模型是通往泛化AGI的基石！

相關文章推薦

分享網址