Gemini 靈魂人物、傳奇工程師 Jeff Dean 最新訪談：未來人均 50 個虛擬實習生，用不上專家了！

「履歷基本上就是 AI 的時間軸」，這是許多人對 Gemini 背後的核心推動者、Google 首席人工智慧科學家 Jeff Dean 的評價。從 2000 年代初重寫 Google 搜尋全棧到重啟兆參數稀疏模型，再到將 TPU 與前緣機器學習研究協同設計，Jeff Dean 以一種低調的方式，幾乎塑造了現代 AI 技術棧的每一層。他親歷了多輪規模革命：從 CPU、分片索引，到能跨文字、影片、程式碼進行推理的多模態模型。

近日，他在一場深度對話中的犀利言論備受熱議。不少業界人士直呼，「資訊量超大」。在這場訪談中，Dean 拋出了諸多獨家觀點與極具前瞻性的判斷。

「大一統模型的時代真的來了。關鍵在於，模型正在變得越來越強，不再需要領域專家。」他表示，未來是專用模型加模組化模型的組合，可以同時擁有並在不同場景下調用 200 種語言、超強機器人模組、超強醫療模組。「模型知識是可安裝的，像下載軟體包一樣。」

作為「電腦歷史上最高產的工程師之一」，Dean 還大方分享了自己現在用 AI 寫程式碼的方式，並表示，「未來很可能每個人都能擁有 50 個虛擬實習生，讓他們組成小組，只需要對接 5 個小組，讓他們各自幹活。」

而且，Dean 詳細透露了 Google 內部「衝前緣」的模式和推動團隊架構改進和模型能力升級的思考。除此之外，他還提出並拆解了多個有趣的問題，包括：為什麼蒸餾是每一次 Flash 模型突破的核心驅動力、為何能耗而非算力正成為真正瓶頸、如何提前 2–6 年進行硬體與模型的協同設計、為什麼下一次躍遷不只來自更大的上下文視窗而是來自能「彷彿在處理兆 token」的系統等。

以下是詳細對話內容，我們在不改變原意的基礎上進行了翻譯和刪減，以饗讀者。

1 下一代模型，哪些舊思路值得撿起來？

Shawn Wang：今天我們請到了 Google 首席 AI 科學家 Jeff Dean，歡迎您。能邀請到您真的太榮幸了，我看過您無數場演講，您的職業生涯堪稱傳奇。首先必須要說，恭喜你們拿下了「帕雷托前緣」（Pareto Frontier）。

Jeff Dean：謝謝。帕雷托前緣確實很棒，能站在這個位置很不錯。

Shawn Wang：對，我覺得是兩者兼備。你既要佔據帕雷托前緣，要有頂尖能力，也要兼顧效率，然後提供大家願意用的一系列模型。這其中一部分源於你們的硬體工作，一部分來自模型工作，肯定還有很多日積月累的獨門秘訣。能看到這一切如此絲滑地整合在一起，真的非常震撼。

Jeff Dean：是的沒錯。就像你說的，這不是單一因素，而是技術棧從上到下一整套東西的結合。所有這些加在一起，才讓 Google 能夠做出能力極強的大模型，同時也透過軟體技術，把大模型的能力遷移到更小、更輕量的模型裡，這些小模型成本更低、延遲更低，但在自身規模下依然能力很強。

Alessio Fanelli：那在守住帕雷托前緣下限這方面，你們有多大壓力？我感覺很多新實驗室都在拼命衝性能上限，因為要融資之類的。而你們有數十億用戶。我記得你們早年做 CPU 的時候就討論過：如果每個 Google 用戶每天用三分鐘語音模型，你們就得把 CPU 數量翻倍。現在 Google 內部是怎麼討論的？怎麼權衡「衝前緣」和「必須落地部署」這兩件事？

Jeff Dean：我們一直希望擁有前緣、甚至推動前緣的模型，因為只有這樣才能看到去年、半年前不存在的新能力。但同時我們也知道，這些頂尖模型雖然有用，但對很多更廣泛的場景來說，速度偏慢、成本偏高。所以我們的思路是：同時做兩條線，一條是高能力、低成本的模型，支援低延遲場景，讓大家能更輕鬆地用在智能體程式設計等任務上；另一條是高端前緣模型，用於深度推理、解決複雜數學問題這類場景。兩者不是二選一，而是都有用。而且透過蒸餾這一關鍵技術，你必須先有前緣模型，才能把能力蒸餾到小模型裡。所以這不是非此即彼，而是相輔相成。

Alessio Fanelli：你和 Jeffrey 在 2014 年就提出了相關方案。

Jeff Dean：別忘了還有 L'Oreal Vinyls 那篇工作。

Alessio Fanelli：都是很早以前了。我很好奇，你怎麼看待這些思路的迭代週期？比如稀疏模型這類想法，你們會怎麼重新評估？下一代模型裡，哪些舊思路值得重新撿起來？你參與過很多後來影響巨大的想法，但在當時未必能看出來。

Jeff Dean：蒸餾最早的出發點是，我們當時有一個很大的影像資料集，3 億張圖。我們發現，如果為不同影像類別訓練專用模型，比如這個專攻哺乳動物，那個專攻室內場景，先在更寬泛的影像上預訓練，再對聚類後的類別用增強資料微調，效果會好很多。但如果把這 50 個模型當成一個大集成模型，實際部署並不現實。於是蒸餾的思路就來了：把這些獨立的專家模型「壓縮」成一個可以實際部署的形態。這和我們今天做的事本質差不多，只是我們不再用 50 個模型的集成，而是先訓練一個超大模型，再把它蒸餾成小得多的模型。

Shawn Wang：我還在想，蒸餾是不是和強化學習的革新也有關係？我試著表達一下，強化學習會讓模型在分佈的某一部分突飛猛進，但可能在其他區域有損失，是一種不太均衡的技術。但也許可以透過蒸餾把它「收回來」。大家的普遍期望是：提升能力的同時不在其他地方退步。這種無損能力融合，我感覺一部分應該可以透過蒸餾實現，但我還沒太理清，相關論文也不多。

Jeff Dean：我覺得蒸餾的一個核心優勢就是：你可以用很小的模型，配合超大資料集，透過多次遍歷資料，從超大模型那裡拿到邏輯機率輸出，引導小模型學到只用硬標籤學不到的行為。我們觀察到，蒸餾可以讓小模型接近大模型的效果。這對很多人來說都是最佳平衡點。現在 Gemini 已經好幾代了，我們都能讓新一代的 Flash 版本達到甚至大幅超越上一代 Pro 版本的效果。我們會繼續這麼做，因為這是一個很健康的方向。

Shawn Wang：達拉之前問過：最早的路線圖是 Flash、Pro、Ultra。你們是不是一直拿著 Ultra 當「母模型」，從它裡面蒸餾？Ultra 就是那個終極源頭嗎？

Jeff Dean：我們有很多種模型，有些是內部模型，不對外發布或部署；有些是 Pro 級別模型，我們也可以從它蒸餾出 Flash 級別模型。這套能力很重要，推理時的動態擴充套件也能提升模型效果。

Shawn Wang：明白。而且顯然 Flash 的成本優勢帶來了絕對統治力。最新資料好像是 50 兆 token，我記不清了，反正每天都在變。

Jeff Dean：對，希望市場份額也在往上走。

Shawn Wang：我是說從成本上看，Flash 太經濟了，幾乎什麼場景都能用。現在 Gmail 裡有，YouTube 裡有，到處都有。

Jeff Dean：我們也在越來越多的搜尋產品裡用上它，包括各種 AI 模式。

Shawn Wang：我的天，Flash 都進 AI 搜尋模式了？我都沒想到。

Jeff Dean：Flash 模型的一大優點不只是成本更低，還有延遲更低。延遲其實非常關鍵，因為未來我們會讓模型做更複雜的事，生成更多令牌。比如你不再只讓它寫個迴圈，而是讓它寫一整套軟體包。能低延遲完成這些就特別重要。Flash 是一條路徑，我們的硬體平臺也支撐了很多服務能力，比如 TPU，晶片間的互聯性能極高，非常適合長上下文注意力、稀疏專家模型這類技術。這些對規模化部署至關重要。

Alessio Fanelli：那從 Pro 到 Flash 的蒸餾，會不會存在一個臨界點，差不多滯後一代？我有種感覺：很多任務今天 Pro 已經飽和了，到下一代，同樣任務在 Flash 的價位上就能飽和。再過兩代，Flash 幾乎能做所有人需要的一切。那當大部分用戶都滿足於 Flash 時，你們怎麼說服內部繼續投入去推 Pro 的前緣？我很好奇你怎麼看。

Jeff Dean：如果用戶的需求分佈是靜止不變的，那確實會這樣。但現實往往是：模型越強，人們對它的期待就越高。我自己就有體會：一年前我用模型寫程式碼，簡單任務還行，複雜的就不行；現在我們在複雜程式碼上進步巨大，我就會讓它做更難的事。不止程式設計，現在你會讓它分析全球可再生能源部署、寫一份太陽能報告，這些都是一年前沒人會讓模型做的複雜任務。所以你依然需要更強的模型去拓展邊界，同時也能幫我們找到瓶頸：哪裡還不行，該怎麼改進，讓下一代更強。

2 「把整個網際網路納入上下文」，讓模型處理兆 token

Alessio Fanelli：你們內部會用一些專屬基準或測試集嗎？因為每次公開的都是那幾個基準，從 97% 漲到 99%，你們內部怎麼推動團隊：我們真正要做的目標是什麼？

Jeff Dean：公開基準有它的價值，但生命週期有限。剛出來時很難，模型只有 10%–30% 正確率，你可以一路優化到 80%–90%。但一旦到 95% 左右，邊際收益就極低了，要么是能力已經達標，要么是訓練資料裡出現了洩漏或相似內容。所以我們有一批不公開的內部基準，確保訓練資料裡完全沒有，代表模型目前還不具備、但我們希望它擁有的能力。然後我們去評估：是需要更專業的資料？還是架構改進？或是模型能力升級？怎樣才能做得更好。

Shawn Wang：能不能舉個例子：某個基準直接啟發了架構改進？我正好順著你剛才的話問。

Jeff Dean：我覺得 Gemini 模型尤其是 1.5 首次推出的長上下文能力，就是這麼來的。我們當時的目標就是。

Shawn Wang：當時所有人一擁而上，全是一片飄綠的圖表，我就在想：怎麼大家同一時間都突破了？

Jeff Dean：Stack Benchmark 這種基準，在 1k、2k、8k 上下文長度上早就飽和了。我們真正在推的是 100 萬、200 萬上下文的前緣，因為這才有真實價值：你可以把上千頁文字、幾小時影片放進上下文裡真正使用。單針查詢已經飽和，我們需要更複雜的「多針查詢」，或是更真實的長上下文理解與生成任務，才能衡量用戶真正需要的能力，而不只是「你能不能找到這個商品編號」。

Shawn Wang：本質是檢索，是機器學習裡的檢索。我想站在更底層一點說：你看到一個基準，發現需要改某個架構才能解決，但你真的應該改嗎？有時候這只是一種歸納偏置。就像曾在 Google 工作的 Jason Wei 說的：你可能短期贏了，但長期不一定能擴充套件，甚至以後還要推翻重做。

Jeff Dean：我不太會糾結具體要用什麼方案，而是先想清楚：我們到底需要什麼能力？我們非常確定，長上下文是有用的，但現在的長度還遠遠不夠。你真正想要的，其實是回答問題的時候能把整個網際網路都納入上下文，對吧？但這靠單純擴容現有方案是做不到的，現在的演算法複雜度是平方級的。一百萬 tokens 已經是現有方案的極限了，你不可能做到十億、更別說兆 tokens。但如果你能營造出一種「模型可以關注兆 tokens」的效果，那就太厲害了，應用場景會多到爆炸。

這相當於能把整個網際網路當成上下文，能處理 YouTube 影片的所有畫素，以及我們能提取到的深層表徵；不只是單個影片，而是海量影片。在個人版 Gemini 層面，只要你授權，模型還能關聯你所有的個人狀態：你的郵件、照片、文件、機票資訊等等。我覺得這會非常非常有用。問題在於，如何透過演算法改進和系統級優化，讓模型真正有意義地處理兆 tokens。

Shawn Wang：對了，我之前算過一筆帳：一個人每天不停說 8 小時話，一天最多也就生成 10 萬 tokens 左右，這個量現在完全裝得下。

Jeff Dean：沒錯。但如果你想理解所有人上傳的影片內容，那就完全不是一個量級了。

Shawn Wang：而且還有個經典例子：一旦跳出文字，進入蛋白質這類資訊密度極高的領域，資料量就爆炸了。

Jeff Dean：Gemini 從一開始就堅持做多模態。對很多人來說，多模態就是文字、圖片、影片、音訊這些人類熟悉的模態。但我認為，讓 Gemini 理解非人類模態也非常重要。比如 Waymo 自動駕駛汽車的雷射雷達資料、機器人感測器資料，還有各類醫療模態：X 光、核磁共振、醫學影像、基因組資訊等等。世界上可能有幾百種資料模態，我們至少要讓模型知道：這是一種有意義、有價值的模態。哪怕你沒有在預訓練裡把所有雷射雷達、MRI 資料都訓進去，至少加一小部分進去也是很有用的，能讓模型對這類資訊有基本概念。

Shawn Wang：正好趁這個機會，我想問一個一直想問你的問題：有沒有「王者模態」，也就是能統攝其他所有模態的模態？舉個簡單例子：視覺在畫素級別就能編碼文字，Deepseek 那篇 OCR 論文就證明了這點。而且視覺也能處理音訊，因為可以轉成語譜圖，本質也是視覺任務。這麼說的話，視覺是不是就是王者模態？

Jeff Dean：視覺和動態時序非常重要。這裡說的動態，是影片，而不是靜態圖片。進化讓眼睛獨立演化了 23 次，是有原因的，感知周圍世界的能力太關鍵了，而這正是我們希望這些模型具備的能力。模型要能解讀我們看到、關注到的事物，並幫我們利用這些資訊去做事。

Shawn Wang：說到動態理解，我必須誇一句：Gemini 目前依然是市面上唯一原生支援影片理解的模型，我經常用它看 YouTube。

Jeff Dean：其實很多人還沒真正意識到 Gemini 模型的能力。我在演講裡舉過一個例子：給模型一段過去 20 年裡 18 個經典體育瞬間的 YouTube 集錦，裡面有喬丹總決賽絕殺、足球進球等等。你直接把影片丟給它，說：「幫我做一個表格，列出所有事件、發生時間和簡短描述。」

它真的能直接從影片裡抽出資訊，生成一張 18 行的表格。大多數人根本想不到，模型可以直接把影片轉成結構化表格。

Alessio Fanelli：你剛才提到「把整個網際網路納入上下文」，Google 本身就是因為人類處理不了全網資訊，才需要做搜尋排序。這對大模型來說邏輯完全不一樣：人類看搜尋結果可能只看前五六條，但對大模型來說，是不是要給它 20 條高度相關的內容？Google 內部是怎麼思考的：如何打造一種比傳統人類搜尋更寬泛、覆蓋更廣的 AI 模式？

Jeff Dean：即使在大模型出現之前，我們的排序系統也是這麼做的：索引裡有海量網頁，大部分都不相關，先用輕量方法篩出一批相關的，比如縮到 3 萬個文件，再一步步用更複雜的演算法、更精細的信號去精排，最終只展示給用戶 10 條左右結果。大模型系統的思路不會差太多。你看似要處理兆 tokens，但實際流程是：先篩出大約 3 萬個文件、大概 3000 萬有用 tokens；再從中精挑細選出 117 個真正值得關注的文件，用來完成用戶任務。

你可以想象這套系統：先用輕量模型、高併發處理，篩出初始 3 萬候選；再用更強一點的模型把 3 萬縮到 117；最後用最強的模型去深度理解這 117 個內容。只有這樣的系統，才能營造出「模型能處理兆 tokens」的效果，就像 Google 搜尋確實在搜全網，但最終只給你最相關的一小部分。

Shawn Wang：我經常跟不了解 Google 搜尋歷史的人說，Bert 剛出來就直接用進了搜尋，效果提升非常明顯。這對 Google 來說肯定是最核心的資料。

Jeff Dean：大模型帶來的文字表示方式，讓我們跳出了「關鍵字必須精確匹配網頁」的硬限制，真正做到主題和語義相關，而不是字面對應。

Shawn Wang：我覺得很多人根本沒意識到，大模型已經接管了 Google、YouTube 這種超高流量系統。YouTube 有個語義標識機制，每個 token 對應一個影片，用碼本預測影片，以 YouTube 的規模來說，這太誇張了。

Jeff Dean：最近 Grok 也用在了可解釋 AI 上。其實在大模型大規模用於搜尋之前，我們就一直在弱化「用戶輸入什麼就必須匹配什麼」的思路。

Shawn Wang：你有沒有梳理過這一路的演進歷程？

Jeff Dean：我 2009 年在一個網路搜尋與資料挖掘會議上做過一次演講，講了 1999 到 2004、2005 年左右，Google 搜尋和檢索系統的五六代架構演進，那部分內容我們沒有正式發過論文。2001 年發生了一件關鍵的事：我們在多個維度擴容系統。一是把索引做大，覆蓋更多網頁，品質自然會提升，索引裡沒有的頁面，你永遠搜不出來。二是擴容服務能力，因為流量暴漲。我們用的是分片架構，索引變大就加分片，比如從 30 片變成 60 片，以此控制延遲。流量變大就增加副本。

後來我們算了一筆帳：一個資料中心有 60 個分片，每個分片 20 個副本，一共 1200 臺帶硬碟的機器。這些機器的記憶體加起來，剛好能把整個索引全放進記憶體。於是 2001 年，我們直接把全量索引塞進記憶體，效果直接起飛。在此之前，你必須非常謹慎，因為每個查詢詞都要在 60 個分片上觸發一次磁碟尋道，索引越大效率越低。但全量記憶體索引後，哪怕用戶只輸入三四個詞，你擴充套件成 50 個相關詞都沒問題，可以加同義詞，比如 restaurant、restaurants、cafe、bistro 全都一起搜。我們終於能開始理解詞義，而不是死磕用戶輸入的字面形式。

那是 2001 年，遠在大模型之前，但思路已經是：放寬嚴格字面匹配，靠近語義理解。

3 「寫大量程式碼前，先在腦子裡推演一遍設計空間」

Alessio Fanelli：你設計系統的原則是什麼？尤其是在 2001 年，網際網路規模每年翻幾倍、漲三倍，現在大模型也是每年規模和能力跳一大截。你有什麼一貫的設計原則？

Jeff Dean：首先，設計系統時，必須先抓住最關鍵的設計參數：每秒要扛多少查詢？網際網路有多大？索引要做多大？每個文件存多少資訊？怎麼檢索？流量再漲兩三倍還能不能扛？我一個很重要的設計原則是：把系統設計成能擴容 5～10 倍，但不用更多。因為一旦變成 100 倍規模，整個設計空間會完全不一樣，原來合理的方案會直接作廢。比如從磁碟索引到記憶體索引，就是流量和機器足夠多之後才變得可行的，一下子開啟了全新架構。

我很喜歡在寫大量程式碼之前，先在腦子裡把設計空間推演一遍。回到 Google 早期，我們不僅在瘋狂擴大索引，索引更新頻率才是變化最誇張的指標。以前是一個月更新一次，後來我們做到了單頁面一分鐘內更新。

Shawn Wang：這就是核心競爭力對吧？

Jeff Dean：沒錯。新聞類查詢，如果你的索引還是上個月的，那就完全沒用。

Shawn Wang：新聞是個特殊場景，你們當時就不能把它拆成獨立系統嗎？

Jeff Dean：我們確實推出了 Google 新聞，但用戶在主搜尋裡輸新聞相關關鍵字，也必須拿到最新結果。

Shawn Wang：所以你們還要分類頁面，判斷哪些頁面該高頻更新、頻率是多少。

Jeff Dean：背後有一整套系統，用來決定頁面的更新頻率和重要度。有些頁面雖然變化機率低，但只要更新價值極高，依然會非常頻繁地重新抓取。

Shawn Wang：說到延遲和儲存，我必須提你的一篇經典之作：《每個程式設計師都該知道的延遲數字》。背後有什麼故事嗎？就是隨手整理的？

Jeff Dean：裡面大概列了八九種、十來項指標：快取失效開銷、分支預測失敗開銷、記憶體訪問開銷、從美國發資料包到荷蘭的時間等等。

Shawn Wang：順便問一下，為什麼是荷蘭？是因為 Chrome 的關係嗎？

Jeff Dean：我們當時在荷蘭有個資料中心。其實這就回到了快速估算這件事上。這些都是最基礎的指標，你可以拿它們來做判斷：比如我要做圖片搜尋、生成縮圖，我是提前算好縮圖，還是實時從大圖裡生成？需要多少頻寬？會產生多少次磁碟尋道？你只要手裡有這些基礎數值，幾十秒就能在腦子裡做一遍推演。等你用更高階的庫寫軟體時，也要培養出同樣的直覺：比如在某種結構裡查一次資料大概要多久。

Shawn Wang：這就是簡單的位元組換算，沒什麼特別的。我在想，如果你要更新那篇文章的話……

Jeff Dean：我覺得很有必要去算一下模型裡的計算量，不管是訓練還是推理。

Jeff Dean：一個很好的視角是：你需要從記憶體裡搬運多少狀態，片上 SRAM、加速器的 HBM、DRAM，還是網路傳輸？然後對比一下，資料搬運的成本，和矩陣乘法單元裡一次實際乘法運算的成本差多少。其實計算成本非常非常低，根據精度不同，大概不到 1 pJ。

Shawn Wang：哦，懂了，你是用能耗來衡量的。

Jeff Dean：對，核心就是能耗，以及如何做出能效最高的系統。在同一塊晶片上，只是從一邊的 SRAM 傳到另一邊，能耗就可能達到 1000 pJ。這就是為什麼加速器一定要用批處理（batching）。如果你把一個模型參數從片上 SRAM 搬到乘法單元，要花 1000 pJ，那你最好把這個參數重複用好多次。這就是 batch 維度的意義。batch 設成 256 就還好，但如果是 1，那就非常不划算。

Shawn Wang：對，沒錯。

Jeff Dean：因為你花了 1000 pJ，就為了做一次 1 pJ 的乘法。

Shawn Wang：我從來沒聽過從能耗角度去解釋批處理。

Jeff Dean：這就是大家用 batch 的根本原因。理論上，batch=1 延遲最完美，但能耗和計算效率的浪費實在太大了。

Shawn Wang：延遲是最好的。

Jeff Dean：對，但代價太高。

4 TPU 的神級決策：反過來調整模型架構

Shawn Wang：那有沒有類似當年「把索引全放進記憶體」這種神級技巧？比如 NVIDIA 這次押注 SRAM 搞 Grok，引起很大轟動。我在想，你們做 TPU 的時候是不是早就看到這一點了？畢竟要支撐你們的規模，肯定提前預判到了。從這些現象裡，你們總結出了哪些硬體創新或洞察？

Jeff Dean：TPU 有很規整的結構，2D 或 3D 網格，很多晶片連在一起，每塊都掛著 HBM。

在部署某些模型時，從 HBM 拿資料比從片上 SRAM 拿資料，成本和延遲都高得多。所以如果模型夠小，你可以用模型並行，把它分散到很多晶片上，吞吐量和延遲都會明顯提升。把一個中小模型打散到 16、64 塊晶片上，如果全都能放進 SRAM，提升會非常巨大。這不算意外，但確實是個好技巧。

Alessio Fanelli：那 TPU 的設計呢？你們怎麼決定改進方向？舉個例子，有沒有辦法把 1000 pJ 降到 50？值得為了這個專門設計一顆新晶片嗎？最極端的就是有人說，直接把模型燒進 ASIC。領域變化這麼快，多少事值得用硬體來解決？內部是怎麼討論的？

Jeff Dean：我們 TPU 晶片設計架構團隊和高層建模專家之間有大量協作。因為你需要協同設計：根據機器學習研究的未來方向，去定義下一代 TPU 應該長什麼樣。做 ML 硬體的人都知道，今天開始設計一顆晶片，可能兩年後才進資料中心，還要用三四年。你必須預測未來 2～6 年，人們會想跑什麼機器學習計算。所以，要有一批人去研究：哪些思路在那段時間裡會起效、會更重要。這樣我們才能把有用的硬體特性，加到未來幾代的 TPU 裡。

Shawn Wang：晶片迭代週期是兩代之後？

Jeff Dean：差不多。小改動可以塞進下一代，大改動必須提前更早啟動設計。只要條件允許，我們都會這麼做。有時會加一些試探性的功能，佔晶片面積不大，但如果成了，能直接快 10 倍；就算不成，也就浪費一點點面積，問題不大。但如果是特別大的改動，我們就會非常謹慎，做大量實驗來確認方向是對的。

Alessio Fanelli：那有沒有反過來的情況：因為晶片設計已經定了，所以模型架構不能那麼走，因為不匹配？

Jeff Dean：肯定有。你會反過來調整模型架構，讓它在那一代晶片上訓練和推理更高效。兩邊是互相影響的。比如未來一代晶片支援更低精度，你甚至可以提前用那個精度訓練，哪怕當前一代還不完全支援。

Shawn Wang：那精度到底能壓到多低？

Jeff Dean：很多人在說三值精度。我個人非常支援極低精度，因為能省巨大量的能耗。能耗是按每位元傳輸算的，減少位元數是最直接的方式。業界已經在極低位元精度上取得了很多效果，再配上一組權重的縮放因子，效果就很穩。

Shawn Wang：有意思，低精度，但帶縮放權重。我以前沒想過這點。

Shawn Wang：說到這，我覺得精度這個概念本身在採樣場景裡就很奇怪。我們堆了這麼多算力超強的晶片，最後前面還要掛一個隨機數生成器。現在業界有往能量基模型、能量導向處理器發展的趨勢，你顯然也思考過，能說說你的看法嗎？

Jeff Dean：確實有幾個有意思的方向。能量基模型是一個，不按順序逐 token 解碼的擴散模型是另一個。還有 speculative decoding（推測解碼），相當於一個很小的草稿 batch，先預測 8 個 token，有效 batch size 就擴大 8 倍，最後接受其中 5～6 個。這樣分攤下來，把權重搬到乘法單元裡的成本就被攤薄了，能帶來幾倍的提升。這些都是非常好的技巧。而且一定要從真實能耗、延遲、吞吐量這幾個角度去看，你才會找到正確的方向：要么能服務更大模型，要么同等模型成本更低、延遲更低。

Shawn Wang：這個思路在理論上很吸引人，只是還沒真正成為主流。但某種意義上還挺有美感的，如果從硬體底層就設計好，我們就不用搞那麼多取巧的辦法。

Jeff Dean：還有一些更前緣的方向，比如模擬計算基底，而不是數字電路。理論上能效可能極高，但問題是你要跟數字系統對接，數模、模數轉換那部分會吃掉大部分能效優勢。但即便只看數字方向，靠更專用、更高效的硬體，能效上我們還有巨大的提升空間。

5 大一統模型時代到來，不需要專家了？

Alessio Fanelli：你還看到哪些有意思的研究方向？或者有什麼在 Google 暫時沒法做，但希望其他研究者去嘗試的方向？

Jeff Dean：我們的研究佈局已經很廣了。有很多開放問題：怎麼讓模型更可靠，能做更長、更複雜、包含大量子任務的事情？怎麼實現模型調用其他模型當工具，組合起來完成遠比單模型更有意義的工作？這部分非常有意思。還有，怎麼讓強化學習在不可驗證的領域也能生效？這是個很棒的開放問題。如果能把數學、程式碼上的進步，複製到其他沒那麼容易驗證的領域，模型能力會再上一個大臺階。

Alessio Fanelli：之前 Noam Brown 來節目裡說，他們已經用深度推理證明了這點。某種意義上，你們的 AI 模式也是不可驗證的。我在想這裡面有沒有共通的線索？比如都在做資訊檢索、返回 JSON。是不是檢索就是那個可以打分、可以驗證的部分？你怎麼理解這個問題？

Jeff Dean：可以用其他模型來評估第一個模型的結果，甚至做檢索。比如讓另一個模型判斷：檢索回來的內容相關嗎？2000 條裡最相關的 50 條是哪些？這類方法其實非常有效。甚至可以就是同一個模型，只是換個提示詞，從「檢索系統」變成「評判器」。

Shawn Wang：我總覺得有一道很明顯的坎：好像簡單的事都做完了，剩下的都特別難。其實每年大家都這麼覺得。尤其是 RLVR 這塊，所有人都在問：不可驗證問題的下一階段到底怎麼做？然後大家都說：不知道，等著評判。

Jeff Dean：這個領域好就好在，有無數聰明人在給這些難題想創造性的解法。大家都看得很清楚：模型在某些事上很強，但在邊緣場景就會拉胯。提出技巧、驗證效果、推動進步，就是這個領域研究的核心。你想想兩年前，我們連 GSM8K 這種小學數學題都費勁。現在呢？模型已經能純靠語言解國際奧數、埃爾德什級別的問題。一年半裡能力的躍遷是驚人的，其他領域我們暫時還沒完全看清楚路徑，但有一些已經看到曙光，我們會全力把這種飛躍複製過去。

Shawn Wang：沒錯。

Alessio Fanelli：比如 YouTube 縮圖生成，這個功能會非常實用，我們太需要了。這簡直就是 AGI 級別的需求。

Shawn Wang：對內容創作者來說絕對是。

Jeff Dean：我不是 YouTube 創作者，所以對這個問題沒那麼敏感，但我知道很多人很在意。

Shawn Wang：確實大家很看重。畢竟大家真的會「以封面論影片」。回到奧數那個話題，我到現在還覺得不可思議：一年前我們還在搞 AlphaProof、AlphaGeometry 這些專門的系統，今年直接一句「算了，全都塞進 Gemini 就行」。你怎麼看這件事？過去大家普遍認為，符號系統和大模型必須結合，但後來大家直接選擇：全都用大模型解決。

Jeff Dean：我覺得這很合理。人類確實會操作符號，但我們腦子裡大概率沒有一個明確的符號系統，而是某種分佈式表徵，本質上接近神經網路。大量神經元在特定情況下產生啟用模式，讓我們能推理、規劃、做思維鏈，發現一條路走不通就換一條。在很多方面，基於神經網路的模型，其實是在模擬我們直覺中大腦裡發生的事情。所以對我來說，把完全離散、獨立的符號系統，和另一套完全不同的思考機制分開，從來就不太合理。

Shawn Wang：有意思。對你來說可能理所當然，但一年前我可不是這麼想的。

Jeff Dean：你看奧數任務也是一樣，最開始要翻譯成 Lean 語言、用專門工具，第二年還要專用幾何模型，到今年直接換成一個統一模型，就是線上正式版模型，只是多給了一點推理資源。

這其實很好，說明通用模型的能力大幅提升，不再需要專用模型。這和 2013 到 2016 年那波機器學習的發展非常像：以前每個任務都要單獨訓模型，識別路標訓一個，語音識別訓一個。現在，大一統模型的時代真的來了。關鍵在於，這些模型在從未見過的新任務上泛化能力如何，而它們正在變得越來越強。

Shawn Wang：而且不再需要領域專家。我之前採訪過相關團隊的人，他說：我完全不懂奧數，不知道比賽在哪舉行、規則是什麼，我只管訓模型。挺有意思，現在只要有機器學習這種通用技能，給資料、給算力，就能搞定幾乎任何任務。這大概就是所謂的「苦澀教訓」吧。

Jeff Dean：我認為，通用模型在絕大多數情況下都會勝過專用模型。

6 未來模型知識直接「裝」，「像下載軟體包一樣」

Shawn Wang：這點我想再追問一下。我覺得這裡有個漏洞：模型的容量是抽象的，它能裝下的知識只有參數量對應的位元數。誰都知道 Gemini Pro 有幾兆參數，但具體沒人知道。但像 Gemma 這類模型，很多人想要開源、本機跑的小模型，它們必然裝不下所有知識。大模型有條件什麼都知道，但小模型在蒸餾、壓縮的過程中，其實會記住很多沒用的東西。所以我們能不能把知識和推理剝離開？

Jeff Dean：你確實希望模型把推理做到最強，同時具備檢索能力。讓寶貴的參數空間去記那些可以查到的冷僻知識，其實不是最優使用方式。你更希望參數用在更通用、更多場景都有用的能力上。但同時，你也不想讓模型完全脫離世界知識。比如知道金門大橋大概有多長，對「橋有多長」有個基本概念，這類常識是有用的。它不需要知道世界上某個偏僻小橋的長度，但具備相當規模的世界知識是有幫助的，模型越大，能裝的就越多。但我確實認為，把檢索和推理結合起來，讓模型擅長多輪檢索，會是關鍵方向。

Shawn Wang：並且基於中間檢索結果做推理，會讓模型看起來比實際強得多。比如個人版 Gemini。

Jeff Dean：我們不太可能把我的郵件拿去訓 Gemini。更合理的方式是：用一個統一模型，把檢索我的郵件、我的照片當成工具，讓模型基於這些資訊去推理、互動，分多輪完成任務。這樣才合理。

Alessio Fanelli：你覺得垂直領域模型有意義嗎？比如很多人說「我們要做最好的醫療大模型、最好的法律大模型」。這些只是短期過渡方案嗎？

Jeff Dean：不，我覺得垂直模型是有價值的。你可以從一個很強的基座模型出發，然後在醫療、機器人這類垂直領域富集資料分佈。我們不太可能把所有機器人資料都塞進 Gemini 訓練，因為要保持能力均衡。我們會給它看一部分機器人資料，但如果你想做一個極致優秀的機器人模型，就要在通用模型基礎上，再用更多機器人資料去訓練。它可能會因此損失一點翻譯能力，但機器人能力會大幅提升。

我們訓練基座 Gemini 時，一直在做這類資料配比權衡。我們很想加入 200 多種語言的資料，但這會擠佔其他能力：可能 Pearl 程式設計就沒那麼強了，Python 還能保住，但其他小眾語言或多模態能力可能會受影響。所以我認為，未來是專用模型加模組化模型的組合。你可以同時擁有 200 種語言、超強機器人模組、超強醫療模組，在不同場景下調用。比如處理醫療問題時，就把醫療模組和基座模型一起用上，效果會更好。

Shawn Wang：可安裝的知識。

Jeff Dean：沒錯。

Shawn Wang：像下載軟體包一樣。

Jeff Dean：一部分可安裝知識可以來自檢索，另一部分應該來自預訓練，比如提前用 1000 億、1 兆 token 的醫療資料訓好。

Shawn Wang：Gemma 3 的論文裡已經有一點這個味道了。

Alessio Fanelli：問題是，你到底需要幾千億 token，才能追上前緣基座模型的進步速度？如果我想做一個更強的醫療模型，而主模型 Gemini 還在不停進化，我需要 500 億 token 嗎？1000 億？如果需要一兆醫療 token，那資料根本就不存在。

Jeff Dean：醫療是一個特別有挑戰的領域。很多醫療資料我們沒有合適的訪問權限，但很多醫療組織希望用自己的私有資料訓模型。所以機會在於：和大型醫療機構合作，為它們定製模型，效果很可能比只用公開資料訓練的通用模型更好。

Shawn Wang：對了，這和語言的話題也有點像。你最喜歡舉的一個例子就是：把低資源語言放進上下文裡，模型直接就能學會。

Jeff Dean：對，我們用過一個叫 Calaba 的語言，資源極度稀缺，全世界只有大概 120 個人說，還沒有文字。

Shawn Wang：直接放進上下文就行，把整個資料集塞進去。

Jeff Dean：像索馬里語、阿姆哈拉語這類語言，世界上是有一些文字的。我們不會把所有資料都放進 Gemini 訓練，但放得越多，模型能力就越強。

Shawn Wang：我個人對語言學有副業興趣，大學時修過幾門課。如果我是語言學家，能用上這些模型，我會去問關於語言本身的根本性問題。比如薩丕爾—沃爾夫假說：你說的語言在多大程度上影響你的思維？有些語言裡存在其他語言沒有的概念，也有很多概念是重複的。還有一篇很有名的論文提到「柏拉圖表徵」：比如「杯子」的圖片，配上大量帶「cup」的文字，最後表徵會收斂到差不多同一個位置。這套邏輯理論上也適用於語言，但有些地方不適用，而這些不適用的地方，恰恰反映了人類獨有的概念差異，有些概念甚至英語裡都不存在。這部分我覺得非常有意思。

Jeff Dean：我早年做過一個模型，把文字表徵和影像模型結合起來，在 ImageNet 這類資料上訓練，然後把頂層表徵融合。你會發現，給模型一張它從未見過的新圖片，它往往能給出正確標籤。比如，模型學過望遠鏡和雙筒望遠鏡，但沒見過顯微鏡。給它看顯微鏡的圖片，它居然能輸出「microscope」這個標籤，儘管從來沒見過帶這個標籤的圖。

Shawn Wang：這太酷了。

7 8 歲就開始琢磨：用算力做大神經網路

Shawn Wang：以你的視野，我們聊了硬體、模型、研究，你最希望被問到哪一類問題？

Jeff Dean：有件事我覺得挺有意思的。1990 年我本科畢業論文做的就是神經網路並行訓練。那時候我就覺得，神經網路是正確的抽象方向，只是算力遠遠不夠。系裡那臺 32 核的並行計算機，只能跑出稍微有趣一點的模型，遠遠解決不了真實問題。直到 2008、2009 年，摩爾定律帶來了足夠的算力，加上更大的資料集，神經網路才真正開始解決大家關心的真實問題：語音、視覺，最後是語言。

2011 年底我在 Google 開始做神經網路時，就堅定地認為：我們要用大規模並行計算，把神經網路的規模拉上去。我甚至把本科論文裡的一些思路重新撿了起來，包括模型並行、資料並行，並且做了對比。可以說，我從 8 歲就開始琢磨這些事了，只不過那時候叫法不一樣。

Shawn Wang：那篇論文是公開的嗎？我們能找到嗎？

Jeff Dean：可以的，網上就能查到。過去這 15 年裡，把這些技術整合在一起，全力做規模化，是非常關鍵的。這既包括硬體層面的進步，比如推動 TPU 這類專用晶片的研發，也包括軟體層面，做更高階的抽象，讓人們能更方便地把想法交給計算機去實現。

Shawn Wang：你當時是否認同這個觀點？或者現在有不同的復盤？

Jeff Dean：說的是算力配額的「大腦市場」機制？

Shawn Wang：對，算力配額。David 之前在 OpenAI 做負責工程的副總裁，後來也去過 Google。他的核心觀點是：OpenAI 敢於 all in，把賭注全壓在一件事上；而 Google 更加「民主化」，每個人都有自己的配額。如果你相信規模化很重要，那就是一個全公司層面的關鍵決策。

Jeff Dean：我部分同意。事實上，我當時還寫過一頁紙的備忘錄，說我們把資源碎片化是很愚蠢的。那時候，Google 研究室和 Brain 團隊在做大語言模型，其他部門在做多模態，DeepMind 那邊也在做 Chinchilla、Flamingo 這些模型。結果就是，我們不僅算力被拆分，最優秀的人才和精力也被拆分了。我當時就說，這樣太傻了，為什麼不合併起來，集中力量做一個從頭就是多模態、全能的大一統模型？這就是 Gemini 項目的起源。

Shawn Wang：你這一頁紙的備忘錄成了，很不錯。當時名字想好了嗎？大家都知道，Gemini 是你取的。

Jeff Dean：是我取的。當時還有另一個候選名字，但我覺得，兩個團隊合在一起，某種意義上就像雙胞胎。而且 NASA 也有 Gemini 計劃，是阿波羅登月之前非常關鍵的一步。所以這個名字很合適，代表雙子攜手。

8 史上最高產工程師寫程式碼：帶 50 個「AI 實習生」

Alessio Fanelli：很棒。我知道時間不多了，最後很好奇：你現在怎麼用 AI 寫程式碼？你可以說是計算機歷史上最高產的工程師之一。我看過一篇文章，講你和 Sanjay 的合作方式，你說過：要找到和你思維合拍的人結對程式設計，兩個人加起來才會是互補的合力。我就在想，你怎麼看待程式碼智能體？你會怎麼塑造一個和你思維相容的程式碼助手？現在的工具你打幾分？未來方向在哪？

Jeff Dean：首先，程式碼工具相比一兩年前已經強太多了，現在真的可以把更複雜的任務交給它們。人類工程師和程式碼模型之間的互動方式，其實會反過來決定它怎麼配合你。你可以讓它寫完備的測試，也可以讓它幫你 brainstorm 性能優化思路。你和它互動的方式，會決定它的輸出風格、解決問題的粒度，以及你希望它更自主，還是更頻繁地和你對齊。沒有哪一種風格是萬能的。有些問題你需要高頻互動，有些問題你直接說「幫我把這個實現出來」就行。

未來會出現更多獨立軟體智能體，幫你代勞各種事情。難點在於設計合適的人機互動模式、介面，決定它什麼時候該打斷你：「我需要更多指引」或者「我做完了，下一步做什麼」。這部分我們還沒有終極答案，模型變強之後，互動模式還會變。你可以想象成：你帶了 50 個實習生，你會怎麼管理？如果他們能力很強，你可能真的會想要 50 個。

Shawn Wang：但管理成本也很高。

Jeff Dean：沒錯。但未來很可能每個人都能擁有 50 個虛擬實習生。那你該怎麼安排？你肯定會讓他們組成小組，你不用管 50 個人，只需要對接 5 個小組，讓他們各自幹活。最終會演變成什麼樣，我也不完全確定。

Alessio Fanelli：那人與人的協作呢？AI 輔助程式設計的好處是能帶來新的思路。但如果有大量程式碼智能體在並行寫程式碼，其他人要介入就很困難，因為要追上巨量的上下文。你會不會擔心，團隊裡的人會變得更孤立？

Jeff Dean：有可能。但反過來想，傳統沒有 AI 輔助的團隊，50 個人幹活，組織結構天然是層級化的，各組之間互動不多。但如果是 5 個人，每人管理 50 個虛擬智能體，這 5 個人之間的溝通頻寬，反而可能比傳統 5 個組長協調 50 個人的模式更高。

Alessio Fanelli：那你自己的工作節奏有改變嗎？會不會花更多時間和人對齊架構、設計目標？

Jeff Dean：我覺得很有意思的一點是：以前教別人寫軟體，都會說要把需求文件寫清楚，但大家其實都不當回事。但現在，如果你要讓智能體幫你寫程式碼，你必須極其清晰地定義需求，這會直接決定輸出品質。你沒說它要處理某種邊界情況、沒強調性能要求，它就可能不做。人們會越來越擅長清晰、無歧義地描述目標，這其實不是壞事，不管是不是工程師都是一項有用的技能。

Shawn Wang：我開玩笑說，現在給模型下指令，和高階高管溝通沒區別，像寫內部備忘錄一樣，字斟句酌。而且我認為多模態非常重要。Google 的 Anti-Gravity 團隊一上來就做了很強的多模態，包括影片理解。這是你能給模型的、最高頻寬的「提示詞」，非常強。

Alessio Fanelli：你平時是怎麼整理自己腦子裡那些經驗的？比如你那種超強的性能優化直覺，大家都說你一眼就能看出哪裡能提效。那如果把這些經驗寫成通用文件，再讓模型去檢索學習，會不會很有價值？就像邊界情況，就是個很好的例子。做系統的人腦子裡都有特定的邊界場景，但現在每次都要重複說一遍。你覺得人們會花更多時間去寫文件、提煉通用經驗嗎？

Jeff Dean：我確實認為，寫得好的軟體工程指南會非常有用。既可以給模型當輸入，也可以讓其他開發者參考，讓他們在寫提示詞時，更清楚底層系統應該實現什麼。不一定需要為每個場景單獨定製，只要有通用指南，放進程式碼智能體的上下文裡，就會很有幫助。比如分散式系統，可以列出：要考慮哪些故障類型、有哪些處理方案，像 Paxos 複製、雙寫請求、只要一個返回即可容忍故障等。把 20 個這類分散式系統設計技巧總結一下，就能很大程度提升程式碼智能體生成可靠、健壯分散式系統的能力。

9 延遲能突破 1 萬 token/s，人類不用讀程式碼了

Shawn Wang：我就在想，Gemini 什麼時候能自己造出 Spanner（解決了分散式系統 CAP 不可能三角的關係型資料庫）？

Alessio Fanelli：搞不好程式碼它早就全看過了。這就是個好例子。CAP 定理是公認的真理，不能打破，但最後你們還是做出了看似打破它的東西。

Shawn Wang：我很好奇，模型算不算某種意義上「打破」了它？你會說你們打破了 CAP 定理嗎？在特定假設下，比如精準時鐘同步的前提下。

Alessio Fanelli：有時候你不必死守所謂的真理。但模型有時候會過於相信你告訴它的東西。

Jeff Dean：回到提示詞和迭代的問題。我一直想做一個對比實驗：一種是，用三次快速但普通的模型調用，中間加入人類對齊，人看一遍結果，再給新提示；另一種是，花很久寫一個超長、超精細的提示詞，直接丟給一個超強模型一次做完。我想看看這兩種方式的效果差距。很多時候效果不好，不是模型不行，而是需求描述不完整，模型根本不可能猜到你想要什麼。

Shawn Wang：就是定義不清晰，模型可以生成 10 個結果，只有一個是你想要的。而用輕量快模型多輪互動，反而夠用。

Jeff Dean：我非常重視延遲。低延遲互動體驗，比慢 10 倍、20 倍的系統舒服太多。未來我們會看到模型、軟體、硬體整體延遲比現在低 20 倍、50 倍，這對需要大量互動的系統至關重要。

Shawn Wang：現在有兩個極端，一邊是極致快，另一邊是 DeepThink 這種極致深思考。

Jeff Dean：如果不考慮成本和延遲，所有人都會一直用 DeepThink。如果底層硬體和系統把延遲再提 20 倍，成本下來，沒理由不用。

Shawn Wang：帕雷托曲線會一直往上走，不斷外擴。我們來問點預測吧。你有沒有什麼一直關注的小測試，或者哪些東西你覺得現在還不夠好，但很快能實現？

Jeff Dean：我說兩個不算這一類的預測吧。第一，了解你、能訪問你所有授權的個人資料的個性化模型，相比通用模型會帶來巨大的價值提升。能關聯我所有的郵件、照片、看過的影片、一切資訊，這會非常有用。第二，越來越專用的硬體會讓模型延遲更低、能力更強、成本更親民，這一點也會非常關鍵。

Shawn Wang：你說的低延遲，大家一般用 token 每秒衡量。現在大概是 100 token/s，你覺得能到 1000？10000 有意義嗎？

Jeff Dean：絕對有。因為有思維鏈推理。你可以並行做更多輪推演，生成更多程式碼，再用思維鏈校驗正確性。10000 token/s 會非常強。

Shawn Wang：到 10000 token/s，人就不用讀程式碼了，直接讓模型生成。

Jeff Dean：它最終不一定輸出 10000 token 程式碼，可能只有 1000 token 程式碼，但背後有 9000 token 的推理過程，這樣的程式碼品質會高得多。

Alessio Fanelli：就像「如果我有更多時間，我會寫一封更短的信」。Jeff，今天太棒了，感謝你的時間。

Jeff Dean：很開心，謝謝邀請。

參考連結：https://youtu.be/F_1oDPWxpFQ

聲明：本文為 InfoQ 整理，不代表平臺觀點，未經許可禁止轉載。

Gemini 靈魂人物、傳奇工程師 Jeff Dean 最新訪談：未來人均 50 個虛擬實習生，用不上專家了！

分享短網址