OpenAI前研究員：模型能自行突破困難才叫AGI，最大問題是泛化；最重要技能是「管理初級工程師」，機器人出現「ChatGPT時刻」只需兩到三年

不得了，一位OpenAI前研究員出來說大實話了！

就在昨天，《Unsupervised Learning》節目邀請OpenAI前研究員Jerry Tworek做客。Jerry Tworek是OpenAI推理模型o1、o3和Codex背後的關鍵架構師，參與了過去幾年AI領域最關鍵的突破。他最近離開了OpenAI，原因是他希望去做一些在大型實驗室裡更難開展的研究方向。

在這期節目中，Jerry談論了很多近期熱議的話題：比如預訓練和強化學習擴展的真實局限與前景、對AGI的時間預期如何、各大實驗室的研究方向逐漸趨同、OpenAI在發布GPT-4時的關鍵押注、優秀的AI研究院標準是什麼等等。

Jerry表示，Scaling範式帶來的收益是穩定可預測的，但它最終能否帶來AGI，關鍵在於模型的泛化能力如何。他指出，現在愈發存在一種現象：我們正在變得極其擅長「我們明確訓練過的東西」。

他也坦言，自己之前對於AGI非常樂觀，認為只要一直做強化學習就能達到AGI。但做了一段時間之後，他的時間預期變得保守了。最大的觀念轉變在於：如果模型無法在遇到困難時自行突破、無法把自己從「卡住」的狀態中解救出來，就很難稱它為AGI。

自2019年加入以來，Jerry已經在OpenAI有了六七年工作經歷。從一個只有三四十人的小實驗室起步，發展到世界上最大的公司之一，Jerry坦言在OpenAI的經歷「真的很瘋狂」，而且他當初相信這裡真的是能「構建AGI」的地方。

他表示自己記憶中OpenAI最關鍵的決策有兩個：一個是集中大量資源訓練GPT-4，這是一個伴隨巨大取捨的決定，但它在OpenAI歷史中極其關鍵，事後證明是一個非常好的選擇；另一個是押注「推理模型是未來」，讓OpenAI完全轉向這個方向，發布了o1和o3。

Jerry透露，OpenAI的研究部門從一開始就與產品團隊高度分離。公司的核心使命始終是「構建智能」。對一家公司來說，通常只能把一件極難的事做到極致，很少能同時把多件極難的事都做到頂級。他也認可，Anthropic在程式設計方面做到了領先，關鍵就在於方向的聚焦。

Jerry認為，當下最重要的技能，其實是「管理初級工程師」的能力。最好的管理者既深刻理解系統，又能放手讓別人做決定——這恰恰也是與模型協作的最佳方式。

Jerry還分享了他近期更新的一個重大認知：靜態模型永遠不可能成為AGI，持續學習是必不可少的。此外，他還認為機器人領域出現類似ChatGPT的「拐點時刻」，大概需要兩到三年。

以下是對話內容全文，有部分刪減和潤色：

Scaling範式還能走多遠：

規模化帶來的收益很穩定，問題在於泛化

主持人：你在OpenAI推動了推理模型的引入，以及強化學習的規模化。那麼從現有的scaling範式來看，我很好奇你的判斷：我們現在靠預訓練+強化學習，能力大概還能走多遠？這條路線最終能把模型帶到什麼程度？

Jerry：它肯定能把我們帶到某個地方。問題是，我們該如何給那個「地方」命名？

主持人：你可以來定義。

Jerry：但對大多數從業者來說，有一個非常現實、而且相當震撼的事實：規模化帶來的收益是真實的、可預測的，而且相當穩定。每當我們擴大預訓練規模，我們就會得到更好的預訓練模型——它們對世界的了解更多、對語言的理解更深、對圍繞它們的一切建立起更完整的「語言化世界模型」。同樣地，擴大強化學習的規模，也會讓模型在獲取我們想要的技能方面做得更好。

在這兩種情況下，你基本上都會「得到你所訓練的東西」。如果你想要一個擅長下一個token預測的模型，那就大規模做預訓練，你會得到一個在next-token prediction上非常、非常強的模型；如果你想要某一組特定技能，那就對這些技能做強化學習，模型也會在這些任務上變得非常、非常優秀。從某種意義上說，幾乎沒有明顯的上限。現在大家都知道：只要你在意某個技能，你就對它做強化學習，模型就能把它學到非常好——事情基本就是這麼簡單，而且確實有效。真正讓人猶豫、或者感到卡住的地方在於：這些模型的泛化能力如何？它們在訓練分佈之外表現如何？對於預訓練語料裡根本不存在的知識，模型能不能處理？大概率不能。對於你從未用強化學習訓練過的任務，它們表現如何？大概率也不太好。

所以，這些幾乎就是當下AI世界裡剩下的核心問題：我們正在變得極其擅長「我們明確訓練過的東西」。

主持人：這似乎引出了兩種不同的觀點：一種認為，我們其實才剛剛開始探索強化學習的潛力，隨著繼續擴大規模，泛化能力自然會逐漸顯現，這兩條scaling路線就足以帶我們走到很遠；另一種則認為，想要繼續突破，可能必須引入全新的範式。你更偏向哪一邊？

Jerry：我覺得這在很大程度上是一個經濟性問題。很明顯，「規模化」在很大程度上意味著增加數據，而沒有數據，規模化幾乎是行不通的。如果你不斷加入你想讓模型擅長的數據，那模型就會在這些事情上變得更好。

你現在看到的現象是：幾乎每個季度、每個實驗室都會發布一個更強的模型。這背後大多數時候意味著三件事：第一，更多算力；第二，更重要的，是更多數據；第三，也是最關鍵的，這些數據是針對上一代模型的短板而精心定制的。

這是一種極其強大的方法論：不斷迭代，就能訓練出越來越好的模型。從這個角度看，如果你持續不斷地補充「你希望模型會做的事情」的數據，最終你確實可以得到一個在這些事情上都表現不錯的模型。但這個循環在某些方面是很慢的。真正有沒有可能更快？在現有訓練範式下，我確實相信，只要不斷加入目標數據，模型就會學會相應的技能，並且會有一定程度的泛化。但關鍵問題是：有沒有別的研究方向，可以用更少的數據，得到更多的能力？有沒有更「根本性」的方式，讓模型更好地利用它已經見過、已經學到的東西進行泛化？

主持人：我們稍後再回到這些潛在的新方向。先幫聽眾建立一個背景：以你自己的經驗來看，強化學習目前在哪些地方好用，在哪些地方不好用？很多人會提到「容易驗證」和「不容易驗證」的任務差異。你自己的心智模型是什麼？哪些事情是今天的RL真正能有效做的？

Jerry：「容易驗證/難以驗證」這個問題，本質上接近於：我們能否獲得一個有意義的品質訊號。在OpenAI，我們在很多方面已經取得了相當不錯的進展，讓模型在各種任務上透過強化學習變得更好。事實上，強化學習可以用於非常多的事情。

但有些事情，本質上就很難判斷什麼是「好」，什麼是「不好」，或者你需要等待非常長的時間才能得到回饋。比如寫一本書：你當然可以用一些簡單的方法判斷它好不好，但真正可靠的信號，可能要等它上市、看看有多少人願意讀、願意買。即便如此，這個信號也並不總是可靠——可能評論家一致認為這是一本傑作，但由於行銷失敗，根本賣不出去。

那我們要如何對「寫一本好書」做強化學習？這本身就很難回答。人類是如何學會寫好書的？這同樣是一個極其複雜的問題。

創業也是類似的例子。很多公司在早期階段啟動，我們怎麼知道哪一家是「好公司」？往往要五年、十年之後才能看清楚。創業者早期做的某個決策到底是對是錯？還是說，成功很大程度上來自運氣？在這種場景下，直接做強化學習是非常、非常困難的。

不過，只要你能得到任何形式的回饋，原則上你就可以用它來做強化學習。

主持人：你參與的模型在程式設計競賽、數學競賽等任務上的表現，讓很多人感到震撼。但大家仍在試圖建立直覺：現實世界的大多數任務，更像「程式設計和數學」，還是更像「寫書、創業」這種極難構建獎勵訊號、也難以反覆試驗的任務？比如會計、醫學、法律——你直覺上覺得它們更接近哪一類？

Jerry：歸根結底，還是一個問題：你有多容易判斷「你做得好不好」。即便對人類來說，判斷一本書寫得好不好，本身就很難。

如果你是一個會計團隊的管理者，而這個領域有明確的規則，你可以相對容易地判斷哪個會計做得好，哪個做得不好。只要規則清晰，你就可以用這些規則訓練幾乎任何系統。

醫學也是如此。我最近思考了很多關於外科醫生的問題：那裡確實存在明確的規則，也存在明確的回饋訊號——病人是否在手術後存活，這本身就是一個非常強的成功標準。更有意思的是：真正頂尖的醫生，往往會在關鍵時刻違背既有規則。他們憑藉經驗判斷，必須以一種前所未有的方式來進行手術。他們打破慣例，結果卻成功了，挽救了病人。

我認為，模型在足夠時間和足夠嘗試次數的前提下，也有可能做到類似的事情。真正問題在於：模型需要多長時間，才能真正達到這種水平？

主持人：如果我們想讓強化學習在更多人類關心的任務上具備泛化能力，你認為接下來真正需要攻克的前沿問題是什麼？

Jerry：我認為，泛化本質上是模型本身的屬性。訓練時，你真正決定的是訓練目標；最終，你得到的，基本就是你所優化的那個目標。問題在於：你還能「順帶」得到多少額外能力？

確實存在一些學習方法——即便是next-token prediction，它們幾乎不泛化，比如最近鄰分類。從理論上講，它能解決任何機器學習問題，但泛化能力極差，因為它構建的世界表示極其簡單。

神經網路，尤其是大規模訓練的神經網路，神奇之處在於：它們學到了非常有用、非常抽象的世界表示。有時我們甚至會覺得這是「白撿的」：為什麼一個在互聯網上訓練的巨大Transformer，居然能如此深入地理解現實世界中的各種概念？

這種泛化能力，來自Transformer架構、大量參數，以及反覆施加的梯度下降。這本身就像一種魔法。問題是：是否存在一種不同的模型，能夠泛化得更好？幾乎可以確定，答案是「有」。真正問題是——它會長什麼樣？

如果模型遇到困難時無法自行突破，很難稱之為「AGI」

主持人：我聽你以前提到過，你在做強化學習規模化之後，對AGI的一些時間預期變得更保守了。為什麼？

Jerry：我以前確實是一個非常樂觀的人，覺得只要對模型做強化學習，就能走到AGI。也許我們已經做到了。也許它已經是AGI了——這完全是一個非常主觀的判斷。因為「AGI是什麼」，往往取決於我們還缺什麼。

現在的模型已經能解決幾乎所有奧林匹克級別的問題、各種競賽問題。甚至已經開始在解決一些前所未有的數學問題。你每周都能看到GPT-5.2之類的例子。

那什麼時候才會有一個「大家都會同時點頭說是」的時刻？我不知道。我是程式設計模型的重度使用者。它們依然會犯錯。它們能幫我完成一些原本要花非常長時間的工作，是極其強大的生產力放大器。但與此同時，也存在明顯的失敗場景。當模型失敗時，你會很快感到一種「無力感」。你可以反覆貼上錯誤訊息、告訴模型「這個不行，換一種方式」，有時候甚至要給它「精神鼓勵」。但本質上，模型並沒有一種機制，能夠在失敗後真正更新自己的信念和內部知識。這大概是我觀念上最大的變化：如果模型無法在遇到困難時自行突破、無法把自己從「卡住」的狀態中解救出來，我就很難稱它為AGI。

真正的智能，會不斷嘗試、不斷探測問題的結構，直到找到解決方案。而當前的模型，還做不到這一點。

主持人：這正好過渡到一些「超出純粹預訓練和強化學習規模化」的研究方向。你剛才談到的很多問題，其實和「持續學習」非常接近——這也是最近越來越多被公開討論的話題。我很好奇，從一個宏觀層面來看，你會如何向聽眾解釋：要讓持續學習真正可行，最核心、最需要被解決的一組問題是什麼？

Jerry：最核心的一點在於：如果你希望模型能夠持續地被訓練，那你就必須確保模型不會崩潰，不會進入某種奇怪的、失控的狀態。深度學習訓練失敗的方式有很多種，而現在大型實驗室裡相當大一部分工作，其實都是在讓模型「保持在軌道上」，讓訓練過程保持健康。從根本上說，這是一件非常脆弱的事情——訓練並不是一個天然會順利進行的過程，你必須持續投入大量精力，訓練才不會「炸掉」。如果你不這樣做，最終就很難得到一個好模型。

而這在我看來，與人類學習的方式有著本質上的不同。人類的學習過程要反脆弱得多，也更魯棒。人類可以在學習過程中不斷自我修復、調整，而不是輕易崩潰。我在做強化學習研究時，常常會感到驚訝：人類是多麼少見地會在學習新訊息後突然「宕機」，開始胡言亂語，或者陷入某種奇怪的認知狀態；而AI模型卻相當容易發生這種情況。這正是研究者們一直在試圖解決的問題——無論是從理論還是實踐角度：如何對抗這種不穩定性。我認為，這種訓練過程本身的根本魯棒性，很可能正是實現持續學習所必需的關鍵前提。

主持人：在你看來，關於持續學習的一些有意思的想法，有多少是其實已經存在一段時間、被反覆討論過的？又有多少是真正全新的研究問題？

Jerry：我覺得，作為研究者，一個最重要、也最值得反覆問自己的問題是：為什麼這個問題到現在還沒有被解決？持續學習顯然還沒有被真正解決，那麼問題就在於：為什麼？世界上有這麼多聰明的研究者，有這麼多卓越的想法，但至今沒有人真正「攻破」持續學習，這背後一定有原因。

關於這個問題，有很多不同的假設。但我認為其中一個非常根本的原因是：這很可能是一個必須在「規模」上才能解決的問題，至少要達到某個閾值規模。而現在，真正具備條件去做這種研究的頂級實驗室數量非常有限；它們能同時推進的研究項目也有限。所以很可能，並不是沒有正確方向，而是如果這是一個可以在小規模下被徹底驗證、被根本性突破的問題，或許早就已經有人做出來了。那它要麼是一個極其複雜、理論上非常困難的問題；要麼就是需要已經非常大的模型和算力資源，而這些只掌握在極少數實驗室手中。而這些少數實驗室，很可能只是還沒來得及、或者還沒選擇去探索某一條特定的路徑——因為它們當時正忙於別的事情。

主持人：我以前聽你說過這樣一種觀點：在AI研究中，有些想法「還沒到合適的時間」，但它們依然是好想法。強化學習本身就是一個例子——在擁有大規模預訓練模型作為基礎之後，它才真正爆發。所以聽起來，你的直覺是：現在其實已經存在一些非常好的想法，只是如果它們真的能被放到足夠大的規模上去嘗試，可能會對這一類問題產生巨大幫助。

Jerry：是的，完全同意。

各大實驗室在研究方向上高度趨同

主持人：你也提到過一個現象：各大實驗室在研究方向上正在高度趨同，大家做的事情越來越相似。我不知道這是否也是你過去兩三年的真實感受，但當你當年主導某些工作時，那些確實是全新的方向，很多實驗室在當時是有點措手不及的。你能不能談談過去一年左右這種「收斂」的趨勢？這對你來說意外嗎？

Jerry：在強化學習中，有一個非常經典、被充分研究過的權衡：探索與利用。什麼時候應該嘗試新的東西？什麼時候應該極致優化你已經很擅長的東西？這個權衡本身沒有標準答案，因為你永遠不知道「未知的東西」到底值不值得探索。

從根本上說，問題在於：是否存在一條與當前路徑截然不同的路線，能帶來巨大收益？但如果你並不了解整個搜尋空間的地形，這個問題本身就極其困難。

我記得曾經有人跟我說過一句話：為什麼所有商用飛機看起來都長得差不多？儘管製造它們的公司並不只一家。原因在於：在經濟約束下，這基本上已經是最有效的設計了。

今天各大實驗室的行為，其實也受到非常強的經濟力量驅動。如果你想參與競爭，你就必須在盡可能低的成本下，做出盡可能好的模型。而在這個目標下，現有的技術組合已經相當高效。客戶可以隨時切換模型，最終獲益的是用戶——這也進一步推動實驗室不斷在同一條路徑上做效率優化。當然，這裡始終存在一個探索與利用的問題。我們要不要「出海航行」，看看遠方有沒有完全不同的大陸？要不要訓練一種徹底不同的模型？

這麼做，很可能會分散注意力，讓你無法持續把現有方法做得更好、更高效。但另一方面，也許那裡存在著10倍、甚至100倍的突破。最終，這取決於一種信念和判斷：我們願意為探索未知承擔多大的風險？

主持人：正如你所說，現在確實存在一條非常清晰的路線：不斷往強化學習和各類任務中加數據，持續提升在經濟上有價值的能力。每個實驗室都有一張明確的roadmap，這反而讓「孤注一擲去賭一個全新方向」變得更難。而當年預訓練似乎接近瓶頸時，反而更容易鼓勵探索。

Jerry：是的，不同歷史階段確實不一樣。有些時期，探索的空間更大，容錯率也更高；而當競爭變得極其激烈時，就會變得像一個「囚徒困境」——只要你選擇與眾不同，就很容易在市場競爭中失去優勢。

實驗室的先發優勢很重要

主持人：你覺得實驗室是否一定要成為「下一個重大突破」的發現者？我之所以這麼問，是因為這些想法往往擴散得非常快。比如你在推理模型上的開創性工作，如今已經有好幾家實驗室都有很強的推理模型。我甚至在想：即使突破發生在別的地方，實驗室是不是也完全可以接受？因為這些想法最終都會被吸收進現有的商業體系。

Jerry：思想的擴散當然是好事，但「領先一步」的價值不應該被低估。我們已經見過這樣的例子：曾經很多人認為OpenAI不可能成功，但它在大規模Transformer預訓練上領先一步，最終成為世界上最成功的公司之一。同樣地，OpenAI率先解決了大規模強化學習的問題，這使得它直到今天，依然擁有業內最強的強化學習研究體系之一，能夠做出更大膽、更具雄心的事情。

即便想法會擴散，先發優勢依然極其強大——如果你能維持住這種優勢，它甚至可能長期存在。我最近在讀一本關於半導體製造的書。很多最早的關鍵技術發明都發生在美國，隨後逐漸擴散到世界各地。但與此同時，也存在某些階段性的領先優勢，是其他國家始終無法追趕的——這種早期下注、持續投入所帶來的複利效應，會在很長時間內發揮作用。

並不是只有一個國家能做半導體，但也絕不是每個國家都能。每一次產業變遷中，總會有新的成功者、新的失敗者；有些老公司成功轉型，有些則被淘汰——這就是進步中的達爾文過程。

主持人：消費者和企業往往會記住第一個帶來「魔法般體驗」的公司。你們在ChatGPT上顯然經歷過這一點。你在強化學習上取得了如此多的進展，而這一方向至今仍在持續推進，但你最終選擇離開OpenAI，去探索新的研究領域。我很好奇：你什麼時候開始意識到，自己可能想要離開的？又是如何真正做出這個決定的？

Jerry：這並不是一個突然發生的決定，而是一個在內心慢慢生長出來的過程。OpenAI並不是一個容易離開的地方——我在那裡有很多朋友、很多共同的歷史，我的人生有很大一部分是在那裡建立的。我曾經非常努力地嘗試讓一切繼續運轉，尋找不同的可能性。

但作為研究者，如果有一天你醒來，發現自己不再真正熱愛正在做的事情，不再對它感到極度興奮，那也許就是時候去嘗試別的東西了。如果你沒有100%的熱情，是幾乎不可能做出最好的研究工作的。我在OpenAI曾有過很多充滿無限熱情的日子，但到後來，這種感覺變得越來越難以維持。

主持人：那現在是什麼在給你能量？

Jerry：從最根本的層面來說，我當初加入OpenAI，是因為我相信強化學習是通向AGI的必要組成部分，我真的、非常想讓它發生。把「推理模型」引入這個世界，對我來說是一種範式級的轉變。某種程度上，我想再次追逐那種感覺——找到當下模型訓練方式中缺失的一塊，並設法讓它成為主流。但一旦你做過那樣的事情，就很難再獲得同等強度的「衝擊感」。所以我現在想要的是一些自由，去思考、去探索，去嘗試解決那些最核心、最重要的問題。

主持人：你現在是帶著很多具體假設在推進，還是更多在「拉遠視角」，重新觀察整個領域？

Jerry：通常來說，真正重要的問題，並不是你在做了七年機器學習之後才突然發現的。你其實早就知道哪些問題最關鍵。真正困難的是：如何用一種與所有人不同的方式去解決它們。因為如果它們能被常規方式解決，早就已經有人成功了。

OpenAI兩次關鍵決策：

集中資源訓練GPT-4，押注「推理模型是未來」

主持人：你曾說過，自2019年加入OpenAI以來，幾乎每一年都像是一家「不同的公司」。我很想請你回顧一下這六七年的演變，講講你眼中的OpenAI成長敘事。

Jerry：從一個只有三四十人的小實驗室起步，而且從一開始就完全開放，這是一個極其大膽的選擇。我們當時真的相信，這裡會是構建AGI的地方，會為世界帶來數位智能的普遍收益。

從最初幾個人做一些「看起來很酷、但極其野心勃勃」的項目，到今天發展成世界上最大的公司之一，做出了幾乎所有人都知道、每天都在用的產品，甚至已經很難想像生活中沒有它——這段經歷真的很瘋狂。你也知道，OpenAI的管理層和組織結構在過去一年裡發生了相當大的變化。你每天共事的人變了，公司規模變了，研究主題也在不斷變化。早期甚至根本沒有「預訓練」這個概念，後來有一段時間幾乎一切都圍繞預訓練展開；再之後，它有點變成了我們「老OpenAI」的樣子。現在則更平衡一些，既有預訓練，也有其他方向。很多人離開OpenAI，去創辦公司、開啟新的人生階段；與此同時，也有大量優秀的新鮮血液加入，繼續在內部做非常出色的研究。這是一家不斷自我重塑、並在每個階段都成功成長的公司。我常常會想，那些偉大的成功公司，它們的故事一定很精彩，而能親歷這些階段一定是種難以複製的體驗。我覺得自己參與了OpenAI相當早期的一段歷程，這種經歷真的很難和其他任何事情相比。

主持人：大家都很期待未來會有人系統地寫下OpenAI這一段歷史。通常這種故事都會聚焦在那些「關鍵但極其艱難的決定」上——那些可能向不同方向發展的分岔點。對你來說，有沒有哪些特別關鍵的決策，讓你印象深刻？

Jerry：這是個好問題。我其實只真正參與了其中一部分，很多決定我可能只是「背景角色」。比如，是否要向世界發布ChatGPT的討論——你可能也聽說過，它後來的流行程度、病毒式傳播，在內部至少我從沒聽誰真正預料到。隨著ChatGPT以及隨後GPT-4的發布，我們創造了一個「時刻」，形成了一種極難預測的勢能，這在很多維度上塑造了今天的OpenAI。再比如，在那個時間點集中大量資源訓練GPT-4，這也是一個伴隨巨大取捨的決定，但它在OpenAI歷史中極其關鍵，事實證明是一個非常好的選擇。還有一次非常重要的賭博：押注「推理模型是未來」。當時完全沒有把握，更多是基於第一性原理的思考和直覺。我們決定讓OpenAI徹底轉向這一方向，哪怕當時還看不到產品市場契合點。最早的推理模型看起來很聰明，但幾乎只適合做謎題，對現實用途幫助不大。直到後來，隨著更多投入、工具使用能力的加入，它們才開始在研究和程式設計上變得極其有用。一旦出現了真正的PMF，人類就非常擅長對一個「已經可行的東西」進行優化。但走到那一步，本身就是一段非常艱難、也非常值得研究的旅程。OpenAI在那個階段，真的通過了考試。

主持人：你描述的這種「在不確定中持續加碼投入」的過程非常有意思，也和你們現在對推理模型的判斷高度相關。你是在什麼時候真正意識到：這不只是好玩，而是可以規模化、走得很遠？

Jerry：說實話，我從一開始就相信它。這主要源於我對強化學習的信念。從我加入OpenAI的第一天起，我就堅信：如果要走向AGI，強化學習是必不可少的組成部分。問題從來不是「要不要」，而是「什麼時候準備好、以及怎麼做」。隨著時間和研究推進，我們不斷得到實驗結果，進一步驗證這條路徑是對的。

Anthropic在程式設計上領先的原因：聚焦

當下最重要的技能是「管理初級工程師」

主持人：OpenAI一個很獨特的地方在於：它既是一個追求AGI的研究實驗室，又「意外地」做出了一個席捲全球的消費者產品。公司同時做消費級產品、企業產品和核心研究，這在內部是如何運作的？研究人員會不會被拉向太多不同方向？

Jerry：有一點其實很清楚：OpenAI的研究部門從一開始就與產品團隊高度分離。公司的核心使命始終是「構建智能」。確實有一個專門面向產品的研究團隊，負責圍繞具體產品指標優化模型；但絕大多數研究的關注點始終是：如何讓模型變得更智能。至少在研究內部，這種「拉扯感」並不強。真正複雜的是：OpenAI站在我們這一代人可能經歷的最大技術變革中心。機會實在太多了，幾乎所有行業都會被AI重塑。如果什麼都不做，反而顯得浪費。但這也帶來了一個非常現實、非常危險的問題：聚焦。公司通常只能把一件極難的事做到極致，很少有組織能同時把多件極難的事都做到頂級。這對OpenAI來說是一個巨大的風險。舉個例子，OpenAI曾經在「程式設計」方向上失去過一段時間的專注，把注意力更多放在消費者產品上，這確實付出了市場份額的代價。現在他們正在非常努力地追回來，最近的編碼模型確實又變得非常強了，但這段分心是有成本的。做AI的公司現在就像走進了糖果店，到處都是潛在價值極高的東西，很難克制自己不去多做。但每一個方向都有競爭，問題只在於：誰能把哪一件事做到真正正確。

主持人：這也正好引出生態系統的問題。你提到了編碼領域，Anthropic為什麼在程式碼上表現得如此突出？

Jerry：一句話：聚焦。我認識Anthropic的創始人，從他們還在OpenAI的時候就是如此。他們一直極其重視程式設計，並且堅信這是通往AGI的關鍵組成部分。我可以想像他們這些年在這一方向投入了多麼專注的精力。最新的Claude編碼模型和代理，確實把這個願景推得很遠。他們說「公司裡已經很少有人親自寫程式碼了」，我相信這不是誇張。

主持人：這是否意味著未來的大模型實驗室會自然走向分工，各自專注不同能力？

Jerry：這取決於我們最終生活在哪一種世界裡。如果數據是核心驅動力，那這是一場零和博弈：你把數據投向某項技能，模型就在那項技能上更強，於是市場自然分裂、專門化。如果研究才是關鍵，那研究具有一種「魔法屬性」：一次成功的突破，可能讓模型在所有領域同時躍遷，直接全面領先。我們現在還無法確定哪一種未來會佔上風。但我很確定：一定存在更通用的路徑，只是不知道它有多難被找到。甚至存在一種略微悲觀、但並非不可能的情況：也許我們已經到了人類最後一個能親手設計的模型，而接下來，模型會自己研究更好的模型。現在的編碼代理已經足夠強大，再加上巨量算力，這種推斷並不荒謬。當然，我仍然希望人類還有一些關鍵的事情能繼續親自完成。從本質上看，程式設計的歷史就是不斷提高抽象層級。編碼代理可以被視為一種全新的、更高層的「程式語言」。我認為未來很可能不再是人類直接敲程式碼，但軟體仍然必須可靠。我們需要解決的問題是：當我們既不寫、甚至不讀程式碼時，如何確保系統做對了事？我相信這些問題是可以解決的。當下最重要的技能，其實是「管理初級工程師」的能力。最好的管理者既深刻理解系統，又能放手讓別人做決定——這恰恰也是與模型協作的最佳方式。不和研究團隊挨在一起，確實是應用公司的一種劣勢。最終，成功的AI公司往往都會開始自己訓練模型。應用公司可能從產品起步，逐步走向後訓練、再訓練，最終甚至建設自己的資料中心——這是一個自然的成長路徑。這並不意味著小公司沒有機會。如果數據重要，就能靠數據差異化；如果研究重要，小公司也可能在約束中產生創新。專注某一領域，看到模型的不足，反而有可能做出一個在該領域極強、甚至在更廣泛層面更優的模型，並由此成長為下一家巨頭。

主持人：但現實是，過去常見的問題在於：你可能剛剛領先了一點點，甚至只有「一秒鐘」，下一代模型一發布，你又突然發現自己已經被遠遠甩在後面了。

Jerry：競爭確實很殘酷。我們在美國科技行業已經看到過很多次，大公司擁有大量結構性優勢，這一點是真的。但與此同時，新的、非常成功的大公司也一直在不斷湧現。所以這並不是沒有希望，只是非常困難。

優秀AI研究者應具備的能力：

系統工程、理論、獨立思考與反從眾

主持人：我想把話題轉向人才生態和研究本身。你既是一位非常傑出的研究者，也和許多頂級研究者共事過。現在研究員的招聘競爭異常激烈，你當年也參與了OpenAI的大量招聘工作。那麼今天，究竟是什麼在決定研究者會選擇去哪家公司？

Jerry：這是個好問題。說到底，人是非常複雜的——現在甚至比模型還複雜。每個人的激勵機制、想要的東西都不一樣，所以我其實很難一概而論。我覺得，招聘者不應該只問「我怎麼才能吸引最多的人」，或者「怎樣讓自己看起來對所有研究者都最有吸引力」。這當然是個問題，但還有一個更重要的問題：什麼樣的研究者會真正想在這裡工作？因為試圖取悅所有人幾乎是不可能的。不同的人有不同的偏好、不同的價值觀、不同的工作方式。與其如此，不如刻意構建一個在價值觀和方法論上高度一致的團隊。事實已經反覆證明：目標一致、彼此對齊的團隊，行動更快、效果更好。所以這本質上是一個雙向篩選的過程，找到「合適的人」和「合適的團隊」，這會讓個人更快樂、團隊更成功，也會讓這個團隊隨著時間變得越來越有吸引力。

主持人：但我們也看到了一些很有意思的實驗，比如Meta曾經用極其誇張的薪酬包來搶人。你怎麼看這種做法？

Jerry：不同公司有不同的組建研究團隊的策略。某個階段，Meta顯然處在供需曲線不利的一側，在經歷了一些挫折之後，他們需要用非常有吸引力的條件把人重新吸引回來。「勢能」和「動量」在人才市場中非常重要，也非常難扭轉。一旦行業裡形成一種「你不行了」的認知，就會導致你招不到人，而這本身又會進一步強化這種印象。所以從這個角度看，這是一個合理、甚至是聰明的策略，用來打斷負回饋循環。在AI對大型科技公司至關重要的背景下，Meta也確實重建了一支新的團隊，正在訓練新的模型。整個行業都在關注這次嘗試是否成功，以及它會如何決定這個實驗室的未來。但無論如何，這一步確實給Meta AI注入了新的生命力。

主持人：你做過大量開創性的AI研究，也和很多頂尖研究者共事過。在你看来，什麼樣的人才算是優秀的AI研究者？

Jerry：這是個很難回答的問題。某種程度上，成功確實和「在對的時間出現在對的地方」有關。但如果要談基本功，我認為當下一個優秀的AI研究者，必須同時在系統與工程層面和理論層面都非常紮實。你需要理解電腦系統如何運作、神經網路如何訓練，同時也要理解神經網路和優化的理論基礎。只擅長其中一邊，幾乎不可能做到頂尖；而如果兩邊都至少「夠好」，你的研究效率會直接提升一個數量級。另一個極其重要、但經常被忽視的能力，是獨立思考與反從眾。人類有一種天然傾向，會逐漸向群體的中位觀點收斂，而這幾乎會扼殺真正的研究。我常說，如果你有100個研究者都在想同一件事，那你本質上只有1個研究者。研究的本質就是去做「還不奏效的事情」，而這些事情，恰恰是大多數人暫時不相信的。要做到這一點，需要一種很稀缺的品質——勇氣。敢於站出來說：「我們試試一條不同的路。」在今天這個實驗極其昂貴的時代，這尤其困難。很多機器學習實驗的成本已經接近好萊塢電影。就像拍電影一樣，你可以透過明星、特效來盡量降低風險，但最終，實驗就是實驗，結果永遠不確定。所以總結來說：深刻理解系統與理論、不過度隨大流、並且有勇氣堅持自己的判斷，這是我心目中優秀AI研究者的核心特質。

靜態模型永遠不可能成為AGI

機器人出現「拐點時刻」需兩到三年

主持人：我們通常會用一個快問快答來結束訪談。第一個問題：過去一年裡，你在AI上改變過的一個重要看法是什麼？

Jerry：我最近一個重大的認知更新是：靜態模型永遠不可能成為AGI。持續學習是必不可少的。

主持人：這是因為靜態模型在能力上做不到，還是因為從定義上，它就不符合AGI的要求？

Jerry：更多是因為我們逐漸看清了模型仍然缺失的東西。它們已經在很多方面非常強了，但如果不能持續學習，在我看來，它們永遠都只會是一個需要人類監督的工具，而不是真正的智能體。

主持人：除了今天討論的領域，AI在其他方向也在快速進展。你覺得機器人領域出現類似ChatGPT的「拐點時刻」，大概還要多久？

Jerry：我猜大概兩到三年。

主持人：這個判斷挺激進的。很多人還在懷疑機器人領域到底有沒有scaling laws，數據夠不夠。

Jerry：說實話，我覺得現實情況比大多數人想像的要好。已經有很多公司在取得實質性進展，只是這些成果需要時間發酵，也需要進一步投資。我對未來幾年的機器人發展是相當樂觀的。

主持人：那在生物領域呢？

Jerry：生物會慢得多。

主持人：為什麼比機器人慢？

Jerry：從所需智能水平和操作精度來看，生物學複雜得多。這是一個需要更多基礎性投入、才能真正開始起飛的領域。

主持人：在模型持續進步的背景下，你覺得社會可能低估、或者討論得還不夠充分的一個影響是什麼？

Jerry：大規模的工作自動化，在未來幾十年裡幾乎是不可避免的。一方面，我們確實在談這個問題；但另一方面，我覺得我們談得還遠遠不夠認真。世界會和今天非常不同，這對我來說幾乎是確定的。社會變遷本身是緩慢的，但這種轉變會非常怪異，也可能在某些方面非常痛苦。我們需要提前思考，怎樣讓這個過程盡可能不那麼痛苦，因為未來的就業形態一定會和今天截然不同。

參考連結：

https://www.youtube.com/watch?v=XtPZGVpbzOE

Anthropic強勢出手，Clawdbot改名Moltbot！創建者自曝產品誕生故事；程式碼本身不值錢，不會程式設計也能做出「一人公司」，大量APP會自然消失

Karpathy：回不去了，被AI傷了自尊！自曝手寫程式碼能力退化，公開與CC協作心得！馬斯克：時代精神的總結！CC之父：不會出現垃圾程式碼末日

OpenAI前研究員：模型能自行突破困難才叫AGI，最大問題是泛化；最重要技能是「管理初級工程師」，機器人出現「ChatGPT時刻」只需兩到三年

相關文章推薦

分享網址