OpenAI前研究員:模型能自行突破困難才叫AGI,最大問題是泛化;最重要技能是「管理初級工程師」,機器人出現「ChatGPT時刻」只需兩到三年

不得了,一位OpenAI前研究員出來說大實話了!

就在昨天,《Unsupervised Learning》節目邀請OpenAI前研究員Jerry Tworek做客。Jerry Tworek是OpenAI推理模型o1、o3和Codex背後的關鍵架構師,參與了過去幾年AI領域最關鍵的突破。他最近離開了OpenAI,原因是他希望去做一些在大型實驗室裡更難開展的研究方向。

在這期節目中,Jerry談論了很多近期熱議的話題:比如預訓練和強化學習擴展的真實局限與前景、對AGI的時間預期如何、各大實驗室的研究方向逐漸趨同、OpenAI在發布GPT-4時的關鍵押注、優秀的AI研究院標準是什麼等等。

Jerry表示,Scaling範式帶來的收益是穩定可預測的,但它最終能否帶來AGI,關鍵在於模型的泛化能力如何。他指出,現在愈發存在一種現象:我們正在變得極其擅長「我們明確訓練過的東西」。

他也坦言,自己之前對於AGI非常樂觀,認為只要一直做強化學習就能達到AGI。但做了一段時間之後,他的時間預期變得保守了。最大的觀念轉變在於:如果模型無法在遇到困難時自行突破、無法把自己從「卡住」的狀態中解救出來,就很難稱它為AGI。

自2019年加入以來,Jerry已經在OpenAI有了六七年工作經歷。從一個只有三四十人的小實驗室起步,發展到世界上最大的公司之一,Jerry坦言在OpenAI的經歷「真的很瘋狂」,而且他當初相信這裡真的是能「構建AGI」的地方。

他表示自己記憶中OpenAI最關鍵的決策有兩個:一個是集中大量資源訓練GPT-4,這是一個伴隨巨大取捨的決定,但它在OpenAI歷史中極其關鍵,事後證明是一個非常好的選擇;另一個是押注「推理模型是未來」,讓OpenAI完全轉向這個方向,發布了o1和o3。

Jerry透露,OpenAI的研究部門從一開始就與產品團隊高度分離。公司的核心使命始終是「構建智能」。對一家公司來說,通常只能把一件極難的事做到極致,很少能同時把多件極難的事都做到頂級。他也認可,Anthropic在程式設計方面做到了領先,關鍵就在於方向的聚焦。

Jerry認為,當下最重要的技能,其實是「管理初級工程師」的能力。最好的管理者既深刻理解系統,又能放手讓別人做決定——這恰恰也是與模型協作的最佳方式。

Jerry還分享了他近期更新的一個重大認知:靜態模型永遠不可能成為AGI,持續學習是必不可少的。此外,他還認為機器人領域出現類似ChatGPT的「拐點時刻」,大概需要兩到三年。

以下是對話內容全文,有部分刪減和潤色:

Scaling範式還能走多遠:

規模化帶來的收益很穩定,問題在於泛化

主持人:你在OpenAI推動了推理模型的引入,以及強化學習的規模化。那麼從現有的scaling範式來看,我很好奇你的判斷:我們現在靠預訓練+強化學習,能力大概還能走多遠?這條路線最終能把模型帶到什麼程度?

Jerry:它肯定能把我們帶到某個地方。問題是,我們該如何給那個「地方」命名?

主持人:你可以來定義。

Jerry:但對大多數從業者來說,有一個非常現實、而且相當震撼的事實:規模化帶來的收益是真實的、可預測的,而且相當穩定。每當我們擴大預訓練規模,我們就會得到更好的預訓練模型——它們對世界的了解更多、對語言的理解更深、對圍繞它們的一切建立起更完整的「語言化世界模型」。同樣地,擴大強化學習的規模,也會讓模型在獲取我們想要的技能方面做得更好。

在這兩種情況下,你基本上都會「得到你所訓練的東西」。如果你想要一個擅長下一個token預測的模型,那就大規模做預訓練,你會得到一個在next-token prediction上非常、非常強的模型;如果你想要某一組特定技能,那就對這些技能做強化學習,模型也會在這些任務上變得非常、非常優秀。從某種意義上說,幾乎沒有明顯的上限。現在大家都知道:只要你在意某個技能,你就對它做強化學習,模型就能把它學到非常好——事情基本就是這麼簡單,而且確實有效。真正讓人猶豫、或者感到卡住的地方在於:這些模型的泛化能力如何?它們在訓練分佈之外表現如何?對於預訓練語料裡根本不存在的知識,模型能不能處理?大概率不能。對於你從未用強化學習訓練過的任務,它們表現如何?大概率也不太好。

所以,這些幾乎就是當下AI世界裡剩下的核心問題:我們正在變得極其擅長「我們明確訓練過的東西」。

主持人:這似乎引出了兩種不同的觀點:一種認為,我們其實才剛剛開始探索強化學習的潛力,隨著繼續擴大規模,泛化能力自然會逐漸顯現,這兩條scaling路線就足以帶我們走到很遠;另一種則認為,想要繼續突破,可能必須引入全新的範式。你更偏向哪一邊?

Jerry:我覺得這在很大程度上是一個經濟性問題。很明顯,「規模化」在很大程度上意味著增加數據,而沒有數據,規模化幾乎是行不通的。如果你不斷加入你想讓模型擅長的數據,那模型就會在這些事情上變得更好。

你現在看到的現象是:幾乎每個季度、每個實驗室都會發布一個更強的模型。這背後大多數時候意味著三件事:第一,更多算力;第二,更重要的,是更多數據;第三,也是最關鍵的,這些數據是針對上一代模型的短板而精心定制的。

這是一種極其強大的方法論:不斷迭代,就能訓練出越來越好的模型。從這個角度看,如果你持續不斷地補充「你希望模型會做的事情」的數據,最終你確實可以得到一個在這些事情上都表現不錯的模型。但這個循環在某些方面是很慢的。真正有沒有可能更快?在現有訓練範式下,我確實相信,只要不斷加入目標數據,模型就會學會相應的技能,並且會有一定程度的泛化。但關鍵問題是:有沒有別的研究方向,可以用更少的數據,得到更多的能力?有沒有更「根本性」的方式,讓模型更好地利用它已經見過、已經學到的東西進行泛化?

主持人:我們稍後再回到這些潛在的新方向。先幫聽眾建立一個背景:以你自己的經驗來看,強化學習目前在哪些地方好用,在哪些地方不好用?很多人會提到「容易驗證」和「不容易驗證」的任務差異。你自己的心智模型是什麼?哪些事情是今天的RL真正能有效做的?

Jerry:「容易驗證/難以驗證」這個問題,本質上接近於:我們能否獲得一個有意義的品質訊號。在OpenAI,我們在很多方面已經取得了相當不錯的進展,讓模型在各種任務上透過強化學習變得更好。事實上,強化學習可以用於非常多的事情。

但有些事情,本質上就很難判斷什麼是「好」,什麼是「不好」,或者你需要等待非常長的時間才能得到回饋。比如寫一本書:你當然可以用一些簡單的方法判斷它好不好,但真正可靠的信號,可能要等它上市、看看有多少人願意讀、願意買。即便如此,這個信號也並不總是可靠——可能評論家一致認為這是一本傑作,但由於行銷失敗,根本賣不出去。

那我們要如何對「寫一本好書」做強化學習?這本身就很難回答。人類是如何學會寫好書的?這同樣是一個極其複雜的問題。

創業也是類似的例子。很多公司在早期階段啟動,我們怎麼知道哪一家是「好公司」?往往要五年、十年之後才能看清楚。創業者早期做的某個決策到底是對是錯?還是說,成功很大程度上來自運氣?在這種場景下,直接做強化學習是非常、非常困難的。

不過,只要你能得到任何形式的回饋,原則上你就可以用它來做強化學習。

主持人:你參與的模型在程式設計競賽、數學競賽等任務上的表現,讓很多人感到震撼。但大家仍在試圖建立直覺:現實世界的大多數任務,更像「程式設計和數學」,還是更像「寫書、創業」這種極難構建獎勵訊號、也難以反覆試驗的任務?比如會計、醫學、法律——你直覺上覺得它們更接近哪一類?

Jerry:歸根結底,還是一個問題:你有多容易判斷「你做得好不好」。即便對人類來說,判斷一本書寫得好不好,本身就很難。

如果你是一個會計團隊的管理者,而這個領域有明確的規則,你可以相對容易地判斷哪個會計做得好,哪個做得不好。只要規則清晰,你就可以用這些規則訓練幾乎任何系統。

醫學也是如此。我最近思考了很多關於外科醫生的問題:那裡確實存在明確的規則,也存在明確的回饋訊號——病人是否在手術後存活,這本身就是一個非常強的成功標準。更有意思的是:真正頂尖的醫生,往往會在關鍵時刻違背既有規則。他們憑藉經驗判斷,必須以一種前所未有的方式來進行手術。他們打破慣例,結果卻成功了,挽救了病人。

我認為,模型在足夠時間和足夠嘗試次數的前提下,也有可能做到類似的事情。真正問題在於:模型需要多長時間,才能真正達到這種水平?

主持人:如果我們想讓強化學習在更多人類關心的任務上具備泛化能力,你認為接下來真正需要攻克的前沿問題是什麼?

Jerry:我認為,泛化本質上是模型本身的屬性。訓練時,你真正決定的是訓練目標;最終,你得到的,基本就是你所優化的那個目標。問題在於:你還能「順帶」得到多少額外能力?

確實存在一些學習方法——即便是next-token prediction,它們幾乎不泛化,比如最近鄰分類。從理論上講,它能解決任何機器學習問題,但泛化能力極差,因為它構建的世界表示極其簡單。

神經網路,尤其是大規模訓練的神經網路,神奇之處在於:它們學到了非常有用、非常抽象的世界表示。有時我們甚至會覺得這是「白撿的」:為什麼一個在互聯網上訓練的巨大Transformer,居然能如此深入地理解現實世界中的各種概念?

這種泛化能力,來自Transformer架構、大量參數,以及反覆施加的梯度下降。這本身就像一種魔法。問題是:是否存在一種不同的模型,能夠泛化得更好?幾乎可以確定,答案是「有」。真正問題是——它會長什麼樣?

如果模型遇到困難時無法自行突破,很難稱之為「AGI」

主持人:我聽你以前提到過,你在做強化學習規模化之後,對AGI的一些時間預期變得更保守了。為什麼?

Jerry:我以前確實是一個非常樂觀的人,覺得只要對模型做強化學習,就能走到AGI。也許我們已經做到了。也許它已經是AGI了——這完全是一個非常主觀的判斷。因為「AGI是什麼」,往往取決於我們還缺什麼。

現在的模型已經能解決幾乎所有奧林匹克級別的問題、各種競賽問題。甚至已經開始在解決一些前所未有的數學問題。你每周都能看到GPT-5.2之類的例子。

那什麼時候才會有一個「大家都會同時點頭說是」的時刻?我不知道。我是程式設計模型的重度使用者。它們依然會犯錯。它們能幫我完成一些原本要花非常長時間的工作,是極其強大的生產力放大器。但與此同時,也存在明顯的失敗場景。當模型失敗時,你會很快感到一種「無力感」。你可以反覆貼上錯誤訊息、告訴模型「這個不行,換一種方式」,有時候甚至要給它「精神鼓勵」。但本質上,模型並沒有一種機制,能夠在失敗後真正更新自己的信念和內部知識。這大概是我觀念上最大的變化:如果模型無法在遇到困難時自行突破、無法把自己從「卡住」的狀態中解救出來,我就很難稱它為AGI。

真正的智能,會不斷嘗試、不斷探測問題的結構,直到找到解決方案。而當前的模型,還做不到這一點。

主持人:這正好過渡到一些「超出純粹預訓練和強化學習規模化」的研究方向。你剛才談到的很多問題,其實和「持續學習」非常接近——這也是最近越來越多被公開討論的話題。我很好奇,從一個宏觀層面來看,你會如何向聽眾解釋:要讓持續學習真正可行,最核心、最需要被解決的一組問題是什麼?

Jerry:最核心的一點在於:如果你希望模型能夠持續地被訓練,那你就必須確保模型不會崩潰,不會進入某種奇怪的、失控的狀態。深度學習訓練失敗的方式有很多種,而現在大型實驗室裡相當大一部分工作,其實都是在讓模型「保持在軌道上」,讓訓練過程保持健康。從根本上說,這是一件非常脆弱的事情——訓練並不是一個天然會順利進行的過程,你必須持續投入大量精力,訓練才不會「炸掉」。如果你不這樣做,最終就很難得到一個好模型。

而這在我看來,與人類學習的方式有著本質上的不同。人類的學習過程要反脆弱得多,也更魯棒。人類可以在學習過程中不斷自我修復、調整,而不是輕易崩潰。我在做強化學習研究時,常常會感到驚訝:人類是多麼少見地會在學習新訊息後突然「宕機」,開始胡言亂語,或者陷入某種奇怪的認知狀態;而AI模型卻相當容易發生這種情況。這正是研究者們一直在試圖解決的問題——無論是從理論還是實踐角度:如何對抗這種不穩定性。我認為,這種訓練過程本身的根本魯棒性,很可能正是實現持續學習所必需的關鍵前提。

主持人:在你看來,關於持續學習的一些有意思的想法,有多少是其實已經存在一段時間、被反覆討論過的?又有多少是真正全新的研究問題?

Jerry:我覺得,作為研究者,一個最重要、也最值得反覆問自己的問題是:為什麼這個問題到現在還沒有被解決?持續學習顯然還沒有被真正解決,那麼問題就在於:為什麼?世界上有這麼多聰明的研究者,有這麼多卓越的想法,但至今沒有人真正「攻破」持續學習,這背後一定有原因。

關於這個問題,有很多不同的假設。但我認為其中一個非常根本的原因是:這很可能是一個必須在「規模」上才能解決的問題,至少要達到某個閾值規模。而現在,真正具備條件去做這種研究的頂級實驗室數量非常有限;它們能同時推進的研究項目也有限。所以很可能,並不是沒有正確方向,而是如果這是一個可以在小規模下被徹底驗證、被根本性突破的問題,或許早就已經有人做出來了。那它要麼是一個極其複雜、理論上非常困難的問題;要麼就是需要已經非常大的模型和算力資源,而這些只掌握在極少數實驗室手中。而這些少數實驗室,很可能只是還沒來得及、或者還沒選擇去探索某一條特定的路徑——因為它們當時正忙於別的事情。

主持人:我以前聽你說過這樣一種觀點:在AI研究中,有些想法「還沒到合適的時間」,但它們依然是好想法。強化學習本身就是一個例子——在擁有大規模預訓練模型作為基礎之後,它才真正爆發。所以聽起來,你的直覺是:現在其實已經存在一些非常好的想法,只是如果它們真的能被放到足夠大的規模上去嘗試,可能會對這一類問題產生巨大幫助。

Jerry:是的,完全同意。

各大實驗室在研究方向上高度趨同

主持人:你也提到過一個現象:各大實驗室在研究方向上正在高度趨同,大家做的事情越來越相似。我不知道這是否也是你過去兩三年的真實感受,但當你當年主導某些工作時,那些確實是全新的方向,很多實驗室在當時是有點措手不及的。你能不能談談過去一年左右這種「收斂」的趨勢?這對你來說意外嗎?

Jerry:在強化學習中,有一個非常經典、被充分研究過的權衡:探索與利用。什麼時候應該嘗試新的東西?什麼時候應該極致優化你已經很擅長的東西?這個權衡本身沒有標準答案,因為你永遠不知道「未知的東西」到底值不值得探索。

從根本上說,問題在於:是否存在一條與當前路徑截然不同的路線,能帶來巨大收益?但如果你並不了解整個搜尋空間的地形,這個問題本身就極其困難。

我記得曾經有人跟我說過一句話:為什麼所有商用飛機看起來都長得差不多?儘管製造它們的公司並不只一家。原因在於:在經濟約束下,這基本上已經是最有效的設計了。

今天各大實驗室的行為,其實也受到非常強的經濟力量驅動。如果你想參與競爭,你就必須在盡可能低的成本下,做出盡可能好的模型。而在這個目標下,現有的技術組合已經相當高效。客戶可以隨時切換模型,最終獲益的是用戶——這也進一步推動實驗室不斷在同一條路徑上做效率優化。當然,這裡始終存在一個探索與利用的問題。我們要不要「出海航行」,看看遠方有沒有完全不同的大陸?要不要訓練一種徹底不同的模型?

這麼做,很可能會分散注意力,讓你無法持續把現有方法做得更好、更高效。但另一方面,也許那裡存在著10倍、甚至100倍的突破。最終,這取決於一種信念和判斷:我們願意為探索未知承擔多大的風險?

主持人:正如你所說,現在確實存在一條非常清晰的路線:不斷往強化學習和各類任務中加數據,持續提升在經濟上有價值的能力。每個實驗室都有一張明確的roadmap,這反而讓「孤注一擲去賭一個全新方向」變得更難。而當年預訓練似乎接近瓶頸時,反而更容易鼓勵探索。

Jerry:是的,不同歷史階段確實不一樣。有些時期,探索的空間更大,容錯率也更高;而當競爭變得極其激烈時,就會變得像一個「囚徒困境」——只要你選擇與眾不同,就很容易在市場競爭中失去優勢。

實驗室的先發優勢很重要

主持人:你覺得實驗室是否一定要成為「下一個重大突破」的發現者?我之所以這麼問,是因為這些想法往往擴散得非常快。比如你在推理模型上的開創性工作,如今已經有好幾家實驗室都有很強的推理模型。我甚至在想:即使突破發生在別的地方,實驗室是不是也完全可以接受?因為這些想法最終都會被吸收進現有的商業體系。

Jerry:思想的擴散當然是好事,但「領先一步」的價值不應該被低估。我們已經見過這樣的例子:曾經很多人認為OpenAI不可能成功,但它在大規模Transformer預訓練上領先一步,最終成為世界上最成功的公司之一。同樣地,OpenAI率先解決了大規模強化學習的問題,這使得它直到今天,依然擁有業內最強的強化學習研究體系之一,能夠做出更大膽、更具雄心的事情。

即便想法會擴散,先發優勢依然極其強大——如果你能維持住這種優勢,它甚至可能長期存在。我最近在讀一本關於半導體製造的書。很多最早的關鍵技術發明都發生在美國,隨後逐漸擴散到世界各地。但與此同時,也存在某些階段性的領先優勢,是其他國家始終無法追趕的——這種早期下注、持續投入所帶來的複利效應,會在很長時間內發揮作用。

並不是只有一個國家能做半導體,但也絕不是每個國家都能。每一次產業變遷中,總會有新的成功者、新的失敗者;有些老公司成功轉型,有些則被淘汰——這就是進步中的達爾文過程。

主持人:消費者和企業往往會記住第一個帶來「魔法般體驗」的公司。你們在ChatGPT上顯然經歷過這一點。你在強化學習上取得了如此多的進展,而這一方向至今仍在持續推進,但你最終選擇離開OpenAI,去探索新的研究領域。我很好奇:你什麼時候開始意識到,自己可能想要離開的?又是如何真正做出這個決定的?

Jerry:這並不是一個突然發生的決定,而是一個在內心慢慢生長出來的過程。OpenAI並不是一個容易離開的地方——我在那裡有很多朋友、很多共同的歷史,我的人生有很大一部分是在那裡建立的。我曾經非常努力地嘗試讓一切繼續運轉,尋找不同的可能性。

但作為研究者,如果有一天你醒來,發現自己不再真正熱愛正在做的事情,不再對它感到極度興奮,那也許就是時候去嘗試別的東西了。如果你沒有100%的熱情,是幾乎不可能做出最好的研究工作的。我在OpenAI曾有過很多充滿無限熱情的日子,但到後來,這種感覺變得越來越難以維持。

主持人:那現在是什麼在給你能量?

Jerry:從最根本的層面來說,我當初加入OpenAI,是因為我相信強化學習是通向AGI的必要組成部分,我真的、非常想讓它發生。把「推理模型」引入這個世界,對我來說是一種範式級的轉變。某種程度上,我想再次追逐那種感覺——找到當下模型訓練方式中缺失的一塊,並設法讓它成為主流。但一旦你做過那樣的事情,就很難再獲得同等強度的「衝擊感」。所以我現在想要的是一些自由,去思考、去探索,去嘗試解決那些最核心、最重要的問題。

主持人:你現在是帶著很多具體假設在推進,還是更多在「拉遠視角」,重新觀察整個領域?

Jerry:通常來說,真正重要的問題,並不是你在做了七年機器學習之後才突然發現的。你其實早就知道哪些問題最關鍵。真正困難的是:如何用一種與所有人不同的方式去解決它們。因為如果它們能被常規方式解決,早就已經有人成功了。

OpenAI兩次關鍵決策:

集中資源訓練GPT-4,押注「推理模型是未來」

主持人:你曾說過,自2019年加入OpenAI以來,幾乎每一年都像是一家「不同的公司」。我很想請你回顧一下這六七年的演變,講講你眼中的OpenAI成長敘事。

Jerry:從一個只有三四十人的小實驗室起步,而且從一開始就完全開放,這是一個極其大膽的選擇。我們當時真的相信,這裡會是構建AGI的地方,會為世界帶來數位智能的普遍收益。

從最初幾個人做一些「看起來很酷、但極其野心勃勃」的項目,到今天發展成世界上最大的公司之一,做出了幾乎所有人都知道、每天都在用的產品,甚至已經很難想像生活中沒有它——這段經歷真的很瘋狂。你也知道,OpenAI的管理層和組織結構在過去一年裡發生了相當大的變化。你每天共事的人變了,公司規模變了,研究主題也在不斷變化。早期甚至根本沒有「預訓練」這個概念,後來有一段時間幾乎一切都圍繞預訓練展開;再之後,它有點變成了我們「老OpenAI」的樣子。現在則更平衡一些,既有預訓練,也有其他方向。很多人離開OpenAI,去創辦公司、開啟新的人生階段;與此同時,也有大量優秀的新鮮血液加入,繼續在內部做非常出色的研究。這是一家不斷自我重塑、並在每個階段都成功成長的公司。我常常會想,那些偉大的成功公司,它們的故事一定很精彩,而能親歷這些階段一定是種難以複製的體驗。我覺得自己參與了OpenAI相當早期的一段歷程,這種經歷真的很難和其他任何事情相比。

主持人:大家都很期待未來會有人系統地寫下OpenAI這一段歷史。通常這種故事都會聚焦在那些「關鍵但極其艱難的決定」上——那些可能向不同方向發展的分岔點。對你來說,有沒有哪些特別關鍵的決策,讓你印象深刻?

Jerry:這是個好問題。我其實只真正參與了其中一部分,很多決定我可能只是「背景角色」。比如,是否要向世界發布ChatGPT的討論——你可能也聽說過,它後來的流行程度、病毒式傳播,在內部至少我從沒聽誰真正預料到。隨著ChatGPT以及隨後GPT-4的發布,我們創造了一個「時刻」,形成了一種極難預測的勢能,這在很多維度上塑造了今天的OpenAI。再比如,在那個時間點集中大量資源訓練GPT-4,這也是一個伴隨巨大取捨的決定,但它在OpenAI歷史中極其關鍵,事實證明是一個非常好的選擇。還有一次非常重要的賭博:押注「推理模型是未來」。當時完全沒有把握,更多是基於第一性原理的思考和直覺。我們決定讓OpenAI徹底轉向這一方向,哪怕當時還看不到產品市場契合點。最早的推理模型看起來很聰明,但幾乎只適合做謎題,對現實用途幫助不大。直到後來,隨著更多投入、工具使用能力的加入,它們才開始在研究和程式設計上變得極其有用。一旦出現了真正的PMF,人類就非常擅長對一個「已經可行的東西」進行優化。但走到那一步,本身就是一段非常艱難、也非常值得研究的旅程。OpenAI在那個階段,真的通過了考試。

主持人:你描述的這種「在不確定中持續加碼投入」的過程非常有意思,也和你們現在對推理模型的判斷高度相關。你是在什麼時候真正意識到:這不只是好玩,而是可以規模化、走得很遠?

Jerry:說實話,我從一開始就相信它。這主要源於我對強化學習的信念。從我加入OpenAI的第一天起,我就堅信:如果要走向AGI,強化學習是必不可少的組成部分。問題從來不是「要不要」,而是「什麼時候準備好、以及怎麼做」。隨著時間和研究推進,我們不斷得到實驗結果,進一步驗證這條路徑是對的。

Anthropic在程式設計上領先的原因:聚焦

當下最重要的技能是「管理初級工程師」

主持人:OpenAI一個很獨特的地方在於:它既是一個追求AGI的研究實驗室,又「意外地」做出了一個席捲全球的消費者產品。公司同時做消費級產品、企業產品和核心研究,這在內部是如何運作的?研究人員會不會被拉向太多不同方向?

Jerry:有一點其實很清楚:OpenAI的研究部門從一開始就與產品團隊高度分離。公司的核心使命始終是「構建智能」。確實有一個專門面向產品的研究團隊,負責圍繞具體產品指標優化模型;但絕大多數研究的關注點始終是:如何讓模型變得更智能。至少在研究內部,這種「拉扯感」並不強。真正複雜的是:OpenAI站在我們這一代人可能經歷的最大技術變革中心。機會實在太多了,幾乎所有行業都會被AI重塑。如果什麼都不做,反而顯得浪費。但這也帶來了一個非常現實、非常危險的問題:聚焦。公司通常只能把一件極難的事做到極致,很少有組織能同時把多件極難的事都做到頂級。這對OpenAI來說是一個巨大的風險。舉個例子,OpenAI曾經在「程式設計」方向上失去過一段時間的專注,把注意力更多放在消費者產品上,這確實付出了市場份額的代價。現在他們正在非常努力地追回來,最近的編碼模型確實又變得非常強了,但這段分心是有成本的。做AI的公司現在就像走進了糖果店,到處都是潛在價值極高的東西,很難克制自己不去多做。但每一個方向都有競爭,問題只在於:誰能把哪一件事做到真正正確。

主持人:這也正好引出生態系統的問題。你提到了編碼領域,Anthropic為什麼在程式碼上表現得如此突出?

Jerry:一句話:聚焦。我認識Anthropic的創始人,從他們還在OpenAI的時候就是如此。他們一直極其重視程式設計,並且堅信這是通往AGI的關鍵組成部分。我可以想像他們這些年在這一方向投入了多麼專注的精力。最新的Claude編碼模型和代理,確實把這個願景推得很遠。他們說「公司裡已經很少有人親自寫程式碼了」,我相信這不是誇張。

主持人:這是否意味著未來的大模型實驗室會自然走向分工,各自專注不同能力?

Jerry:這取決於我們最終生活在哪一種世界裡。如果數據是核心驅動力,那這是一場零和博弈:你把數據投向某項技能,模型就在那項技能上更強,於是市場自然分裂、專門化。如果研究才是關鍵,那研究具有一種「魔法屬性」:一次成功的突破,可能讓模型在所有領域同時躍遷,直接全面領先。我們現在還無法確定哪一種未來會佔上風。但我很確定:一定存在更通用的路徑,只是不知道它有多難被找到。甚至存在一種略微悲觀、但並非不可能的情況:也許我們已經到了人類最後一個能親手設計的模型,而接下來,模型會自己研究更好的模型。現在的編碼代理已經足夠強大,再加上巨量算力,這種推斷並不荒謬。當然,我仍然希望人類還有一些關鍵的事情能繼續親自完成。從本質上看,程式設計的歷史就是不斷提高抽象層級。編碼代理可以被視為一種全新的、更高層的「程式語言」。我認為未來很可能不再是人類直接敲程式碼,但軟體仍然必須可靠。我們需要解決的問題是:當我們既不寫、甚至不讀程式碼時,如何確保系統做對了事?我相信這些問題是可以解決的。當下最重要的技能,其實是「管理初級工程師」的能力。最好的管理者既深刻理解系統,又能放手讓別人做決定——這恰恰也是與模型協作的最佳方式。不和研究團隊挨在一起,確實是應用公司的一種劣勢。最終,成功的AI公司往往都會開始自己訓練模型。應用公司可能從產品起步,逐步走向後訓練、再訓練,最終甚至建設自己的資料中心——這是一個自然的成長路徑。這並不意味著小公司沒有機會。如果數據重要,就能靠數據差異化;如果研究重要,小公司也可能在約束中產生創新。專注某一領域,看到模型的不足,反而有可能做出一個在該領域極強、甚至在更廣泛層面更優的模型,並由此成長為下一家巨頭。

主持人:但現實是,過去常見的問題在於:你可能剛剛領先了一點點,甚至只有「一秒鐘」,下一代模型一發布,你又突然發現自己已經被遠遠甩在後面了。

Jerry:競爭確實很殘酷。我們在美國科技行業已經看到過很多次,大公司擁有大量結構性優勢,這一點是真的。但與此同時,新的、非常成功的大公司也一直在不斷湧現。所以這並不是沒有希望,只是非常困難。

優秀AI研究者應具備的能力:

系統工程、理論、獨立思考與反從眾

主持人:我想把話題轉向人才生態和研究本身。你既是一位非常傑出的研究者,也和許多頂級研究者共事過。現在研究員的招聘競爭異常激烈,你當年也參與了OpenAI的大量招聘工作。那麼今天,究竟是什麼在決定研究者會選擇去哪家公司?

Jerry:這是個好問題。說到底,人是非常複雜的——現在甚至比模型還複雜。每個人的激勵機制、想要的東西都不一樣,所以我其實很難一概而論。我覺得,招聘者不應該只問「我怎麼才能吸引最多的人」,或者「怎樣讓自己看起來對所有研究者都最有吸引力」。這當然是個問題,但還有一個更重要的問題:什麼樣的研究者會真正想在這裡工作?因為試圖取悅所有人幾乎是不可能的。不同的人有不同的偏好、不同的價值觀、不同的工作方式。與其如此,不如刻意構建一個在價值觀和方法論上高度一致的團隊。事實已經反覆證明:目標一致、彼此對齊的團隊,行動更快、效果更好。所以這本質上是一個雙向篩選的過程,找到「合適的人」和「合適的團隊」,這會讓個人更快樂、團隊更成功,也會讓這個團隊隨著時間變得越來越有吸引力。

主持人:但我們也看到了一些很有意思的實驗,比如Meta曾經用極其誇張的薪酬包來搶人。你怎麼看這種做法?

Jerry:不同公司有不同的組建研究團隊的策略。某個階段,Meta顯然處在供需曲線不利的一側,在經歷了一些挫折之後,他們需要用非常有吸引力的條件把人重新吸引回來。「勢能」和「動量」在人才市場中非常重要,也非常難扭轉。一旦行業裡形成一種「你不行了」的認知,就會導致你招不到人,而這本身又會進一步強化這種印象。所以從這個角度看,這是一個合理、甚至是聰明的策略,用來打斷負回饋循環。在AI對大型科技公司至關重要的背景下,Meta也確實重建了一支新的團隊,正在訓練新的模型。整個行業都在關注這次嘗試是否成功,以及它會如何決定這個實驗室的未來。但無論如何,這一步確實給Meta AI注入了新的生命力。

主持人:你做過大量開創性的AI研究,也和很多頂尖研究者共事過。在你看来,什麼樣的人才算是優秀的AI研究者?

Jerry:這是個很難回答的問題。某種程度上,成功確實和「在對的時間出現在對的地方」有關。但如果要談基本功,我認為當下一個優秀的AI研究者,必須同時在系統與工程層面和理論層面都非常紮實。你需要理解電腦系統如何運作、神經網路如何訓練,同時也要理解神經網路和優化的理論基礎。只擅長其中一邊,幾乎不可能做到頂尖;而如果兩邊都至少「夠好」,你的研究效率會直接提升一個數量級。另一個極其重要、但經常被忽視的能力,是獨立思考與反從眾。人類有一種天然傾向,會逐漸向群體的中位觀點收斂,而這幾乎會扼殺真正的研究。我常說,如果你有100個研究者都在想同一件事,那你本質上只有1個研究者。研究的本質就是去做「還不奏效的事情」,而這些事情,恰恰是大多數人暫時不相信的。要做到這一點,需要一種很稀缺的品質——勇氣。敢於站出來說:「我們試試一條不同的路。」在今天這個實驗極其昂貴的時代,這尤其困難。很多機器學習實驗的成本已經接近好萊塢電影。就像拍電影一樣,你可以透過明星、特效來盡量降低風險,但最終,實驗就是實驗,結果永遠不確定。所以總結來說:深刻理解系統與理論、不過度隨大流、並且有勇氣堅持自己的判斷,這是我心目中優秀AI研究者的核心特質。

靜態模型永遠不可能成為AGI

機器人出現「拐點時刻」需兩到三年

主持人:我們通常會用一個快問快答來結束訪談。第一個問題:過去一年裡,你在AI上改變過的一個重要看法是什麼?

Jerry:我最近一個重大的認知更新是:靜態模型永遠不可能成為AGI。持續學習是必不可少的。

主持人:這是因為靜態模型在能力上做不到,還是因為從定義上,它就不符合AGI的要求?

Jerry:更多是因為我們逐漸看清了模型仍然缺失的東西。它們已經在很多方面非常強了,但如果不能持續學習,在我看來,它們永遠都只會是一個需要人類監督的工具,而不是真正的智能體。

主持人:除了今天討論的領域,AI在其他方向也在快速進展。你覺得機器人領域出現類似ChatGPT的「拐點時刻」,大概還要多久?

Jerry:我猜大概兩到三年。

主持人:這個判斷挺激進的。很多人還在懷疑機器人領域到底有沒有scaling laws,數據夠不夠。

Jerry:說實話,我覺得現實情況比大多數人想像的要好。已經有很多公司在取得實質性進展,只是這些成果需要時間發酵,也需要進一步投資。我對未來幾年的機器人發展是相當樂觀的。

主持人:那在生物領域呢?

Jerry:生物會慢得多。

主持人:為什麼比機器人慢?

Jerry:從所需智能水平和操作精度來看,生物學複雜得多。這是一個需要更多基礎性投入、才能真正開始起飛的領域。

主持人:在模型持續進步的背景下,你覺得社會可能低估、或者討論得還不夠充分的一個影響是什麼?

Jerry:大規模的工作自動化,在未來幾十年裡幾乎是不可避免的。一方面,我們確實在談這個問題;但另一方面,我覺得我們談得還遠遠不夠認真。世界會和今天非常不同,這對我來說幾乎是確定的。社會變遷本身是緩慢的,但這種轉變會非常怪異,也可能在某些方面非常痛苦。我們需要提前思考,怎樣讓這個過程盡可能不那麼痛苦,因為未來的就業形態一定會和今天截然不同。

參考連結:

https://www.youtube.com/watch?v=XtPZGVpbzOE

——好文推薦——

Kimi新作:K2.5開源發布,視覺理解新王!視覺、程式設計、智能體齊登頂開源SOTA,幾分鐘創建100個子智能體,一段視頻即可復刻網站

Anthropic強勢出手,Clawdbot改名Moltbot!創建者自曝產品誕生故事;程式碼本身不值錢,不會程式設計也能做出「一人公司」,大量APP會自然消失

Karpathy:回不去了,被AI傷了自尊!自曝手寫程式碼能力退化,公開與CC協作心得!馬斯克:時代精神的總結!CC之父:不會出現垃圾程式碼末日


分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.