OpenAI 後訓練負責人:AI 沒有突然變強,只是剛跨過一道檻

紐約創投家 Matt Turck 與 OpenAI 後訓練負責人 Yann Dubois 進行了一場深度對談。

訪談封面
訪談封面

從 GPT-5.5 的發布內幕,到強化學習為何突然奏效,再到 AI 產業最大的未解難題,這集對話乾貨密度極高。

他們是誰

Yann Dubois 是 OpenAI 後訓練前沿團隊的共同負責人。他的團隊負責把事情變成:把一個什麼都知道卻不怎麼好用的通用模型,變成一個真正能幫上忙的產品

GPT-5.5、o3、GPT-5 Thinking,這些 OpenAI 近期核心的推理模型,全都經過他團隊的打磨。

Yann Dubois
Yann Dubois

Dubois 是瑞士人,大學在洛桑聯邦理工學院讀生物工程,後來在劍橋取得機器學習碩士,又拿著 Knight-Hennessy 獎學金到史丹佛攻讀電腦科學博士。讀博之前,他曾在新加坡的 Grab 做自然語言處理,為泰語、高棉語、緬甸語等小語種搭建語言處理管線,服務了四千萬用戶。

在史丹佛期間,他做了兩件影響深遠的事:一是 Stanford Alpaca,用不到六百美元的成本微調出一個接近 GPT-3.5 水準的開源模型,直接點燃了整個開源後訓練社群。二是 AlpacaEval,至今仍是業界最廣泛使用的指令遵循模型自動評估工具之一。

去年 GPT-5 發布時,他上台做了一個現場展示:讓 GPT-5 給他的法語區家人做了一個法語學習 App,包含閃卡、測驗和一個貪食蛇小遊戲,兩分鐘內寫出兩百四十行程式碼並順利執行。(據他本人說,最後一次彩排時其實沒跑通,所以上台時還挺緊張的。)

Matt Turck 是紐約早期創投 FirstMark Capital 的合夥人。他從 2012 年開始每年發布一份 MAD 全景圖,已成為 AI 產業的年度必看圖譜,2024 年版塞進了兩千零一十一個公司標誌。他本人也是法國人,之前共同創辦過企業級 AI 搜尋引擎 TripleHop,後來被甲骨文收購。

跨過可靠性門檻

Yann 在開場就拋出了一個核心判斷:AI 的進步其實一直是連續的,但人們的感受卻像是一個階梯函數

為什麼呢?他給出了三個原因。

第一個,也是最關鍵的:可靠性終於跨過了臨界點。

你需要達到這個可靠性水準,才能讓 AI 工具真正有用。我認為我們大概在去年十二月跨過了這道檻,至少在 OpenAI 是這樣。現在我們可以信任這些模型來完成我們正在做的大量工作。」

他打了一個比方:如果你把 Agent 模型想像成每兩分鐘有一定機率出錯的系統,那它運行時間越長,最終答案出錯的機率就越高。而他們一直在做的事情,就是不斷降低這個「每兩分鐘出錯」的機率。

當這個機率低到一定程度後,使用者的感受就會發生質變,即使進步本身是漸進的。

跨過可靠性門檻
跨過可靠性門檻

第二個原因:模型開始加速自身。

OpenAI 內部大量使用自家模型來寫程式、搭建工具、做研究。當模型變強了,內部研發的速度也跟著提上來了,形成了一個正向飛輪。

第三個原因:強化學習從競賽走向了實戰。

去年的 o1、o3 還主要在數學競賽和程式競賽上發力,因為這些場景容易判斷對錯。而今年,他們發現那些為「可驗證獎勵」開發的工具和方法,竟然也能在真實場景中派上用場。

從競賽到實用,這是人們此刻真正感受到 AI 進步的原因。

發 GPT-5.5 像坐雲霄飛車

每個看起來不錯的模型,在 OpenAI 內部都會經歷一輪情緒三溫暖:一開始所有人都很興奮,然後逐漸有人開始質疑,說它在這個任務上不行、那個方面有問題,於是進入一段「看衰期」。

這種波動在每個模型身上都會發生。GPT-5.5 也不例外,但它的波動幅度可能是最大的。大家先是非常興奮,然後又變得不那麼興奮了,最終我們發布了,外界反饋很好。」

發布 GPT-5.5 的情緒雲霄飛車
發布 GPT-5.5 的情緒雲霄飛車

聊到最自豪的部分,他提了兩點。

一是效率,GPT-5.5 在多數任務上的速度提升了約兩倍。

二是整個公司的協調一致,這個模型的成功,需要從預訓練到推理優化再到後訓練的每個團隊都朝著同一個方向發力。

縱向加橫向

這其實牽出了一個問題:OpenAI 內部到底是怎麼組織團隊的?

Yann 解釋說,他們有兩類團隊。

縱向團隊專注於特定的應用場景,比如有人專門做 Agent 程式開發,有人專門做電腦操控,有人做知識工作。每個團隊在自己的垂直領域上推動改進。

橫向團隊,也就是 Yann 自己的團隊,做三件事:

決定最終訓練中放什麼進去、不放什麼;把所有縱向改進整合在一起,跑大的訓練任務;以及做那些橫跨所有場景的通用改進,比如指令遵循、函式調用、思考時間分配。

縱向團隊與橫向團隊的協作
縱向團隊與橫向團隊的協作

好處在於,縱向和橫向的改進可以正交地進行。可能這個版本只有一半的縱向團隊做出了改進,下個版本就輪到另一半。

思考效率

GPT-5.5 Thinking 和 GPT-5.5 Pro 到底有什麼區別呢?

Yann 的回答是:本質上只是測試時計算量的不同。模型想得越久,回答正確的機率就越高。但這條曲線是對數形式的,投入兩倍的計算,可能只換來一點點提升。

他自己其實不怎麼用 Pro。

我個人不太用 Pro,因為我很沒耐心,不喜歡等那麼久。正確率確實會提高,但提升的幅度對我來說還不夠值得。」

但有一群人特別喜歡 Pro:數學家

他們可以把問題丟給 Pro,讓它在後台跑一兩個小時,不需要快速迭代。

那效率提升是怎麼回事呢?

Yann 用了一個比喻:專家和實習生做同一個任務。實習生可能要花一兩天,還要嘗試十個方向,因為他不知道哪條路是對的。而專家憑經驗就知道該走哪個方向,不會浪費時間在錯誤的路徑上。

專家 vs 實習生的思考效率
專家 vs 實習生的思考效率

模型的效率提升,本質上就是讓它變成「專家」,知道哪條推理路徑更可能正確。

而更大的模型天生更高效,因為它已經通過權重「思考」了一部分問題,不需要在推理時用額外的 token 來想。雖然模型更大意味著單個 token 的成本更高,但大模型在 GPU 上更容易做平行優化,總體效率反而更好。

預訓練沒撞牆

去年 AI 產業裡的一個大敘事是「預訓練撞牆了」。

Yann 說他兩年前也這麼想過,但現在看來,這堵牆並沒有出現。

你看 Anthropic 的 Mythos,從模型成本就能看出來它顯然是個大得多的模型。它們僅靠增大模型規模就獲得了很好的性能。我覺得業界至少有一部分人對此感到意外。」

那數據牆呢?數據不夠用了怎麼辦?

他說各家公司似乎找到了各自的方法來繞過網路數據不夠這個問題。至於是不是靠多模態數據或合成數據……他不能說太多,但他給了一個挺坦誠的觀察:

你看 Anthropic 的模型,它們在多模態上並不是特別強,但它們依然非常聰明。所以多模態數據,至少沒有我以前想的那麼必要。」

預訓練沒撞牆
預訓練沒撞牆

他認為,多模態數據真正發揮作用的時刻,可能要等到具身智慧成熟的時候。機器人在物理世界中的互動,能幫模型獲得目前純文字很難學到的常識,比如……重力是什麼感覺。

圖書館到專家

Yann 用了一個比喻來解釋「預訓練 → 中訓練 → 後訓練」這條流水線,很容易理解。

預訓練,就像走進一座圖書館。理論上所有資訊都在那裡,但你得自己翻。而且圖書館裡什麼都有,廣告、論壇灌水帖、維基百科,一視同仁地全學了。

中訓練,是從圖書館裡挑出高品質的書,多讀幾遍。比如 Wikipedia、GitHub 程式碼這些資訊密度更高的內容,會被加權訓練。

後訓練,則是將一個讀過所有書的「學霸」變成一個你可以直接提問的「專家」。你不需要自己去翻書了,直接問他就行,他能理解你的問題,並給出有用的回答。

從圖書館到專家的流水線
從圖書館到專家的流水線

後訓練的兩個核心階段是:

SFT:讓人類標注員提供標準答案,模型來模仿。問題是,模型的能力被標注員的水準給鎖死了,永遠不會超過「老師」。

強化學習:不再給標準答案,而是給一個評判規則。模型自己嘗試各種回答,對的獎勵,錯的懲罰。這樣它可以超越人類標注員的水準。

開源社群的通常做法是:先做 SFT 讓模型達到一個不錯的基線,再用 RL 來突破上限。因為如果直接上 RL,模型需要「碰巧」找到正確答案才能被獎勵,這個過程太低效了。

RL 為什麼奏效了

強化學習以前不是出了名的「不好使」嗎?

Yann 承認,兩年前大多數研究者(包括他自己)都覺得 RL 太不穩定了,不值得折騰。他看到 ChatGPT 用了 RLHF 的時候,第一反應是:我不用 RL 也能做到一樣好。Stanford Alpaca 就是這個思路的產物,只用 SFT 來復現 ChatGPT 的效果。

Yann LeCun 也說過一句著名的話:強化學習只是蛋糕上的那顆櫻桃。

強化學習的逆襲
強化學習的逆襲

但現在情況變了。

似乎在模型跨過了一定的規模之後,也就是模型已經對世界有了足夠好的先驗知識之後,強化學習就開始奏效了。這不僅僅是 LLM 的現象。機器人領域似乎也在進入同樣的階段,他們也發現,用那些已經了解世界的模型來做 RL,效果好得多。」

在開源社群裡,方法也在收斂。以前有 PPO、DPO、各種 XPO,現在大家基本上都用 GRPO。原因很單純:GRPO 是一個極簡的方法,採樣大量回答,判斷哪個對,強化對的。

在機器學習中,我們反覆看到這樣一個規律:最簡單的、可以用計算來擴展的方法,最終總是贏的那個。」

但 RL 也不是沒有挑戰。

基礎設施層面,採樣海量回答的計算開銷相當大。

機器學習層面,Agent 任務中最頭痛的問題是「歸因」。一個 Agent 跑了很長一段推理流程,最終拿到了一個對或錯的結果。但到底是哪一步導致了成功或失敗呢?資訊太稀疏了,很難精確歸因。

手藝還是科學

有人說 AI 系統並非被「構建」出來的,而更像是被「生長」出來的。Yann 的看法是:

通常的規律是:一開始是手藝。人們嘗試很多東西,逐漸建立起什麼奏效、什麼不奏效的直覺。然後隨著時間推移,才慢慢過渡到科學。

科學方法很少是最先奏效的那個。很少有人拿出一個嚴格的理論推導說這就是最優方案,然後一做就成了。人們就是有某種煉金術的直覺,先把它搞定,然後再去理解為什麼它奏效。」

先手藝後科學
先手藝後科學

先手藝,後科學。兩者缺一不可,只是處於流水線的不同階段。

泛化的真相

GPT-5.5 在 Agent 程式開發、電腦操控、知識工作上都有不錯的表現。這是因為在每個領域分別做了專門訓練嗎?

Yann 認為,泛化主要發生在能力層面,而不是領域層面。

如果一個模型在數學競賽上表現突出,它在程式競賽上通常也不差。因為需要的底層能力是一樣的。反過來說,如果一個模型在某個方面有缺陷(比如幻覺),那它在所有領域都會有這個缺陷。

但有一類泛化,到現在還是個難題:從精確定義的問題到模糊的真實世界。

數學競賽和程式競賽的題目定義非常精確,五行或十五行就包含了你解題需要的所有資訊。但在真實世界裡,如果我是一個顧問或金融從業者,我首先得上網去搜尋、提取各種資訊,僅僅是為了理解問題本身,然後才能開始推理。」

從精確到模糊的泛化
從精確到模糊的泛化

這也是為什麼幻覺在每個領域都存在:不知道就胡說的毛病,是一個橫向能力缺陷,而不是某個領域的特定問題。

RL 如何治幻覺

說到幻覺,Yann 引用了 John Schulman 的一個經典分析。

SFT 其實可能會製造幻覺。為什麼呢?

假設模型並不知道某篇論文的存在,但在 SFT 的標注數據裡,標注員引用了那篇論文作為答案的出處。模型被訓練去模仿這個回答,結果它學到的是:引用一個自己根本不知道存在的東西。

強化學習則天然避開了這個坑。

因為 RL 是從模型自身的採樣開始的。模型不太可能自己生成一個它不知道的東西,然後恰好還是對的。所以它幾乎不會被獎勵「編造」的行為。相反,它生成了不知道的東西並且錯了,就會被懲罰,這個行為就被抑制了。

SFT vs RL 對幻覺的不同效果
SFT vs RL 對幻覺的不同效果

SFT 在教模型「自信地引用不存在的東西」,RL 則在教模型「別說你不知道的事」。

顯式與隱式

不過 RL 也會帶來一些「負面泛化」。

Yann 舉了一個具體的例子:顯式指令遵循 vs 隱式指令遵循。

如果你讓模型修改一個檔案,但檔名打了個錯字,一個在顯式指令遵循上訓練得特別到位的模型,會老老實實地去修改那個打錯名字的檔案。但人類同事大概會發現你打錯字了,自動改正。

有時候我們會聽到 OpenAI 的模型在你明確告訴它你想要什麼時特別好用,但如果你說得不夠明確,就沒那麼好了。」

顯式指令遵循 vs 隱式指令遵循
顯式指令遵循 vs 隱式指令遵循

這就是橫向能力之間可能存在的衝突:你在顯式指令遵循上做得越好,可能在理解隱含意圖方面反而有退化。

RL 能覆蓋全行業嗎

那麼,強化學習到底能不能推廣到法律、醫療、金融等所有領域呢?

Yann 認為可以,但有兩個現實瓶頸。

一是人的瓶頸。做 AI 模型的人大多自己就是工程師,天然理解程式開發場景需要什麼。但要讓模型在法律領域做好,你需要真正懂法律的人來參與評估和數據蒐集,而這樣的人不多。

二是獎勵設計的難度。有些領域天生容易做 RL,比如網路安全:你找到了一個漏洞,它要嘛是真的要嘛是假的,驗證成本極低。但在法律或醫療領域,「正確」的標準本身就含糊得多。

哪些領域適合 RL
哪些領域適合 RL

模型在能力上並沒有什麼先天限制,不會讓它在法律或醫療領域永遠做不好。真正的限制是:我們對這些領域了解得還不夠,而且有些領域做強化學習確實更容易一些。」

評估的困境

模型越強,評估就越難。

現在我可能只需要說『幫我做一個做 X 的網站』。以前我會說『這段程式碼裡有沒有 bug』。後者很容易判斷,因為可以讓人列出所有 bug 然後自動對比。但前者有很多正確答案,很多種方式都可以把網站做好。」

另一個棘手的問題是:模型在某些領域已經超過了大多數人類,能做評估的人越來越少。

還有一個文化層面的原因:

大多數人都想做模型訓練,他們覺得那才是有影響力的工作。但發現問題、量化改進,其實同樣重要甚至更重要。不過文化上總是有這種落差。」

他自己加入 OpenAI 時,第一個選擇就是做數據和評估,因為他知道沒人在做這個,所以影響力一定最大。

Model-as-Judge是他認為最重要的方向之一。更好的模型可以成為其他模型更好的老師和評判者,形成一個能力飛輪。

但這也帶來了一個尷尬的副作用:每次你建了一個好的評估集,它其實同時也是一個優質的訓練集。模型在類似的數據上訓練後就能在這個評估上拿高分,然後評估就失效了。

評估的保質期越來越短
評估的保質期越來越短

評估的保質期,正在變得越來越短。

三年了還沒解決

Yann 說他最興奮的方向是持續學習,但同時他也承認:這個問題到現在還沒被真正解決。

他的一個朋友提出過一個思維框架,聽完之後挺受啟發:

想像一個座標軸,X 軸是時間,Y 軸是對使用者的實用性。

AI 模型在 t=0 的時候,可能比大多數新員工都有用,起點相當高。但接下來,這條曲線基本上是平的,因為模型不會真正學習公司內部的知識,也不會隨著時間變得更高效。

人類新員工的起點低,但學習曲線陡得多。

AI 與人類的學習曲線對比
AI 與人類的學習曲線對比

真正重要的是曲線下面的面積,也就是累積價值。 按照這個指標,人類在很多場景下依然勝出。

三年前 ChatGPT 剛出來的時候,我和朋友在想要不要做持續學習和個人化的創業。我們當時覺得,啊,OpenAI 六個月內肯定就會搞定這個。他們有所有數據,有所有使用者,模型會從使用者那裡學得飛快。三年過去了,我覺得我們還沒到那裡。」

他坦言自己其實也不完全理解為什麼這麼難。對於單一使用者的持續學習,他認為如果真的投入足夠的資源,應該是能解決的。

但到今天為止,它還是一個未解之謎。

外殼的有效期

關於近期 AI 產業裡熱議的一個話題:模型會不會把 Agent 框架給「吃掉」?

Yann 對這個問題的態度算是比較務實:外殼短期內有用,但別指望它能長期不變。

如果你是一家做特定垂直領域的公司,你想把可靠性從 80% 提到 85%,外殼可以幫你做到。但你要知道,未來你需要重新調整這個外殼。

如果你想做一個通用的、能長期穩定的外殼,我覺得那行不通。」

然後他說了一句讓人意外的話:

如果我們把現在的模型凍結住,認真去做外殼,我覺得人們在幾乎每個領域都能感受到 AGI 了。」

外殼的有效期
外殼的有效期

他的意思是:模型能力其實已經夠了,差的是包裝和最後一哩路的工程。但因為模型在不斷進步,最優的外殼也在不斷變化,所以沒人知道最終形態會是什麼樣。

最後一哩路

對話的最後,Matt 問了一個創業者最關心的問題:模型越來越強,新創公司還有空間嗎?

Yann 毫不猶豫地點了頭。

很多人覺得瓶頸是『智慧』本身,也就是模型的原始能力。但我不這麼認為。大多數時候,真正的瓶頸是最後一哩路。

確保模型有正確的權限、正確的數據連接器、正確的領域知識。我們會非常專注於通用能力的提升,而垂直領域的價值挖掘,應該由其他公司來做。」

他鼓勵創業者繼續在垂直領域深耕。在他看來,在 OpenAI 停止做橫向進步之前(他認為短期內不會發生),新創公司在垂直領域的空間會一直存在。

從通才到專家的最後一哩路
從通才到專家的最後一哩路

模型是通才,但使用者需要的是專家。從通才到專家之間的距離,就是新創公司的生存空間。

◇ ◆ ◇

相關連結:

YouTube 影片

Yann Dubois X

Matt Turck Blog

相關文章推薦

分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.