OpenAI 一線開發現實觀察:能同時盯住 10~20 個 Agent、跑小時級任務的人,正在把其他工程師遠遠甩開

圖片

編譯 | Tina

很多人還在吵「AI 會不會取代程式設計師」。OpenAI 內部給出的答案是:AI 正在把工程師重新分層。差距不會慢慢拉開,它會被工具放大、被流程放大、被組織放大,最後變成一種很難追回的「複利」。

在 OpenAI,95% 的工程師每天都在用 Codex。PR 先過 AI 的眼,再輪到人;程式碼審查從每個 10~15 分鐘壓到 2~3 分鐘;真正擁抱工具的人,提交的 PR 數量比同事高出 70%,而且差距還在繼續擴大。工程師的角色也跟著變形:越來越像「Tech Lead + 調度員」,同時盯著 10~20 條並行的 Codex 執行緒,主要工作變成引導、驗收、兜底,親手寫程式碼反倒成了偶爾為之。

Sherwin Wu 是 OpenAI API 與開發者平台工程負責人。幾乎所有 AI 創業公司都在整合 OpenAI 的 API,因此 Sherwin 對整個生態正在發生什麼、以及未來走向,有一個極其獨特、廣闊的視角。

他在播客裡還丟了一個判斷:很多公司今天引以為豪的 AI「腳手架」——向量資料庫、Agent 框架、複雜流程編排——可能只是一段過渡期的拐杖。模型進化會把它們吞掉。真正跑出來的團隊已經換了打法:為模型將要到達的能力提前設計工作流程,產品現在只有 80% 好用也能上線,等下一代模型升級,直接跨過那條門檻。

AI 也不會平均抬升所有人。它會把高主觀能動性的工程師推到一個「不成比例」的高度:能拆需求、能控上下文、能調度多 Agent、能把驗證閉環做紮實的人,一個人就能頂過去一個小團隊。隨之而來的不只是所謂「一人獨角獸」,更像是組織結構被迫重寫:更小團隊、更快迭代、更陡分化。

工程之外,Sherwin 認為更被低估的機會在業務流程自動化:現實世界的大多數工作運行在可重複、強約束、標準作業流程裡。AI 真正深入這些流程,改變的將是企業運作方式本身,而不只是效率。

如果你覺得最近兩三年的變化快得讓人焦慮,那你沒感覺錯。Sherwin 的話更像是在提醒我們:這其實是一個不會持續太久的視窗期。變化總有一天會放緩,但如果錯過了這一段,很多人可能連這套「新分層的規則」都還沒來得及學會。

我們翻譯了這期播客。

Agent 時代的工程分層,
已經在 OpenAI 出現

主持人:Sherwin,非常感謝你來到節目。我想從一個現在幾乎成了 AI 進展「晴雨表」的問題開始,尤其是在工程領域。你自己現在還寫程式碼嗎?如果寫的話,你和你的團隊,現在有多少程式碼是由 AI 寫出來的?

Sherwin Wu:我現在偶爾還會寫程式碼。不過說實話,對像我這樣的管理者來說,現在用 AI 工具反而比手寫程式碼更容易。

就我個人,以及 OpenAI 裡的一些工程管理者來說,我們的程式碼基本都是由 Codex 寫的。從更宏觀的角度看,內部有一種非常強烈、非常真實的能量感——大家都在感嘆這些工具已經走了多遠,Codex 對我們來說已經有多好用。

我們其實很難精確衡量「到底有多少程式碼是 AI 寫的」,因為絕大多數程式碼——我會說接近 100%——幾乎都是先由 AI 生成的

我們真正去追蹤的指標是:現在絕大多數工程師每天都會用 Codex。

95% 的工程師在日常使用 Codex,100% 的 PR 每天都會被 Codex 審查。也就是說,任何最終合併、進入生產環境的程式碼,Codex 都會「看一眼」,並在 PR 階段提出改進建議、指出潛在問題。

但比這些數字更讓我興奮的,是那種整體的氛圍和能量。

我們還有一個有意思的觀察:使用 Codex 更多的工程師,會打開明顯更多的 PR。他們提交的 PR 數量比不常用 Codex 的工程師多 70%,而且這個差距還在擴大。

我感覺那些 PR 打得多的人,正在不斷學習如何更高效地使用這個工具,這個 70% 的差距隨著時間推移還在繼續拉大。說不定現在這個數字已經比我上次看到的更高了。

主持人:我確認一下我理解得對不對:你的意思是,在 OpenAI,那 95% 的工程師,他們的程式碼基本都是AI 先寫,然後由他們來 review

Sherwin Wu:對,對,沒錯。

主持人:聽起來很瘋狂,但又好像已經不那麼瘋狂了,我們正在迅速適應這種狀態。當然,我覺得還是需要一點時間來適應。

Sherwin Wu:是的,確實還在適應中。也有一些工程師,對 Codex 的信任度相對低一些。但幾乎每天,我都會聽到有人被它做出來的事情震驚到,然後他們對模型「可以獨立完成多少事情」的信任閾值,一次次被拉高。

Kevin Weil(我們的科學副總裁)有句話我特別喜歡。他常說:「這是模型此生最差的一刻。」這句話放到軟體工程上同樣成立:時間越往後走,人們會越來越願意把關鍵工作交給模型,而模型本身也只會變得更強。

主持人:Kevin Weil 之前也上過這個節目,他在節目裡也說過這句話,而且說了不止一次。最近 OpenClaw(之前叫 Claudebot / Moltbot)的開發者 Peter 也分享過,他在工作中大量使用 Codex。他說很多時候,Codex 做完事情之後,他幾乎是完全信任的,甚至覺得可以直接合併進 master 分支,結果也會很好。

Sherwin Wu:對,他確實是 Codex 的一個非常優秀的用戶。我知道他和我們團隊保持著很密切的溝通,也給了很多很好的回饋,所以我一點也不意外他會這樣用。

主持人:回到這個我們正身處其中的瘋狂時刻,尤其是對工程師來說。我們已經從「你要親手寫下每一行程式碼」,變成了「AI 寫你所有的程式碼」。我真的想不出還有哪個職業,在短短幾年內發生了這麼劇烈、而且完全出乎預料的變化。一個工程師整個職業生命週期裡的「工作內容」,在這兩年裡被徹底重塑了。那你怎麼想像,接下來一兩年裡,軟體工程師這個角色會變成什麼樣?這個「工作本身」會是什麼?

Sherwin Wu:說實話,看到這一切真的非常酷。這種興奮感的一部分,就來自於:這個職業在未來一到兩年裡,很可能還會發生一次非常顯著的變化。

但我們現在也還在摸索階段。對很多工程師來說,這正是一個非常罕見的視窗期——在接下來的 12 到 24 個月裡,我們幾乎可以親手定義標準,定義「工程師應該是什麼樣」。

目前大家常說的一種趨勢是:IC 工程師正在變成技術負責人,基本就像是管理者一樣。他們在管理一整支又一支的 agent「艦隊」。

我團隊裡的很多工程師,實際上同時在拉著10 到 20 條並行的執行緒。當然不是同時跑著 10 到 20 個 Codex 任務,但確實是在處理大量並行的工作:不斷查看進度、調整方向、給 agent 和 Codex 提回饋。他們的工作,已經從「寫程式碼」,變成了幾乎是在「管理」。

如果要給我對未來一到兩年的直覺隱喻,我常會想起大學時讀過的一本程式設計教材——《Structure and Interpretation of Computer Programs》(SICP)。這本書當年在 MIT 非常流行,長期作為入門程式設計課教材,在程式設計師圈裡也有點「邪典經典」的地位。它用 Scheme 來教你程式設計,引你進入函式式的世界,讀起來很開腦洞。

但真正讓我記住的,是它開篇對「程式設計」這件事的比喻:把軟體工程說成一種巫術。書裡講,軟體工程師像巫師,程式語言像咒語——你念出咒語,咒語就會被釋放出去,替你完成事情。難點不在於你能不能念,而在於:你要念什麼樣的咒語,程式才會按你想要的方式運行。SICP 寫於 1980 年,這個隱喻卻一直有效。我甚至覺得,它正在被今天的現實真正「兌現」。

從這個角度看,無論是 vibe coding,還是未來的軟體工程,都像是這條演進路線的自然延伸。程式語言本來就是咒語,只不過咒語在不斷進化,讓我們越來越容易讓電腦做我們想做的事。而這一波 AI,很可能就是下一站。它把「咒語」這件事推到了極致:你幾乎可以直接告訴 Codex、告訴 Cursor 你想要什麼,它就會替你把事情做出來。

我尤其喜歡「巫師」這個隱喻,因為眼下的狀態越來越像《幻想曲》裡的《魔法師學徒》。你戴上魔法帽開始施法,力量強得離譜,但前提是:你得清楚自己在做什麼。《魔法師學徒》裡,米老鼠讓掃帚去幹活,自己轉身就睡,結果掃帚越幹越多、洪水失控、屋子直接被淹——這幾乎就是 vibe coding 的極限形態:願望實現得太快,失控也來得太快。

所以,當我看到工程師同時跑著 20 個 Codex 執行緒時,我想到的並不是「爽」,而是這背後其實需要技能、資歷和大量判斷力。你不能徹底放手不管,也不能假裝一切都會自動變好。

但它的槓桿率也確實高得驚人。一個真正把這些工具用順了的資深工程師,現在能完成過去根本不可能完成的工作量。這也是它迷人的地方:我們真的開始有一種很具體的感覺——自己像個巫師在施法,而軟體在替我們跑腿、替我們幹活。那種「魔法感」,前所未有地接近現實。

主持人:我這裡有兩個線索想繼續追問。其中一個是,我最近越來越多地聽到一種回饋:當智能體不按預期工作時,人會產生很強的壓力。你一下子發出去一堆 Codex agent,然後就得時刻盯著它們——「這個不跑了」「那個卡住了」,感覺時間在被白白浪費。你自己有這種感受嗎?你在團隊裡也看到這種情況嗎?

Sherwin:有的,有的,這種情況一直都在發生。說實話,我反而覺得這是當下最有意思、也最關鍵的地方。因為模型並不完美,這些工具也不完美,我們其實還在摸索:到底該怎麼和 Codex、和這些 AI 智能體協作,才能把事情真正做成。這類問題在我們內部經常出現。

我們有一支特別有意思的團隊,正在 OpenAI 內部做一個實驗:他們維護的是一個100% 由 Codex 編寫的程式碼庫。一般情況下,你可能會讓 AI 先寫一版程式碼,然後再自己重寫一部分、檢查一遍、修修補補;但這個團隊是完全「Codex 化」,幾乎是徹底 lean in。

圖片

小編注:Sherwin Wu 提到的這次實驗,OpenAI 已經寫成部落格公開了:https://openai.com/index/harness-engineering/。文章記錄了一個「0 人手寫程式碼」的軟體工程實驗:團隊用 5 個月從空 Git 倉庫起步,做出一個真實可用的內部產品——能上線部署、會出故障也會被修復,且已經被數百名內部用戶使用(包括每天都在用的重度用戶)。但從頭到尾沒有任何人工直接寫程式碼:應用邏輯、測試、CI 配置、文件、可觀測性、內部工具,全部由 Codex(Codex CLI + GPT-5)生成。最終在僅 3 名工程師驅動下,累計合併約 1500 個 PR、產出接近 100 萬行程式碼;他們估算整體交付速度約為傳統手寫的 1/10。

於是他們就會遇到你剛才說的那種問題:比如我想把某個功能做出來,但怎麼都讓 agent 做不對。通常這時候,人是有「逃生出口」的——你可以說「算了,我自己擼袖子來」,不用 Codex,改用 tab complete、Cursor 之類的工具直接手寫。但這個實驗團隊沒有這個出口,這是實驗設計的一部分。

所以問題就變成了:我到底要怎麼做,才能讓這個 agent 把事做好?其中一個我們反覆看到的現象是——不知道你有沒有類似感受,但我們這邊非常明顯——很多時候,編碼智能體做不好,並不是「它不行」,而是上下文出了問題。要麼是你給的資訊不夠明確,要麼是 agent 根本拿不到完成這件事所需要的資訊。

一旦你意識到這一點,解決方式就會發生變化:你不再是去「調 prompt」,而是開始補文件、補結構,想辦法繞過這個限制。說白了,就是把你腦子裡的「隱性經驗」「團隊共識」「預設做法」,想辦法編碼進程式碼庫裡——可能是程式碼註解,可能是程式碼結構,也可能是一些 Markdown 文件、skills 文件,或者倉庫裡的其他輔助資源。目標只有一個:讓模型在倉庫裡就能讀到它完成任務所需要的一切資訊。

這個團隊還有很多其他收穫,我覺得都非常值得展開聊。但至少有一點已經很清楚了:刻意拿掉「不用 AI 的退路」,反而逼著他們看清楚——如果我們真的要全面擁抱 agent,這些問題是遲早都要解決的。

把工程師對 PR 的注意力,
從 100% 降到 30%

主持人:我們剛才聊到,使用 AI 的人瘋狂地在發 PR,PR 數量明顯變多了。顯然,程式碼審查現在會變成更大的挑戰。你們團隊有沒有摸索出什麼辦法,讓 code review 也能更快、更規模化,而不是把大家變成「每天坐在那裡審 PR 的苦力」?

Sherwin Wu:有的。首先,現在Codex 會評審我們 100% 的 PR

我覺得這裡發生了一件特別有意思的事:我們最先交給模型去做的,往往就是那些最煩人、最無聊的軟體工程部分。也正因如此,現在寫軟體反而更有趣了——我們可以把更多時間花在真正有意思的事情上。

就我個人而言,我以前特別討厭 code review,真的屬於我最不喜歡的工作之一。我記得我大學畢業後的第一份工作是在 Quora。我當時負責 Newsfeed,所以 Newsfeed 那塊程式碼基本歸我「所有」,我也就成了 Newsfeed 的主要 reviewer。那段程式碼是整個系統裡最核心的一塊,幾乎所有人都會動它。

結果就是,我每天早上一登入,就看到20 到 30 個 code review,我會直接心裡一沉:「天啊,我得把這些全過一遍。」我經常會拖延,然後待審的 PR 會漲到50 個。review 的量非常大。

Codex 在 code review 這件事上真的很強。我們觀察到一個現象:5.2(GPT-5.2 這一代)尤其擅長審程式碼,尤其是你能把它引導到正確方向的時候。

所以我們這裡雖然 PR 的量確實變多了,但 Codex 會先過一遍所有 PR,這會讓 code review 從原來那種10~15 分鐘的任務,變成很多時候2~3 分鐘就能搞定的任務,因為它已經提前把一堆建議「烤」在裡面了。

很多時候,特別是一些小 PR,你甚至不一定需要再拉人來 review。我們在某種程度上會信任 Codex。因為 code review 的核心價值就是「第二雙眼睛」幫你確認你沒有做蠢事——而現在 Codex 已經是一雙相當聰明的第二雙眼睛了,所以我們在這點上非常用力地 lean in。

另外,我們內部現在 CI 流程、以及 push 之後到部署的那套流程,也已經大量通過 Codex 自動化了。

如果你問很多工程師最煩的是什麼,往往不是寫程式碼本身,而是:你寫完一段漂亮的程式碼之後,怎麼把它送進生產環境。你得跑一堆測試,要處理 lint error,要走 code review……這裡面有很多流程性的工作。

這些東西其實都很適合讓 Codex 來做,所以我們內部也做了一些工具去自動化這些步驟,比如自動處理 lint:如果出現 lint error,Codex 通常很容易就能修掉,它可以直接 patch,然後重啟 CI 流程。

我們總體在做的事情,就是盡可能把工程師需要投入的「人肉操作」壓縮到最少。副作用(其實是好處)就是:大家現在可以合併更多 PR、發布更多程式碼。

主持人:Codex 在寫程式碼,Codex 也在 review 自己寫的程式碼。我很好奇,你們會不會考慮用別的模型來 review 你們模型的工作?這是不是一個方向?還是說現在這樣已經夠好了,不需要其他東西?

Sherwin Wu:我會說,這裡確實存在一種「循環」的風險。回到《魔法師學徒》的隱喻,你得確保自己沒有讓掃帚失控、滿屋亂跑。

所以我們在「哪些 PR 可以完全由 Codex review」這件事上,其實是很謹慎的。大多數人當然還是會自己看一眼自己的 PR,並不是說人類 review 就徹底歸零了。

更準確的描述是:把一個人對 PR 的注意力從100% 降到 30%。這樣就能讓事情更順暢地推進。

至於「多個模型」的問題,我們內部當然會測試很多模型,所以我們手上有大量不同的版本。但我們相對少用外部模型——因為我們認為「吃自己的狗糧」很重要,要用自家的模型去做實際工作,從而獲得真實回饋。

當然,你也可以用一些內部的不同變體模型來獲得另一種視角,我們發現這種方式也挺有效。

主持人:我再確認一下我對 OpenAI 當下「AI + 程式碼」現狀的理解,確認完我想切換到另一個話題。你是說,現在 OpenAI 全部的程式碼,100% 都是 Codex 寫的?這樣表述對嗎?

Sherwin Wu:我不會直接說「今天在生產環境裡跑的所有程式碼都是 AI 寫的」。這句話我不會這麼下結論,因為很難在歸因上做得那麼精確。

但可以肯定的是:幾乎每一個工程師,在所有任務中都非常重度地使用 Codex。如果你讓我估一個大概的比例,我會說:現在絕大多數程式碼,很可能最初的作者就是 AI。

AI 時代,管理者的槓桿在誰身上?

主持人:大家討論很多的是 IC(個人貢獻者)工程師的角色變化,但關於「管理者」的變化討論得少得多,尤其是工程經理這種角色。AI 崛起之後,你作為一個 manager 的生活發生了什麼變化?你覺得未來 manager 的角色會是什麼?

Sherwin Wu:它的變化確實沒有工程師那麼大。至少現在還沒有「專門給管理者用的 Codex」。不過,我確實會用 Codex 去處理一些我做的「更管理向」的工作。我會說,現在變化還沒有那麼劇烈,但我能看到一些趨勢。你把這些趨勢推演下去,就能大概看到很多事情會往哪裡走。

一個越來越明顯的點是:Codex 會讓頂尖表現者變得更高效得多。我覺得這可能也是 AI 在更大範圍內的普遍規律:那些真正願意深度擁抱、那些主觀能動性很強的人,或者能把這些工具用到很溜的人,會把自己「超級加速」。

我現在也能明顯感覺到:團隊裡頂尖表現者會變得更多產,於是團隊生產力會出現更大的分化和跨度。

我一直以來的一個管理理念是:我會把大部分時間花在頂尖表現者身上——確保他們不卡住、確保他們開心、確保他們覺得自己在高效推進、也覺得自己的聲音被聽見。

我覺得在 AI 時代,這件事會變得更重要,因為頂尖表現者會用這些工具跑得更快、更猛。

比如之前提到的那個團隊:維護一個100% 由 Codex 生成的程式碼庫。讓他們放開去做、看看會發生什麼,這件事實際上回報非常大。所以我看到的一個趨勢是:對於管理者來說,未來可能會更頻繁地、更多地把時間投入在頂尖表現者身上。

另一個趨勢是:管理者可用的 AI 工具,會讓管理者的槓桿率變高。不是寫程式碼層面的,而是像「帶組織知識的 ChatGPT」這種——它能幫你做研究、理解組織上下文。舉個很現實的例子:我們現在在做績效評估。你可以很容易地用一個接了內部知識的 ChatGPT——它連著 GitHub、Notion 文件、Google Docs——讓它快速形成對某個人過去 12 個月做了什麼的完整理解,然後給你寫一份小型「深度研究報告」。

我的直覺是,在這種世界裡,管理者可以管理更大的團隊。就像工程師現在在管理 20~30 個 Codex 執行緒一樣,這些工具也會讓「人管人」的管理變得更高槓桿。

現在工程團隊裡所謂的最佳實踐,一個 manager 通常帶6~8 個人。但我覺得未來可能會變。

你在客服、運營這些非工程領域已經能看到類似現象:過去支援團隊規模會受限,但當你能把更多工作交給 agent,你就能做更多事,也能管理更多人。

我覺得 people management 在科技公司也可能發生類似變化。我們已經在看到一些團隊:有些 EM 管的人已經不少了,但他們依然能管理得很好,因為工具讓他們能更高槓桿地理解團隊在做什麼、理解組織上下文,並以此運轉。

主持人:我很喜歡你這裡的建議:你一直以來都會傾向於把更多時間投在頂尖表現者身上,幫他們掃清障礙,確保他們開心。Mark Andreessen(著名風投創辦人)最近也上了這個播客,他的說法是:AI 會讓好的人更好,讓偉大的人變得卓越。

Sherwin Wu:對,對。你說的就是:在未來,這件事可能要做得更多、更極端一點——花更多時間在團隊裡最強的人身上,確保他們有一切需要的資源。

我現在的一個很好的例子是:內部有一小群工程師,真的非常「Codex 化」,他們在非常認真地琢磨「和這個模型互動的最佳實踐到底是什麼」。這是一件極其高槓桿的事情。

作為 manager,我就是直接說:你們去探索。無論你們總結出什麼最佳實踐,我們都必須把它分享給整個組織。我們會做各種知識分享 session,會把文件、最佳實踐到處同步。

這種事情會把所有人一起往上抬。我也把它看作是這種趨勢的又一個例子:頂尖表現者會變得更卓越。

軟體與創業,
正在進入一個新階段

主持人:人們會有一種感覺:這件事很大,AI 正在改變這個世界,「一人十億美元公司」這個概念正在改變很多東西,它會是一件大事。你覺得大家還沒有真正把哪些變化算進去?也就是,未來會怎麼走,有什麼你認為我們還沒意識到、但其實很關鍵的例子?

Sherwin Wu:這波 AI 浪潮裡,我最喜歡的一個說法,就是「一人十億美元公司」。我記得好像是 Sam 最早說出這個概念的(至少是最早把它講出來的人之一)。它真的很耐人尋味:如果一個人的槓桿變得足夠高,某個時間點上,確實可能出現一個「一人十億美元公司」。

這件事本身當然很酷,但我覺得大家還沒有真正把它的二階、三階影響算進去。

因為「一人十億美元公司」背後隱含的意思是:一個人藉助這些工具,可以擁有更強的主觀能動性、更高的槓桿,於是他很容易就能把一個公司需要做的所有事情都搞定,最終做出一個價值十億美元的東西。但這還只是其中一個層面。它還有其他含義。

其中一個二階影響是:如果一個人都能做到「一人十億美元公司」,那也就意味著——創業這件事整體會變得容易得多。我其實認為,這會引發一個巨大的「創業潮」,尤其是那種偏 SMB(中小企業)風格的小型創業潮:幾乎任何人都可以為任何需求做軟體。

你現在已經能在 AI 創業圈裡看到一點苗頭:軟體正在變得更「垂直化」。也就是,為某個特定行業 / 垂直領域做一個 AI 工具往往非常有效,因為你能更深地理解那個領域的實際場景和用例。

如果把 AI 的演進繼續往後推,我看不出有什麼理由不會出現 100 倍數量的這類創業公司。

所以我設想的一個世界是:為了支撐一個「一人十億美元公司」,可能會出現上百家小型創業公司,專門做高度定製、做得非常貼合需求的「bespoke software」,來為這些公司提供支援。

這會把我們帶進一個可能非常有意思的階段:我們可能真的會進入一個B2B SaaS 的黃金時代,甚至更廣義地說,是軟體與創業的黃金時代。因為隨著寫軟體越來越容易、經營公司越來越容易,你最終看到的,很可能不是「只有一個一人獨角獸」,而是——也許會有一個「一人十億美元公司」,但同時還會有一百家一億美元公司,還會有幾萬家一千萬美元公司

而對個人來說,一千萬美元的生意其實已經非常好了——那基本就意味著「這輩子穩了」。所以我覺得我們可能會在這個方向上看到一次爆炸式增長,而很多人還沒把這一點真正算進去。

再往下一層——算是三階影響——當然越往遠推不確定性越大,但如果我們真的走向這樣一個世界:到處都是這種「微型公司」,做的軟體可能只服務一兩個人,公司也就是一兩個人在擁有、在運營。

那整個創業生態會變,VC 生態也會變。

我們可能會進入一個世界:只有少數幾個超級大玩家提供平台,然後平台上托舉、支撐著大量小公司。

但與此同時,那種真正符合「風險投資尺度」的專案——能把你的投資翻 100 倍、1000 倍的專案——可能反而會變少。因為更多出現的會是大量 1000 萬到 5000 萬美元的公司:它們對個體來說非常棒,但對 VC 來說未必是理想的回報結構。

這些公司會非常適合那些主觀能動性極強的人——他們深度擁抱 AI,為自己打造業務。

主持人:我太喜歡我們一路聊到第幾階影響了。我現在想聽第四階影響了,Sherwin——開玩笑的。

Sherwin Wu:我真的不行,第四階太「巨腦」了,我想不了那麼遠。

主持人:這就像《盜夢空間》一樣,你每往下一層,時間就變慢,事情就更複雜。不過說回「一人十億美元公司」,我確實經常想這個問題。因為我做的事情不可能變成十億美元公司,它完全不符合 VC 尺度,也不算特別高槓桿。

但我會想到一個現實問題:我每天收到的支援工單實在太多了,而且經常是一些特別離譜、特別瑣碎的事。光是「支援成本」這一塊,就讓我很難想像一個人怎麼能撐起十億美元規模。所以我對「一人十億美元公司」這件事其實是偏謹慎、甚至偏悲觀的。我想分享這個觀點,核心就是:支援成本太難規模化。就算 AI 能幫你一部分,在十億美元規模下,除非你的 ACV 很高、客戶很少,否則光是處理支援和各種人類溝通,就很難擴張。

在我自己的經驗裡,很多用戶其實是能自己解決問題的,但他們還是會選擇給支援信箱發一封郵件問一個小問題。處理這些事非常難規模化。所以除非你雇了一堆承包商——但那還算「一人公司」嗎?——否則我覺得要把公司做大到十億美元,同時又沒有人幫你處理至少支援工作,這幾乎不可能。AI 也只能幫到一定程度。

Sherwin Wu:我同意你說的問題。只不過我對「它會怎麼發生」的看法稍微不一樣。

我甚至覺得,Lenny,你的播客未來可能會變成一個十億美元級別的生意。但它發生的方式可能不是:你一個人去派遣 AI,一張一張處理支援工單、修問題、回郵件。

更可能發生的是:會出現一大堆其他創業公司,專門做非常貼合你需求的軟體,而且是高度定製、極其垂直的那種。比如,可能會有 10 家、20 家創業公司,專門為播客、newsletter 這類業務做支援軟體。它們自己可能就是「一人公司」,不一定要做得很大。

因為在這個世界裡,做出一個產品會變得非常容易。他們可以把產品做得很貼合、很獨特、真的對你有用,然後你會願意為它付費——作為那個「高槓桿的一人公司」,你買這些工具來外包掉那些你不想做的事情。

主持人:我會買的,我真的會買。

Sherwin Wu:對,這裡面有一個關鍵問題就是:哪些你要 in-house,哪些你要外包出去。

我覺得可能發生的事是:因為寫軟體、做產品的成本在極速坍塌,你會把更多東西外包出去。於是你反而能把公司規模壓得更小。

這就是我覺得可能出現的世界。當然這裡仍然有很高的不確定性,但最終形態可能仍然是:由一個人驅動的、極高槓桿的公司,真的有機會做到十億美元規模。

主持人:我能理解。我還會想到 Peter(OpenClaw 那位),他現在被各種需求、郵件、私信、DM、PR 完全淹沒。而且他甚至還沒靠這個賺到錢。我真的很難想像他現在的生活是什麼樣——一定非常瘋狂。這大概就像你們當初發布 ChatGPT 後的那幾個月那種瘋狂,但他是一個人扛著。也許第四階影響就是:分發 / 觸達(distribution)會越來越重要。因為有太多東西在爭奪你的注意力。於是擁有受眾、擁有平台的人會越來越值錢——這倒是挺有意思的。

主持人:好,我其實想回到你剛才說的管理話題。我真的很喜歡你那個洞見:你說把更多時間花在頂尖表現者身上,對你來說非常有效。你現在在帶的團隊是在做平台,而這個平台基本驅動著整個 AI 經濟——幾乎每個 AI 創業公司都在用你們的 API。顯然你做得非常好。那除了這一條,你還有哪些核心的管理經驗?你覺得哪些東西對你作為一個工程團隊、以及人的管理者來說,特別重要,也構成了你成功的關鍵?

Sherwin Wu:我學到的很多東西,我不確定是不是特別「OpenAI API 團隊專屬」,或者是不是只適用於我們的一些 enterprise 產品。

我的管理哲學確實在變化,但整體來說,它更多是保持一致,而不是完全翻新。其中一個原則就是我之前說的那條:把大量時間花在頂尖表現者身上。更具體一點說,我會把超過 50% 的時間花在團隊裡最強的那部分人身上,比如前 10%,盡最大努力去賦能他們。

我常用一個隱喻來理解這個問題:把軟體工程師看作「外科醫生」。這個隱喻來自一本很老的書《The Mythical Man-Month》。這本書寫於 70 年代左右,它裡面其實是在「預測未來」。書裡描述了一種可能的世界:軟體工程會走向一個模式——工程師像外科手術室裡那位主刀醫生,手術室裡只有一個人真正動刀,其餘的人都圍繞他提供支援:護士、住院醫、fellow……主刀說「我要手術刀」,就有人把手術刀遞上去;主刀說「我要這個工具」,就有人把設備推過來。所有人都在支援那一個人。

《人月神話》預測軟體工程會往這個方向走。我不覺得現實完全是這樣——軟體工程仍然更協作,不是只有一個人幹活。

但我一直很喜歡這個比喻,也一直努力把它用在我的管理方式裡。也就是說:軟體工程不等同於手術,但我希望我對團隊成員的支援方式,能讓他們感覺自己像那位「主刀醫生」——他們在推進最關鍵的工作,而我作為 manager 的職責,就是確保他們手裡有一支「支援團隊」,確保他們需要的東西隨時可用。哪怕實際上所謂的支援團隊只有一個人,我也希望做到這種效果。

我常舉的例子就是:提前看見拐角處的阻礙,並把人從組織流程裡解卡出來,這件事極其有價值。

而且在 AI 時代,這件事更重要。因為當工程師能一口氣刷很多 PR、連續高頻交付時,真正限制進展與交付速度的,往往就變成了組織層面的阻礙、流程層面的阻礙。

如果你作為 manager 能夠「看得更遠一步」、提前準備好他們需要的資源——就像主刀醫生需要手術刀,而你已經把手術刀準備好了——那就是最理想的狀態。這就是我理解的管理方式,尤其是工程管理。這個隱喻一直跟著我,也基本貫穿了我的職業生涯。

主持人:我太喜歡這個比喻了。我甚至會想,AI 會不會也能幫到這件事:幫你「看拐角」。比如預測:這個工程師接下來會被哪個決策卡住,我們得提前把它解決掉。

Sherwin Wu:我還沒試過,但我現在突然很好奇:如果我問一個接了公司內部知識的 ChatGPT——比如讓它去掃 Notion 文件,看看 Slack 裡哪裡提過——我直接問它:「我團隊現在有哪些活躍的 blocker?我能做什麼來幫他們?」這個思路我之前真的沒想到,但你說得對,你剛剛給了我一個洞見。

主持人:而且更進一步,甚至可以問:你預判接下來幾個月這個工程師、這個團隊會被什麼卡住?你剛才在聊二階三階影響,現在我讓模型幫你做二階三階影響:提前預判下個月的 blocker,提前把它解決掉。

Sherwin Wu:對,對。我們這裡可能真的挖到一個好點子了。

為什麼這麼多 AI 部署,
最後成了負 ROI?

主持人:好,我想切到你們做的 API 和平台。你們會和很多公司打交道:它們在接入你們的 API、用你們的平台、基於你們的工具去做產品。你之前跟我說,你觀察到很多公司的 AI 部署其實 ROI 是負的。我覺得這也是很多人讀新聞、自己體感裡隱約相信的結論,但你說你真的在一線看到它發生,這很有意思。到底怎麼回事?他們哪裡做錯了?現在 AI 部署與 ROI 的現實狀況是什麼?

Sherwin Wu:我先澄清一下:我並不是在「顯式地」看到那種可量化的 ROI 數據——這件事其實很難測。但僅憑我觀察到的一些公司「上 AI」的方式,我不會驚訝如果不少部署最後落成了負 ROI。與此同時我也注意到,在科技圈外——比如美國很多非技術行業的人群裡——存在一種很普遍的情緒:AI 是被強塞進來的。而這種抵觸感,本身很可能就是「負 ROI 部署」的外在症狀之一。

我看到的典型問題大概有幾個。

首先,我總會回到一個老問題:矽谷經常忘了自己活在泡沫裡。Twitter 是泡沫——抱歉,現在叫 X——矽谷是泡沫,軟體工程也是泡沫。世界上絕大多數人、美國絕大多數人,都不是軟體工程師。他們沒有那麼「AI pilled」(被 AI 深度洗禮),也不會追蹤每一次模型發布。很多人其實根本不知道怎麼用這項技術,甚至對它怎麼工作都沒什麼概念。

你看我們在 OpenAI 內部,會聊很多 Codex 的 best practices,甚至有一群人專門研究怎麼把 Codex 用到最有效。X 上那些經常發帖的人,也幾乎都是 AI 工具的瘋狂 power user:skills、agents.md、MCP……這些他們都玩得很溜。

但當我去和很多公司聊,尤其是和真正要把工具用到日常工作的一線員工聊時,你會發現他們的需求非常基礎,而他們對這項技術的理解也很有限。他們問的問題都很簡單,離「把工具推到極限」還差得很遠。

這也引出了我覺得更理想的 AI 部署方式應該是什麼樣——也是我們在 OpenAI 內部大體上是怎麼運轉的:那些「做得很順」的公司,往往同時具備兩件事。

第一,是自上而下的 buy-in。高層明確表態:我們要變成 AI-first 公司。於是資源會投入、工具會採購、組織會給到明確支援。

但第二同樣關鍵:必須有自下而上的 adoption 和 buy-in。也就是那些真正幹活的一線員工,要對這項技術感到興奮,願意學習、願意布道、願意總結 best practice,願意在組織裡做知識分享。

我們在 OpenAI 內部也經歷過類似過程。OpenAI 一直希望自己以 AI 為中心,但真正讓這件事「起飛」的,是 Codex 這類工具出現之後——因為員工終於能把它直接用到具體工作裡。

你之所以需要自下而上的推動,是因為每個人的工作都不一樣、非常具體。軟體工程不等於財務,不等於運營,也不等於市場銷售。落地到工作層面,會有大量「最後一公里」的細節,必須靠一線的人去試、去打磨、去改 workflow。

而很多 AI 部署之所以失敗,恰恰是因為缺少自下而上的 adoption:它更像一條來自高層的命令,過於 top-down,又和真實工作怎麼做脫節。結果就是,面對一整個龐大的員工群體,他們並不真正理解這項技術,只知道「我應該用它」,甚至績效裡也寫著「你得用 AI 提升生產力」,但沒人告訴他們具體怎麼用。

他們環顧四周,發現也沒有別人真的在用:沒人可學、沒路徑可抄,於是就卡在原地。

所以我給那些想推進 AI 的公司的建議是:找到——甚至專門配備——一個全職的小團隊,作為內部的 tiger team。這支隊伍負責把能力摸透、落到具體 workflow 上,做持續的知識分享,在組織內部製造興奮感,讓更多人願意嘗試。沒有這種機制,AI 真的很難被「撿起來用」。

主持人:那你會把誰放進這個 tiger team?它應該是工程師主導嗎?還是你覺得更像一個跨職能團隊?

Sherwin Wu:這個問題很有意思。因為現實是:很多公司根本沒有軟體工程師。所以我看到更常見的一種模式是——tiger team 的核心成員,往往來自「軟體工程相鄰」的崗位:技術向,但不一定是工程師。

這些人反而最容易先興奮起來。比如支援團隊或運營負責人:他不寫程式碼,但特別愛折騰工具,可能還是個 Excel 高手、流程高手。你會發現,這類人一旦接觸到 AI 工具,往往會「亮起來」——上手快、動力足,也願意主動把用法總結出來。

所以這類 tiger team 的典型畫像是:技術相鄰、編碼相鄰,整體技術能力不弱,願意試、願意學、願意帶人。你通常可以以他們為核心搭起一個小團隊。

當然,工程師加入會很有幫助,他們能更快理解底層機制、也更擅長做系統化落地。但很多公司沒有這個條件:工程師是稀缺資源,難招也昂貴。於是很多時候,真正把 AI 推起來的,反而是這些「非工程師但技術向」的角色。

主持人:我聽下來,你說的反模式就是:自上而下。比如 CEO 和高管團隊拍板:我們要 AI-first,我們要全面擁抱 AI。每個人都會被考核:你用 AI 工具提升了多少生產力。但如果只有自上而下,沒有建立一個自下而上「傳播與帶動」的團隊,那這事就做不起來。

Sherwin Wu:對,完全是這樣。核心建議就是:找到那些最興奮的人。與其把他們分散在組織各處,不如把他們聚起來,組成一個小的「AI 傳教士團隊」。他們去探索怎麼用、怎麼落地,然後把用法擴散到整個組織。你這麼複述我,我突然意識到:這也能和我自己的管理哲學對上。換句話說:找到 AI 採用上的高績效者,然後賦能他們——讓他們辦 hackathon,讓他們做分享會,讓他們做知識分享,在內部種下興奮感的種子。

從向量庫到 skills:
腳手架正在一層層被吃掉

主持人:我有幾個「熱觀點」想聽你展開一下。有一個我看到你經常提到:你說在 AI 領域,「去跟客戶聊、聽客戶的話」不一定總是對的策略,甚至經常會把你帶偏。

Sherwin Wu:我不確定這算不算多「熱」。我想說的也不是「不該跟客戶聊」——當然應該聊,而且非常有價值。

我更想強調的是:AI 這個領域(尤其是我過去三年在 API 這一側看到的變化)迭代速度實在太快了。模型和整個生態會不斷自我顛覆,特別是在工具鏈、腳手架這一層。

我這週剛看到一句話,來自 X 上的一篇文章,作者是 Nicholas——一家叫 Finol 的創業公司創辦人。他分享了不少在金融服務場景做 AI agent 的實戰經驗(我記得他之前也在一家叫 FinTool 的公司做過類似方向)。他有句話我特別喜歡:「模型會把你的腳手架當早餐吃掉。」

你回看 2022 年 ChatGPT 剛發布的時候,模型還很粗糙。於是開發者工具圈冒出了大量「腳手架式產品」,用來約束、引導模型按你期望的方式工作:各種 agent 框架、向量資料庫……那時候向量庫尤其火,周邊還長出了一大圈配套工具。

但這幾年一路看下來,模型變得太快、也變得太強,結果它真的會把其中一部分腳手架「吃掉」。我覺得這件事今天仍然成立。Nicholas 那篇文章提到的「當前時髦腳手架」,是基於 skills 文件的上下文管理。你完全可以想像一個世界:未來某個時間點,這套東西也不再有用,因為模型可以自己管理這些上下文;或者整個範式又會切換到別的方向,不再需要這種文件式的 skills。

你已經親眼看過這種事發生:agent 框架現在沒那麼有用了;2023 年一度我們以為向量庫會是把組織知識引入模型的「主路徑」——你需要把所有語料 embedding、做向量檢索,還要做大量優化,保證在正確時間取到正確的資訊。

那一整套,本質上都是腳手架,因為模型當時還不夠強。而當模型變強後,更好的方式往往是:把很多邏輯拿掉,信任模型本身,給它一組用於搜尋的工具就行。

這個搜尋不一定非得是向量庫,它可以接任何形式的搜尋——甚至可以只是檔案系統裡的文件,比如 skills、agents.md 這種,來引導它。

當然,向量庫仍然有它的位置,很多公司還在用。但「圍繞向量庫搭建整個腳手架生態、把它當成唯一答案」的那種假設,已經發生了很大變化。

所以回到「客戶回饋」:你不一定總要聽客戶的,因為這個領域變化太快。很多客戶在某個時點上其實處在一個「區域性最優」裡。

如果你只盲聽客戶,他們會說:我想要更好的向量庫,我想要更好的 agent 框架……但如果你只沿著這條路走,你可能會做出一個「區域性最優」的產品;而當模型能力再上一個台階時,我們往往需要重新發明、重新思考:什麼才是正確的抽象、正確的工具、正確的框架。而更有趣、也更令人興奮、同時也有點讓人抓狂的是:這是一個移動靶。

你今天認為「正確」的工具和框架組合,未來很可能還會繼續演化、繼續大改,隨著模型越來越聰明、越來越強。就是在這個領域裡做產品的本質。這也是它令人興奮的地方。但它也意味著:你和客戶聊的時候,你需要在「他們此刻想要什麼」與「你認為模型將往哪裡走、未來一到兩年會如何演化」之間做平衡。

主持人:這聽起來很像所謂的「bitter lesson」:在 AI/ML 領域裡一個重要教訓就是——你加得越多複雜邏輯、越多手工設計,反而越限制它規模化成長。你應該盡可能拿掉這些東西,讓它計算、讓它自己變強。

Sherwin Wu:對,這裡確實存在一個「把 bitter lesson 應用到 AI 產品構建」的版本。我們曾經試圖在模型周圍架構很多東西,結果模型能力提升之後,它會把這些東西直接吃掉。說實話,OpenAI 的 API 團隊在某些時候也犯過這個錯:我們走過一些不該走的彎路。但模型還是會變強,我們也只能在日常中不斷學習這條 bitter lesson。

主持人:那對那些在用 API 構建產品、構建 agent 的人來說,關鍵 takeaway 是什麼?因為他們現在還是得圍繞現階段能力搭一些東西。你會給什麼建議?

Sherwin Wu:我一直給大家的總體建議——到今天我仍然覺得成立——是:為模型將要去的地方而構建,而不是只為模型今天能做到什麼而構建。

因為目標本質上是個移動靶。我見過不少做得特別好的創業公司,會圍繞一種「理想能力」來設計產品:這種能力在當下也許只實現了 80%。所以他們的產品現在當然「能用」,但總像差最後一口氣。

可一旦模型能力再往前邁一步,體驗會突然「咔噠」一下被解鎖:原本差的那一口氣補上了,產品整體就從「勉強可用」變成「非常驚豔」。

比如某個關鍵能力在 o3 時代還不夠穩,但到了 5.1、5.2 就突然可用了——他們之所以能吃到這波紅利,是因為在產品設計時就把「模型必然會變強」當成前提寫進了路線圖。最終你會得到一種體驗:它遠遠好過那種把模型能力當成靜態、圍著現狀去打補丁的做法。

所以我的建議很簡單:按模型未來的走向來設計。你可能需要稍微等一等,但模型變強的速度太快了,很多時候你並不需要等太久。

主持人:順著這個話題,你能分享一下未來 6~12 個月 API 會往哪走?平台會往哪走?模型會往哪走?我知道這裡很多內容可能是機密,但你可以分享多少就分享多少——你最興奮的、你覺得大家應該開始準備的。

Sherwin Wu:一個最明顯的方向是:模型能連續、穩定完成任務的時長正在變長。

有一個我覺得很有參考價值的基準指標(他提到的 meter benchmark),用來跟蹤在軟體工程任務裡,模型能穩定跑多久——比如在50% 成功率下能撐多長時間、在80% 成功率下又能做到多久。

我印象裡,當前前沿模型大概是:在 50% 成功率上已經能完成「多小時級」的任務;但如果把門檻提高到 80% 成功率,可能還停留在「接近 1 小時、但還不到」的水平。這個基準指標最讓人清醒的地方在於:它把歷代模型都放在同一條時間線上,你能非常直觀地看到趨勢是怎麼一步步往前推的。

讓我興奮的是:今天很多產品,其實還在圍繞「模型能跑幾分鐘」來做優化。哪怕是 Codex 這種編碼工具,你也會發現它更偏互動式、更像一個隨叫隨到的協作夥伴——它最擅長、也被優化得最充分的,往往還是十分鐘左右的任務。

當然,我也見過有人把 Codex 推到極限,用它去跑多小時級的任務,但那仍然是少數案例,並不是常態。

如果沿著這個趨勢繼續往前推,我認為在未來 12~18 個月,我們會看到模型能更穩定、更連貫地完成「多小時任務」。甚至可能出現這樣的階段:你把一個大約 6 小時量級的任務交給它,讓它自己先跑一段時間,再回來給你結果和進度。

一旦能力到了這個級別,圍繞它構建的產品形態會完全不一樣。你仍然需要給模型回饋,也肯定不希望它毫無約束地跑上一整天——也許有人會想這麼做,但多數場景下不會。而當任務時長真正拉長,模型能覆蓋的工作範圍會一下子變得更大,能做的事情的「宇宙」也會隨之擴張。這也是我最興奮的一點。

另一個我覺得未來 12~18 個月會很酷的方向,是多模態模型的進步。更具體地說,我主要指音訊

現在模型在音訊上已經挺不錯了,但我認為未來 6~12 個月,它會變得更強——尤其是那種原生多模態、speech-to-speech 的模型。同時音訊側可能還會有一些新的模型結構、架構方向出現。而音訊在企業與商業場景裡,仍然是一個被嚴重低估的領域:大家都在聊 coding,都在聊 text,但我們現在就是用音訊在對話。世界上很多業務,就是靠「說話」完成的;很多服務與運營,也是靠溝通完成的。

所以我覺得未來 12~18 個月,音訊會變得非常令人興奮,我們會看到更多「被解鎖」的能力。

主持人:我快速總結一下:你認為 agent 和 AI 工具會越來越能跑更長時間的任務,這個趨勢會持續增強;然後音訊與語音會變得更重要,更原生、更核心、體驗更好。

主持人:回到你剛才的「熱觀點」。我還看到你經常講另一個:你對「業務流程自動化」這個方向非常看多,覺得它會是 AI 世界裡巨大的機會。聊聊這個?

Sherwin Wu:對,這其實又回到我前面說過的那件事:我們在矽谷生活在一個泡沫裡。我們熟悉的工作形態——軟體工程、產品管理、做產品——跟支撐整個經濟運轉的大量工作形態,其實完全不是一回事。我跟客戶聊的時候經常能強烈感受到這一點:如果你去跟任何一家非科技公司聊,你會發現他們有海量的「業務流程」。

我一般會這樣區分:軟體工程更像一種開放式的知識工作(open-ended knowledge work)。這也是為什麼像 Codex 這種工具會很強,因為它擅長探索,你給它的是開放式問題。

但軟體工程的本質是非常開放的,而且它並不「可重複」。你做一個功能,不是為了反覆做同一個功能一遍又一遍。很多科技類崗位都屬於這種開放式工作:資料科學也有點像,甚至一些偏戰略的財務工作也有點像。

但當你離軟體工程、離「科技公司核心」越來越遠,你會發現很多工作其實就是業務流程:可重複的事情、可重複的運營操作。它往往是某個公司的管理者長期迭代出來的一套做法,通常會有標準作業流程(SOP)。大家希望按 SOP 來做,而且不希望偏離太多。

軟體工程的「聰明才智」往往在於創新、偏離、探索;但世界上大量工作的本質,其實就是按這些流程跑下去。

比如我打電話去客服,對方就在按一套流程走;我給水電煤公司打電話,他們也有很多流程和規則:哪些能做、哪些不能做。所以我對這一類大機會非常看多:用 AI 去做業務流程自動化。而且我覺得它被低估了,因為它跟矽谷日常聊的東西太不一樣了,大家就很少想它。

但如果你去想:我們能不能用 AI、用我們現有的工具和框架,去自動化這些可重複、確定性很強(high determinism)的業務流程?能不能把它做得更省力、更順滑?關鍵還在於:它必須深度整合企業的資料、企業的決策邏輯,以及企業內部的各種系統。我覺得這塊機會巨大、要做的工作也非常多,只是我們不怎麼聊,因為它不在我們的「舒適區」。

主持人:我確認一下我理解得對不對:你認為 AI 在「工程之外」的機會更大——它能更大幅度影響公司的生產力,影響大量從事可重複、容易自動化工作的人,甚至改變工作的組織方式。因為現實裡很多工作就是這樣被完成的。

Sherwin Wu:對。我經常跟很多大型企業客戶聊:AI 會怎麼在 20 年後改變我的公司?公司在 AI 世界裡會怎麼運轉?

軟體工程當然是故事的一部分,但業務流程那一側還有更多。而且我覺得業務流程那一側,最終可能會呈現出更「徹底不同」的樣子,要做的工作量也非常大。

從絕對規模上說,我不確定它到底比軟體工程更大還是更小——軟體本身也非常龐大、覆蓋面也非常廣。但可以確定的是:這塊真的很大,而且它遠遠大過你在 X/Twitter 上看到的討論熱度。很多人根本不談它,所以你會低估它。

怎麼才能不被 OpenAI「碾壓」?

主持人:換個方向。你們做平台、做 API,很多人在 API 上做產品。大家腦子裡最大的一個問題永遠是:我怎麼才能不被 OpenAI「碾壓」?你們會不會自己做同樣的東西,然後把我剛建立的市場給毀了?你們的總體政策、總體哲學是什麼?創業公司應該怎麼判斷:哪些方向是 OpenAI 不太可能親自下場的?

Sherwin Wu:我的總體回答是:市場太大了,機會空間巨大到離譜。創業公司真的不用過度糾結 OpenAI 或其他大模型實驗室會做什麼。

我見過很多創業公司,有做得不好的,也有做得很好的。所有我見過「熄火」的公司,沒有一個是因為 OpenAI、某個大實驗室、Google 之類「跑來碾壓他們」。它們失敗的原因更簡單:他們做的東西沒有真正打動客戶,沒有和客戶需求產生共振。

相反,那些起飛的公司,即便在極其競爭的領域裡也能做起來。比如 coding 這個領域競爭夠激烈了,但 Cursor 現在依然很大——因為他們做出了大家真的很喜歡的東西。

所以我的建議是:別太焦慮這件事。專注做一個用戶喜歡的產品,你一定能在裡面找到空間。

我沒法強調得更重:現在 AI 的機会有多大。機會大到一個程度,連 VC 的「可接受範圍」(overton window)都被改變了——VC 現在在同一個賽道裡投「互相競爭的公司」投得非常多、非常激進,就是因為空間太大、機會太大,幾乎前所未有。

從創業者視角看,這反而是最賦能的環境:只要你做出一個讓一部分人非常非常喜歡的東西,你就能做出一個價值巨大的生意。所以我才會反覆說:別過度思考「會不會被碾壓」。

另外還有一點也很重要,至少從 OpenAI 的角度:我們一直非常非常重視一件事,這也是 Sam 和 Greg 從頂層不斷強調的——我們從根本上把自己看成一家「生態平台公司」。API 是我們的第一個產品。我們認為自己必須去培育這個生態、持續支援它,而不是去摧毀它。

你看我們做的很多決策,這條邏輯一直貫穿其中:我們每發布一個模型、在某個產品裡上線,它最終都會進入 API。哪怕我們現在推出的 Codex 模型更偏向 Codex harness 的優化,它們最終也都會進 API,讓所有 API 客戶也能用到。

我們不會把這些能力「藏起來不放」。我們認為保持平台中立非常重要:我們不會遮蔽競爭對手,我們允許大家訪問我們的模型。我們最近也在測試「用 ChatGPT 登入」這類產品,我們希望繼續壯大這個生態——這件事非常重要。總體的邏輯就是:水漲船高。我們現在可能像一艘航母,體量很大,但我們認為把「潮位」整體抬高,對所有人都有好處,我們自己也會受益。

我們 API 的增長,某種程度上就是因為我們一直以這種方式行動。所以我真的鼓勵大家別把 OpenAI 想成一個會隨時把你推開、把你擠出去的存在。你應該把注意力放在:做出真正有價值的東西。我們會持續致力於提供一個開放的生態。

主持人:為什麼這對 OpenAI 很重要?這種「做平台、讓別人做生意」的堅持,是一開始就有的願景嗎?

Sherwin Wu:對,這是從一開始就有的。它甚至可以追溯到我們的章程、我們的使命。

OpenAI 的使命一直是兩件事:第一,構建 AGI。我們當然在做這件事。第二,是把它的收益擴散到全人類(spread the benefits to all of humanity)。關鍵就在「全人類」。ChatGPT 當然在做這件事,我們想觸達全世界。但很早我們就意識到:僅靠 OpenAI 作為一個公司,我們不可能觸達世界的每一個角落。世界太大了,每個角落的需求都很深、很細。

所以為了完成使命,我們必須做一個平台:去賦能其他人來構建那些我們自己不可能親自去做的東西——比如你剛才舉的「為播客和 newsletter 主理人做客服 bot」這種產品,我們自己不會去做,但別人可以在平台上做出來。這就是 API 的意義。我們也一直非常喜歡看到生態裡湧現出的各種東西,所以從第一天開始,這就是使命的一種體現。

主持人:而且你還沒提你們要上線的 ChatGPT「應用商店」(app store)。這個是在你管的範圍裡嗎?還是另一個組織 / 團隊?

Sherwin Wu:那是另一個團隊,更偏 ChatGPT 體系。但我們和他們合作非常緊密。他們做了一個 apps SDK,也是和我們團隊密切協作出來的。但它確實是在 ChatGPT 的 umbrella 之下。

不過它也是同一個邏輯的例子:ChatGPT 現在大概有8 億每週活躍用戶,這些用戶會反覆回來用。對業務來說這是非常強的資產。但如果我們能讓其他公司也進來,利用這個入口,為這個人群去構建產品——那不是更好嗎?最終我們也認為這會幫助我們把這個用戶群體繼續做大。所以它依然回到使命:做平台、保持開放,往往能帶來更大的增長。

主持人:你剛說的 8 億這個數字……是每週活躍 8 億嗎?我剛剛腦子卡了一下。

Sherwin Wu:每週活躍 8 億。

主持人:這太誇張了,簡直前所未有。我們已經對這種規模數字麻了,但它真的離譜。

Sherwin Wu:對,從規模角度想這件事,我也覺得非常震撼。我會這麼理解:差不多是全世界10% 的人口,而且還在增長。它還在往上衝。每週會有 10% 的世界人口來用 ChatGPT(準確說是每週)。

主持人:我也想再強調一下你剛才說的點:OpenAI 的使命是讓 AI 的益處觸達全人類。有些人會嘲諷這句話,說「這不是要收費嗎」。但現實是:任何人都能用免費的 ChatGPT。免費版的能力,和世界上最強的 AI 模型也沒有「天差地別」的那種距離,它不是被嚴格門檻擋住、只給少數人用的。如果你是億萬富翁,你能從 AI 裡獲得的增量,其實也有限;而一個在非洲某個村莊裡的人,只要他能上網,他能獲得的 AI 能力並不會差到哪裡去。我知道這一直是 OpenAI 很在意的東西。

Sherwin Wu:對,這也是為什麼我們會很重視醫療、很重視教育——教育這塊會非常有意思。

還有一個很瘋狂的趨勢是:免費模型本身也越來越聰明。你回頭看 2022 年的免費模型,當時已經算不錯了,但跟今天比完全不是一個量級。你今天拿到的是 GPT-5(他這裡提到「2 GB 5」,我按語義理解為 GPT-5 級別的免費能力)——所以我們所謂「抬高全球底線」(raising the floor)這件事,就是我們使命的一部分。

另外,從「億萬富翁」那個角度還有個有趣對比:有人說你用的 iPhone,跟 Zuckerberg 或那些億萬富翁用的,可能就是同一款。而現在某種程度上也類似:你每月 20 美元,就能用到「億萬富翁也在用的那套 AI」。你每月 200 美元,就能上 Pro——「億萬富翁也在用的 Pro」。但他們日常也不一定全用 Pro,很多時候也就是 Plus 級別。

所以這種「民主化」、這種把益處擴散到全世界的事情,對我們來說非常有意義,也驅動了我們很多決策。

主持人:最後一個問題:對那些想在 API 上做東西的人來說——可能他們突然意識到「我也可以用開源模型和 API 做很酷的東西」——你們的 API 和平台到底允許大家做什麼?我知道你們能在平台上構建 agents。你能整體講講你們提供了哪些能力嗎?

Sherwin Wu:從根本上說,API 提供的是一組開發者端點(developer endpoints),讓你可以從我們的模型裡採樣(sample)。

現在最受歡迎的端點叫Responses API。它是一個專門為構建「長時間運行的 agent」優化的 endpoint——也就是能工作一段時間的 agent。

在最底層的 primitive 上,你基本就是給模型一段文字,讓模型工作一會兒;你可以去輪詢它(poll),看看它在做什麼;然後在某個時間點拿到模型的返回。這是我們給開發者的最底層原語,也是很多人最常用的構建方式。它非常「不帶觀點」(unopinionated):你幾乎可以拿它做任何事,它就是最底層的構建塊。在這個之上,我們開始提供越來越多的抽象層,幫助大家更容易地構建這些東西。

再上一層,我們有一個非常受歡迎的東西叫Agents SDK。它允許你基於 Responses API 或其他端點,去構建更傳統意義上的 agent:比如一個 AI 在一個近似「無限循環」的工作流裡持續運行;它可能有子 agent,可以把任務委派出去。

它會幫你搭出一整套框架 / 腳手架——當然,未來這套腳手架會不會也被模型「吃掉」,我們也會繼續觀察。但在當下,它確實讓構建 agent 變得容易很多:你能給它 guardrails,讓它把子任務分發給其他 agent,去編排一個 agent swarm(蜂群式的 agent 體系)。Agents SDK 就是幫你做這些的。

然後再往上,我們也開始做一些更偏「部署層(meta level)」的工具。我們有一個產品叫Agent Kit和一些Widgets:本質是一組 UI 元件,讓你可以很快地在 API 或 Agents SDK 之上做出一個很漂亮的介面。因為很多 agent 從 UI 視角看起來非常相似,所以提供一套元件能大幅加速產品化。

此外我們也有一些評估相關的產品,比如Eval API:如果你想測試模型、測試你的 agent 或 workflow 是否有效,你可以用我們的 eval 產品做比較量化的測試。

所以我會把它理解成一個分層的棧:不同層級幫助你用我們的模型構建你想要的東西,抽象層級越來越高、也越來越「帶觀點」。你既可以把整套棧都用起來,很快就做出一個 agent;也可以一路下沉到最底層,只用 Responses API 去搭你自己想要的一切。

閃電問答

主持人:Sherwin,在我們進入很刺激的 lightning round 之前,你還有什麼想補充的嗎?有什麼你想留給聽眾的?有沒有我們還沒聊到、但你覺得很有幫助的點?

Sherwin Wu:我只想留一個資訊:我覺得接下來兩到三年,會是科技圈和創業圈在很長一段時間裡最有趣的一段時間。

我鼓勵大家不要把它當成理所當然。我 2014 年進入職場,頭兩年挺不錯,但接下來大概五六年,我覺得科技圈沒那麼「興奮」。而過去三年,是我職業生涯裡最讓人興奮、最有能量的階段。

我覺得未來兩到三年還會延續這種狀態。

所以別把它當成理所當然。總有一天這波浪潮會走完,變化會變得更增量、沒那麼劇烈。

但在這段時間裡,我們會探索很多很酷的東西,發明很多新東西,改變世界,也改變我們工作的方式。這就是我想留給大家的。

主持人:我太喜歡這段話了,我想多問一句。你說「別錯過」,那你具體建議大家做什麼?是去 build、去擁抱、去學習、去加入一家做有趣事情的公司?你給那些想說「我不想錯過這班車」的人什麼建議?

Sherwin Wu:我會說:去參與它(engage with it)

基本就是你說的:去擁抱它。在這之上構建工具,是故事的一部分。但就算你不是軟體工程師,你也完全可以擁抱它:去用這些工具。

我覺得很多工作都會被改變。所以你應該去用工具、理解它能做什麼、不能做什麼,理解它的限制,這樣你才能看得見它隨著模型進步會開始能做什麼。

總之就是:讓自己熟悉這項技術,而不是後仰著讓它從你身邊過去。

主持人:但反過來,也有很多壓力和焦慮:事情太多了,我怎麼跟得上?我這週要學 Clawbot,下週又冒出別的……你在中心位置,你怎麼不被這種「錯過恐懼」壓垮?你怎麼保持節奏、怎麼跟新聞?

Sherwin Wu:我個人其實是個壞例子,因為我基本屬於「長期在線」:X 上長期在線,公司 Slack 也長期在線,所以我確實會吸收很多資訊。但我觀察那些不像我這麼「上癮」的人,我覺得有一點很重要:大多數資訊其實是噪音

你不需要讓 110% 的東西都穿過你的大腦。說實話,你只要選一兩個工具,先從小處開始,就已經完全夠了。

行業節奏太快,再加上 X 這個產品本身的機制,會製造一種極其瘋狂的新聞節奏,讓人非常壓迫、非常容易被淹沒。

但你真的不需要掌握所有這些,才能參與到當下正在發生的事情裡。

哪怕只是裝一下 Codex 客戶端玩一玩;裝一下 ChatGPT,接上你的一兩個內部資料源——Notion、Slack、GitHub——看看它能做什麼、不能做什麼,我覺得就已經很有價值了。

主持人:你有沒有一個常常用來提醒自己的座右銘?

Sherwin Wu:我一直會對自己重複的一句是:永遠別可憐自己(never feel sorry for yourself)

工作和生活裡會發生很多事。提醒自己不要陷入自憐,而是始終相信自己有主觀能動性、能把自己拉起來——這是我經常需要對自己說的話,我也經常對別人說這句話。

參考連結:

https://www.youtube.com/watch?v=B26CwKm5C1k

聲明:本文為 AI 前線整理,不代表平台觀點,未經許可禁止轉載。

主標籤:人工智慧工程

次標籤:OpenAI 開發實戰軟體工程轉型程式碼自動化Agent 工作流程


上一篇:1兆美元蒸發背後:垂直軟體的護城河,正被大型模型改寫

下一篇:實際測量 AI 智慧體的自主性

分享短網址