OpenAI 一線開發現實觀察：能同時盯住 10～20 個 Agent、跑小時級任務的人，正在把其他工程師遠遠甩開

編譯 | Tina

很多人還在吵「AI 會不會取代程式設計師」。OpenAI 內部給出的答案是：AI 正在把工程師重新分層。差距不會慢慢拉開，它會被工具放大、被流程放大、被組織放大，最後變成一種很難追回的「複利」。

在 OpenAI，95% 的工程師每天都在用 Codex。PR 先過 AI 的眼，再輪到人；程式碼審查從每個 10～15 分鐘壓到 2～3 分鐘；真正擁抱工具的人，提交的 PR 數量比同事高出 70%，而且差距還在繼續擴大。工程師的角色也跟著變形：越來越像「Tech Lead + 調度員」，同時盯著 10～20 條並行的 Codex 執行緒，主要工作變成引導、驗收、兜底，親手寫程式碼反倒成了偶爾為之。

Sherwin Wu 是 OpenAI API 與開發者平台工程負責人。幾乎所有 AI 創業公司都在整合 OpenAI 的 API，因此 Sherwin 對整個生態正在發生什麼、以及未來走向，有一個極其獨特、廣闊的視角。

他在播客裡還丟了一個判斷：很多公司今天引以為豪的 AI「腳手架」——向量資料庫、Agent 框架、複雜流程編排——可能只是一段過渡期的拐杖。模型進化會把它們吞掉。真正跑出來的團隊已經換了打法：為模型將要到達的能力提前設計工作流程，產品現在只有 80% 好用也能上線，等下一代模型升級，直接跨過那條門檻。

AI 也不會平均抬升所有人。它會把高主觀能動性的工程師推到一個「不成比例」的高度：能拆需求、能控上下文、能調度多 Agent、能把驗證閉環做紮實的人，一個人就能頂過去一個小團隊。隨之而來的不只是所謂「一人獨角獸」，更像是組織結構被迫重寫：更小團隊、更快迭代、更陡分化。

工程之外，Sherwin 認為更被低估的機會在業務流程自動化：現實世界的大多數工作運行在可重複、強約束、標準作業流程裡。AI 真正深入這些流程，改變的將是企業運作方式本身，而不只是效率。

如果你覺得最近兩三年的變化快得讓人焦慮，那你沒感覺錯。Sherwin 的話更像是在提醒我們：這其實是一個不會持續太久的視窗期。變化總有一天會放緩，但如果錯過了這一段，很多人可能連這套「新分層的規則」都還沒來得及學會。

我們翻譯了這期播客。

Agent 時代的工程分層，
已經在 OpenAI 出現

主持人：Sherwin，非常感謝你來到節目。我想從一個現在幾乎成了 AI 進展「晴雨表」的問題開始，尤其是在工程領域。你自己現在還寫程式碼嗎？如果寫的話，你和你的團隊，現在有多少程式碼是由 AI 寫出來的？

Sherwin Wu：我現在偶爾還會寫程式碼。不過說實話，對像我這樣的管理者來說，現在用 AI 工具反而比手寫程式碼更容易。

就我個人，以及 OpenAI 裡的一些工程管理者來說，我們的程式碼基本都是由 Codex 寫的。從更宏觀的角度看，內部有一種非常強烈、非常真實的能量感——大家都在感嘆這些工具已經走了多遠，Codex 對我們來說已經有多好用。

我們其實很難精確衡量「到底有多少程式碼是 AI 寫的」，因為絕大多數程式碼——我會說接近 100%——幾乎都是先由 AI 生成的。

我們真正去追蹤的指標是：現在絕大多數工程師每天都會用 Codex。

95% 的工程師在日常使用 Codex，100% 的 PR 每天都會被 Codex 審查。也就是說，任何最終合併、進入生產環境的程式碼，Codex 都會「看一眼」，並在 PR 階段提出改進建議、指出潛在問題。

但比這些數字更讓我興奮的，是那種整體的氛圍和能量。

我們還有一個有意思的觀察：使用 Codex 更多的工程師，會打開明顯更多的 PR。他們提交的 PR 數量比不常用 Codex 的工程師多 70%，而且這個差距還在擴大。

我感覺那些 PR 打得多的人，正在不斷學習如何更高效地使用這個工具，這個 70% 的差距隨著時間推移還在繼續拉大。說不定現在這個數字已經比我上次看到的更高了。

主持人：我確認一下我理解得對不對：你的意思是，在 OpenAI，那 95% 的工程師，他們的程式碼基本都是AI 先寫，然後由他們來 review？

Sherwin Wu：對，對，沒錯。

主持人：聽起來很瘋狂，但又好像已經不那麼瘋狂了，我們正在迅速適應這種狀態。當然，我覺得還是需要一點時間來適應。

Sherwin Wu：是的，確實還在適應中。也有一些工程師，對 Codex 的信任度相對低一些。但幾乎每天，我都會聽到有人被它做出來的事情震驚到，然後他們對模型「可以獨立完成多少事情」的信任閾值，一次次被拉高。

Kevin Weil（我們的科學副總裁）有句話我特別喜歡。他常說：「這是模型此生最差的一刻。」這句話放到軟體工程上同樣成立：時間越往後走，人們會越來越願意把關鍵工作交給模型，而模型本身也只會變得更強。

主持人：Kevin Weil 之前也上過這個節目，他在節目裡也說過這句話，而且說了不止一次。最近 OpenClaw（之前叫 Claudebot / Moltbot）的開發者 Peter 也分享過，他在工作中大量使用 Codex。他說很多時候，Codex 做完事情之後，他幾乎是完全信任的，甚至覺得可以直接合併進 master 分支，結果也會很好。

Sherwin Wu：對，他確實是 Codex 的一個非常優秀的用戶。我知道他和我們團隊保持著很密切的溝通，也給了很多很好的回饋，所以我一點也不意外他會這樣用。

主持人：回到這個我們正身處其中的瘋狂時刻，尤其是對工程師來說。我們已經從「你要親手寫下每一行程式碼」，變成了「AI 寫你所有的程式碼」。我真的想不出還有哪個職業，在短短幾年內發生了這麼劇烈、而且完全出乎預料的變化。一個工程師整個職業生命週期裡的「工作內容」，在這兩年裡被徹底重塑了。那你怎麼想像，接下來一兩年裡，軟體工程師這個角色會變成什麼樣？這個「工作本身」會是什麼？

Sherwin Wu：說實話，看到這一切真的非常酷。這種興奮感的一部分，就來自於：這個職業在未來一到兩年裡，很可能還會發生一次非常顯著的變化。

但我們現在也還在摸索階段。對很多工程師來說，這正是一個非常罕見的視窗期——在接下來的 12 到 24 個月裡，我們幾乎可以親手定義標準，定義「工程師應該是什麼樣」。

目前大家常說的一種趨勢是：IC 工程師正在變成技術負責人，基本就像是管理者一樣。他們在管理一整支又一支的 agent「艦隊」。

我團隊裡的很多工程師，實際上同時在拉著10 到 20 條並行的執行緒。當然不是同時跑著 10 到 20 個 Codex 任務，但確實是在處理大量並行的工作：不斷查看進度、調整方向、給 agent 和 Codex 提回饋。他們的工作，已經從「寫程式碼」，變成了幾乎是在「管理」。

如果要給我對未來一到兩年的直覺隱喻，我常會想起大學時讀過的一本程式設計教材——《Structure and Interpretation of Computer Programs》（SICP）。這本書當年在 MIT 非常流行，長期作為入門程式設計課教材，在程式設計師圈裡也有點「邪典經典」的地位。它用 Scheme 來教你程式設計，引你進入函式式的世界，讀起來很開腦洞。

但真正讓我記住的，是它開篇對「程式設計」這件事的比喻：把軟體工程說成一種巫術。書裡講，軟體工程師像巫師，程式語言像咒語——你念出咒語，咒語就會被釋放出去，替你完成事情。難點不在於你能不能念，而在於：你要念什麼樣的咒語，程式才會按你想要的方式運行。SICP 寫於 1980 年，這個隱喻卻一直有效。我甚至覺得，它正在被今天的現實真正「兌現」。

從這個角度看，無論是 vibe coding，還是未來的軟體工程，都像是這條演進路線的自然延伸。程式語言本來就是咒語，只不過咒語在不斷進化，讓我們越來越容易讓電腦做我們想做的事。而這一波 AI，很可能就是下一站。它把「咒語」這件事推到了極致：你幾乎可以直接告訴 Codex、告訴 Cursor 你想要什麼，它就會替你把事情做出來。

我尤其喜歡「巫師」這個隱喻，因為眼下的狀態越來越像《幻想曲》裡的《魔法師學徒》。你戴上魔法帽開始施法，力量強得離譜，但前提是：你得清楚自己在做什麼。《魔法師學徒》裡，米老鼠讓掃帚去幹活，自己轉身就睡，結果掃帚越幹越多、洪水失控、屋子直接被淹——這幾乎就是 vibe coding 的極限形態：願望實現得太快，失控也來得太快。

所以，當我看到工程師同時跑著 20 個 Codex 執行緒時，我想到的並不是「爽」，而是這背後其實需要技能、資歷和大量判斷力。你不能徹底放手不管，也不能假裝一切都會自動變好。

但它的槓桿率也確實高得驚人。一個真正把這些工具用順了的資深工程師，現在能完成過去根本不可能完成的工作量。這也是它迷人的地方：我們真的開始有一種很具體的感覺——自己像個巫師在施法，而軟體在替我們跑腿、替我們幹活。那種「魔法感」，前所未有地接近現實。

主持人：我這裡有兩個線索想繼續追問。其中一個是，我最近越來越多地聽到一種回饋：當智能體不按預期工作時，人會產生很強的壓力。你一下子發出去一堆 Codex agent，然後就得時刻盯著它們——「這個不跑了」「那個卡住了」，感覺時間在被白白浪費。你自己有這種感受嗎？你在團隊裡也看到這種情況嗎？

Sherwin：有的，有的，這種情況一直都在發生。說實話，我反而覺得這是當下最有意思、也最關鍵的地方。因為模型並不完美，這些工具也不完美，我們其實還在摸索：到底該怎麼和 Codex、和這些 AI 智能體協作，才能把事情真正做成。這類問題在我們內部經常出現。

我們有一支特別有意思的團隊，正在 OpenAI 內部做一個實驗：他們維護的是一個100% 由 Codex 編寫的程式碼庫。一般情況下，你可能會讓 AI 先寫一版程式碼，然後再自己重寫一部分、檢查一遍、修修補補；但這個團隊是完全「Codex 化」，幾乎是徹底 lean in。

小編注：Sherwin Wu 提到的這次實驗，OpenAI 已經寫成部落格公開了：https://openai.com/index/harness-engineering/。文章記錄了一個「0 人手寫程式碼」的軟體工程實驗：團隊用 5 個月從空 Git 倉庫起步，做出一個真實可用的內部產品——能上線部署、會出故障也會被修復，且已經被數百名內部用戶使用（包括每天都在用的重度用戶）。但從頭到尾沒有任何人工直接寫程式碼：應用邏輯、測試、CI 配置、文件、可觀測性、內部工具，全部由 Codex（Codex CLI + GPT-5）生成。最終在僅 3 名工程師驅動下，累計合併約 1500 個 PR、產出接近 100 萬行程式碼；他們估算整體交付速度約為傳統手寫的 1/10。

於是他們就會遇到你剛才說的那種問題：比如我想把某個功能做出來，但怎麼都讓 agent 做不對。通常這時候，人是有「逃生出口」的——你可以說「算了，我自己擼袖子來」，不用 Codex，改用 tab complete、Cursor 之類的工具直接手寫。但這個實驗團隊沒有這個出口，這是實驗設計的一部分。

所以問題就變成了：我到底要怎麼做，才能讓這個 agent 把事做好？其中一個我們反覆看到的現象是——不知道你有沒有類似感受，但我們這邊非常明顯——很多時候，編碼智能體做不好，並不是「它不行」，而是上下文出了問題。要麼是你給的資訊不夠明確，要麼是 agent 根本拿不到完成這件事所需要的資訊。

一旦你意識到這一點，解決方式就會發生變化：你不再是去「調 prompt」，而是開始補文件、補結構，想辦法繞過這個限制。說白了，就是把你腦子裡的「隱性經驗」「團隊共識」「預設做法」，想辦法編碼進程式碼庫裡——可能是程式碼註解，可能是程式碼結構，也可能是一些 Markdown 文件、skills 文件，或者倉庫裡的其他輔助資源。目標只有一個：讓模型在倉庫裡就能讀到它完成任務所需要的一切資訊。

這個團隊還有很多其他收穫，我覺得都非常值得展開聊。但至少有一點已經很清楚了：刻意拿掉「不用 AI 的退路」，反而逼著他們看清楚——如果我們真的要全面擁抱 agent，這些問題是遲早都要解決的。

把工程師對 PR 的注意力，
從 100% 降到 30%

主持人：我們剛才聊到，使用 AI 的人瘋狂地在發 PR，PR 數量明顯變多了。顯然，程式碼審查現在會變成更大的挑戰。你們團隊有沒有摸索出什麼辦法，讓 code review 也能更快、更規模化，而不是把大家變成「每天坐在那裡審 PR 的苦力」？

Sherwin Wu：有的。首先，現在Codex 會評審我們 100% 的 PR。

我覺得這裡發生了一件特別有意思的事：我們最先交給模型去做的，往往就是那些最煩人、最無聊的軟體工程部分。也正因如此，現在寫軟體反而更有趣了——我們可以把更多時間花在真正有意思的事情上。

就我個人而言，我以前特別討厭 code review，真的屬於我最不喜歡的工作之一。我記得我大學畢業後的第一份工作是在 Quora。我當時負責 Newsfeed，所以 Newsfeed 那塊程式碼基本歸我「所有」，我也就成了 Newsfeed 的主要 reviewer。那段程式碼是整個系統裡最核心的一塊，幾乎所有人都會動它。

結果就是，我每天早上一登入，就看到20 到 30 個 code review，我會直接心裡一沉：「天啊，我得把這些全過一遍。」我經常會拖延，然後待審的 PR 會漲到50 個。review 的量非常大。

Codex 在 code review 這件事上真的很強。我們觀察到一個現象：5.2（GPT-5.2 這一代）尤其擅長審程式碼，尤其是你能把它引導到正確方向的時候。

所以我們這裡雖然 PR 的量確實變多了，但 Codex 會先過一遍所有 PR，這會讓 code review 從原來那種10～15 分鐘的任務，變成很多時候2～3 分鐘就能搞定的任務，因為它已經提前把一堆建議「烤」在裡面了。

很多時候，特別是一些小 PR，你甚至不一定需要再拉人來 review。我們在某種程度上會信任 Codex。因為 code review 的核心價值就是「第二雙眼睛」幫你確認你沒有做蠢事——而現在 Codex 已經是一雙相當聰明的第二雙眼睛了，所以我們在這點上非常用力地 lean in。

另外，我們內部現在 CI 流程、以及 push 之後到部署的那套流程，也已經大量通過 Codex 自動化了。

如果你問很多工程師最煩的是什麼，往往不是寫程式碼本身，而是：你寫完一段漂亮的程式碼之後，怎麼把它送進生產環境。你得跑一堆測試，要處理 lint error，要走 code review……這裡面有很多流程性的工作。

這些東西其實都很適合讓 Codex 來做，所以我們內部也做了一些工具去自動化這些步驟，比如自動處理 lint：如果出現 lint error，Codex 通常很容易就能修掉，它可以直接 patch，然後重啟 CI 流程。

我們總體在做的事情，就是盡可能把工程師需要投入的「人肉操作」壓縮到最少。副作用（其實是好處）就是：大家現在可以合併更多 PR、發布更多程式碼。

主持人：Codex 在寫程式碼，Codex 也在 review 自己寫的程式碼。我很好奇，你們會不會考慮用別的模型來 review 你們模型的工作？這是不是一個方向？還是說現在這樣已經夠好了，不需要其他東西？

Sherwin Wu：我會說，這裡確實存在一種「循環」的風險。回到《魔法師學徒》的隱喻，你得確保自己沒有讓掃帚失控、滿屋亂跑。

所以我們在「哪些 PR 可以完全由 Codex review」這件事上，其實是很謹慎的。大多數人當然還是會自己看一眼自己的 PR，並不是說人類 review 就徹底歸零了。

更準確的描述是：把一個人對 PR 的注意力從100% 降到 30%。這樣就能讓事情更順暢地推進。

至於「多個模型」的問題，我們內部當然會測試很多模型，所以我們手上有大量不同的版本。但我們相對少用外部模型——因為我們認為「吃自己的狗糧」很重要，要用自家的模型去做實際工作，從而獲得真實回饋。

當然，你也可以用一些內部的不同變體模型來獲得另一種視角，我們發現這種方式也挺有效。

主持人：我再確認一下我對 OpenAI 當下「AI + 程式碼」現狀的理解，確認完我想切換到另一個話題。你是說，現在 OpenAI 全部的程式碼，100% 都是 Codex 寫的？這樣表述對嗎？

Sherwin Wu：我不會直接說「今天在生產環境裡跑的所有程式碼都是 AI 寫的」。這句話我不會這麼下結論，因為很難在歸因上做得那麼精確。

但可以肯定的是：幾乎每一個工程師，在所有任務中都非常重度地使用 Codex。如果你讓我估一個大概的比例，我會說：現在絕大多數程式碼，很可能最初的作者就是 AI。

AI 時代，管理者的槓桿在誰身上？

主持人：大家討論很多的是 IC（個人貢獻者）工程師的角色變化，但關於「管理者」的變化討論得少得多，尤其是工程經理這種角色。AI 崛起之後，你作為一個 manager 的生活發生了什麼變化？你覺得未來 manager 的角色會是什麼？

Sherwin Wu：它的變化確實沒有工程師那麼大。至少現在還沒有「專門給管理者用的 Codex」。不過，我確實會用 Codex 去處理一些我做的「更管理向」的工作。我會說，現在變化還沒有那麼劇烈，但我能看到一些趨勢。你把這些趨勢推演下去，就能大概看到很多事情會往哪裡走。

一個越來越明顯的點是：Codex 會讓頂尖表現者變得更高效得多。我覺得這可能也是 AI 在更大範圍內的普遍規律：那些真正願意深度擁抱、那些主觀能動性很強的人，或者能把這些工具用到很溜的人，會把自己「超級加速」。

我現在也能明顯感覺到：團隊裡頂尖表現者會變得更多產，於是團隊生產力會出現更大的分化和跨度。

我一直以來的一個管理理念是：我會把大部分時間花在頂尖表現者身上——確保他們不卡住、確保他們開心、確保他們覺得自己在高效推進、也覺得自己的聲音被聽見。

我覺得在 AI 時代，這件事會變得更重要，因為頂尖表現者會用這些工具跑得更快、更猛。

比如之前提到的那個團隊：維護一個100% 由 Codex 生成的程式碼庫。讓他們放開去做、看看會發生什麼，這件事實際上回報非常大。所以我看到的一個趨勢是：對於管理者來說，未來可能會更頻繁地、更多地把時間投入在頂尖表現者身上。

另一個趨勢是：管理者可用的 AI 工具，會讓管理者的槓桿率變高。不是寫程式碼層面的，而是像「帶組織知識的 ChatGPT」這種——它能幫你做研究、理解組織上下文。舉個很現實的例子：我們現在在做績效評估。你可以很容易地用一個接了內部知識的 ChatGPT——它連著 GitHub、Notion 文件、Google Docs——讓它快速形成對某個人過去 12 個月做了什麼的完整理解，然後給你寫一份小型「深度研究報告」。

我的直覺是，在這種世界裡，管理者可以管理更大的團隊。就像工程師現在在管理 20～30 個 Codex 執行緒一樣，這些工具也會讓「人管人」的管理變得更高槓桿。

現在工程團隊裡所謂的最佳實踐，一個 manager 通常帶6～8 個人。但我覺得未來可能會變。

你在客服、運營這些非工程領域已經能看到類似現象：過去支援團隊規模會受限，但當你能把更多工作交給 agent，你就能做更多事，也能管理更多人。

我覺得 people management 在科技公司也可能發生類似變化。我們已經在看到一些團隊：有些 EM 管的人已經不少了，但他們依然能管理得很好，因為工具讓他們能更高槓桿地理解團隊在做什麼、理解組織上下文，並以此運轉。

主持人：我很喜歡你這裡的建議：你一直以來都會傾向於把更多時間投在頂尖表現者身上，幫他們掃清障礙，確保他們開心。Mark Andreessen（著名風投創辦人）最近也上了這個播客，他的說法是：AI 會讓好的人更好，讓偉大的人變得卓越。

Sherwin Wu：對，對。你說的就是：在未來，這件事可能要做得更多、更極端一點——花更多時間在團隊裡最強的人身上，確保他們有一切需要的資源。

我現在的一個很好的例子是：內部有一小群工程師，真的非常「Codex 化」，他們在非常認真地琢磨「和這個模型互動的最佳實踐到底是什麼」。這是一件極其高槓桿的事情。

作為 manager，我就是直接說：你們去探索。無論你們總結出什麼最佳實踐，我們都必須把它分享給整個組織。我們會做各種知識分享 session，會把文件、最佳實踐到處同步。

這種事情會把所有人一起往上抬。我也把它看作是這種趨勢的又一個例子：頂尖表現者會變得更卓越。

軟體與創業，
正在進入一個新階段

主持人：人們會有一種感覺：這件事很大，AI 正在改變這個世界，「一人十億美元公司」這個概念正在改變很多東西，它會是一件大事。你覺得大家還沒有真正把哪些變化算進去？也就是，未來會怎麼走，有什麼你認為我們還沒意識到、但其實很關鍵的例子？

Sherwin Wu：這波 AI 浪潮裡，我最喜歡的一個說法，就是「一人十億美元公司」。我記得好像是 Sam 最早說出這個概念的（至少是最早把它講出來的人之一）。它真的很耐人尋味：如果一個人的槓桿變得足夠高，某個時間點上，確實可能出現一個「一人十億美元公司」。

這件事本身當然很酷，但我覺得大家還沒有真正把它的二階、三階影響算進去。

因為「一人十億美元公司」背後隱含的意思是：一個人藉助這些工具，可以擁有更強的主觀能動性、更高的槓桿，於是他很容易就能把一個公司需要做的所有事情都搞定，最終做出一個價值十億美元的東西。但這還只是其中一個層面。它還有其他含義。

其中一個二階影響是：如果一個人都能做到「一人十億美元公司」，那也就意味著——創業這件事整體會變得容易得多。我其實認為，這會引發一個巨大的「創業潮」，尤其是那種偏 SMB（中小企業）風格的小型創業潮：幾乎任何人都可以為任何需求做軟體。

你現在已經能在 AI 創業圈裡看到一點苗頭：軟體正在變得更「垂直化」。也就是，為某個特定行業 / 垂直領域做一個 AI 工具往往非常有效，因為你能更深地理解那個領域的實際場景和用例。

如果把 AI 的演進繼續往後推，我看不出有什麼理由不會出現 100 倍數量的這類創業公司。

所以我設想的一個世界是：為了支撐一個「一人十億美元公司」，可能會出現上百家小型創業公司，專門做高度定製、做得非常貼合需求的「bespoke software」，來為這些公司提供支援。

這會把我們帶進一個可能非常有意思的階段：我們可能真的會進入一個B2B SaaS 的黃金時代，甚至更廣義地說，是軟體與創業的黃金時代。因為隨著寫軟體越來越容易、經營公司越來越容易，你最終看到的，很可能不是「只有一個一人獨角獸」，而是——也許會有一個「一人十億美元公司」，但同時還會有一百家一億美元公司，還會有幾萬家一千萬美元公司。

而對個人來說，一千萬美元的生意其實已經非常好了——那基本就意味著「這輩子穩了」。所以我覺得我們可能會在這個方向上看到一次爆炸式增長，而很多人還沒把這一點真正算進去。

再往下一層——算是三階影響——當然越往遠推不確定性越大，但如果我們真的走向這樣一個世界：到處都是這種「微型公司」，做的軟體可能只服務一兩個人，公司也就是一兩個人在擁有、在運營。

那整個創業生態會變，VC 生態也會變。

我們可能會進入一個世界：只有少數幾個超級大玩家提供平台，然後平台上托舉、支撐著大量小公司。

但與此同時，那種真正符合「風險投資尺度」的專案——能把你的投資翻 100 倍、1000 倍的專案——可能反而會變少。因為更多出現的會是大量 1000 萬到 5000 萬美元的公司：它們對個體來說非常棒，但對 VC 來說未必是理想的回報結構。

這些公司會非常適合那些主觀能動性極強的人——他們深度擁抱 AI，為自己打造業務。

主持人：我太喜歡我們一路聊到第幾階影響了。我現在想聽第四階影響了，Sherwin——開玩笑的。

Sherwin Wu：我真的不行，第四階太「巨腦」了，我想不了那麼遠。

主持人：這就像《盜夢空間》一樣，你每往下一層，時間就變慢，事情就更複雜。不過說回「一人十億美元公司」，我確實經常想這個問題。因為我做的事情不可能變成十億美元公司，它完全不符合 VC 尺度，也不算特別高槓桿。

但我會想到一個現實問題：我每天收到的支援工單實在太多了，而且經常是一些特別離譜、特別瑣碎的事。光是「支援成本」這一塊，就讓我很難想像一個人怎麼能撐起十億美元規模。所以我對「一人十億美元公司」這件事其實是偏謹慎、甚至偏悲觀的。我想分享這個觀點，核心就是：支援成本太難規模化。就算 AI 能幫你一部分，在十億美元規模下，除非你的 ACV 很高、客戶很少，否則光是處理支援和各種人類溝通，就很難擴張。

在我自己的經驗裡，很多用戶其實是能自己解決問題的，但他們還是會選擇給支援信箱發一封郵件問一個小問題。處理這些事非常難規模化。所以除非你雇了一堆承包商——但那還算「一人公司」嗎？——否則我覺得要把公司做大到十億美元，同時又沒有人幫你處理至少支援工作，這幾乎不可能。AI 也只能幫到一定程度。

Sherwin Wu：我同意你說的問題。只不過我對「它會怎麼發生」的看法稍微不一樣。

我甚至覺得，Lenny，你的播客未來可能會變成一個十億美元級別的生意。但它發生的方式可能不是：你一個人去派遣 AI，一張一張處理支援工單、修問題、回郵件。

更可能發生的是：會出現一大堆其他創業公司，專門做非常貼合你需求的軟體，而且是高度定製、極其垂直的那種。比如，可能會有 10 家、20 家創業公司，專門為播客、newsletter 這類業務做支援軟體。它們自己可能就是「一人公司」，不一定要做得很大。

因為在這個世界裡，做出一個產品會變得非常容易。他們可以把產品做得很貼合、很獨特、真的對你有用，然後你會願意為它付費——作為那個「高槓桿的一人公司」，你買這些工具來外包掉那些你不想做的事情。

主持人：我會買的，我真的會買。

Sherwin Wu：對，這裡面有一個關鍵問題就是：哪些你要 in-house，哪些你要外包出去。

我覺得可能發生的事是：因為寫軟體、做產品的成本在極速坍塌，你會把更多東西外包出去。於是你反而能把公司規模壓得更小。

這就是我覺得可能出現的世界。當然這裡仍然有很高的不確定性，但最終形態可能仍然是：由一個人驅動的、極高槓桿的公司，真的有機會做到十億美元規模。

主持人：我能理解。我還會想到 Peter（OpenClaw 那位），他現在被各種需求、郵件、私信、DM、PR 完全淹沒。而且他甚至還沒靠這個賺到錢。我真的很難想像他現在的生活是什麼樣——一定非常瘋狂。這大概就像你們當初發布 ChatGPT 後的那幾個月那種瘋狂，但他是一個人扛著。也許第四階影響就是：分發 / 觸達（distribution）會越來越重要。因為有太多東西在爭奪你的注意力。於是擁有受眾、擁有平台的人會越來越值錢——這倒是挺有意思的。

主持人：好，我其實想回到你剛才說的管理話題。我真的很喜歡你那個洞見：你說把更多時間花在頂尖表現者身上，對你來說非常有效。你現在在帶的團隊是在做平台，而這個平台基本驅動著整個 AI 經濟——幾乎每個 AI 創業公司都在用你們的 API。顯然你做得非常好。那除了這一條，你還有哪些核心的管理經驗？你覺得哪些東西對你作為一個工程團隊、以及人的管理者來說，特別重要，也構成了你成功的關鍵？

Sherwin Wu：我學到的很多東西，我不確定是不是特別「OpenAI API 團隊專屬」，或者是不是只適用於我們的一些 enterprise 產品。

我的管理哲學確實在變化，但整體來說，它更多是保持一致，而不是完全翻新。其中一個原則就是我之前說的那條：把大量時間花在頂尖表現者身上。更具體一點說，我會把超過 50% 的時間花在團隊裡最強的那部分人身上，比如前 10%，盡最大努力去賦能他們。

我常用一個隱喻來理解這個問題：把軟體工程師看作「外科醫生」。這個隱喻來自一本很老的書《The Mythical Man-Month》。這本書寫於 70 年代左右，它裡面其實是在「預測未來」。書裡描述了一種可能的世界：軟體工程會走向一個模式——工程師像外科手術室裡那位主刀醫生，手術室裡只有一個人真正動刀，其餘的人都圍繞他提供支援：護士、住院醫、fellow……主刀說「我要手術刀」，就有人把手術刀遞上去；主刀說「我要這個工具」，就有人把設備推過來。所有人都在支援那一個人。

《人月神話》預測軟體工程會往這個方向走。我不覺得現實完全是這樣——軟體工程仍然更協作，不是只有一個人幹活。

但我一直很喜歡這個比喻，也一直努力把它用在我的管理方式裡。也就是說：軟體工程不等同於手術，但我希望我對團隊成員的支援方式，能讓他們感覺自己像那位「主刀醫生」——他們在推進最關鍵的工作，而我作為 manager 的職責，就是確保他們手裡有一支「支援團隊」，確保他們需要的東西隨時可用。哪怕實際上所謂的支援團隊只有一個人，我也希望做到這種效果。

我常舉的例子就是：提前看見拐角處的阻礙，並把人從組織流程裡解卡出來，這件事極其有價值。

而且在 AI 時代，這件事更重要。因為當工程師能一口氣刷很多 PR、連續高頻交付時，真正限制進展與交付速度的，往往就變成了組織層面的阻礙、流程層面的阻礙。

如果你作為 manager 能夠「看得更遠一步」、提前準備好他們需要的資源——就像主刀醫生需要手術刀，而你已經把手術刀準備好了——那就是最理想的狀態。這就是我理解的管理方式，尤其是工程管理。這個隱喻一直跟著我，也基本貫穿了我的職業生涯。

主持人：我太喜歡這個比喻了。我甚至會想，AI 會不會也能幫到這件事：幫你「看拐角」。比如預測：這個工程師接下來會被哪個決策卡住，我們得提前把它解決掉。

Sherwin Wu：我還沒試過，但我現在突然很好奇：如果我問一個接了公司內部知識的 ChatGPT——比如讓它去掃 Notion 文件，看看 Slack 裡哪裡提過——我直接問它：「我團隊現在有哪些活躍的 blocker？我能做什麼來幫他們？」這個思路我之前真的沒想到，但你說得對，你剛剛給了我一個洞見。

主持人：而且更進一步，甚至可以問：你預判接下來幾個月這個工程師、這個團隊會被什麼卡住？你剛才在聊二階三階影響，現在我讓模型幫你做二階三階影響：提前預判下個月的 blocker，提前把它解決掉。

Sherwin Wu：對，對。我們這裡可能真的挖到一個好點子了。

為什麼這麼多 AI 部署，
最後成了負 ROI？

主持人：好，我想切到你們做的 API 和平台。你們會和很多公司打交道：它們在接入你們的 API、用你們的平台、基於你們的工具去做產品。你之前跟我說，你觀察到很多公司的 AI 部署其實 ROI 是負的。我覺得這也是很多人讀新聞、自己體感裡隱約相信的結論，但你說你真的在一線看到它發生，這很有意思。到底怎麼回事？他們哪裡做錯了？現在 AI 部署與 ROI 的現實狀況是什麼？

Sherwin Wu：我先澄清一下：我並不是在「顯式地」看到那種可量化的 ROI 數據——這件事其實很難測。但僅憑我觀察到的一些公司「上 AI」的方式，我不會驚訝如果不少部署最後落成了負 ROI。與此同時我也注意到，在科技圈外——比如美國很多非技術行業的人群裡——存在一種很普遍的情緒：AI 是被強塞進來的。而這種抵觸感，本身很可能就是「負 ROI 部署」的外在症狀之一。

我看到的典型問題大概有幾個。

首先，我總會回到一個老問題：矽谷經常忘了自己活在泡沫裡。Twitter 是泡沫——抱歉，現在叫 X——矽谷是泡沫，軟體工程也是泡沫。世界上絕大多數人、美國絕大多數人，都不是軟體工程師。他們沒有那麼「AI pilled」（被 AI 深度洗禮），也不會追蹤每一次模型發布。很多人其實根本不知道怎麼用這項技術，甚至對它怎麼工作都沒什麼概念。

你看我們在 OpenAI 內部，會聊很多 Codex 的 best practices，甚至有一群人專門研究怎麼把 Codex 用到最有效。X 上那些經常發帖的人，也幾乎都是 AI 工具的瘋狂 power user：skills、agents.md、MCP……這些他們都玩得很溜。

但當我去和很多公司聊，尤其是和真正要把工具用到日常工作的一線員工聊時，你會發現他們的需求非常基礎，而他們對這項技術的理解也很有限。他們問的問題都很簡單，離「把工具推到極限」還差得很遠。

這也引出了我覺得更理想的 AI 部署方式應該是什麼樣——也是我們在 OpenAI 內部大體上是怎麼運轉的：那些「做得很順」的公司，往往同時具備兩件事。

第一，是自上而下的 buy-in。高層明確表態：我們要變成 AI-first 公司。於是資源會投入、工具會採購、組織會給到明確支援。

但第二同樣關鍵：必須有自下而上的 adoption 和 buy-in。也就是那些真正幹活的一線員工，要對這項技術感到興奮，願意學習、願意布道、願意總結 best practice，願意在組織裡做知識分享。

我們在 OpenAI 內部也經歷過類似過程。OpenAI 一直希望自己以 AI 為中心，但真正讓這件事「起飛」的，是 Codex 這類工具出現之後——因為員工終於能把它直接用到具體工作裡。

你之所以需要自下而上的推動，是因為每個人的工作都不一樣、非常具體。軟體工程不等於財務，不等於運營，也不等於市場銷售。落地到工作層面，會有大量「最後一公里」的細節，必須靠一線的人去試、去打磨、去改 workflow。

而很多 AI 部署之所以失敗，恰恰是因為缺少自下而上的 adoption：它更像一條來自高層的命令，過於 top-down，又和真實工作怎麼做脫節。結果就是，面對一整個龐大的員工群體，他們並不真正理解這項技術，只知道「我應該用它」，甚至績效裡也寫著「你得用 AI 提升生產力」，但沒人告訴他們具體怎麼用。

他們環顧四周，發現也沒有別人真的在用：沒人可學、沒路徑可抄，於是就卡在原地。

所以我給那些想推進 AI 的公司的建議是：找到——甚至專門配備——一個全職的小團隊，作為內部的 tiger team。這支隊伍負責把能力摸透、落到具體 workflow 上，做持續的知識分享，在組織內部製造興奮感，讓更多人願意嘗試。沒有這種機制，AI 真的很難被「撿起來用」。

主持人：那你會把誰放進這個 tiger team？它應該是工程師主導嗎？還是你覺得更像一個跨職能團隊？

Sherwin Wu：這個問題很有意思。因為現實是：很多公司根本沒有軟體工程師。所以我看到更常見的一種模式是——tiger team 的核心成員，往往來自「軟體工程相鄰」的崗位：技術向，但不一定是工程師。

這些人反而最容易先興奮起來。比如支援團隊或運營負責人：他不寫程式碼，但特別愛折騰工具，可能還是個 Excel 高手、流程高手。你會發現，這類人一旦接觸到 AI 工具，往往會「亮起來」——上手快、動力足，也願意主動把用法總結出來。

所以這類 tiger team 的典型畫像是：技術相鄰、編碼相鄰，整體技術能力不弱，願意試、願意學、願意帶人。你通常可以以他們為核心搭起一個小團隊。

當然，工程師加入會很有幫助，他們能更快理解底層機制、也更擅長做系統化落地。但很多公司沒有這個條件：工程師是稀缺資源，難招也昂貴。於是很多時候，真正把 AI 推起來的，反而是這些「非工程師但技術向」的角色。

主持人：我聽下來，你說的反模式就是：自上而下。比如 CEO 和高管團隊拍板：我們要 AI-first，我們要全面擁抱 AI。每個人都會被考核：你用 AI 工具提升了多少生產力。但如果只有自上而下，沒有建立一個自下而上「傳播與帶動」的團隊，那這事就做不起來。

Sherwin Wu：對，完全是這樣。核心建議就是：找到那些最興奮的人。與其把他們分散在組織各處，不如把他們聚起來，組成一個小的「AI 傳教士團隊」。他們去探索怎麼用、怎麼落地，然後把用法擴散到整個組織。你這麼複述我，我突然意識到：這也能和我自己的管理哲學對上。換句話說：找到 AI 採用上的高績效者，然後賦能他們——讓他們辦 hackathon，讓他們做分享會，讓他們做知識分享，在內部種下興奮感的種子。

從向量庫到 skills：
腳手架正在一層層被吃掉

主持人：我有幾個「熱觀點」想聽你展開一下。有一個我看到你經常提到：你說在 AI 領域，「去跟客戶聊、聽客戶的話」不一定總是對的策略，甚至經常會把你帶偏。

Sherwin Wu：我不確定這算不算多「熱」。我想說的也不是「不該跟客戶聊」——當然應該聊，而且非常有價值。

我更想強調的是：AI 這個領域（尤其是我過去三年在 API 這一側看到的變化）迭代速度實在太快了。模型和整個生態會不斷自我顛覆，特別是在工具鏈、腳手架這一層。

我這週剛看到一句話，來自 X 上的一篇文章，作者是 Nicholas——一家叫 Finol 的創業公司創辦人。他分享了不少在金融服務場景做 AI agent 的實戰經驗（我記得他之前也在一家叫 FinTool 的公司做過類似方向）。他有句話我特別喜歡：「模型會把你的腳手架當早餐吃掉。」

你回看 2022 年 ChatGPT 剛發布的時候，模型還很粗糙。於是開發者工具圈冒出了大量「腳手架式產品」，用來約束、引導模型按你期望的方式工作：各種 agent 框架、向量資料庫……那時候向量庫尤其火，周邊還長出了一大圈配套工具。

但這幾年一路看下來，模型變得太快、也變得太強，結果它真的會把其中一部分腳手架「吃掉」。我覺得這件事今天仍然成立。Nicholas 那篇文章提到的「當前時髦腳手架」，是基於 skills 文件的上下文管理。你完全可以想像一個世界：未來某個時間點，這套東西也不再有用，因為模型可以自己管理這些上下文；或者整個範式又會切換到別的方向，不再需要這種文件式的 skills。

你已經親眼看過這種事發生：agent 框架現在沒那麼有用了；2023 年一度我們以為向量庫會是把組織知識引入模型的「主路徑」——你需要把所有語料 embedding、做向量檢索，還要做大量優化，保證在正確時間取到正確的資訊。

那一整套，本質上都是腳手架，因為模型當時還不夠強。而當模型變強後，更好的方式往往是：把很多邏輯拿掉，信任模型本身，給它一組用於搜尋的工具就行。

這個搜尋不一定非得是向量庫，它可以接任何形式的搜尋——甚至可以只是檔案系統裡的文件，比如 skills、agents.md 這種，來引導它。

當然，向量庫仍然有它的位置，很多公司還在用。但「圍繞向量庫搭建整個腳手架生態、把它當成唯一答案」的那種假設，已經發生了很大變化。

所以回到「客戶回饋」：你不一定總要聽客戶的，因為這個領域變化太快。很多客戶在某個時點上其實處在一個「區域性最優」裡。

如果你只盲聽客戶，他們會說：我想要更好的向量庫，我想要更好的 agent 框架……但如果你只沿著這條路走，你可能會做出一個「區域性最優」的產品；而當模型能力再上一個台階時，我們往往需要重新發明、重新思考：什麼才是正確的抽象、正確的工具、正確的框架。而更有趣、也更令人興奮、同時也有點讓人抓狂的是：這是一個移動靶。

你今天認為「正確」的工具和框架組合，未來很可能還會繼續演化、繼續大改，隨著模型越來越聰明、越來越強。就是在這個領域裡做產品的本質。這也是它令人興奮的地方。但它也意味著：你和客戶聊的時候，你需要在「他們此刻想要什麼」與「你認為模型將往哪裡走、未來一到兩年會如何演化」之間做平衡。

主持人：這聽起來很像所謂的「bitter lesson」：在 AI/ML 領域裡一個重要教訓就是——你加得越多複雜邏輯、越多手工設計，反而越限制它規模化成長。你應該盡可能拿掉這些東西，讓它計算、讓它自己變強。

Sherwin Wu：對，這裡確實存在一個「把 bitter lesson 應用到 AI 產品構建」的版本。我們曾經試圖在模型周圍架構很多東西，結果模型能力提升之後，它會把這些東西直接吃掉。說實話，OpenAI 的 API 團隊在某些時候也犯過這個錯：我們走過一些不該走的彎路。但模型還是會變強，我們也只能在日常中不斷學習這條 bitter lesson。

主持人：那對那些在用 API 構建產品、構建 agent 的人來說，關鍵 takeaway 是什麼？因為他們現在還是得圍繞現階段能力搭一些東西。你會給什麼建議？

Sherwin Wu：我一直給大家的總體建議——到今天我仍然覺得成立——是：為模型將要去的地方而構建，而不是只為模型今天能做到什麼而構建。

因為目標本質上是個移動靶。我見過不少做得特別好的創業公司，會圍繞一種「理想能力」來設計產品：這種能力在當下也許只實現了 80%。所以他們的產品現在當然「能用」，但總像差最後一口氣。

可一旦模型能力再往前邁一步，體驗會突然「咔噠」一下被解鎖：原本差的那一口氣補上了，產品整體就從「勉強可用」變成「非常驚豔」。

比如某個關鍵能力在 o3 時代還不夠穩，但到了 5.1、5.2 就突然可用了——他們之所以能吃到這波紅利，是因為在產品設計時就把「模型必然會變強」當成前提寫進了路線圖。最終你會得到一種體驗：它遠遠好過那種把模型能力當成靜態、圍著現狀去打補丁的做法。

所以我的建議很簡單：按模型未來的走向來設計。你可能需要稍微等一等，但模型變強的速度太快了，很多時候你並不需要等太久。

主持人：順著這個話題，你能分享一下未來 6～12 個月 API 會往哪走？平台會往哪走？模型會往哪走？我知道這裡很多內容可能是機密，但你可以分享多少就分享多少——你最興奮的、你覺得大家應該開始準備的。

Sherwin Wu：一個最明顯的方向是：模型能連續、穩定完成任務的時長正在變長。

有一個我覺得很有參考價值的基準指標（他提到的 meter benchmark），用來跟蹤在軟體工程任務裡，模型能穩定跑多久——比如在50% 成功率下能撐多長時間、在80% 成功率下又能做到多久。

我印象裡，當前前沿模型大概是：在 50% 成功率上已經能完成「多小時級」的任務；但如果把門檻提高到 80% 成功率，可能還停留在「接近 1 小時、但還不到」的水平。這個基準指標最讓人清醒的地方在於：它把歷代模型都放在同一條時間線上，你能非常直觀地看到趨勢是怎麼一步步往前推的。

讓我興奮的是：今天很多產品，其實還在圍繞「模型能跑幾分鐘」來做優化。哪怕是 Codex 這種編碼工具，你也會發現它更偏互動式、更像一個隨叫隨到的協作夥伴——它最擅長、也被優化得最充分的，往往還是十分鐘左右的任務。

當然，我也見過有人把 Codex 推到極限，用它去跑多小時級的任務，但那仍然是少數案例，並不是常態。

如果沿著這個趨勢繼續往前推，我認為在未來 12～18 個月，我們會看到模型能更穩定、更連貫地完成「多小時任務」。甚至可能出現這樣的階段：你把一個大約 6 小時量級的任務交給它，讓它自己先跑一段時間，再回來給你結果和進度。

一旦能力到了這個級別，圍繞它構建的產品形態會完全不一樣。你仍然需要給模型回饋，也肯定不希望它毫無約束地跑上一整天——也許有人會想這麼做，但多數場景下不會。而當任務時長真正拉長，模型能覆蓋的工作範圍會一下子變得更大，能做的事情的「宇宙」也會隨之擴張。這也是我最興奮的一點。

另一個我覺得未來 12～18 個月會很酷的方向，是多模態模型的進步。更具體地說，我主要指音訊。

現在模型在音訊上已經挺不錯了，但我認為未來 6～12 個月，它會變得更強——尤其是那種原生多模態、speech-to-speech 的模型。同時音訊側可能還會有一些新的模型結構、架構方向出現。而音訊在企業與商業場景裡，仍然是一個被嚴重低估的領域：大家都在聊 coding，都在聊 text，但我們現在就是用音訊在對話。世界上很多業務，就是靠「說話」完成的；很多服務與運營，也是靠溝通完成的。

所以我覺得未來 12～18 個月，音訊會變得非常令人興奮，我們會看到更多「被解鎖」的能力。

主持人：我快速總結一下：你認為 agent 和 AI 工具會越來越能跑更長時間的任務，這個趨勢會持續增強；然後音訊與語音會變得更重要，更原生、更核心、體驗更好。

主持人：回到你剛才的「熱觀點」。我還看到你經常講另一個：你對「業務流程自動化」這個方向非常看多，覺得它會是 AI 世界裡巨大的機會。聊聊這個？

Sherwin Wu：對，這其實又回到我前面說過的那件事：我們在矽谷生活在一個泡沫裡。我們熟悉的工作形態——軟體工程、產品管理、做產品——跟支撐整個經濟運轉的大量工作形態，其實完全不是一回事。我跟客戶聊的時候經常能強烈感受到這一點：如果你去跟任何一家非科技公司聊，你會發現他們有海量的「業務流程」。

我一般會這樣區分：軟體工程更像一種開放式的知識工作（open-ended knowledge work）。這也是為什麼像 Codex 這種工具會很強，因為它擅長探索，你給它的是開放式問題。

但軟體工程的本質是非常開放的，而且它並不「可重複」。你做一個功能，不是為了反覆做同一個功能一遍又一遍。很多科技類崗位都屬於這種開放式工作：資料科學也有點像，甚至一些偏戰略的財務工作也有點像。

但當你離軟體工程、離「科技公司核心」越來越遠，你會發現很多工作其實就是業務流程：可重複的事情、可重複的運營操作。它往往是某個公司的管理者長期迭代出來的一套做法，通常會有標準作業流程（SOP）。大家希望按 SOP 來做，而且不希望偏離太多。

軟體工程的「聰明才智」往往在於創新、偏離、探索；但世界上大量工作的本質，其實就是按這些流程跑下去。

比如我打電話去客服，對方就在按一套流程走；我給水電煤公司打電話，他們也有很多流程和規則：哪些能做、哪些不能做。所以我對這一類大機會非常看多：用 AI 去做業務流程自動化。而且我覺得它被低估了，因為它跟矽谷日常聊的東西太不一樣了，大家就很少想它。

但如果你去想：我們能不能用 AI、用我們現有的工具和框架，去自動化這些可重複、確定性很強（high determinism）的業務流程？能不能把它做得更省力、更順滑？關鍵還在於：它必須深度整合企業的資料、企業的決策邏輯，以及企業內部的各種系統。我覺得這塊機會巨大、要做的工作也非常多，只是我們不怎麼聊，因為它不在我們的「舒適區」。

主持人：我確認一下我理解得對不對：你認為 AI 在「工程之外」的機會更大——它能更大幅度影響公司的生產力，影響大量從事可重複、容易自動化工作的人，甚至改變工作的組織方式。因為現實裡很多工作就是這樣被完成的。

Sherwin Wu：對。我經常跟很多大型企業客戶聊：AI 會怎麼在 20 年後改變我的公司？公司在 AI 世界裡會怎麼運轉？

軟體工程當然是故事的一部分，但業務流程那一側還有更多。而且我覺得業務流程那一側，最終可能會呈現出更「徹底不同」的樣子，要做的工作量也非常大。

從絕對規模上說，我不確定它到底比軟體工程更大還是更小——軟體本身也非常龐大、覆蓋面也非常廣。但可以確定的是：這塊真的很大，而且它遠遠大過你在 X/Twitter 上看到的討論熱度。很多人根本不談它，所以你會低估它。

怎麼才能不被 OpenAI「碾壓」？

主持人：換個方向。你們做平台、做 API，很多人在 API 上做產品。大家腦子裡最大的一個問題永遠是：我怎麼才能不被 OpenAI「碾壓」？你們會不會自己做同樣的東西，然後把我剛建立的市場給毀了？你們的總體政策、總體哲學是什麼？創業公司應該怎麼判斷：哪些方向是 OpenAI 不太可能親自下場的？

Sherwin Wu：我的總體回答是：市場太大了，機會空間巨大到離譜。創業公司真的不用過度糾結 OpenAI 或其他大模型實驗室會做什麼。

我見過很多創業公司，有做得不好的，也有做得很好的。所有我見過「熄火」的公司，沒有一個是因為 OpenAI、某個大實驗室、Google 之類「跑來碾壓他們」。它們失敗的原因更簡單：他們做的東西沒有真正打動客戶，沒有和客戶需求產生共振。

相反，那些起飛的公司，即便在極其競爭的領域裡也能做起來。比如 coding 這個領域競爭夠激烈了，但 Cursor 現在依然很大——因為他們做出了大家真的很喜歡的東西。

所以我的建議是：別太焦慮這件事。專注做一個用戶喜歡的產品，你一定能在裡面找到空間。

我沒法強調得更重：現在 AI 的機会有多大。機會大到一個程度，連 VC 的「可接受範圍」（overton window）都被改變了——VC 現在在同一個賽道裡投「互相競爭的公司」投得非常多、非常激進，就是因為空間太大、機會太大，幾乎前所未有。

從創業者視角看，這反而是最賦能的環境：只要你做出一個讓一部分人非常非常喜歡的東西，你就能做出一個價值巨大的生意。所以我才會反覆說：別過度思考「會不會被碾壓」。

另外還有一點也很重要，至少從 OpenAI 的角度：我們一直非常非常重視一件事，這也是 Sam 和 Greg 從頂層不斷強調的——我們從根本上把自己看成一家「生態平台公司」。API 是我們的第一個產品。我們認為自己必須去培育這個生態、持續支援它，而不是去摧毀它。

你看我們做的很多決策，這條邏輯一直貫穿其中：我們每發布一個模型、在某個產品裡上線，它最終都會進入 API。哪怕我們現在推出的 Codex 模型更偏向 Codex harness 的優化，它們最終也都會進 API，讓所有 API 客戶也能用到。

我們不會把這些能力「藏起來不放」。我們認為保持平台中立非常重要：我們不會遮蔽競爭對手，我們允許大家訪問我們的模型。我們最近也在測試「用 ChatGPT 登入」這類產品，我們希望繼續壯大這個生態——這件事非常重要。總體的邏輯就是：水漲船高。我們現在可能像一艘航母，體量很大，但我們認為把「潮位」整體抬高，對所有人都有好處，我們自己也會受益。

我們 API 的增長，某種程度上就是因為我們一直以這種方式行動。所以我真的鼓勵大家別把 OpenAI 想成一個會隨時把你推開、把你擠出去的存在。你應該把注意力放在：做出真正有價值的東西。我們會持續致力於提供一個開放的生態。

主持人：為什麼這對 OpenAI 很重要？這種「做平台、讓別人做生意」的堅持，是一開始就有的願景嗎？

Sherwin Wu：對，這是從一開始就有的。它甚至可以追溯到我們的章程、我們的使命。

OpenAI 的使命一直是兩件事：第一，構建 AGI。我們當然在做這件事。第二，是把它的收益擴散到全人類（spread the benefits to all of humanity）。關鍵就在「全人類」。ChatGPT 當然在做這件事，我們想觸達全世界。但很早我們就意識到：僅靠 OpenAI 作為一個公司，我們不可能觸達世界的每一個角落。世界太大了，每個角落的需求都很深、很細。

所以為了完成使命，我們必須做一個平台：去賦能其他人來構建那些我們自己不可能親自去做的東西——比如你剛才舉的「為播客和 newsletter 主理人做客服 bot」這種產品，我們自己不會去做，但別人可以在平台上做出來。這就是 API 的意義。我們也一直非常喜歡看到生態裡湧現出的各種東西，所以從第一天開始，這就是使命的一種體現。

主持人：而且你還沒提你們要上線的 ChatGPT「應用商店」（app store）。這個是在你管的範圍裡嗎？還是另一個組織 / 團隊？

Sherwin Wu：那是另一個團隊，更偏 ChatGPT 體系。但我們和他們合作非常緊密。他們做了一個 apps SDK，也是和我們團隊密切協作出來的。但它確實是在 ChatGPT 的 umbrella 之下。

不過它也是同一個邏輯的例子：ChatGPT 現在大概有8 億每週活躍用戶，這些用戶會反覆回來用。對業務來說這是非常強的資產。但如果我們能讓其他公司也進來，利用這個入口，為這個人群去構建產品——那不是更好嗎？最終我們也認為這會幫助我們把這個用戶群體繼續做大。所以它依然回到使命：做平台、保持開放，往往能帶來更大的增長。

主持人：你剛說的 8 億這個數字……是每週活躍 8 億嗎？我剛剛腦子卡了一下。

Sherwin Wu：每週活躍 8 億。

主持人：這太誇張了，簡直前所未有。我們已經對這種規模數字麻了，但它真的離譜。

Sherwin Wu：對，從規模角度想這件事，我也覺得非常震撼。我會這麼理解：差不多是全世界10% 的人口，而且還在增長。它還在往上衝。每週會有 10% 的世界人口來用 ChatGPT（準確說是每週）。

主持人：我也想再強調一下你剛才說的點：OpenAI 的使命是讓 AI 的益處觸達全人類。有些人會嘲諷這句話，說「這不是要收費嗎」。但現實是：任何人都能用免費的 ChatGPT。免費版的能力，和世界上最強的 AI 模型也沒有「天差地別」的那種距離，它不是被嚴格門檻擋住、只給少數人用的。如果你是億萬富翁，你能從 AI 裡獲得的增量，其實也有限；而一個在非洲某個村莊裡的人，只要他能上網，他能獲得的 AI 能力並不會差到哪裡去。我知道這一直是 OpenAI 很在意的東西。

Sherwin Wu：對，這也是為什麼我們會很重視醫療、很重視教育——教育這塊會非常有意思。

還有一個很瘋狂的趨勢是：免費模型本身也越來越聰明。你回頭看 2022 年的免費模型，當時已經算不錯了，但跟今天比完全不是一個量級。你今天拿到的是 GPT-5（他這裡提到「2 GB 5」，我按語義理解為 GPT-5 級別的免費能力）——所以我們所謂「抬高全球底線」（raising the floor）這件事，就是我們使命的一部分。

另外，從「億萬富翁」那個角度還有個有趣對比：有人說你用的 iPhone，跟 Zuckerberg 或那些億萬富翁用的，可能就是同一款。而現在某種程度上也類似：你每月 20 美元，就能用到「億萬富翁也在用的那套 AI」。你每月 200 美元，就能上 Pro——「億萬富翁也在用的 Pro」。但他們日常也不一定全用 Pro，很多時候也就是 Plus 級別。

所以這種「民主化」、這種把益處擴散到全世界的事情，對我們來說非常有意義，也驅動了我們很多決策。

主持人：最後一個問題：對那些想在 API 上做東西的人來說——可能他們突然意識到「我也可以用開源模型和 API 做很酷的東西」——你們的 API 和平台到底允許大家做什麼？我知道你們能在平台上構建 agents。你能整體講講你們提供了哪些能力嗎？

Sherwin Wu：從根本上說，API 提供的是一組開發者端點（developer endpoints），讓你可以從我們的模型裡採樣（sample）。

現在最受歡迎的端點叫Responses API。它是一個專門為構建「長時間運行的 agent」優化的 endpoint——也就是能工作一段時間的 agent。

在最底層的 primitive 上，你基本就是給模型一段文字，讓模型工作一會兒；你可以去輪詢它（poll），看看它在做什麼；然後在某個時間點拿到模型的返回。這是我們給開發者的最底層原語，也是很多人最常用的構建方式。它非常「不帶觀點」（unopinionated）：你幾乎可以拿它做任何事，它就是最底層的構建塊。在這個之上，我們開始提供越來越多的抽象層，幫助大家更容易地構建這些東西。

再上一層，我們有一個非常受歡迎的東西叫Agents SDK。它允許你基於 Responses API 或其他端點，去構建更傳統意義上的 agent：比如一個 AI 在一個近似「無限循環」的工作流裡持續運行；它可能有子 agent，可以把任務委派出去。

它會幫你搭出一整套框架 / 腳手架——當然，未來這套腳手架會不會也被模型「吃掉」，我們也會繼續觀察。但在當下，它確實讓構建 agent 變得容易很多：你能給它 guardrails，讓它把子任務分發給其他 agent，去編排一個 agent swarm（蜂群式的 agent 體系）。Agents SDK 就是幫你做這些的。

然後再往上，我們也開始做一些更偏「部署層（meta level）」的工具。我們有一個產品叫Agent Kit和一些Widgets：本質是一組 UI 元件，讓你可以很快地在 API 或 Agents SDK 之上做出一個很漂亮的介面。因為很多 agent 從 UI 視角看起來非常相似，所以提供一套元件能大幅加速產品化。

此外我們也有一些評估相關的產品，比如Eval API：如果你想測試模型、測試你的 agent 或 workflow 是否有效，你可以用我們的 eval 產品做比較量化的測試。

所以我會把它理解成一個分層的棧：不同層級幫助你用我們的模型構建你想要的東西，抽象層級越來越高、也越來越「帶觀點」。你既可以把整套棧都用起來，很快就做出一個 agent；也可以一路下沉到最底層，只用 Responses API 去搭你自己想要的一切。

閃電問答

主持人：Sherwin，在我們進入很刺激的 lightning round 之前，你還有什麼想補充的嗎？有什麼你想留給聽眾的？有沒有我們還沒聊到、但你覺得很有幫助的點？

Sherwin Wu：我只想留一個資訊：我覺得接下來兩到三年，會是科技圈和創業圈在很長一段時間裡最有趣的一段時間。

我鼓勵大家不要把它當成理所當然。我 2014 年進入職場，頭兩年挺不錯，但接下來大概五六年，我覺得科技圈沒那麼「興奮」。而過去三年，是我職業生涯裡最讓人興奮、最有能量的階段。

我覺得未來兩到三年還會延續這種狀態。

所以別把它當成理所當然。總有一天這波浪潮會走完，變化會變得更增量、沒那麼劇烈。

但在這段時間裡，我們會探索很多很酷的東西，發明很多新東西，改變世界，也改變我們工作的方式。這就是我想留給大家的。

主持人：我太喜歡這段話了，我想多問一句。你說「別錯過」，那你具體建議大家做什麼？是去 build、去擁抱、去學習、去加入一家做有趣事情的公司？你給那些想說「我不想錯過這班車」的人什麼建議？

Sherwin Wu：我會說：去參與它（engage with it）。

基本就是你說的：去擁抱它。在這之上構建工具，是故事的一部分。但就算你不是軟體工程師，你也完全可以擁抱它：去用這些工具。

我覺得很多工作都會被改變。所以你應該去用工具、理解它能做什麼、不能做什麼，理解它的限制，這樣你才能看得見它隨著模型進步會開始能做什麼。

總之就是：讓自己熟悉這項技術，而不是後仰著讓它從你身邊過去。

主持人：但反過來，也有很多壓力和焦慮：事情太多了，我怎麼跟得上？我這週要學 Clawbot，下週又冒出別的……你在中心位置，你怎麼不被這種「錯過恐懼」壓垮？你怎麼保持節奏、怎麼跟新聞？

Sherwin Wu：我個人其實是個壞例子，因為我基本屬於「長期在線」：X 上長期在線，公司 Slack 也長期在線，所以我確實會吸收很多資訊。但我觀察那些不像我這麼「上癮」的人，我覺得有一點很重要：大多數資訊其實是噪音。

你不需要讓 110% 的東西都穿過你的大腦。說實話，你只要選一兩個工具，先從小處開始，就已經完全夠了。

行業節奏太快，再加上 X 這個產品本身的機制，會製造一種極其瘋狂的新聞節奏，讓人非常壓迫、非常容易被淹沒。

但你真的不需要掌握所有這些，才能參與到當下正在發生的事情裡。

哪怕只是裝一下 Codex 客戶端玩一玩；裝一下 ChatGPT，接上你的一兩個內部資料源——Notion、Slack、GitHub——看看它能做什麼、不能做什麼，我覺得就已經很有價值了。

主持人：你有沒有一個常常用來提醒自己的座右銘？

Sherwin Wu：我一直會對自己重複的一句是：永遠別可憐自己（never feel sorry for yourself）。

工作和生活裡會發生很多事。提醒自己不要陷入自憐，而是始終相信自己有主觀能動性、能把自己拉起來——這是我經常需要對自己說的話，我也經常對別人說這句話。

參考連結：

https://www.youtube.com/watch?v=B26CwKm5C1k

聲明：本文為 AI 前線整理，不代表平台觀點，未經許可禁止轉載。

OpenAI 一線開發現實觀察：能同時盯住 10～20 個 Agent、跑小時級任務的人，正在把其他工程師遠遠甩開

相關文章推薦

分享網址