OpenAI大老爆料:大學生靠一篇部落格殺進OpenAI!沒博士、零篇論文

OpenAI相關圖片


新智元報導

編輯:Aeneas

【新智元導讀】他沒有博士學位、沒有論文發表,卻靠著公開改進論文並執行基準測試,直接打動大老、入職OpenAI!Noam Brown親自證實:行動力與開源專案,才是逆襲頂級AI實驗室的真正通行證。

最近,OpenAI傳奇研究員、德州撲克AI之父Noam Brown的一篇文章在網路上被瘋狂轉載。

沒有博士學位,沒有研究背景,是否有可能在頂尖AI實驗室找到工作?

這聽起來像是天方夜譚,但這世界奇妙的地方就在於,這樣的例子還真不少。

比如說,一位名叫Keller Jordan的年輕人,僅僅憑藉一篇開源部落格,就成功入職OpenAI,成為一名機器學習研究員!

Keller Jordan分享截圖

沒錯,他沒有寫傳統論文,而是將完整的研究過程、程式碼和實驗結果完全開源在GitHub上。

最後Noam Brown總結道:雖然如今開放研究的空間比以前小了,但是在既有論文的基礎上做改進,依然是一個向實驗室研究員證明自己能力的絕佳方式!

Noam Brown推文截圖

這種做法,也會讓對方更有信心,為你爭取到一次面試機會。

分隔線圖片

從AI內容審核做起,走向人生巔峰

2020年,Keller畢業於加州大學聖地牙哥分校(UCSD),取得數學與電腦科學雙學士學位。

畢業時,他從未發表過任何一篇論文。

他的第一份工作,是在一間人工智慧內容審核的新創公司。

Keller Jordan個人資料截圖

有一天,他看到Google研究大老Behnam最近發表的一篇論文,想到了一個改進思路,於是寫了一封電子郵件給Behnam。

Behnam看到郵件後,同意指導這位年輕人。在沒有人脈、沒有背景的情況下,這位年輕人就這樣和大老搭上了線。

更神奇的是,這段合作最終促成了一篇ICLR論文。

再後來,Keller的一項表現亮眼的工作「NanoGPT speed run」,直接改變了全新的研究典範,這不僅讓特斯拉AI負責人Karpathy讚譽有加,還引起了OpenAI的注意。

這不是一篇傳統意義上的論文,卻成為Keller命運的轉捩點。

因為他的所有工作都有完整記錄,而且成果可量化、進展清晰,所以OpenAI毫不猶豫地向他伸出了橄欖枝。

分隔線圖片

讓Karpathy直呼「幹得漂亮」

NanoGPT是Karpathy開源的一個專案,是一個極簡的輕量級GPT訓練與微調框架。

而Keller喜歡做的一件事,就是不斷重新整理NanoGPT的訓練速度。為此,他不斷嘗試新的方法。

在2024年10月,他跑出了一個成果,將訓練Transformer模型的token效率提高了3.8倍!

Karpathy稱讚截圖

這也讓他直接贏得Karpathy的盛讚。

NanoGPT speed run的目標聽起來非常簡單:在固定模型規模(124M Transformer)和固定驗證集損失目標(3.28 val loss)的前提下,用盡可能少的token、盡可能短的時間完成訓練。

Keller所做的,就是基於Karpathy的nanoGPT/llm.c PyTorch訓練程式碼,將其改造為一個可復現、可量化、可比較的基準。

最終,他讓Token效率提升了3.8倍,而且從原本約10B tokens降低到2.7B tokens,即可達到目標loss。

訓練效率比較圖表

這意味著,這個改進可以被嚴格驗證,是一個硬指標。

分隔線圖片

讓實驗便宜到「人人能參與」

而且,Keller還非常有獨創性。

與很多動輒需要數十萬、上百萬計算資源成本的訓練不同,他在設計這個speed run時,有一個非常明確的原則:讓嘗試新想法的成本足夠低。

為此,他刻意做了幾件事,比如讓程式碼壓縮到極簡,只有537行;在8×H100的環境下,讓安裝與執行時間僅需20分鐘;甚至單次的嘗試成本低至8美元。

即使在今天的AI研究環境中,這也是一個極其罕見的設計選擇。

這意味著,從此不是只有大型實驗室才能參與,所有個人研究者、學生、獨立工程師都能快速驗證想法,創新不會再被算力門檻擋住。

分隔線圖片

被OpenAI注意到

就這樣,NanoGPT speed run成為Keller逆襲之路上的關鍵一環。

一切都表明,這個成果非常紮實:程式碼、日誌、實驗都完全可復現;在指標上,完全無法作弊;甚至還有開發社群的真實參與。

連驗證方式都被設計得極其嚴謹:每一次speed run的紀錄檔中,都會包含完整的程式碼副本。

任何人想復現一個新紀錄,只需調用紀錄檔即可。

分隔線圖片

Muon橫空出世

而接下來,整件事情發展到了高潮。

在2024年底,他設計的神經網路隱藏層最佳化器Muon橫空出世,直接憑藉卓越性能重新整理了NanoGPT和CIFAR-10訓練速度的世界紀錄!

Muon效能圖表

Muon是一種為神經網路2D參數隱藏層設計的最佳化器。它的核心概念是,SGD-動量法(SGD-momentum)產生的更新矩陣,透過Newton-Schulz迭代進行正交化處理,生成接近於半正交矩陣的更新,從而提升訓練效率。

它的實作簡單高效,支援在bf16精度下穩定運行,顯著降低了計算開銷。

Muon與AdamW比較圖

比起AdamW最佳化器,Muon在多個任務中表現非常驚豔。

雖然AdamW能讓GPT、LLaMA、Qwen學得又穩又快,但隨著模型參數從幾億增加到幾千億,訓練時間從幾天變成幾週甚至幾個月,AdamW的侷限性開始顯現。

雖然尚未成為主流通用最佳化器,但Muon的出現表明,它很可能是AI模型訓練領域的一次重大基礎創新。

分隔線圖片

入職OpenAI

Muon在開發者社群的影響力越來越大,也就在同時,Keller於2024年12月正式加入OpenAI。

Keller入職OpenAI截圖

有趣的是,Keller在2月份表示,雖然Muon火了,也幫他進入了OpenAI,但是他不會為Muon寫一篇論文。

在他看來,與其在arXiv發一篇大概率會被「淹沒」的論文,還不如繼續老老實實地研究自己的最佳化器。

畢竟在他看來,大多數最佳化器論文都是虛假的水文。

Keller論文態度截圖

分隔線圖片

這些人,都成功逆襲大公司

此外,Noam Brown還列舉了其他成功的案例。

比如被Google DeepMind發掘的Sholto Douglas。

Sholto Douglas資料

他在X上十分低調,從未以一作身份發表過任何引人注目的論文,入行時間也只有一年半,然而他卻是Gemini成功的背後關鍵人物。

Sholto工作內容截圖

還在麥肯錫工作時,Sholto就逐漸確信AI會迎來爆發,於是開始在業餘時間做自己的專案,還在Jax的GitHub上提出不少有洞見的問題。

這些表現打動了James Bradbury,最終被邀請到Google DeepMind去面試。

Andy Jones是一位半退休的量化分析師,在測試時計算還沒火起來之前,他就寫了一篇論文,比較了擴大預訓練規模和擴大測試時計算量的影響。

Andy Jones論文截圖

這篇論文讓人印象極其深刻,並不是因為重新整理了某個基準,而是做出了非常聰明的設計選擇,自己編寫了GPU加速的環境,並且進行了嚴謹細緻的消融實驗

最終,Andy Jones入職Anthropic。

Andy Jones入職截圖

參考資料:

https://x.com/polynoamial/status/2014084431062114744

https://x.com/polynoamial/status/2014084432685326485

https://x.com/polynoamial/status/2014084509575291163


分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.