OpenAI大老爆料：大學生靠一篇部落格殺進OpenAI！沒博士、零篇論文

OpenAI相關圖片

新智元報導

編輯：Aeneas

【新智元導讀】他沒有博士學位、沒有論文發表，卻靠著公開改進論文並執行基準測試，直接打動大老、入職OpenAI！Noam Brown親自證實：行動力與開源專案，才是逆襲頂級AI實驗室的真正通行證。

最近，OpenAI傳奇研究員、德州撲克AI之父Noam Brown的一篇文章在網路上被瘋狂轉載。

沒有博士學位，沒有研究背景，是否有可能在頂尖AI實驗室找到工作？

這聽起來像是天方夜譚，但這世界奇妙的地方就在於，這樣的例子還真不少。

比如說，一位名叫Keller Jordan的年輕人，僅僅憑藉一篇開源部落格，就成功入職OpenAI，成為一名機器學習研究員！

Keller Jordan分享截圖

沒錯，他沒有寫傳統論文，而是將完整的研究過程、程式碼和實驗結果完全開源在GitHub上。

最後Noam Brown總結道：雖然如今開放研究的空間比以前小了，但是在既有論文的基礎上做改進，依然是一個向實驗室研究員證明自己能力的絕佳方式！

Noam Brown推文截圖

這種做法，也會讓對方更有信心，為你爭取到一次面試機會。

分隔線圖片

從AI內容審核做起，走向人生巔峰

2020年，Keller畢業於加州大學聖地牙哥分校（UCSD），取得數學與電腦科學雙學士學位。

畢業時，他從未發表過任何一篇論文。

他的第一份工作，是在一間人工智慧內容審核的新創公司。

Keller Jordan個人資料截圖

有一天，他看到Google研究大老Behnam最近發表的一篇論文，想到了一個改進思路，於是寫了一封電子郵件給Behnam。

Behnam看到郵件後，同意指導這位年輕人。在沒有人脈、沒有背景的情況下，這位年輕人就這樣和大老搭上了線。

更神奇的是，這段合作最終促成了一篇ICLR論文。

再後來，Keller的一項表現亮眼的工作「NanoGPT speed run」，直接改變了全新的研究典範，這不僅讓特斯拉AI負責人Karpathy讚譽有加，還引起了OpenAI的注意。

這不是一篇傳統意義上的論文，卻成為Keller命運的轉捩點。

因為他的所有工作都有完整記錄，而且成果可量化、進展清晰，所以OpenAI毫不猶豫地向他伸出了橄欖枝。

分隔線圖片

讓Karpathy直呼「幹得漂亮」

NanoGPT是Karpathy開源的一個專案，是一個極簡的輕量級GPT訓練與微調框架。

而Keller喜歡做的一件事，就是不斷重新整理NanoGPT的訓練速度。為此，他不斷嘗試新的方法。

在2024年10月，他跑出了一個成果，將訓練Transformer模型的token效率提高了3.8倍！

Karpathy稱讚截圖

這也讓他直接贏得Karpathy的盛讚。

NanoGPT speed run的目標聽起來非常簡單：在固定模型規模（124M Transformer）和固定驗證集損失目標（3.28 val loss）的前提下，用盡可能少的token、盡可能短的時間完成訓練。

Keller所做的，就是基於Karpathy的nanoGPT/llm.c PyTorch訓練程式碼，將其改造為一個可復現、可量化、可比較的基準。

最終，他讓Token效率提升了3.8倍，而且從原本約10B tokens降低到2.7B tokens，即可達到目標loss。

訓練效率比較圖表

這意味著，這個改進可以被嚴格驗證，是一個硬指標。

分隔線圖片

讓實驗便宜到「人人能參與」

而且，Keller還非常有獨創性。

與很多動輒需要數十萬、上百萬計算資源成本的訓練不同，他在設計這個speed run時，有一個非常明確的原則：讓嘗試新想法的成本足夠低。

為此，他刻意做了幾件事，比如讓程式碼壓縮到極簡，只有537行；在8×H100的環境下，讓安裝與執行時間僅需20分鐘；甚至單次的嘗試成本低至8美元。

即使在今天的AI研究環境中，這也是一個極其罕見的設計選擇。

這意味著，從此不是只有大型實驗室才能參與，所有個人研究者、學生、獨立工程師都能快速驗證想法，創新不會再被算力門檻擋住。

分隔線圖片

被OpenAI注意到

就這樣，NanoGPT speed run成為Keller逆襲之路上的關鍵一環。

一切都表明，這個成果非常紮實：程式碼、日誌、實驗都完全可復現；在指標上，完全無法作弊；甚至還有開發社群的真實參與。

連驗證方式都被設計得極其嚴謹：每一次speed run的紀錄檔中，都會包含完整的程式碼副本。

任何人想復現一個新紀錄，只需調用紀錄檔即可。

分隔線圖片

Muon橫空出世

而接下來，整件事情發展到了高潮。

在2024年底，他設計的神經網路隱藏層最佳化器Muon橫空出世，直接憑藉卓越性能重新整理了NanoGPT和CIFAR-10訓練速度的世界紀錄！

Muon效能圖表

Muon是一種為神經網路2D參數隱藏層設計的最佳化器。它的核心概念是，SGD-動量法（SGD-momentum）產生的更新矩陣，透過Newton-Schulz迭代進行正交化處理，生成接近於半正交矩陣的更新，從而提升訓練效率。

它的實作簡單高效，支援在bf16精度下穩定運行，顯著降低了計算開銷。

Muon與AdamW比較圖

比起AdamW最佳化器，Muon在多個任務中表現非常驚豔。

雖然AdamW能讓GPT、LLaMA、Qwen學得又穩又快，但隨著模型參數從幾億增加到幾千億，訓練時間從幾天變成幾週甚至幾個月，AdamW的侷限性開始顯現。

雖然尚未成為主流通用最佳化器，但Muon的出現表明，它很可能是AI模型訓練領域的一次重大基礎創新。

分隔線圖片

入職OpenAI

Muon在開發者社群的影響力越來越大，也就在同時，Keller於2024年12月正式加入OpenAI。

Keller入職OpenAI截圖

有趣的是，Keller在2月份表示，雖然Muon火了，也幫他進入了OpenAI，但是他不會為Muon寫一篇論文。

在他看來，與其在arXiv發一篇大概率會被「淹沒」的論文，還不如繼續老老實實地研究自己的最佳化器。

畢竟在他看來，大多數最佳化器論文都是虛假的水文。

Keller論文態度截圖

分隔線圖片

這些人，都成功逆襲大公司

此外，Noam Brown還列舉了其他成功的案例。

比如被Google DeepMind發掘的Sholto Douglas。

Sholto Douglas資料

他在X上十分低調，從未以一作身份發表過任何引人注目的論文，入行時間也只有一年半，然而他卻是Gemini成功的背後關鍵人物。

Sholto工作內容截圖

還在麥肯錫工作時，Sholto就逐漸確信AI會迎來爆發，於是開始在業餘時間做自己的專案，還在Jax的GitHub上提出不少有洞見的問題。

這些表現打動了James Bradbury，最終被邀請到Google DeepMind去面試。

Andy Jones是一位半退休的量化分析師，在測試時計算還沒火起來之前，他就寫了一篇論文，比較了擴大預訓練規模和擴大測試時計算量的影響。

Andy Jones論文截圖

這篇論文讓人印象極其深刻，並不是因為重新整理了某個基準，而是做出了非常聰明的設計選擇，自己編寫了GPU加速的環境，並且進行了嚴謹細緻的消融實驗。

最終，Andy Jones入職Anthropic。

Andy Jones入職截圖

參考資料：

https://x.com/polynoamial/status/2014084431062114744

https://x.com/polynoamial/status/2014084432685326485

https://x.com/polynoamial/status/2014084509575291163

OpenAI大老爆料：大學生靠一篇部落格殺進OpenAI！沒博士、零篇論文

從AI內容審核做起，走向人生巔峰

讓Karpathy直呼「幹得漂亮」

讓實驗便宜到「人人能參與」

被OpenAI注意到

Muon橫空出世

入職OpenAI

這些人，都成功逆襲大公司

相關文章推薦

分享網址