OpenAI幹部が明かす:博士号・論文ゼロの学部生がブログ1本でOpenAIに入社

画像

編集:Aeneas

【新智元ガイド】彼には博士号も論文もない。それでも公開された論文の改善とベンチマークテストの実行を通じて、直接トップを動かし、OpenAIに入社した。Noam Brownが実証したのは、実行力とオープンソースプロジェクトこそが、トップAIラボへの切符であるということだ。

最近、OpenAIの伝説的研究者であり、ポーカーAIの父として知られるNoam Brownの投稿が話題になっている。

博士号も研究経験もなしに、トップAIラボで働くことは可能だろうか?

奇妙なことだが、この世界にはそのような例が実際に存在する。

Keller Jordanという若者が、たった1本のオープンソースブログをきっかけにOpenAIに入社し、機械学習研究員となったのだ。

画像

彼は論文を書かず、研究プロセス、コード、実験結果をすべてGitHubで完全にオープンソース化した。

Noam Brownは最終的にこうまとめた。今は以前ほど研究を公開する余地が小さくなったが、既存の論文を改善することは、ラボの研究員に自分の能力を証明する絶好の方法であり続けると。

画像

このアプローチは、相手に自信を持ってもらい、面接の機会を獲得するのにも役立つ。

画像

AIコンテンツ審査から人生の頂点へ

2020年、Kellerはカリフォルニア大学サンディエゴ校(UCSD)を卒業し、数学とコンピュータの学士号を取得した。

卒業時、彼は1本も論文を発表していなかった。

最初の仕事は、AIコンテンツ審査のスタートアップ企業での勤務だった。

画像

ある日、彼はGoogle Researchの著名な研究者Behnamが最近発表した論文を見て、改善案を思いつき、Behnamにメールを送った。

Behnamはそのメールを見て、この若者の指導に同意した。人脈も背景もない状況で、彼はこのようにしてトップと繋がることができた。

さらに驚くべきことに、この協力関係は最終的にICLRの論文につながった。

その後、Kellerの優れた成果「NanoGPT speed run」は、全く新しい研究パラダイムを変えるものとなり、テスラのAI責任者であるKarpathyを絶賛させるだけでなく、OpenAIの注目も集めた。

これは従来の意味での論文ではないが、Kellerの人生の転機となった。

彼のすべての作業が完全に記録され、成果が定量化され、進捗が明確であったため、OpenAIは躊躇なく彼にオファーを伸ばしたのだ。

画像

Karpathyも「よくやった」と絶賛

NanoGPTはKarpathyがオープンソース化したプロジェクトで、極めてシンプルで軽量なGPTの学習・ファインチューニングフレームワークだ。

Kellerが好んで行っていたことは、NanoGPTの学習速度を不断更新することだった。そのために、彼は新しい方法を絶えず試みた。

2024年10月、彼はTransformerモデルの学習におけるトークン効率を3.8倍向上させる成果を出した!

画像

これにより彼はKarpathyの絶賛を直接勝ち取った。

NanoGPT speedrunの目標は極めてシンプルに聞こえる。固定されたモデル規模(124M Transformer)と固定された検証セット損失目標(3.28 val loss)の前提で、できるだけ少ないトークン、できるだけ短い時間で学習を完了させることだ。

Kellerが行ったことは、KarpathyのnanoGPT/llm.c PyTorch学習コードをベースに、それを再現可能・定量化・比較可能なベンチマークに改造したことだ。

最終的に彼は、トークン効率を3.8倍向上させ、目標の損失に到達するために必要なトークンを元々の約100億トークンから27億トークンに削減した。

画像

これは、この改善が厳密に検証可能であり、硬い指標であることを意味する。

画像

実験を「誰にでも参加できる」ほど安価に

さらにKellerは非常に独創的だった。

数十万、数百万もの計算コストが必要な学習とは異なり、彼はこのspeedrunを設計する際に、明確な原則を持っていた。新しいアイデアを試すコストを十分に低くすることだ。

そのために、彼は意図的にいくつかのことを行った。例えば、コードを537行という極限までシンプルに圧縮したこと。8×H100の新しい環境で、インストールと実行時間をわずか20分にしたこと。さらに単一の試行コストを8ドルという低コストに抑えたことなどだ。

これは今日のAI研究環境においても、極めて珍しい設計選択である。

これは、大規模ラボだけが参加できるのではなく、個人研究者、学生、独立したエンジニア全員が素早くアイデアを検証でき、イノベーションが計算資源の壁に阻まれなくなることを意味する。

画像

OpenAIに注目される

こうして、NanoGPT speedrunはKellerの逆転劇における重要な一環となった。

すべてが示唆しているように、この成果は極めて硬いものだ。コード、ログ、実験が完全に再現可能であり、指標において完全に不正が不可能であり、開発コミュニティの実際の参加さえある。

検証方法さえ極めて厳密に設計されている。すべてのspeedrunのログファイルには、完全なコードのコピーが含まれている。

新しい記録を再現したい人は、ログファイルを呼び出すだけでよい。

画像

Muonが登場

そして次に、物事は最高潮に達した。

2024年末、彼が設計したニューラルネットワークの隠れ層のためのオプティマイザー「Muon」が登場し、卓越した性能によりNanoGPTとCIFAR-10の学習速度の世界記録を更新したのだ!

画像

Muonは、ニューラルネットワークの2Dパラメータ隠れ層のために設計されたオプティマイザーだ。その核心思想は、SGD-モーメンタム法(SGD-momentum)が生成する更新行列を、Newton-Schulz反復によって直交化処理し、半直交行列に近い更新を生成することで学習効率を向上させるというものだ。

その実装はシンプルかつ効率的で、bf16精度での安定した動作をサポートし、計算オーバーヘッドを大幅に削減する。

画像

AdamWオプティマイザーと比較して、Muonは複数のタスクで非常に優れた結果を示した。

AdamWはGPT、LLaMA、Qwenを安定的かつ素早く学習させることができるが、モデルパラメータが数億から数千億に増え、学習時間が数日から数週間、あるいは数ヶ月になるにつれ、AdamWの限界が現れ始めた。

まだ汎用オプティマイザーとして主流とはなっていないが、Muonの登場は、それがAIモデル学習分野における重大な基礎的イノベーションである可能性を示唆している。

画像

OpenAIへの入社

Muonの開発者コミュニティでの影響力が拡大する中、Kellerは2024年12月、正式にOpenAIに参加した。

画像

興味深いことに、Kellerは2月にMuonは人気になったし、OpenAIに入るのに役立ったが、Muonについて論文は書かないと述べた。

彼にとって、arXivに「埋もれる」可能性が高い論文を発表するよりも、着実に自分のオプティマイザーを研究し続する方が良いと考えている。

結局のところ、彼にとってほとんどのオプティマイザー論文は虚偽の水論文だからだ。

画像画像

これらの人々も大企業での逆転に成功した

さらに、Noam Brownは他の成功例も挙げた。

例えば、Google DeepMindに発掘されたSholto Douglasという人物だ。

画像

彼はX(旧Twitter)で極めて低調であり、注目を集める論文を第一著者として発表したことがない。業界に入ってからもわずか1年半だが、彼はGeminiの成功の裏で重要な役割を果たしている人物だ。

画像

まだマッキンゼーで働いていた時、Sholtoは徐々にAIが爆発的に発展すると確信し、業務時間外に自分のプロジェクトを始め、JaxのGitHubに多くの洞察に満ちた質問を投稿した。

これらの活動はJames Bradburyを感動させ、最終的にGoogle DeepMindでの面接に招かれることにつながった。

Andy Jonesは半退職状態のクアンツアナリストで、テスト時計算が流行する前に、事前学習の規模を拡大することとテスト時の計算量を拡大することの影響を比較した論文を書いた。

画像

この論文は、あるベンチマークを更新したという点ではなく、非常に賢明な設計選択を行い、GPUアクセラレート環境を自分で作成し、厳密で詳細な消融実験を行った点で極めて印象的だった。

最終的に、Andy JonesはAnthropicに入社した。

画像

参考資料:

https://x.com/polynoamial/status/2014084431062114744

https://x.com/polynoamial/status/2014084432685326485

https://x.com/polynoamial/status/2014084509575291163


分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.