OpenAI幹部が明かす：博士号・論文ゼロの学部生がブログ1本でOpenAIに入社

編集：Aeneas

【新智元ガイド】彼には博士号も論文もない。それでも公開された論文の改善とベンチマークテストの実行を通じて、直接トップを動かし、OpenAIに入社した。Noam Brownが実証したのは、実行力とオープンソースプロジェクトこそが、トップAIラボへの切符であるということだ。

最近、OpenAIの伝説的研究者であり、ポーカーAIの父として知られるNoam Brownの投稿が話題になっている。

博士号も研究経験もなしに、トップAIラボで働くことは可能だろうか？

奇妙なことだが、この世界にはそのような例が実際に存在する。

Keller Jordanという若者が、たった1本のオープンソースブログをきっかけにOpenAIに入社し、機械学習研究員となったのだ。

彼は論文を書かず、研究プロセス、コード、実験結果をすべてGitHubで完全にオープンソース化した。

Noam Brownは最終的にこうまとめた。今は以前ほど研究を公開する余地が小さくなったが、既存の論文を改善することは、ラボの研究員に自分の能力を証明する絶好の方法であり続けると。

このアプローチは、相手に自信を持ってもらい、面接の機会を獲得するのにも役立つ。

AIコンテンツ審査から人生の頂点へ

2020年、Kellerはカリフォルニア大学サンディエゴ校（UCSD）を卒業し、数学とコンピュータの学士号を取得した。

卒業時、彼は1本も論文を発表していなかった。

最初の仕事は、AIコンテンツ審査のスタートアップ企業での勤務だった。

ある日、彼はGoogle Researchの著名な研究者Behnamが最近発表した論文を見て、改善案を思いつき、Behnamにメールを送った。

Behnamはそのメールを見て、この若者の指導に同意した。人脈も背景もない状況で、彼はこのようにしてトップと繋がることができた。

さらに驚くべきことに、この協力関係は最終的にICLRの論文につながった。

その後、Kellerの優れた成果「NanoGPT speed run」は、全く新しい研究パラダイムを変えるものとなり、テスラのAI責任者であるKarpathyを絶賛させるだけでなく、OpenAIの注目も集めた。

これは従来の意味での論文ではないが、Kellerの人生の転機となった。

彼のすべての作業が完全に記録され、成果が定量化され、進捗が明確であったため、OpenAIは躊躇なく彼にオファーを伸ばしたのだ。

Karpathyも「よくやった」と絶賛

NanoGPTはKarpathyがオープンソース化したプロジェクトで、極めてシンプルで軽量なGPTの学習・ファインチューニングフレームワークだ。

Kellerが好んで行っていたことは、NanoGPTの学習速度を不断更新することだった。そのために、彼は新しい方法を絶えず試みた。

2024年10月、彼はTransformerモデルの学習におけるトークン効率を3.8倍向上させる成果を出した！

これにより彼はKarpathyの絶賛を直接勝ち取った。

NanoGPT speedrunの目標は極めてシンプルに聞こえる。固定されたモデル規模（124M Transformer）と固定された検証セット損失目標（3.28 val loss）の前提で、できるだけ少ないトークン、できるだけ短い時間で学習を完了させることだ。

Kellerが行ったことは、KarpathyのnanoGPT/llm.c PyTorch学習コードをベースに、それを再現可能・定量化・比較可能なベンチマークに改造したことだ。

最終的に彼は、トークン効率を3.8倍向上させ、目標の損失に到達するために必要なトークンを元々の約100億トークンから27億トークンに削減した。

これは、この改善が厳密に検証可能であり、硬い指標であることを意味する。

実験を「誰にでも参加できる」ほど安価に

さらにKellerは非常に独創的だった。

数十万、数百万もの計算コストが必要な学習とは異なり、彼はこのspeedrunを設計する際に、明確な原則を持っていた。新しいアイデアを試すコストを十分に低くすることだ。

そのために、彼は意図的にいくつかのことを行った。例えば、コードを537行という極限までシンプルに圧縮したこと。8×H100の新しい環境で、インストールと実行時間をわずか20分にしたこと。さらに単一の試行コストを8ドルという低コストに抑えたことなどだ。

これは今日のAI研究環境においても、極めて珍しい設計選択である。

これは、大規模ラボだけが参加できるのではなく、個人研究者、学生、独立したエンジニア全員が素早くアイデアを検証でき、イノベーションが計算資源の壁に阻まれなくなることを意味する。

OpenAIに注目される

こうして、NanoGPT speedrunはKellerの逆転劇における重要な一環となった。

すべてが示唆しているように、この成果は極めて硬いものだ。コード、ログ、実験が完全に再現可能であり、指標において完全に不正が不可能であり、開発コミュニティの実際の参加さえある。

検証方法さえ極めて厳密に設計されている。すべてのspeedrunのログファイルには、完全なコードのコピーが含まれている。

新しい記録を再現したい人は、ログファイルを呼び出すだけでよい。

Muonが登場

そして次に、物事は最高潮に達した。

2024年末、彼が設計したニューラルネットワークの隠れ層のためのオプティマイザー「Muon」が登場し、卓越した性能によりNanoGPTとCIFAR-10の学習速度の世界記録を更新したのだ！

Muonは、ニューラルネットワークの2Dパラメータ隠れ層のために設計されたオプティマイザーだ。その核心思想は、SGD-モーメンタム法（SGD-momentum）が生成する更新行列を、Newton-Schulz反復によって直交化処理し、半直交行列に近い更新を生成することで学習効率を向上させるというものだ。

その実装はシンプルかつ効率的で、bf16精度での安定した動作をサポートし、計算オーバーヘッドを大幅に削減する。