OpenAI元研究員：モデルが自ら困難を突破できてこそAGI、最大の問題は汎化。「初級エンジニアの管理」が最重要スキル、ロボティクスの「ChatGPTの瞬間」まで2〜3年

編集 | 听雨

大変なことになりました。OpenAIの元研究員が本音を語りました！

昨日、番組『Unsupervised Learning』がOpenAIの元研究員、Jerry Tworek氏を招きました。Jerry Tworek氏は、OpenAIの推論モデルo1、o3、およびCodexの背後にいる重要なアーキテクトであり、過去数年間のAI分野における最も重要なブレイクスルーのいくつかに参画しました。彼は最近、大規模な研究所ではより困難な研究方向性に取り組みたいという理由でOpenAIを去りました。

この回の番組で、Jerryは最近話題となっている多くのトピックについて語りました。例えば、プリトレーニング（事前学習）と強化学習のスケーリングにおける本来の制限と展望、AGIへの時間的予測、各研究所の研究方向の収束傾向、OpenAIがGPT-4をリリースした際の重要な賭け、優秀なAI研究員の基準などが挙げられます。

Jerry氏は、スケーリング（規模拡大）のパラダイムがもたらす利益は安定して予測可能ですが、それが最終的にAGIにつながるかどうかは、モデルの汎化能力にかかっていると述べました。彼は、現在ますます顕著になっている現象として、我々が「明示的にトレーニングしたこと」に極めて長けてきていると指摘しました。

彼自身、以前はAGIについて非常に楽観的であり、強化学習をし続ければAGIに達できると考えていたことも認めました。しかし、しばらく取り組んだ後、彼の時間的予測は保守的になりました。最大の概念転換は、モデルが困難に遭遇した際に自ら突破できず、「行き詰まり」の状態から自らを救い出せないなら、それをAGIと呼ぶのは難しいという点です。

2019年の加入以来、Jerry氏はOpenAIで6〜7年間働いてきました。わずか30〜40人の小さな研究所から、世界最大級の会社の一つへと成長する中で、Jerry氏はOpenAIでの経験は「本当にクレイジー」だったと認め、当初はここが本当に「AGIを構築する場所」だと信じていたと語りました。

彼の記憶にあるOpenAIの最も重要な決定は2つあると述べました。1つは、GPT-4をトレーニングするために大量のリソースを集中させたことです。これは多大なトレードオフを伴う決定でしたが、OpenAIの歴史において極めて重要であり、事後的に見れば非常に良い選択でした。もう1つは、「推論モデルが未来である」という賭けをし、OpenAIを完全にこの方向へ転換させて、o1とo3をリリースしたことです。

Jerry氏は、OpenAIの研究部門は当初から製品チームと高度に分離していたと明かしました。会社の核心的な使命は常に「インテリジェンスの構築」でした。会社にとって、通常は極めて困難なこと一つを極限まで行うことしかできず、複数の困難なことを同時にトップレベルで行うことは稀です。また、Anthropicがコーディングでリードしていることを認め、その鍵は方向性の集中にあると考えました。

Jerry氏は、現在、最も重要なスキルは「初級エンジニアの管理」能力であると考えています。最優秀な管理者はシステムを深く理解しつつ、他人に決定を任せることができます。これはまさに、モデルと協業する際の最良の方法でもあります。

Jerry氏はまた、最近更新した重要な認識として、静的なモデルが決してAGIになることはできず、継続的な学習が不可欠であると共有しました。さらには、ロボティクス分野でChatGPTのような「転換点の瞬間」が訪れるには、おそらくあと2〜3年を要すると考えています。

以下は対話の全文です。一部削除や編集を加えています。

スケーリングのパラダイムはどこまで行けるのか：

スケーリングによる利益は安定しているが、問題は汎化だ

司会者：あなたはOpenAIで推論モデルの導入と強化学習のスケーリングを牽引しました。既存のスケーリングパラダイムから見て、現在のプリトレーニング＋強化学習のアプローチで能力はどこまで行けるのか、そしてこのルートが最終的にモデルをどこまで連れて行ってくれるのか、あなたの判断はどうですか？

Jerry：それは我々をどこかへ連れて行ってくれるでしょう。問題は、その「場所」をどう名付けるかです。

司会者：あなたが定義してみてください。

Jerry：しかし、大多数の実務家にとって、非常に現実的で、かつかなり衝撃的な事実があります。それは、スケーリングによる利益は真实的であり、予測可能で、かなり安定しているということです。プリトレーニングの規模を拡大するたびに、より良いプリトレーニングモデルが得られます。つまり、モデルは世界についてより多くのことを知り、言語をより深く理解し、周囲のあらゆるものに対してより完全な「言語化された世界モデル」を構築します。同様に、強化学習の規模を拡大すると、モデルは我々が望むスキルの獲得においてより良くなります。

どちらの場合も、基本的には「あなたがトレーニングしたものを得る」ことになります。次のトークンの予測が得意なモデルが欲しいなら、大規模にプリトレーニングを行い、next-token predictionで非常に強力なモデルを得ます。特定のスキルセットが欲しいなら、それらのスキルに対して強化学習を行い、モデルはそれらのタスクで非常に優秀になります。ある意味では、明確な上限はほとんどありません。今では誰もが知っています。あるスキルを重視するなら、それに対して強化学習を行えば、モデルはそれを非常に良く学習できます。事は基本単純で、本当に効果的です。真正に躊躇したり、行き詰まりを感じたりするのは、これらのモデルの汎化能力がどうか、という点です。トレーニング分布の外でモデルはどう振る舞うか、プリトレーニングコーパスに存在しない知識をモデルは処理できるか、おそらくできないでしょう。強化学習でトレーニングしたことのないタスクではどうか、おそらくあまりうまくいきません。

したがって、これらは現在、AI界に残されている核心的な問題です。我々は「明示的にトレーニングしたこと」に極めて長けてきているのです。

司会者：これは2つの異なる見方を引き出しているようです。1つは、我々は強化学習の潜在能力を探り始めたばかりであり、規模を拡大し続ければ汎化能力は自然に現れ、これら2つのスケーリングルートで十分遠くまで行けるという考えです。もう1つは、突破を続けるには、全く新しいパラダイムを導入する必要があるかもしれないというものです。あなたはどちらよりですか？

Jerry：これは根本的にある種の「経済的な問題」だと思います。明らかに「スケーリング」は主に「データの増加」を意味し、データがなければ、スケーリングはほぼ不可能です。モデルに得意になってほしいデータを継続的に追加すれば、モデルはそれらのことでより良くなります。

現在見られている現象は、四半期ごと、すべての研究所がより強力なモデルを発表していることです。その背景には、ほとんどの場合、3つのことがあります。第1に、より多くの算力。第2に、より重要なことですが、より多くのデータ。第3に、最も重要なこととして、それらのデータは前世代のモデルの弱点に合わせて精心定制されたものです。

これは極めて強力な方法論です。継続的に反復すれば、ますます良いモデルをトレーニングできます。この観点から見れば、「モデルにしてほしいこと」のデータを継続的に補充し続ければ、最終的にそれらのことでパフォーマンスが良いモデルを得ることが確かにできます。しかし、このサイクルはある意味で「遅い」です。本当の問題は、もっと速くできるかどうかです。既存のトレーニングパラダイムの下で、私はターゲットとなるデータを継続的に追加すれば、モデルは対応するスキルを学習し、ある程度の汎化を持つと確信しています。しかし、核心的な問題は、より少ないデータでより多くの能力を得ることができる別の研究方向性があるかどうかです。モデルが既に見て学んだことをより良く利用して汎化するための、より「根本的」な方法があるのでしょうか？

司会者：これらの潜在的な新方向については後で戻りましょう。まず、聴衆のために背景を構築してください。あなた自身の経験から、強化学習は現在どこでうまく機能し、どこでそうでないでしょうか。「検証が容易」と「検証が困難」なタスクの違いについて多くの人が言及します。あなた自身のメンタルモデルはどうですか？今日のRLが本当に効果的にできることは何ですか？

Jerry：「検証が容易/困難」という問題は、本質的に「意味のある品質シグナルを得られるか」という問題に近いです。OpenAIでは、強化学習によってモデルを様々なタスクでより良くすることで、多くの面でかなりの進展を遂げてきました。実際、強化学習は「非常に多くのこと」に使用できます。

しかし、本質的に「良い」か「悪い」を判断することが難しいことや、フィードバックを得るために非常に長い時間を待たなければならないこともあります。例えば、本を書くこと。簡単な方法で良さを判断することもできますが、真に信頼できるシグナルは、出版され、どれだけの人が読み、購入したいかを見て初めて得られるかもしれません。それでも、このシグナルが常に信頼できるとは限りません。批評家が傑作だと一致して評価しても、マーケティングの失敗により全く売れないかもしれません。

では、「良い本を書く」に対してどう強化学習を行うのでしょうか？それはそもそも答えにくい質問です。人間はどうやって良い本を書くことを学ぶのでしょうか？これもまた極めて複雑な問題です。

起業も同様の例です。多くの会社が初期段階で立ち上がりますが、どれが「良い会社」かをどう知るのでしょうか？往々にして5年、10年後でなければ明らかになりません。創業者が初期に行ったある決断が正しかったか間違っていたか、それとも、成功は主に運によるものか？このようなシナリオでは、直接強化学習を行うことは非常に、非常に困難です。

とはいえ、「いかなる形式のフィードバック」でも得られれば、原則としてそれを使って強化学習を行うことができます。

司会者：あなたが関与したモデルがプログラミングコンテストや数学コンテストなどのタスクで見せたパフォーマンスは、多くの人を驚かせました。しかし、人々はまだ直感を構築しようとしています。現実世界のほとんどのタスクは「プログラミングや数学」に近いのか、それとも「本を書く、起業する」のような報酬シグナルを構築するのが極めて困難で、反復試行も難しいタスクに近いのか？例えば、会計、医学、法律など、あなたの直感ではこれらはどちらのカテゴリに近いと感じますか？

Jerry：結局のところ、一つの問題です。「あなたがどれだけうまくやっているか」を判断するのがどれだけ簡単か、という点です。人間にとっても、本が良く書かれているかを判断することは本来難しいです。

もし会計チームの管理者であり、その分野に明確なルールがあるなら、どの会計士が良くやり、そうでないかを比較的容易に判断できます。ルールが明確であれば、これらのルールを使ってほとんどすべてのシステムをトレーニングできます。

医学も同様です。私は最近、外科医について多くのことを考えていますが、そこには確かに明確なルールと明確なフィードバックシグナルが存在します。患者が手術後に生存したかどうか、それはそれ自体が非常に強力な成功基準です。さらに興味深いのは、真にトップレベルの医師は、重要な場面で「既存のルール」に違反することです。経験に基づく判断により、これまでにない方法で手術を行う必要があると考えるのです。彼らは慣例を破りますが、結果として成功し、患者を救います。

モデルも、十分な時間と十分な試行回数があれば、同様のことが可能であると私は考えています。本当の問題は、モデルがそのレベルに達するまでにどれくらいの時間がかかるか、ということです。

司会者：強化学習を人々がより関心を持つより多くのタスクで汎化させたい場合、次に本当に攻略すべき最前線の問題は何だと考えますか？

Jerry：汎化は本質的にモデル自身の属性であると考えます。トレーニング時、あなたが真に決定するのはトレーニングの目標です。最終的に得られるものは、基本的にあなたが最適化したその目標です。問題は、「おまけ」としてどれくらいの追加能力を得られるか、です。

いくつかの学習方法、例えばnext-token predictionでさえ、ほとんど汎化しないものがあります。最近傍分類などがその例です。理論的にはあらゆる機械学習問題を解決できますが、構築される世界の表現が極めて単純であるため、汎化能力は極めて低いです。

ニューラルネットワーク、特に大規模にトレーニングされたものの魔法のような点は、それらが「非常に有用で、抽象的な世界の表現」を学習することです。時々、我々はこれを「ただで得た（タダ）」ことさえ感じます。インターネット上でトレーニングされた巨大なTransformerが、現実世界の様々な概念をこれほど深く理解しているのはなぜでしょうか？

この汎化能力は、Transformerアーキテクチャ、大量のパラメータ、そして繰り返し適用される勾配降下法に由来します。これはそれ自体が魔法のようです。問題は、より良く汎化できる異なるモデルが存在するかどうかです。答えは「イエス」であることはほぼ確実です。本当の問題は、それはどんな姿をしているか、です。

もしモデルが困難に遭遇した際に自ら突破できないなら、

「AGI」と呼ぶのは難しい

司会者：以前、あなたは強化学習のスケーリングを行った後、AGIに対する時間的予測がより保守的になったと聞きました。なぜですか？

Jerry：私自身、以前は非常に楽観的で、モデルに強化学習を行えばAGIにたどり着けると考えていました。私たちは既に達成しているかもしれません。それは既にAGIかもしれませんが、これは完全に「非常に主観的な判断」です。「AGIとは何か」は、往々にして我々に何が欠けているかに依存するからです。

現在のモデルは、ほぼすべてのオリンピックレベルの問題、様々なコンテストの問題を解決できます。さらには、「空前の数学的問題」を解決し始めています。GPT-5.2のような例を毎週見ることができます。

では、いつ「全員が同時に頷いて『そうだ』と言える」瞬間が来るのでしょうか？私は分かりません。私はプログラミングモデルのヘビーユーザーです。それらはまだ間違いを犯します。元々長い時間を要する作業を完成させるのを助けてくれ、極めて強力な生産性増幅器です。しかし同時に、明らかな失敗シナリオも存在します。モデルが失敗すると、すぐに一種の「無力感」を覚えます。何度もエラーメッセージを貼り付け、「これはダメだ、別の方法で」とモデルに伝えたり、時には「精神的な励まし」を与えたりすることさえあります。しかし本質的に、モデルには失敗後に真に信念と内部知識を更新するメカニズムがありません。これが私の観念における最大の変化です。モデルが困難に遭遇した際に自ら突破できず、「行き詰まり」の状態から自らを救い出せないなら、私はそれをAGIと呼ぶのは難しいです。

真のインテリジェンスは、解決策を見つけるまで継続的に試行し、問題の構造を探ります。現在のモデルは、まだその段階には達していません。

司会者：これはまさに「純粋なプリトレーニングと強化学習のスケーリングを超えた」研究分野への移行です。あなたが先ほど話した多くの問題は、実際には「継続的な学習」に非常に近いです。これも最近、公の場で越来越多的に議論されているトピックです。マクロ的な視点から、継続的な学習を真に実現可能にするために、コアであり解決される必要がある一連の問題は何か、聴衆にどのように説明しますか？

Jerry：最も核心的な点は、モデルを継続的にトレーニングしたいのなら、モデルが「崩壊」せず、奇妙で制御不能な状態に入らないようにしなければならないということです。ディープラーニングのトレーニングが失敗する方法は数多くありますが、現在、大規模な研究所の作業の大部分は、モデルを「軌道に乗せ」、トレーニングプロセスを健全に保つことにあります。根本的に、これは非常に脆弱なことです。トレーニングは天然とスムーズに進むプロセスではなく、継続的に大量のエネルギーを費やさなければ、トレーニングが「爆発」しません。そうしなければ、最終的に良いモデルを得るのは難しいです。

そして私見ですが、これは人間の学習方法とは本質的に異なります。人間の学習プロセスははるかに「反脆弱」であり、堅牢です。人間は学習プロセスの中で継続的に自己修復や調整ができ、容易に崩壊することはありません。私が強化学習の研究をしていたとき、よく驚かされました。人間は新しい情報を学んだ後に突然「ダウン」し、戯言を言ったり、奇妙な認識状態に陥ったりすることがいかに稀であるか。一方、AIモデルはこうした状態に比較的容易に陥ります。これが研究者たちが解決しようと努めている問題です。理論的および実践的な観点の両方から、この不安定性に対処する方法です。この「トレーニングプロセス自体の根本的な堅牢性」こそが、継続的な学習を実現するために必要な重要な前提である可能性が高いと私は考えています。

司会者：継続的な学習についての興味深いアイデアのうち、どれくらいが以前から存在し繰り返し議論されてきたもので、どれくらいが真に新しい研究問題ですか？

Jerry：研究者として、最も重要で、かつ自分自身に繰り返し問うべき価値のある問いの一つは、「なぜこの問題が今まで解決されていないのか？」です。継続的な学習は明らかにまだ真に解決されていません。では問題は、なぜですか？世界にはこれほど多くの聡明な研究者がおり、これほど多くの優れたアイデアがあるのに、誰も今のところ継続的な学習を「攻略」できていません。その背後には必ず理由があります。

この問題については多くの異なる仮説があります。しかし、その中で私が非常に根本的な原因だと考えているのは、これはおそらく「規模」においてしか解決できない問題であり、少なくともある規模の閾値に達しなければならないということです。現在、このような研究を行うための条件を本当に備えているトップレベルの研究所の数は非常に限られています。それらが同時に推進できる研究プロジェクトも限られています。したがって、正しい方向性がないわけではなく、もし小規模で完全に検証され、根本的な突破が可能な問題であれば、おそらくとっくに誰かが成し遂げていたでしょう。つまり、それは極めて複雑であり、理論的に非常に困難な問題か、あるいは既に非常に大きなモデルと計算リソースが必要であり、それらは少数の研究所の手中にあるかのどちらかです。そして、これら少数の研究所は、恐らくまだその特定の経路を探求する時間がなかったか、選択していないだけかもしれません。なぜなら、彼らは当時、他のことに忙しかったからです。

司会者：以前、AI研究において、あるアイデアは「まだ適切な時が来ていない」ものの、依然として良いアイデアであるというあなたの意見を聞いたことがあります。強化学習自体がその一例です。大規模なプリトレーニングモデルを基盤として持った後に初めて、真の爆発を起こしました。つまり、あなたの直感では、現在既に非常に良いアイデアが存在しており、それらが十分に大規模な規模で試されることがあれば、この種の問題に巨大な助けになる可能性がある、ということですか？

Jerry：はい、完全に同意します。

各研究所が研究方向性で高度に収束している

司会者：各研究所が研究方向性で高度に収束しており、行っていることがますます似てきているという現象にも言及しましたね。これが過去2〜3年間のあなたの真の感情かどうかは分かりませんが、あなたがかつてある作業を主導していた時、それらは確かに新しい方向性であり、多くの研究所は当時少し対応に追われていました。過去1年ほどのこの「収束」の傾向について話してもらえますか？これはあなたにとって意外ですか？

Jerry：強化学習には、「探索と活用」という非常に古典的で十分に研究されたトレードオフがあります。いつ新しいことを試すべきか、いつ既に得意なことを極限まで最適化すべきか。このトレードオフ自体に標準的な答えはありません。「未知のもの」が探求する価値があるかどうかを永遠に知ることができないからです。

根本的に問題は、現在の経路とは全く異なるルートがあり、巨大な利益をもたらす可能性があるかどうかです。しかし、探索空間の地形を完全には把握していなければ、その問題自体が極めて困難になります。

かつて誰かが私にこう言ったのを覚えています。なぜすべての商用旅客機が同じように見えるのか？製造会社が一社ではないのに。理由は、経済的制約の下では、それは基本的に最も効率的なデザインだからです。

今日、各研究所の行動も、非常に強い経済力によって駆動されています。競争に参加したいなら、「可能な限り低いコストで、可能な限り良いモデル」を作る必要があります。この目標の下では、既存の技術の組み合わせは既にかなり効率的です。顧客はいつでもモデルを切り替えることができ、最終的に利益を得るのはユーザーです。これはさらに、研究所が同じ経路上で継続的に効率化を行うよう促します。もちろん、探索と活用の問題は常に存在します。「外海へ航行」し、遠くに全く異なる大陸があるかどうかを見るべきか？全く異なるモデルをトレーニングすべきか？

そうすると、注意が分散し、既存の方法をより良く、より効率的にすることができなくなる可能性があります。しかし一方で、そこには10倍、あるいは100倍のブレイクスルーが存在するかもしれません。最終的には、未知を探索するためにどれだけのリスクを負う意思決定と判断にかかっています。

司会者：言ったように、現在確かに非常にはっきりしたルートがあります。強化学習や様々なタスクにデータを追加し続け、経済的な価値のある能力を継続的に高めることです。各研究所は明確なロードマップを持っており、これは逆に「全く新しい方向性に一か八か賭ける」ことをより難しくします。かつてプリトレーニングがボトルネックに近づいていた時期は、かえって探索を奨励しやすかったです。

Jerry：はい、歴史的段階は确实に異なります。ある時期は探索のスペースが大きく、許容範囲も高くなります。競争が極めて激しくなると、それは「囚人のジレンマ」のようになります。異質であることを選択すれば、市場競争で優位性を失いやすくなります。

研究所の先発優位性は重要だ

司会者：研究所は「次の大きなブレイクスルー」の発見者になる必要があると思いますか？なぜこう聞くかというと、これらのアイデアは往往々にして非常に早く広まるからです。例えば、あなたの推論モデルでの画期的な作業は、現在では数社の研究所が強力な推論モデルを持っています。ブレイクスルーが他の場所で起きたとしても、研究所は完全に受け入れられるのではないかとさえ考えています。なぜなら、これらのアイデアは最終的に既存の商業体系に吸収されるからです。

Jerry：思想の広がりは良いことですが、「一歩リードする」価値は軽視されるべきではありません。私たちはそのような例を見てきました。かつて多くの人々がOpenAIは成功できないと考えましたが、同社は大規模なTransformerプリトレーニングで一歩リードし、最終的に世界で最も成功した会社の一つになりました。同様に、OpenAIは大規模な強化学習の問題にいち早く取り組みました。これにより、同社は今日に至るまで、業界で最も強力な強化学習研究体系の一つを持ち、より大胆で野心的なことを行うことができています。

アイデアが広がっても、「先発優位性」は依然として極めて強力です。もしその優位性を維持できれば、それは長期間にわたって存在する可能性さえあります。私は最近、半導体製造に関する本を読んでいます。多くの初期の重要な技術発明は米国で起こり、その後世界各地に徐々に広まりました。しかし同時に、他の国が追いつけない段階的な優位性も存在します。この早期の賭けと継続的な投資がもたらす複利効果は、長い間にわたって作用します。

一国だけが半導体を作れるわけではありませんが、すべての国が作れるわけでもありません。産業の変革のたびに、新しい成功者と新しい敗者がいます。ある古い会社は成功裏に変革し、あるものは淘汰されます。これが進歩におけるダーウィン的なプロセスです。

司会者：消費者や企業は往々にして、「魔法のような体験」をもたらした最初の会社を覚えています。あなたはChatGPTで確かにその経験をしました。強化学習でこれほど多くの進展を遂げ、この方向性は今も推進されていますが、あなたは最終的にOpenAIを去り、新しい研究分野を探求することを選択しました。いつ、自分が去りたいかもしれないと意識し始めましたか？そして、どのようにして本当にその決断を下したのですか？

Jerry：これは突然起きた決断ではなく、心の中で徐々に育っていったプロセスです。OpenAIは去りやすい場所ではありません。そこには多くの友達、共通の歴史があり、私の人生の大部分がそこで築かれました。私はかつて、すべてが継続して回転するように懸命に努力し、異なる可能性を探しました。

しかし、研究者として、ある日目覚め、自分がやっていることを真に愛しておらず、それに対して極度に興奮していないと気づいたなら、それは別のことを試す時かもしれません。100%の情熱を持っていなければ、最高の研究作業を行うことはほぼ不可能です。私はOpenAIで無限の情熱を持った日々を過ごしましたが、その後、この感覚を維持することがますます困難になりました。

司会者：では、今は何があなたにエネルギーを与えていますか？

Jerry：最も根本的なレベルでは、私が最初にOpenAIに参加したのは、強化学習がAGIへの不可欠な構成要素であると信じており、それを本当に起こさせたいと思ったからです。「推論モデル」をこの世界に導入することは、私にとってパラダイムレベルの転換でした。ある意味では、私は再びその感覚を追い求めたいです。現在のモデルトレーニング方式で欠けているピースを見つけ、それを主流にさせようとすることです。しかし、一度そのようなことをすると、同等の強度の「衝撃」を再び得ることは難しくなります。したがって、今私が欲しいのは、考え、探求し、最も核心的で重要な問題を解決しようと試みるための自由です。

司会者：今は多くの具体的な仮説を持って推進していますか、それとももっと「視野を広げ」、分野全体を再観察していますか？

Jerry：通常、真に重要な問題は、7年間機械学習をしてから突然発見されるものではありません。あなたは本来、どの問題が最も核心的かを知っています。真に難しいのは、すべての人とは異なる方法でそれらを解決する方法です。なぜなら、それらが従来の方法で解決できるなら、とっくに誰かが成功しているはずだからです。

OpenAIの2回の重要な決定：

リソースを集中してGPT-4をトレーニング、「推論モデルが未来」に賭ける

司会者：2019年にOpenAIに参加して以来、ほぼ毎年が「別の会社」のようだと述べました。この6〜7年の変遷を振り返り、あなたの目に映るOpenAIの成長物語を聞かせてください。

Jerry：わずか30〜40人の小さな研究所からスタートし、しかも当初から完全にオープンでした。これは極めて大胆な選択でした。私たちは当時、ここがAGIを構築する場所であり、世界にデジタルインテリジェンスの普遍的な利益をもたらすと本当に信じていました。

最初の数人が「クールに見えるが、極めて野心的な」プロジェクトを行っていたことから、今日、世界最大の会社の一つに発展し、ほぼすべての人が知っていて、毎日使い、生活に欠かせない製品を作るまでになり、もはやそれがない生活を想像するのが難しくなりました。この経験は本当にクレイジーです。ご存知のように、OpenAIの管理層と組織構造は、過去1年間でかなり大きな変化がありました。毎日一緒に働く人が変わり、会社の規模が変わり、研究テーマも絶えず変化しています。初期には「プリトレーニング」という概念さえなく、その後、ある時期はほぼすべてがプリトレーニングを中心に展開されました。その後、それは私たちの「古いOpenAI」のようになりました。現在はよりバランスが取れており、プリトレーニングと他の方向性が共存しています。多くの人がOpenAIを去り、会社を設立したり、新たな人生の段階を始めたりしています。同時に、大量の優秀な新鮮な血が加入し、内部で非常に優れた研究を継続しています。これは絶えず自己を再形成し、各段階で成功裏に成長している会社です。偉大な成功した会社の物語はきっと素晴らしいものであり、これらの段階を体験することは複製不可能な経験であると私はよく考えます。私はOpenAIの非常に初期の段階に参画したと感じており、この経験は他のほとんどのこととは比較できないものです。

司会者：将来的に誰かがOpenAIの歴史を体系的に書くのを皆が楽しみにしています。通常、この種の物語は「重要だが極めて困難な決定」、つまり異なる方向へ発展する可能性のある分岐点に焦点を当てます。あなたにとって、特に印象深い重要な決定はありますか？

Jerry：それは良い質問です。実際、私はその一部にしか関与しておらず、多くの決定では私が単なる「背景役」だったかもしれません。例えば、ChatGPTを世界にリリースするかどうかの検討。あなたも聞いたことがあるかもしれませんが、その後の普及度、ウイルス的な拡散は、少なくとも内部では誰も真に予測していませんでした。ChatGPTとその後のGPT-4のリリースに伴い、私たちは「瞬間」を作り出し、予測極めて困難なの勢いを形成し、これは多くの次元で今日のOpenAIを形作りました。もう一つの例は、その時点で大量のリソースを集中してGPT-4をトレーニングしたことです。これも多大なトレードオフを伴う決定でしたが、OpenAIの歴史において極めて重要であり、事後的に見れば非常に良い選択でした。あと非常に重要な賭けがもう一つあります。「推論モデルが未来である」という賭けです。当時は全く確信がなく、主に第一原理に基づく思考と直感に基づいていました。私たちはOpenAIをこの方向へ完全に転換させることを決定し、当時はプロダクトと市場の適合点が見えなくても行いました。初期の推論モデルは賢く見えましたが、ほぼパズルをするのにしか適しておらず、現実的な用途にはあまり役に立ちませんでした。その後、より多くの投資、ツールを使用する能力の追加により、研究とプログラミングで極めて有用になり始めました。一度真のPMF（プロダクトと市場の適合）が現れると、人間は「既に機能しているもの」を最適化することに非常に長けています。しかし、その段階に至るまでは、非常に困難で、研究に値する旅でした。OpenAIはその段階で、本当に試験に合格したのです。

司会者：この「不確実性の中で継続的に賭けを増やす」プロセスは非常に興味深く、現在の推論モデルに対するあなたの判断と高度に関連しています。いつ、これが単なる楽しいものではなく、スケーリング可能で、遠くまで行けると真に意識しましたか？

Jerry：正直なところ、私は最初からそれを信じていました。これは主に強化学習に対する私の信念によるものです。OpenAIに参加した初日から、私はAGIに向かうには強化学習が不可欠な構成要素であると確信していました。問題は「やるかやらないか」ではなく、「いつ準備が整い、どうやるか」でした。時間と研究の推進に伴い、我々は継続的に実験結果を得て、このルートが正しいことをさらに検証しました。

Anthropicがプログラミングでリードしている理由：集中

現在、最も重要なスキルは「初級エンジニアの管理」

司会者：OpenAIの非常にユニークな点は、AGIを追求する研究所であると同時に、「予期せず」世界を席巻した消費者製品を作ったことです。会社が同時に消費者製品、企業製品、核心研究をを行っていますが、内部でどのように運営されているのですか？研究者はあまりにも多くの異なる方向へ引っ張られることはありませんか？

Jerry：一つだけ明確な点があります。OpenAIの研究部門は当初から製品チームと高度に分離されていました。会社の核心的な使命は常に「インテリジェンスの構築」でした。確かに特定の製品指標を中心にモデルを最適化する製品向け研究チームがありますが、大多数の研究の焦点は常に、モデルをより賢くする方法です。少なくとも研究内部では、この「引っ張り合い」はそれほど強くありません。本当に複雑なのは、OpenAIが我々の世代が経験し得る最大の技術革命の中心に立っているということです。機会が本当に多すぎて、ほぼすべての業界がAIによって再構築されます。何もしないことは逆に浪費に見えます。しかし、これは非常に現実的で危険な問題をもたらします。「集中」です。会社通常は極めて困難なこと一つを極限まで行うことしかできず、複数の困難なことを同時にトップレベルで行える組織は稀です。これはOpenAIにとって巨大なリスクです。

例えば、OpenAIは「コード」という方向性でフォーカスを失った時期があり、注意力を消費者製品により多く向けました。これにより市場シェアの代償を確実に払いました。現在、彼らは懸命に取り戻しており、最近のコーディングモデルは確かに非常に強力になりましたが、この気を散らすことにはコストがかかります。AIを行う会社は今、キャンディ店に入ったようで、潜在価値の非常に高いもので溢れており、余計なことをしないようにするのは難しいです。しかし、すべての方向性には競争があり、問題は結局、誰がどのことを本当に正しく行えるか、にあります。

司会者：これはまさにエコシステムの問題につながります。あなたはコーディングの分野に言及しましたが、Anthropicはなぜコードでこれほど際立ったパフォーマンスを示しているのでしょうか？

Jerry：一言で言えば、「集中」です。私はAnthropicの創業者を知っており、彼らがまだOpenAIにいた時からそうでした。彼らは一貫してプログラミングを極めて重視し、これがAGIへの重要な構成要素であると確信していました。私は彼らがこの方向性によりどれほど集中したエネルギーを投入してきたか想像できます。最新のClaudeコーディングモデルとエージェントは、確かにこのビジョンを大きく推進しています。彼らは「会社でもはや個人が自分でコードを書くことはほとんどない」と言っており、これは誇張ではないと私は考えています。

司会者：これは、将来の大規模モデル研究所が自然に分業し、それぞれ異なる能力に集中することを意味しますか？

Jerry：それは我々が最終的にどのような世界に住むかによります。も「データ」が核心的な駆動力であるなら、これはゼロサムゲームです。あるスキルにデータを投入すれば、モデルはそのスキルで強くなり、市場は自然に分裂、専門化します。もし「研究」が鍵であるなら、研究には一種の「魔法の属性」があります。一度成功したブレイクスルーは、モデルをすべての分野で同時に飛躍させ、全面的にリードする可能性があります。現在、どちらの未来が優勢になるかまだ分かりません。しかし、私はより汎用的なルートが存在することは確信しており、それが見つかるのがどれだけ難しいかだけが不明です。

あるいは少し悲観的ですが不可能ではない状況も存在します。おそらく人類が手で設計できる最後のモデルに既に到達しており、次は、モデルがより良いモデルを自ら研究することになります。現在のコーディングエージェントは既に十分強力であり、巨大な計算リソースを加えれば、この推論は不合理ではありません。もちろん、私は依然として人間が継続して自ら行うべき重要なことがあることを望んでいます。本質的に見れば、プログラミングの歴史は抽象化のレイヤーを継続的に高めることです。コーディングエージェントは、全く新しい、より高レベルの「プログラミング言語」と見なすことができます。

将来は人間が直接コードを打たなくなる可能性が高いですが、ソフトウェアは依然として信頼可能でなければなりません。我々が解決すべき問題は、我々がコードを書かず、あるいは読まなくなったとき、システムが正しいことを行ったことをどう保証するかです。私はこれらの問題は解決可能であると考えています。

現在、最も重要なスキルは、実は「初級エンジニアの管理」能力です。最優秀な管理者はシステムを深く理解しつつ、他人に決定を任せることができます。これはまさにモデルと協業する際の最良の方法です。研究チームと一緒にいないことは、確実に応用会社の一種の不利な点です。最終的に、成功したAI会社は往々にして自分でモデルのトレーニングを始めます。応用会社は製品からスタートし、段々とポストトレーニング、再トレーニングへと進み、最終的には自分のデータセンターさえ建設するかもしれません。これは自然な成長の経路です。

これは小さな会社にチャンスがないことを意味しません。もしデータが重要なら、データで差別化できます。もし研究が重要なら、小さな会社も制約の中でイノベーションを生み出す可能性があります。特定の分野に集中し、モデルの不足を知ることは、逆にその分野で極めて強力、あるいはより広範なレベルでより優れたモデルを作り、そこから次の巨人へと成長する可能性があります。

司会者：しかし、現実は、過去の一般的な問題として、あなたがほんの少しリードしただけかもしれず、「1秒」程度であっても、次世代のモデルがリリースされると、突然自分がはるかに遅れを取っていることに気づく、というものです。

Jerry：競争は確かに残酷です。我々は米国のテクノロジー業界でこれを何度も見てきました。大企業は多くの構造的な優位性を持っており、これは事実です。しかし同時に、新しい、非常に成功した大企業も絶えず現れています。したがって、希望がないわけではありませんが、非常に困難です。

優秀なAI研究者が備えるべき能力：

システム工学、理論、独立思考と反画一的

司会者：話題を人材エコシステムと研究そのものに転じたいと思います。あなたは非常に傑出した研究者であり、多くのトップレベルの研究者とも仕事をしてきました。現在、研究者の採用競争は異常なほど激しいですが、あなたもかつてOpenAIの大量の採用業務に参加しました。現在、一体何が研究者がどの会社を選ぶかを決定しているのでしょうか？

Jerry：それは良い質問です。結局のところ、人間は非常に複雑です。現在、モデルよりも複雑です。誰もがインセンティブや求めているものが異なるため、一概に言うのは実際には難しいです。

採用担当者は「どうすれば最も多くの人を惹きつけられるか」や「どうすればすべての研究者にとって最も魅力的に見えるか」とだけ聞くべきではないと考えます。それは確かに問題ですが、もっと重要な問題があります。「どのような研究者がここで働くことを本当に望むのか？」です。すべての人を喜ばせようとすることはほぼ不可能だからです。異なる人には異なる好み、異なる価値観、異なる仕事のスタイルがあります。そうするよりも、価値観と方法論が高度に一致したチームを意図的に構築する方が良いです。事実は繰り返し証明されています。目標が一致し、整列したチームは、行動がより速く、効果がより良いです。

したがって、これは本質的に双方向の選別プロセスであり、「適切な人」と「適切なチーム」を見つけることで、個人はより幸福になり、チームはより成功し、時間の経過とともにそのチームはますます魅力的になります。

司会者：しかし、Metaが途方もない報酬パッケージを使って人を奪うなど、いくつかの興味深い実験も見ています。このアプローチをどう思いますか？

Jerry：会社によって研究チームを構築する戦略は異なります。ある段階では、Metaは明らかに供給曲線の不利な側にいて、いくつかの挫折を経た後、非常に魅力的な条件で人を再び惹きつける必要がありました。人材市場において「勢い」と「動量」は非常に重要であり、覆すのも非常に困難です。業界内で「あなたはもうダメだ」という認識が一旦形成されると、採用ができなくなり、それ自体がさらにその印象を強化します。

したがって、この観点から見れば、これはマイナスのフィードバックループを断ち切るための合理的、あるいは賢明な戦略です。大テック企業にとってAIが重要であるという背景の下、Metaも確かに新しいチームを再構築し、新しいモデルをトレーニングしています。業界全体がこの試みが成功するか、そしてそれがこの研究所の将来をどう決定するかを注目しています。とにかく、このステップは確実にMeta AIに新しい活力を注入しました。

司会者：あなたは多くの画期的なAI研究を行い、多くのトップ研究者と仕事をしてきました。あなたの見では、どのような人材が優秀なAI研究者と言えますか？

Jerry：それは答えにくい質問です。ある意味では、成功は確かに「正しい時に正しい場所にいる」ことに関係しています。しかし、基本を語るなら、現在の優秀なAI研究者は、システムとエンジニアリングのレベルと理論のレベルの両方で非常に堅実でなければならないと考えます。コンピュータシステムがどう動くか、ニューラルネットワークがどうトレーニングされるかを理解すると同時に、ニューラルネットワークと最適化の理論的基礎も理解する必要があります。片方だけが得意であれば、トップに到達するのはほぼ不可能です。もし両方が少なくとも「十分」であれば、あなたの研究効率は直接的に1桁向上します。

もう一つ極めて重要だが、よく見落とされる能力は、「独立思考と反画一的」です。人間には群体的な中位数の意見に徐々に収束する自然な傾向があり、これは真の研究をほぼ殺してしまいます。私はよく言いますが、もし100人の研究者が同じことを考えているなら、あなたは本質的に1人の研究者しか持っていないことになります。

研究の本質は「まだ機能しないこと」を行うことであり、これらはまさに大多数の人々が一時的に信じていないことです。これを行うには、非常に稀な資質、「勇気」が必要です。立ち上がって「別のルートを試してみよう」と言うことです。今日、実験が極めて高価な時代には、これは特に困難です。多くの機械学習実験のコストは、もう映画に近いです。映画のように、スター俳優や特殊効果を使ってリスクを下げることはできますが、最終的に、実験は実験であり、結果は常に不確実です。

したがって、要約すると：システムと理論を深く理解し、過度に付き従わず、自分の判断を坚持する勇気を持つこと。これらが私の心目における優秀なAI研究者の核心的な特質です。

静的なモデルが決してAGIにはなれない

ロボティクスの「転換点の瞬間」まであと2〜3年

司会者：我々は通常、早口質問でインタビューを締めくくります。最初の質問：過去1年で、AIについてあなたが変えた重要な見解は何ですか？

Jerry：最近の重要な認識の更新は、「静的なモデルが決してAGIにはなれない」ということです。継続的な学習が不可欠です。

司会者：これは、静的なモデルが能力の面でできないからですか、それとも定義からしてAGIの要件に合致しないからですか？

Jerry：むしろ、モデルに依然として欠けているものが徐々に明らかになったからです。それらは多くの面で非常に強力ですが、継続的に学習できないなら、私の見方では、それらは永遠に人間の監督を必要とするツールであり、真のエージェントではありません。

司会者：今日議論した分野以外にも、AIは他の方向性でも急速に進展しています。ロボティクス分野でChatGPTのような「転換点の瞬間」が訪れるには、あとどれくらいかかりますか？

Jerry：おそらくあと2〜3年でしょう。

司会者：その判断はかなり急進的ですね。多くの人々はまだ、ロボティクス分野にスケーリング則があるのか、データが十分か疑っています。

Jerry：正直なところ、現実は大多数の人々が想像しているよりも良いと考えます。多くの会社が実質的な進展を遂げており、成果が熟成し、さらなる投資を必要とするだけです。私は今後数年のロボティクスの発展にかなり楽観的です。

司会者：では、生物学の分野ではどうですか？

Jerry：生物学はずっと遅いです。

司会者：なぜロボティクスよりも遅いのですか？

Jerry：必要なインテリジェンスのレベルと操作精度から見て、生物学ははるかに複雑です。これはより多くの基礎的な投資が必要で、本当によく飛び立つことのできる分野です。

司会者：モデルの継続的な進歩の背景の下で、社会が過小評価している、あるいはまだ十分に議論していない影響は何だと思いますか？

Jerry：大規模な作業の自動化は、今後数十年間でほぼ不可避です。一方で、我々は確かにこの問題について議論していますが、もう一方で、我々はまだ真剣に議論していないと感じています。

世界は今日と大きく異なっており、これは私にとってほぼ確実です。社会の移行自体はゆっくりですが、この転換は非常に奇妙で、ある面では非常に痛苦的な可能性があります。未来の雇用形態は今日とは確実に異なるため、どのようにすればこのプロセスをできるだけ痛くないようにできるか、事前に考える必要があります。私たちはこのプロセスをできるだけ痛くないようにする方法を事前に考える必要があります。なぜなら、未来の雇用形態は今日とは確実に異なるからです。

参考リンク：https://www.youtube.com/watch?v=XtPZGVpbzOE

OpenAI元研究員：モデルが自ら困難を突破できてこそAGI、最大の問題は汎化。「初級エンジニアの管理」が最重要スキル、ロボティクスの「ChatGPTの瞬間」まで2〜3年

関連記事

分享網址