OpenAIのポストトレーニング責任者が語る：AIは突然賢くなったわけではなく、信頼性という「壁」を越えただけ

ニューヨークのベンチャーキャピタリスト、マット・ターク氏と、OpenAIのポストトレーニング責任者であるヤン・デュボワ氏による深い洞察に満ちたインタビューが実現した。

GPT-5.5発表の舞台裏から、強化学習がなぜ突如として効果を発揮し始めたのか、さらにはAI業界最大の未解決問題まで、この対談は貴重な情報の宝庫だ。

両者のプロフィール

ヤン・デュボワは、OpenAIのポストトレーニング・フロンティア（Post-Training Frontiers）チームの共同責任者だ。彼のチームが担うのは、膨大な知識を持つが、まだ使い勝手の悪い大規模モデルを、真に価値あるプロダクトへと昇華させることだ。

GPT-5.5、o3、GPT-5 Thinkingといった、OpenAIの最新の中核推論モデルは、全て彼のチームの手を経ている。

デュボワ氏はスイス出身。スイス連邦工科大学ローザンヌ校（EPFL）で生物工学を専攻した後、ケンブリッジ大学で機械学習の修士号を取得。さらにナイト・ヘネシー奨学金を得てスタンフォード大学でコンピューターサイエンスの博士号を取得した。博士課程進学前には、シンガポールのGrabでNLP（自然言語処理）に従事し、タイ語、クメール語、ビルマ語といったリソースの少ない言語向けの処理パイプラインを構築。これは4000万人のユーザーをカバーするものだった。

スタンフォード大学在籍中、彼は後々の業界に大きな影響を与える二つの業績を残した。一つはStanford Alpacaだ。600ドル未満のコストでGPT-3.5に迫る性能のオープンソースモデルをファインチューニングし、オープンソースコミュニティ全体に火をつけた。もう一つはAlpacaEvalで、これは現在でも命令追従モデルの自動評価ツールとして最も広く利用されているものの一つである。

昨年のGPT-5発表時、彼は製品デモを担当。GPT-5に、フランス語圏の家族向けの言語学習アプリをフラッシュカード、クイズ、スネークゲーム付きで作成させ、わずか2分で240行のコードを書き上げて動作させてみせた。（本人談では、最終リハーサルでは動作せず、本番では非常に緊張したという。）

マット・ターク氏は、ニューヨークのアーリーステージベンチャーキャピタル、FirstMark Capitalのパートナーである。彼は2012年から毎年発表しているMAD（Machine Learning, AI & Data）ランドスケープで知られ、2024年版は2011社のロゴが掲載されるAI業界の年次必須チャートとなっている。彼もまたフランス人で、かつてOracleに買収された企業向けAI検索エンジンTripleHopの共同創業者である。

信頼性という壁を越えて

ヤン氏は冒頭、核心的な見解を提示した。それは、AIの進歩は実際には常に連続的だが、人々の体感は階段関数のように感じられるというものだ。

その理由として、彼は三つの要因を挙げた。

第一に、そして最も重要なのは、信頼性がついに臨界点を超えたことである。

「AIツールが本当に役立つためには、一定の信頼性レベルに到達する必要があります。私たちは昨年12月頃に、少なくともOpenAIでは、その壁を越えたと考えています。今では、自分たちが行っている多くの作業をこれらのモデルに安心して任せられるようになりました。」

彼は一つの比喩を使った。エージェントモデルを、2分ごとに一定の確率でエラーを起こすシステムだと想像してみてほしい。稼働時間が長くなればなるほど、最終的な回答が誤っている確率は高まる。彼らが取り組んできたのは、まさにこの「2分あたりのエラー確率」を下げ続けることだった。

この確率がある閾値を下回ると、たとえ進歩自体が漸進的であっても、ユーザーの体感は質的に変化するのだ。

第二の理由は、モデルが自身の開発を加速し始めたことだ。

OpenAI内部では、自社のモデルをコード作成、ツール開発、研究のために多用している。モデルが賢くなることで、社内の研究開発速度も向上し、ポジティブなフライホイール効果が生まれている。

第三の理由は、強化学習が競技の世界から現実世界へと進出したことだ。

昨年のo1やo3は、主に数学コンテストやプログラミングコンテストで力を発揮していた。なぜなら、正誤判定が容易な領域だからだ。しかし今年に入り、彼らは「検証可能な報酬」のために開発したツールや手法が、現実世界のシナリオにも応用可能であることを発見した。

競技から実用へ。これこそが、今、人々がAIの進歩を実感している理由である。

GPT-5.5発表はジェットコースターのようだった

見栄えの良いモデルはどれも、OpenAI内部では一種の感情のジェットコースターを経験する。最初は皆が非常に興奮するが、次第に特定のタスクが不得意だとか、ある側面に問題があるといった疑問の声が上がり始め、「失望期」へと突入するのだ。

「このような変動は、すべてのモデルで起こります。GPT-5.5も例外ではありませんでしたが、その変動幅はおそらく最大でした。皆、最初は非常に興奮し、その後は熱が冷め、そして最終的に私たちは発表し、外部からのフィードバックは素晴らしいものでした。」

最も誇りに思う点は何かと尋ねられ、彼は二つを挙げた。

一つは効率性で、GPT-5.5はほとんどのタスクにおいて速度が約2倍になった。

もう一つは全社的な足並みの一致だ。このモデルの成功には、事前学習から推論最適化、ポストトレーニングまで、すべてのチームが同じ方向を向いて取り組む必要があった。

縦割りチームと横断チーム

ここで一つの疑問が浮かぶ。OpenAIの内部組織は、実際どのように構成されているのだろうか？

ヤン氏の説明によると、チームには大きく二つの種類があるという。

縦割りチームは、特定の応用シーンに特化する。例えば、エージェントプログラミング、コンピューター操作、ナレッジワークなど、各チームがそれぞれの専門領域での改善を推進する。

横断チーム、すなわちヤン氏自身のチームは、主に三つの役割を担う。

最終的な訓練に何を組み込み、何を省くかを決定すること。すべての縦割りチームの改善点を統合し、大規模な訓練ジョブを実行すること。そして、命令追従、関数呼び出し、思考時間の配分といった、あらゆるシナリオに共通する汎用的な改善に取り組むことだ。

この構造の利点は、縦方向と横方向の改善をそれぞれ独立して進められることだ。あるバージョンでは半数の縦割りチームが改善に成功し、次のバージョンでは残りのチームが成果を出す、といったことが可能になる。

思考の効率性

GPT-5.5 ThinkingとGPT-5.5 Proの違いは一体何なのだろうか？

ヤン氏の答えはシンプルで、本質的にはテスト時の計算量の違いでしかない。モデルが長く考えれば考えるほど、正解を導く確率は高まる。しかし、その向上曲線は対数的であり、計算量を2倍にしても得られる改善はごくわずかである場合が多い。

彼自身はProをあまり使わないという。

「個人的にはProはあまり使いません。せっかちで、そんなに長く待てないのです。確かに正答率は上がりますが、その向上幅は、自分にとっては待つ価値があるとはまだ感じられません。」

しかし、Proをことのほか好むユーザー層がいる。数学者だ。

彼らは複雑な問題をProに投入し、1~2時間バックグラウンドで実行させておくことができる。素早い反復は必要ないからだ。

では、効率性の向上とは具体的に何を意味するのか？

ヤン氏は一つの比喩を用いた。それは、エキスパートとインターンが同じタスクをこなす場合の違いだ。インターンはどの道が正しいか分からないため、1~2日かけて10もの方向性を試すかもしれない。一方、エキスパートは経験から正しい道筋を知っているので、誤った経路に時間を浪費することはない。

モデルの効率化とは、突き詰めれば、どの推論パスが正解に至る可能性が高いかを知っている「エキスパート」へと進化させることに他ならない。

より大規模なモデルは、パラメータを通じて既に問題の一部を「思考」しているため、推論時に追加のトークンで考える必要が少なく、本質的に効率が高い。大規模モデルは1トークンあたりの計算コストは高いものの、GPU上での並列最適化が容易になるため、総合的な効率はむしろ良くなる。

事前学習の壁は存在しなかった

昨年のAI業界で語られた大きな物語の一つに、「事前学習の壁」への到達があった。

ヤン氏も2年前は同様の考えを持っていたが、今振り返ると、その壁は現れなかったと感じている。

「AnthropicのMythosを見てください。モデルのコストからして、明らかにはるかに大規模なモデルであることが分かります。彼らは単にモデル規模を拡大するだけで、非常に高い性能を達成しました。業界の少なくとも一部にとっては、これは驚きだったと思います。」

では、データの壁はどうか？インターネット上のデータが枯渇したらどうするのか？

彼は、各社がインターネットデータの不足問題を回避する独自の方法を見つけ出しつつあると語る。マルチモーダルデータか合成データか、その詳細については多くを語れないとしながらも、極めて率直な見解を述べた。

「Anthropicのモデルを見ると、マルチモーダル性能が特に優れているわけではありませんが、非常に賢いです。ですから、マルチモーダルデータは、少なくとも私が以前考えていたほどは必要ないのかもしれません。」

彼は、マルチモーダルデータが真価を発揮するのは、おそらく身体性AI（embodied AI）が成熟する段階だろうと予測する。ロボットが物理世界と相互作用することで、例えば「重力とはどのような感覚か」といった、現在のテキストベースの学習だけでは獲得が難しい常識を、モデルが学べるようになると考えている。

図書館からエキスパートへ

ヤン氏は、「事前学習 → 中期訓練 → ポストトレーニング」というパイプラインを説明するために、分かりやすい比喩を用いた。

事前学習は、巨大な図書館に足を踏み入れるようなものだ。理論上、あらゆる情報がそこにあるが、全てを自分で調べなければならない。しかも、広告、掲示板の雑談、Wikipediaなど、質の高低に関わらず、全ての情報を区別なく平等に学習してしまう。

中期訓練（Mid-training）は、その図書館から質の高い書籍を選び出し、繰り返し読むことに相当する。WikipediaやGitHubのコードといった、情報密度の高いコンテンツが重み付けされて学習される。

ポストトレーニングは、あらゆる本を読破した「博識な学生」を、ユーザーが直接質問できる「エキスパート」へと変えるプロセスだ。ユーザーは自分で本を調べる必要はなくなり、彼に尋ねれば、こちらの意図を理解し、有益な回答を返してくれるようになる。

ポストトレーニングの中核をなすのは、以下の二つの段階だ。

SFT（教師ありファインチューニング）：人間のアノテーターが模範解答を提供し、モデルがそれを模倣する。問題点は、モデルの能力がアノテーターのレベルによって上限を定められてしまうことで、「教師」を超えることは決してない。

強化学習（RL）：模範解答を与える代わりに、評価基準だけを与える。モデルは自ら様々な回答を試行し、正解には報酬を、誤答には罰則を与える。この方法により、人間のアノテーターの水準を超越することが可能になる。

オープンソースコミュニティの一般的な手法は、まずSFTでモデルを一定のベースラインまで引き上げ、その後、RLで上限を突破するというものだ。いきなりRLを適用しても、モデルが「偶然」正解を見つけて報酬を得る必要があり、そのプロセスはあまりに非効率だからだ。

なぜ強化学習が機能するようになったのか

強化学習はかつて、使い物にならないことで有名ではなかっただろうか？

ヤン氏もそれを認めており、2年前までは自分を含むほとんどの研究者が、RLは不安定すぎて取り組む価値がないと考えていたという。ChatGPTがRLHF（人間のフィードバックからの強化学習）を使用したのを見た時の第一印象は、「RLを使わなくても同等の性能を実現できる」だった。Stanford Alpacaはまさにその考えに基づき、SFTのみでChatGPTの性能を再現しようとした産物だ。

また、AI研究の第一人者ヤン・ルカンは、「強化学習はケーキの上のさくらんぼに過ぎない」という有名な言葉を残している。

しかし、状況は一変した。

「モデルがある一定の規模を超え、世界に関する十分な事前知識を持つようになった段階で、強化学習が突然効果を発揮し始めたようです。これは大規模言語モデル（LLM）だけの現象ではありません。ロボティクスの分野も同様の段階に入りつつあり、既に世界を理解しているモデルにRLを適用すると、はるかに良い結果が得られることが分かってきています。」

オープンソースコミュニティでも、手法は収束しつつある。以前はPPO、DPO、様々なXPOが乱立していたが、現在では皆が基本的にGRPOを使用している。理由は明白で、GRPOは極めてシンプルな手法だからだ。多数の回答をサンプリングし、どれが正しいかを判断し、その正解を強化する。

「機械学習の世界では、最もシンプルで、計算機パワーによってスケールできる手法が、最終的に常に勝者となる、というパターンが繰り返し観察されてきました。」

しかし、RLに課題がないわけではない。

インフラストラクチャーのレベルでは、大量の回答をサンプリングするための計算コストがかなり大きい。

機械学習のレベルでは、エージェントタスクにおける最大の悩みの種は「アトリビューション（帰属）」の問題だ。エージェントが長い推論プロセスを経て、最終的に正誤いずれかの結果を得たとしても、その成功または失敗の原因となった具体的なステップがどこなのかを特定するのが極めて難しい。情報が疎すぎて、正確に原因を特定できないのだ。

職人技か、科学か

AIシステムは「構築」されるというより、むしろ「育成」されるものだと言う人もいる。この見解に対するヤン氏の考えはこうだ。

「一般的な法則として、物事の始まりは全て職人技です。人々は多くのことを試し、何が有効で何が有効でないかという直感を徐々に築き上げます。そして、時間の経過とともに、ゆっくりと科学へと移行していくのです。

科学的方法が最初に功を奏することは稀です。厳密な理論を導き出し、これこそが最適解だと提唱し、それがすぐに成功する例などほとんどありません。人々はある種の錬金術的な直感でまず問題を解決し、その後でなぜそれが機能するのかを理解しようとするのです。」

最初に職人技があり、その後に科学が続く。この二つは不可分であり、単にパイプラインの異なる段階を担っているに過ぎない。

汎化の真実

GPT-5.5はエージェントプログラミング、コンピューター操作、ナレッジワークにおいて優れた性能を示した。これは、各分野で個別に専門的な訓練が行われたからだろうか？

ヤン氏は、汎化は主に能力のレベルで起こり、分野のレベルではないと考える。

数学コンテストで傑出した成績を収めるモデルは、通常、プログラミングコンテストでも同様に優秀だ。なぜなら、必要とされる基盤能力は同じだからだ。逆に言えば、あるモデルに幻覚（ハルシネーション）のような欠陥があれば、それはあらゆる分野に共通して現れる。

しかし、いまだ難題であり続けている汎化の種類が一つある。厳密に定義された問題から、曖昧な現実世界への汎化である。

「数学やプログラミングのコンテストの問題は、非常に厳密に定義されています。問題を解くために必要な情報の全てが、5行から15行のテキストに収まっています。しかし現実世界では、たとえば私がコンサルタントや金融関係者であれば、まずウェブで検索し、様々な情報を抽出し、問題自体を理解することから始めなければなりません。その後にようやく、推論を始めることができるのです。」

これは、幻覚があらゆる分野で見られる理由でもある。「知らないことをもっともらしく話す」という悪癖は、ある特定分野の問題ではなく、分野横断的な能力の欠陥なのだ。

強化学習は幻覚をどう治療するか

幻覚について、ヤン氏はジョン・シュルマンの古典的な分析を引用した。

SFTは、実は幻覚を創り出す可能性がある。なぜだろうか？

例えば、ある学術論文の存在をモデルが知らなかったと仮定しよう。ところがSFTのアノテーションデータの中で、アノテーターがその論文を回答の出典として引用していたとする。モデルはその回答を模倣するよう訓練される。その結果、モデルが学習するのは、「自分の存在を知らないものを引用する」という行動パターンなのである。

一方、強化学習はこの落とし穴を自然に回避する。

なぜなら、RLはモデル自身のサンプリングから出発するからだ。モデルは、自分が全く知らない事柄を生成し、しかもそれがたまたま正解である、という状況になる可能性は極めて低い。そのため、「事実を捏造する」行動が報酬を得ることはほとんどない。逆に、知らないことを生成し、それが誤りであれば罰則を受け、その行動パターンは抑制される。

SFTがモデルに「存在しないものを自信満々に引用すること」を教えているのに対し、RLは「自分の知らないことを口にしてはいけない」と教えているのだ。

明示的指示と暗黙的意図

しかし、RLもまた「負の汎化」をもたらすことがある。

ヤン氏は具体的な例として、「明示的命令追従」と「暗黙的命令追従」の対立を挙げる。

例えば、ファイルの修正を依頼する際にファイル名を入力ミスしたとしよう。明示的命令追従に過度に最適化されたモデルは、その誤った名前のファイルを忠実に修正しようとするだろう。しかし、人間の同僚であれば、おそらく入力ミスに気づき、自動的に修正してくれる。

「OpenAIのモデルに対して、『欲しいものを明確に伝えれば非常に良く機能するが、言い方が曖昧だと、あまりうまく動いてくれない』という声を聞くことがありますが、それはこの現象です。」

これこそが、横断的能力間に存在しうるトレードオフだ。明示的な指示への追従性を向上させればさせるほど、裏に隠された暗黙の意図を理解する能力が、相対的に低下する可能性がある。

強化学習は全業界を席巻できるか

それでは、強化学習は法務、医療、金融など、あらゆる分野に本当に適用可能なのだろうか？

ヤン氏は可能だと考えるが、現実的には二つのボトルネックが存在すると指摘する。

一つは「人」のボトルネックだ。AIモデルを開発する人の多くは自身がプログラマーであるため、プログラミングの領域に何が必要かは本能的に理解している。しかし、モデルを法律の分野で高いレベルに到達させるには、法律を本当に理解している人材が評価やデータ収集に参加する必要があるが、そのような人材は限られている。

もう一つは報酬設計の難しさだ。サイバーセキュリティのように、RLが本質的に適用しやすい分野もある。例えば、脆弱性を見つけた場合、それは本物か偽物のどちらかであり、検証コストは極めて低い。しかし、法律や医療の分野では、「正しさ」の基準そのものがはるかに曖昧だ。

「モデルの能力に本質的な限界があるわけではなく、それが法律や医療の分野で永遠に使えないということは決してありません。真の限界は、私たちがこれらの分野についてまだ十分に理解しておらず、分野によっては強化学習が明らかに容易である、という点にあります。」

評価のジレンマ

モデルが賢くなればなるほど、その評価は難しくなる。

「今では、『〇〇をするウェブサイトを作って』と指示するかもしれません。以前なら、『このコードにバグはある？』と尋ねていたでしょう。後者は評価が簡単です。なぜなら、全てのバグをリストアップしてもらい、それを正解データと自動で比較すれば良いからです。しかし前者は、ウェブサイトをうまく構築する正解が無数に存在します。」

別の厄介な問題は、特定の領域ではモデルが既にほとんどの人間を超えており、評価できる人がますます少なくなっていることだ。

さらに、文化的な側面も存在する。

「ほとんどの人はモデル訓練に携わりたがります。それこそが影響力のある仕事だと考えているからです。しかし、問題点を発見し、改善を定量化する仕事は、同等かそれ以上に重要なのです。ただ、文化的には常にその間にギャップが存在します。」

彼自身もOpenAIに入社した際、最初に志望したのはデータと評価の部門だった。誰もやりたがらない分野だからこそ、最もインパクトを残せると確信していたからだ。

Model-as-Judge（モデルを審判に）は、彼が最も重要だと考える方向性の一つだ。より優れたモデルは、他のモデルにとってより良い教師、そして審判となり、能力開発のフライホイールを形成する。

しかし、これには厄介な副作用もある。優れた評価セットを構築するたびに、それは同時に高品質な訓練データセットでもあるのだ。モデルが類似のデータで訓練されれば、その評価セットで高得点を取れるようになり、評価セットとしての有効性は失われてしまう。

評価の賞味期限は、加速度的に短くなっている。

3年経っても未解決の課題

ヤン氏が最も興奮しているのは継続学習（Continual Learning）の分野だと語るが、それと同時に、この問題はいまだ真に解決されていないことも認めている。

彼の友人が提示した思考の枠組みが、非常に示唆に富んでいたという。

X軸を時間、Y軸をユーザーにとっての実用性とした座標を想像してみてほしい。

AIモデルは、t=0の時点では、おそらく大抵の新入社員よりもずっと有用であり、スタート地点は非常に高い。しかし、その後、その曲線はほぼ平坦になる。なぜならモデルは、社内の独自知識を真に学習することもなければ、時間経過とともに効率的になることもないからだ。

対照的に、人間の新入社員はスタート地点こそ低いが、学習曲線の傾きははるかに急だ。

真に重要なのは、曲線下面積、すなわち累積的な価値である。この指標に照らせば、人間は依然として多くのシナリオで勝利を収めている。

「3年前、ChatGPTが登場したばかりの頃、友人と継続学習とパーソナライゼーションの領域で起業しようかと話していました。当時私たちは、『ああ、OpenAIなら半年以内に完全に解決してしまうだろう』と考えていました。彼らはあらゆるデータと全ユーザーを抱えており、モデルはユーザーから驚くべき速さで学習するだろう、と。しかし3年が経ち、私たちはまだそこに到達できていないと思います。」

彼は、これがなぜこれほど難しいのか、自分でも完全には理解できていないと率直に語る。単一ユーザーに対する継続学習であれば、十分なリソースを投入すれば解決可能だろうとしながらも、今日に至るまで、それは依然として未解決の謎であり続けている。

ハーネスの賞味期限

近年、AI業界で話題になっているテーマの一つに、モデルはいずれエージェントフレームワーク（ハーネス）を「飲み込んでしまう」のか、というものがある。

この問いに対するヤン氏の態度は、極めて現実的だ。ハーネスは短期的には有用だが、それが長期的に不変であるとは期待すべきではない、という。

「もしあなたが特定の垂直領域に特化した企業で、信頼性を80%から85%に引き上げたいなら、ハーネスがそれを助けてくれます。しかし、将来そのハーネスを再調整する必要があることは覚悟しておくべきです。

汎用的で長期的に安定して動作するハーネスを作ろうと考えるなら、それはうまくいかないと思います。」

そして、彼は意外な言葉を発した。

「もし今のモデルを凍結し、ハーネスに真剣に取り組めば、人々はほぼすべての領域でAGIを体感できるでしょう。」

彼の言いたいことは、モデル能力自体は既に十分だが、不足しているのはラッピングであり、ラストワンマイルのエンジニアリングだということだ。しかしながら、モデルが絶え間なく進歩するため、最適なハーネスの形もまた絶えず変化し、その最終形がどのようなものかは誰にも分からないのである。

ラストワンマイル

対談の最後に、マット氏は起業家が最も気にかける質問を投げかけた。モデルが賢くなるにつれて、スタートアップの居場所はまだあるのだろうか？

ヤン氏は、ためらいなくうなずいた。

「多くの人は、ボトルネックは『インテリジェンス』そのもの、つまりモデルの生の能力にあると考えています。しかし、私はそうは思いません。ほとんどの場合、真のボトルネックはラストワンマイルにあります。

モデルが適切な権限、適切なデータコネクタ、適切なドメイン知識を持っていることを保証すること。私たちは汎用能力の向上に集中していきますが、垂直領域での価値発掘は、他の企業が行うべきです。」

彼は起業家たちに、垂直領域を深く掘り下げ続けるよう奨励する。OpenAIが横断的な進歩を止めない限り（それは短期的には起こり得ないと彼は見ている）、スタートアップにとって垂直領域でのチャンスは常に存在し続けるだろう、と。

モデルはゼネラリストだが、ユーザーが必要としているのはその道のスペシャリストだ。このゼネラリストとスペシャリストの間にある距離こそが、スタートアップの生存領域なのである。

◇ ◆ ◇