DeepMind世界モデル研究者：Transformerアーキテクチャは重要ではない、AGIのボトルネックは別にある

DeepMindの共同創設者であるデミス・ハサビス氏は、CNBCの新年インタビューで次のように判断しました：AGIにはまだ欠けているパズルのピースがあり、それは世界モデルかもしれない。

彼は「5年から10年でAGIを実現する」という予測を維持しています。2010年にDeepMindを設立した際、彼はこれが20年かかる作業だと予想していましたが、現在の進捗は予想通りです。しかし、彼はまた、スケーリング・ローズがまだ有効であることを認めつつも、収益は遞減していると指摘しました。"'遞減する収益'と'ゼロ収益'は別の話で、私たちはまだ'非常に良い収益が得られるので、継続的に投入する価値がある'段階にあります。"重要なのは、スケーリング・ローズが頭打ちかどうかではなく、それが単独でAGIに到達できるかどうかです。ハサビス氏の判断は：おそらくできない、です。

彼は現在の巨大モデルを「ジャギー・インテリジェンス（凸凹のある知性）」と表現しました：ある側面では驚くべき性能を示すが、質問の仕方を変えるとすぐに破綻する。真の汎用知性には、このような不一致性があってはなりません。現在のLLMに欠けている重要な能力には、新しいことを継続的に学ぶこと、真に独創的なコンテンツを作成すること、新しい科学的仮説を提起することが含まれます。

したがって、世界モデルが欠けているパズルのピースかもしれません。LLMとの違いは、LLMが主にテキストと静的なコンテンツを処理するのに対し、世界モデルは物理世界の因果関係を理解し、長期的な計画を立てる能力を持っていることです。「もし、世界で以前知られていなかったものを説明したいなら——これは科学理論がする仕事です——世界がどのように機能するかについての正確なモデルを持っている必要があります。」

DeepMindは世界モデルの方向性で複数の並行する研究ルートを持っています。ハサビス氏が言及したGenie（対話型世界モデル）は、テキストや画像から対話可能な3D環境を生成することに重点を置いており、最新のGenie 3はリアルタイムで720p、24fpsの対話的世界を生成し、具現化エージェント（embodied agent）の訓練に使用できます。VEO（動画生成モデル）は高品質な動画生成に重点を置いており、物理に対する深い理解を示しています。Genie 3はVEO 3の物理理解に基づいて構築されています。

しかし、ハサビス氏のインタビューはあくまでCEOの視点であり、戦略面では多くのことを語っていますが、技術的な詳細はほとんど語っていません。世界モデルをエージェントの訓練に使用する具体的なメカニズム是什么？現在のボトルネックはどこにあるのか？これらの質問に対する良い答えを見つけられませんでした。

そして、Danijar Hafnerのポッドキャストインタビュー（BuzzRobotチャンネル）を見つけました。彼はGoogle DeepMindのStaff Research Scientistであり、Dreamerシリーズの著者でもあります。DreamerはDeepMind世界モデルの別の研究ルートであり、Genie/VEOとは重点が異なります——後で詳しく説明します。Hafnerは最先端の研究を行いながら、モデルを最先端の動画モデルの規模までスケールさせました。彼の視点には理論的な深みと工学的な実用性の両方があります。

ところで、AI研究所の研究員が内部の進展を公に話すのは、リスクが大きいです。xAIの研究員Sulaiman Khan Ghori氏は先週、ポッドキャストで多くの内部詳細を話しました：会社のフラットな構造、「Macrohard」プロジェクトで毎日モデルを調整すること、遊休のTesla車両を使用して「人間シミュレーター」エージェントを計画し、そのようなAIワーカーを100万台までスケールさせることなど。ポッドキャストは1月15日に公開され、彼は月曜日に退職し、個人のプロフィールを「MACROHARD @xAI prev.」に変更しました。外部からは、あまりにも多くの情報を漏らしたために解雇されたと推測されています。

対照的に、Google側はよりオープンです。HafnerはポッドキャストでDeepMind世界モデルの進展について多くのことを語り、発表されていないスケーリング実験の結果も含めています。

世界モデル：想像の中で学ぶ

まず概念を明確にします。

世界モデルの核心的な考え方は、ロボットが実世界で一万回転倒して歩き方を学ぶ（高価で危険で遅い）代わりに、まず物理世界の変化を予測できるモデルを学び、その「想像」の中で大量に訓練することです。想像の中で一万回転倒しても、コストはほぼゼロです。

これは従来の強化学習との違いがあります：従来の方法は、エージェントが環境と直接対話して試行錯誤し、每一次の試行錯誤にコストがかかります；世界モデルの考え方は、まず「私がXをすると、環境はどうなるか」を予測することを学び、その後、エージェントがその予測された世界の中で大量に練習し、最後に実環境で検証します。

Dreamerの位置付けはGenieと異なります。Genieは「環境生成」に重点を置いています——テキストや画像のプロンプトから多様な対話可能な3D環境を生成し、ユーザーがその中でナビゲーションや探索をできるようにします。Dreamerは「エージェント訓練」に重点を置いています——正確な世界モデルの中で、強化学習を使用してエージェントが特定の制御タスクを完了するように訓練します。

両者の技術的な差異は明らかです。HafnerはDreamer 4の論文で、Genie 3がサポートするのはカメラのアクションと汎用の「インタラクト」ボタンだけであるのに対し、Minecraftは完全なマウスとキーボードのアクション空間が必要だと指摘しています。Genieは多様なシーンを生成できますが、「物体の相互作用とゲームメカニズムの正確な物理を学ぶことにはまだ困難があります」。Dreamerの利点は正確な物理予測です——それは本当にブロックを破壊する方法、ツールを使用する方法、作業台と相互作用する方法といったゲームメカニズムを学びました——そして単一のGPUでリアルタイム推論が可能です。

これがなぜHafnerの研究が動画予測と密接に関連しているかです。動画予測は本質的に世界モデルを学ぶことです。もしモデルが動画の次のフレームを正確に予測できるなら、それは某种程度でその部分の物理世界の動作法則を「理解」しています。物体がどのように移動するかを予測するには、その質量、摩擦力、反対側がどのように見えるか（因为它可能会旋转）、物体間がどのように相互作用するか、人間が物体とどのように相互作用するかを知っている必要があります。これらの情報は、動画予測から抽出できます。

Dreamerシリーズはすでに第4世代に到達しており、各世代が異なる問題を解決しています。

最初の3世代はオンライン学習に集中していました——環境との対話から最初から学び、データ効率と最終性能を追求しました。Dreamer 2まで、model-basedアルゴリズムは速く学びますがmax outします；model-free方法はより多くのデータを必要としますが天井がより高いです。Dreamer 3はついに速くて強くなり、かつハイパーパラメータを調整する必要がなくなりました。彼らはMinecraftダイヤモンドチャレンジで検証しました——スパースな報酬から最初からダイヤモンドを取得する方法を学び、これはAIのマイルストーンとして広く認識されています。

Dreamer 4は完全に逆に、オフライン学習に集中しています。Hafnerの原話は：「待って、私たちはすでにオンライン学習の方法を知っている、ではオフライン学習はどうか？」環境と対話することが危険な場合があり、固定の人間データセットしかなく、そこからどのくらい強力な戦略を抽出できるか？同じくMinecraftダイヤモンドタスクで検証しましたが、今回は人間データのみを使用します——そして使用するデータ量はOpenAIのVPTオフラインエージェントの1/100だけです。

両者とも完璧な解決策ではなく、隔離された実験設定で特定の問題を解決するだけです。将来自然にこれらを融合させるでしょう。

アーキテクチャは重要ではない、この4つのことが重要である

Hafnerには直感に反する判断があります：

ほぼ任意のアーキテクチャがAGIに到達できる。

TransformerがAGIに到達できるなら、RNNもできます。違いは計算効率と現在のハードウェアへの適合度だけです。RNNは訓練が遅く、推論が速く、アーキテクチャのボトルネックを補うためにより大きなモデルが必要かもしれませんが、最終的にはどちらも到達できます。したがって、Transformer vs Mamba vs SSMなどのアーキテクチャの争いは、Hafnerの視点では根本的な問題ではなく、効率の問題です。

では、何が重要なのか？Hafnerは4つのことを挙げています：

コンピュート、目的関数、データ、そしてRLアルゴリズムの詳細。例えば、長期的なクレジット割当（long-term credit assignment）は、基礎的なRLよりもうまく行う必要があります。アーキテクチャはこれらを承载する容器に過ぎません。

もう一つの関連する判断：

「LLMがAGIに到達できるか」という問い自体は時代遅れになった。なぜなら、現在展開されている最先端モデルはもはや純粋なLLMではないからです——画像理解、画像生成、動画理解があり、動画生成もすぐに統合される予定です。「LLMの限界」について議論するのは、「車が空を飛べるか」について議論するのに似ています——車は飛べませんが、翼を付けた車は飛べます。

では、AGIにまだ何が足りないのか？Hafnerはいくつかの具体的な能力の欠如を指摘しました。

長文脈理解。現在のモデルは百万トークンの文脈を標榜していますが、動画にとってはまだ远远足りません。動画のトークン量はあまりにも大きいです。また、長文脈を持ったとしても、モデルがすべての文脈に基づいて検索し推論する能力はまだ十分ではありません。可能な方向性には、ハイブリッドな検索モデル、注目を同時に行う状態表現の学習、Transformerに似たが関連記憶を遡る必要のないアーキテクチャなどが含まれます。Hafnerは、Transformer以前にも多くのクールなアイデアがあったと指摘しましたが、当時はまだ早すぎた——「当時重要なのは長期記憶や派手なアドレッシング・メカニズムではなく、スケールアップと計算効率でした。」

人間を超える推論。人間から推論を学ぶのは簡単ですが、そうすると人間の能力の上限に閉じ込められます。AIシステムは自分自身で推論方法を発見できるはずです。これは、動画、音声、人間生活データ、ロボットデータといった原始的な高次元データから抽象概念を抽出し、それらの概念上で計画を立てる必要があります。Hafnerは率直に言いました：「私は、これをうまく行う方法をまだ很好地掌握できていないと思います。」

インコンテキスト学習の根本的な限界

これはポッドキャストで議論された、重要だが見落とされがちな点です。

ニューラルネットワークを訓練する際、私たちは目的関数で最適化し、訓練すればするほど良くなります。しかし、インコンテキスト学習は全く異なるメカニズムです。Hafnerは言いました：「あなたは単に、モデルが学習するように見える方法で一般化することを期待しているだけです。

しかし、システム内には、それを真に積極的に任何の目的を最適化させるものは何もない。それは真に記憶しようと努力せず、文脈内のパターンを真に理解しようと努力しません。」

私たちは巧妙に構成された訓練サンプル（パズルを解いたり、物事を記憶したりするようにモデルを強制する）を通じて、これらの能力を重みに学習させることができます。しかし、それは結局のところ学習されたアルゴリズムであり、真に最適化を行うのと同じくらい目標指向的ではないかもしれません。

一つの可能な方向性はネスト学習（埋め込み学習）です：推論時に文脈を迅速に学習するモデルの一部を持ち、現在のGPTのように文脈が通過した後に破棄するのではありません。Hafnerは根本的な問題を指摘しました：

「推論時に最適化できないので、事前訓練が再多でも推論時に何が入力されるかを予見できない。」

彼はまた、複数の学習時間尺度が必要になるかもしれないとも言及しました。速い時間尺度は訓練効率が高く、遅い時間尺度はより深いものを学びます。彼は、k=5というように学習時間尺度を指定できる汎用アルゴリズムを想像できます。現在、この空間で実際に機能するアルゴリズムはありませんが、これは非常に興味深い方向性です。

一つの方法は、もし百万のユーザーがいるなら、1万人のユーザーインタラクションをバッチして一度更新し、モデルが真に深く学習するようにすることです。現在、GPT-4が公開された後、ユーザーとのインタラクションから生じるデータがGPT-5に影響を与えるまでに1〜2年かかります。この周期を数日、さらには数秒に短縮できるでしょうか？理論的には可能ですが、挑戦は巨大です：大規模モデルの訓練は非常に高価で、オンライン更新時に安全性を維持するのは難しく、静的モデルは研究やquirksの修正が容易です。

これらのアイデア——ネスト学習、多時間尺度学習、継続学習——の多くは神経科学からインスピレーションを得ています。Hafnerは面白い観点を指摘しました：ハサビス氏の指導教官であるThomas Poggio氏は、2015年にデミスが汎用知性の構築は80%が神経科学、20%が工学であると考えていたが、最近では90%が工学に更新されたと言いました。しかし、Hafnerは

「私たちが最近工学をここまで押し上げたので、逆に神経科学から直感を得る価値が増している」と考えています。

スケーリングの発見：動画モデルの天井はまだ遠い

Hafnerは発表されていない結果を一部明らかにしました：彼らは世界モデルを最先端の動画モデルの規模までスケールさせ、効果は良好でした。

より重要なのは彼の判断です：

動画モデルのスケーリング天井は、テキストモデルより少なくとも一つのオーダー高い。

なぜなら、動画が含む情報量はテキストをはるかに超えているからです。最上級の動画モデルであっても、

「基本的に過学習ではない」。現在の動画モデルは美しい映画クリップを生成するためにcollapseしていますが、もし目的が単に美しい動画を生成するのではなく、物理世界を真に理解することなら、スケーリングの空間は巨大です。

Hafnerは言いました：モデルが大きければ大きいほど、あらゆる面がより鮮明になります。例えば、在庫予測（Minecraft内）では、モデルが小さすぎると不正確です。この点を改善するために専門的にデータを収集することもできますが、別の方法はモデルを8倍大きくすることであり、それは自然に在庫動態において良くなります。彼らは完全なYouTube事前訓練実験も行いました——大きなデータセットを取得、品質をフィルタリング、その上で訓練——そのとき初めて強力な一般化利益が見えたのです。

これはハサビス氏の判断と呼応しています。ハサビス氏は世界モデルがAGIに向けた欠けているパズルのピースかもしれないと言いましたが、Hafnerは工学的な視点から、このパズルのピースの可能性は、私たちが発掘したのはほんの一部に過ぎないと伝えています。

ただし、Hafnerは世界モデルの限界も指摘しました。Dreamer 4が人間データのみで訓練されたとき、反事実問題に遭遇しました：人間プレイヤーは間違った材料でツルハシを作ろうと決して試みない（例えばダイヤモンドで木製ツルハシを作ろうとする）ので、世界モデルはそれらのレシピが存在しないことを知らず、RLエージェントはこれらの脆弱性を悪用します——それはツルハシを作っているように見えるので、世界モデルは「まあ、ツルハシをあげよう」とします、尽管そのレシピは存在しません。

解決策は2〜3回の環境インタラクションによる校正データであり、問題は消えました。ここには重要なダイナミクスがあります：RLエージェントは世界モデルのすべての潜在的な脆弱性を見つけ、実環境に展開してフィードバックを得て、対抗ゲームを形成します。最終的に世界モデルはrobustになり、戦略も強くなります。

言い換えれば、

純粋なオフラインデータでは実世界で完璧にならず、環境と対話して初めて真の因果モデルを学ぶことができる。

目的関数：過小評価されている設計空間

Hafnerは目的関数が過小評価されている改善方向であると考えています。

彼は目的関数を2種類に分類します。一つは

偏好型（報酬、帰納的バイアス）：人間によって指定され、数学式で記述できず、人間のフィードバックから学ぶ必要があります。もう一つは

情報型（予測、再構成、好奇心）：モデルにデータ自体を理解させます。両方とも大きな改善空間があります。

テキストでは、next token predictionは遠くまで行けますが、同時に複数のtokenを予測するなど、さらに多くのことができます——これによりモデルはより遠見を持つことができます。

多モーダルでは、現在基本上は様々なlossの寄せ集めです：視覚エンコーダーはコントラスト損失、テキストはnext token、画像生成はdiffusionを使用し、これらすべてのlossをバランスさせる必要があります。Hafnerは、すべてを統一する方法があり、「私たちの生活をよりシンプルにし、最終的により良い性能を得る」と考えています。異なるlossが異なるモーダルに有益ですが、これは根本的なtrade-offではなく、抽象化できれば、利益をモーダル間で共有できると彼は考えています。

エージェントでは、短期RL（1000ステップ以内）は現在安定していますが、エンドツーエンドで長期ホライズンタスクを最適化することはできず、誤差は各時間ステップで累積します。探索目標、goal到達目標、汎用的なrobust報酬モデル——これらにはすべて良い目的関数設計が欠けています。

Hafnerの判断は：「

唯一欠けているのは基本上目的関数だけです。データがない可以说できますが、実際にはデータはそこにあり、人間で収集するのは難しくありません。本当に欠けているのは、そのようなシステムを構築する方法のアイデアです。私たちは多くのスケーリングとデータ工学を行い、これらにはすでに得意になっています。しかし、これらは今ではそれほど難しくなく、

私たちは再びアルゴリズムをやる段階に戻った。」

事前訓練と強化学習の分業

事前訓練はサンプルから知識を学び、効率的で、情報を吸収するのに適しています。強化学習は報酬から戦略を学び、最適化するのに適しています。

Hafnerは、なぜRLが事前訓練より知識を学ぶのが難しいかを説明しました：報酬で学ぶには、まず知識を推測し、その後モデルに推測が正しいか否かを伝えられます。これはサンプルから情報を直接吸収するより効率が悪いです。

しかし、RLは戦略の最適化において代替不可能です。重要な問題は、最適な制御データを取得することがほぼ不可能であることです。人間データは最適ではなく、コントラクターにデータを収集させると、99%を破棄する必要があり、最適性はホライズンの長さに依存します——理想的には長いホライズンに対して最適です。これがRLの価値です——最適なデータは必要なく、モデル自身に試行錯誤させてより良い戦略を見つけさせるだけでいいのです。

人間もそうです：観察から知識を学び（次に何が起こるかを予測）、試行錯誤からスキルを学びます（強化学習）。観察からも粗く不正確なスキルを学ぶことができます。なぜなら、他の人が何をするかを予測する際に使用する心理的表象が、私たち自身の表象とほぼ同じであるため、それらの行動を想像して自分自身が行うことに一般化できるからです。

ロボットへの意義：2波の衝撃

世界モデルがロボットに与える影響について、Hafnerは2波あると考えています。

第一波は表象です。動画予測モデルから学んだ表象は、現在のVLMをはるかに超える物理世界の理解を持ちます。正確な物体位置、物理的属性（この皿はどれくらい滑りやすい？このカップをどれくらい強く握ればお茶がこぼれない？もしこのカップを取っ手から持ち上げたら、どれくらい強く握れば手から滑り落ちないか？）——これらは制御に不可欠な情報で、動画予測の副産物です。

最初から戦略を訓練するには大量のデータが必要で、得られる戦略は狭く脆弱で、特定のシナリオでのみ機能します；事前訓練されたVLMを使用する方が良いですが、それらの表象はまだ物理レベルの世界理解のために設計されていません。動画予測モデルの表象を使用して模倣学習を行うと、効果は大幅に向上します。

第二波は仮想訓練です。十分に多様な事前訓練に少量のロボットデータを微調整するだけで、世界モデルは任意のシナリオでのロボットのパフォーマンスをシミュレートできます。Hafnerの原話は：

「データセンターの中で、ロボットに百万のキッチンで百万種類の食事を作らせ、すべて並列で訓練できます。百万のAirbnbを借りたり、百万台のロボットを作ったり、それらを都市の各所に運んだりする必要はありません。」

大規模に行うにはまだ挑戦がありますが、Hafnerはこれがロボット分野の2番目のstep changeであると考えています。Dreamer 4の論文は完全なレシピを示しています：エージェントトークンを追加してBC戦略を訓練し、次に報酬モデルを訓練し、次にRL微調整を行います。

時間枠について、Hafnerは推定を提供しました：

ロボットは3年から5年以内に、実用的な汎用ロボット製品の最初のバージョンに向けて很好的な進展を遂げる可能性があります。複雑な長期推論には5年から10年かかるかもしれませんが、実用的な汎用ロボットにはそれほど待つ必要はありません。

これはハサビス氏の判断と一致しています。ハサビス氏はインタビューで、2026年にはロボット分野で非常に面白い進展があるだろうと言いました。DeepMindはGemini Roboticsを使用して野心的なプロジェクトを行っています。CNBCのホストはこれに懐疑的です——多くのロボットは実際には「提線木偶」で、制御室の人間が遠隔操作しています（例えばTeslaのOptimusロボット）。しかし、正因为如此、世界モデルが重要です：ロボットが真に自律的に動作するには、物理世界を理解する必要があります。

LLMがエッジケースで幻覚を生む理由

Hafnerには、エージェントと環境の関係に関連する面白い説明があります。

エージェントは、合理的に目標を達成し、合理的に何が起こるかを予測できるdistributionに収束します。システムがそのデータ上で多く練習し、割り当てられたモデル容量もその関連distribution上にあるため、失敗しにくくなります。しかし、他のものを忘れ始めることもあります。

より強力なシステムを構築するもう一つの方法は、大きくし、より多くのデータで訓練し、このニッチを拡大することですが、distributionの縁では常にモデルが失敗し、一般化に失敗し、幻覚を生じる場所があります。

Hafnerは言いました：「私はこれが私たちが現在LLMで見ているものだと思います——それらはdistribution内のほとんどのものに対して相当に汎用的で良いですが、縁ではつまずき、誤った一般化を行い、幻覚を生じます。」

オンラインRLを行うことは、システムを精錬するのに役立ちます：もし幻覚を生じ、ユーザーが満足しなければ、負の報酬を得て、正しい答えを学ぶか、「我不知道」と言うことを学び、最終的に非常に安定したdistribution上に収束します。

まとめ

Hafnerとハサビス氏の視点を一緒に見ると、いくつかの相互検証された判断があります：

世界モデルは重要な方向性です。ハサビス氏はこれがAGIに欠けているパズルのピースかもしれないと述べ、Hafnerは一线でこれを行い、かつ最先端の規模までスケールさせた効果は良好だと明らかにしました。

動画モデルの可能性はまだ十分に解放されていません。スケーリング空間はテキストより少なくとも一つのオーダー高く、最上級のモデルはまだ過学習ではありません。

アーキテクチャはボトルネックではありません。Transformer、RNNはどちらもAGIに到達できます。本当に重要なのはコンピュート、目的関数、データ、アルゴリズムの詳細です。現在のモデルはもはや純粋なLLMではありません。

インコンテキスト学習には根本的な限界があります。真の目的最適化がなく、推論時学習と多時間尺度学習が必要かもしれません。

ロボットは3年から5年以内に実質的な進展を遂げます。長期推論問題が完全に解決されるまで待つ必要はありません。世界モデルは表象と仮想訓練の両方の方向からこれを推進します。

Hafnerは最後に、この分野は相互接続されており、真に分化することはほとんど不可能だろうと言いました。大規模モデルの訓練コストを考えると、一度だけ訓練し、分野をまたがって利益を得られるモデルを得るのが合理的です。エージェントはすでに最先端モデルの一部になりつつあり、動画生成は現在まだ分かれていますが、おそらく1年以内に同じ重みを持つ強力なオムニモデルが有用になるでしょう。

学習推論は概念的に挑戦的で、おそらく5年から10年かかるかもしれません。しかし、実用的なものは、私たちが想像するより早く現れるでしょう。

DeepMind世界モデル研究者：Transformerアーキテクチャは重要ではない、AGIのボトルネックは別にある

関連記事

分享網址