「重みの凍結」はAI進歩の敵！DeepMind研究者が語る自己改善の鍵、専門家モデルの役割とは

編集 | 玉澄

Google DeepMindの「規格外」なAI先駆的研究員、Mostafa Dehghani（モスタファ・デガニ）氏の深層インタビューが公開されました！

この「超大物」の経歴はまさに主人公のシナリオそのものです。有名なUniversal TransformersやVision Transformer（ViT）、ネイティブマルチモーダルのGeminiシリーズ、そして多くの人が愛用する画像生成モデル「Nano Banana」に至るまで、その背後には彼の核心的な貢献があります。

今回の対談の中で、Mostafa Dehghani氏は極めて挑戦的な判断を提示しました。AIの自己向上における最大のボトルネックは計算能力やモデルの能力ではなく、「評価」にあるというのです。AIが実際にどれだけ向上したかを明確にすることは、もはや哲学的な問題になりつつあります。「測定できないものは、改善できない」という言葉がある通りです。

彼はさらに、AIの自己向上サイクルは「地に足のついた」フィードバックメカニズムの上に構築されなければならないと強調しました。閉鎖的な環境での議論は避け、現実世界の外部からのシグナルを必ず取り入れる必要があります。形式検証は数学やコードの分野では優れた成果を上げていますが、複雑な現実のシナリオを網羅することは困難であり、業界は「密接なフィードバックループ」のような代替メカニズムを構築する必要があります。

同時に、Dehghani氏は「専門化と汎化」の道筋について段階的な答えを提示しました。短期的には、専門家モデルが能力の境界を探るための効率的な手段ですが、長期的には、汎化能力こそがAGI（汎用人工知能）という究極の目標に到達するための必須の道であるとしています。

マルチモーダルについて、Mustafa氏は、人間の言語は「異常」を記述する傾向があり「常態」を記述しないため、言語には偏りがあると考えています。ネイティブマルチモーダルは、単なる機能追加ではなく、AIが物理法則や重力などの「常識」を理解するための近道であると述べています。

Universal Transformerについて語る際、彼は後に「負のスパース性」と呼ばれる深い再帰とパラメータの再利用は、Mixture of Experts（MoE）とは逆の概念であると述べました。MoEは「計算量を増やさないパラメータ」であり、再帰ループは「パラメータを増やさない計算量」なのです。

現在話題のエージェントについても、彼は冷静な見方を示しています。超長期間のタスクにおいて、各ステップの成功率が95%と高くても、100ステップのタスクを完了する総合的な成功率は1%を下回ってしまいます。これはユーザーが感じるのが「必然的な失敗」であることを意味し、社会的信頼を構築する上で極めて大きな課題となります。

面白いことに、この「超大物」もかつてチャンスを逃すところでした。2017年、Mustafa氏がTransformerチームのインターンシップの招待を受け取った際、彼は一度断ろうとさえしました。「みんなLSTMをやっているのに、なぜこんなランダムなアーキテクチャを研究している人たちと一緒に働きに行かなきゃいけないんだ？あれはすぐに時代遅れになるに決まっている」と心の中でつぶやいていたのです。結果として、この「強制的な」インターンシップが彼の人生の軌跡を変えることになりました。

ViTの開発時、研究チームは様々な凝ったデザインを考えましたが、全て失敗に終わりました。最終的に本当に機能したのは、最もシンプルで大胆なアイデア、つまり「画像を直接16x16のブロックに切り分ける」ことでした。

Mustafa氏はさらに、DeepMind内部で最も衝撃的な瞬間は、推論エンジニアが机の横を通り過ぎざまに「ところで、さっきモデルの速度を10倍にしておいたよ」と何気なく言う時だと明かしました。

最後に、子供たちが何を学ぶべきかについて、Mustafa氏は1歳半の娘を前にして、良いアドバイスを提供できないと認めています。しかし、単なる学問の専門家よりも、全局的な戦略眼と継続的な影響力を持つことこそが競争力を維持する鍵であると確信しています。

以下は、今回のポッドキャストの全内容です。どうぞお楽しみください！

AIにおけるより高次のループとは自己向上である

Matt Turk： AIにおける「ループ」とは一体何を意味するのでしょうか？現在、AI研究で最もホットな概念の一つが「ループ（loops）」のようです。だから、これは面白い切り口だと思います。モデルが大きくなるのではなく、再帰的に考えることで向上するという考え方です。これは具体的にどういう意味でしょうか？

Mostafa Dehghani： これは間違いなく、ほぼすべてのラボが取り組んでいる最も活発な最先端分野の一つであり、様々なレベルで機能しています。ミクロなレベルでは、基本的にアーキテクチャ内で使用されるループ、あるいは推論時の「テスト時計算」などのタスクに使用されるループがあります。より高次のレベルでは、基本的にこれらのモデルの開発プロセスに対して行われるループであり、私たちは通常これを「自己向上」と呼んでいます。

簡単に言えば、これは実際には数十年にわたるトレンドの延長に過ぎません。古典的な機械学習を考えてみてください。人間は座って手動で特徴量を設計しなければならず、モデルが実際に何に注目すべきかを決める必要がありました。その後、ディープラーニングとニューラルネットワークが登場し、「この段階をなくして、モデル自身に表現を見つけさせよう」と言いました。これは当時大きな出来事であり、私たちはある意味で巨大な人的ボトルネックと人為的バイアスを排除しました。さらに、アーキテクチャを設計するだけでなく、アーキテクチャを学習し始めました。私たちは各トレーニング信号を厳密に選択するのをやめ、データ駆動型のアプローチに拡大し、データに語らせるようになりました。

そして、自己向上とこの開発におけるループは、同じ方向への次の一歩に過ぎません。その核心的な理念と意義は、これらのモデルを改善する際の人的ボトルネックとバイアスを排除しているという点にあります。今や、人間が手作業で特徴量を構築する必要がないだけでなく、モデルがより良くなるたびに人間が関与することも望ましくありません。これが開発側の論理です。したがって、これは全く新しいものではなく、同じ物語の新しい章です。私たちがこのプロセスから人間の判断を排除するたびに、通常はボトルネックを克服できると考えています。この自己向上と開発ループは、最高次のレベル（つまりモデル自体の改善）でそれを行っていると言えます。

より詳細なループのレベルに入ると、モデルのテスト時計算を増やす方法や、特定の問題に対する自身の処理プロセスをモデルにループさせ、洗練・思考させる方法について議論できます。最も馴染みのある形は、モデルに追加のトークンを通じて思考させる「思考の連鎖」でしょう。また、特定の問題に対する計算量をモデルに増やさせるなどの異なるアイデアを考えることもできます。もしプレースホルダトークンがあれば、それらを「読み書きテープ」として使用し、行った作業を再検証したり、ステップを跨いで実行した計画やプロセスを見直し、どこが間違っていたか、次に何をすべきかを理解させることができます。さらに「負のスパース性」、つまりモデルの一部を何度も繰り返し使用することもあります。この新しいループも、主にモデルが困難な問題により多くの計算を投じることを可能にするため、非常に有用であることが証明されています。これが推論時の自己向上です。

AIによるAI構築は過去数ヶ月ですでに起きている

Matt Turk： あなたは先ほど、より大きな概念に言及しました。これは以前はサイエンスフィクションのようでしたが、現在急速に現実のものとなりつつあります。それは「再帰的自己改善」です。これは多くの人が語っている話題であり、今後数週間で関連する論文が発表される予定です。では、RSIという概念とは一体何でしょうか？

Mostafa Dehghani： それをサイエンスフィクションのようなシチュエーションと呼ぶのは面白いですね。つまり、モデルが実際に自身を改善しているという状況です。これは確かに真実です。なぜなら、数年前にこれについて語ろうと思えば、会議で先見的な論文を書き、極めて高いレベルで語るしかなかったからです。しかし、現在実際に何が起きているかを見てみると、それは大いに起こっています。

多くの人は気づいていませんが、これは過去数ヶ月ですでに起きています。ほぼすべてのラボにおいて、新しい世代のモデルは前の世代のモデルを使って大量に構築されています。私は今、どこでもこの状況が見られます。現在はまだ完全に自動化されていませんが、方向性は非常に明確であり、完全に自動化された領域に入っていくことは容易に想像できます。これらのモデルは自己改善し、世界から絶えず学習し続けるでしょう。

これは継続学習のような他の概念とも関連していますが、私たちはまだ最先端のレベルには達していません。しかし、もし誰かがやってきて、「モデルが実行中に勾配を計算し、その重みを更新するアイデアがある」と言ったら、それは非常に普通のことに聞こえ、もはや衝撃的なニュースではありません。現在不足しているのは、長期間の実行と完全な自動化であり、私たちはその方向に向かって急速に進んでいます。完全な自動化を実現すれば、自己向上のループを閉じることができます。その時、問題は主にモデルに計算リソースを提供し、彼らがやりたいことをさせることに変わります。先ほど言ったように、私たちはモデル改善における人的ボトルネックから脱したばかりであり、この発展が再び大きな飛躍をもたらすと予測しています。

Matt Turk： 人々はKarpathy氏の数週間前の「自動研究」プロジェクトを見たり聞いたりしているかもしれません。あれはこの種の再帰的ループの一例ですか？

Mostafa Dehghani： 絶対にそうです。あれは、研究側でモデルが実際に賢い動きをしているのを初期に見られた例の一つだと思います。私たちは、開発サイクルのエンジニアリング部分を改善するのは得意だとずっと見てきましたが、研究面では—ある種の直感が必要だったり、これらのモデルを長年研究している経験豊富な研究者でなければできないと思われていたりしたため、モデルには無理だろうと考えられていました。

しかし、研究員の直感の中にある「成功の秘訣」の重要な部分が、モデルを通じて開発サイクルに入りつつあるという兆候が見られます。これらのモデルですべての天才研究員をすぐに置き換えられるかどうかはまだ言えませんが、おそらくそうなるかもしれません。しかしこれは確かな兆候です。私たちは当時少し懐疑的でした。数年前にはこれがこれほど早く起こるとは信じられませんでしたが、非常にエキサイティングです。

Matt Turk： 確認させていただきます。リスナーの皆さんに、「AIがAIを構築する」という話をしていることを理解してもらいたいのです。数ヶ月前、研究員と話すと、「私たちはすでにAIを使ってAIを構築している」と言っていましたが、それは通常、AIツールや推論モデルを使ってアイデアを出すことを意味していました。しかし、ここで話しているのは、AIが再帰的に自身を自動更新し、重みを更新し、それによって進展が劇的に加速する可能性があるということです。これは私たちにかかっており、主に長時間の実行とより多くの計算リソースの問題だと思いますが、そうでしょうか？

Mostafa Dehghani： そうだと思います。これは一方でそうです。もう一方で、私はすぐにこれらのモデルを完全に自動化できるとは言っていません。実際には解決すべき問題がまだたくさんあります。しかし、方向性から見ると、これがどのように起こるかが見えます。それは難しいですが、非常に可能です。

AI自己向上ループにおける最大のボトルネック：評価

Matt Turk： では、障害は何でしょうか？あなたは計算に言及しました。評価はその一つですか？モデルは答えの質の正誤を理解する必要がありますから。

Mostafa Dehghani： 100%そうです。結局のところ、測定できるものしか改善できません。そして、評価結果を得ることは非常に困難です。結局のところ、これは技術的な問題というよりも、ほとんど哲学的な問題になりつつあります。非常に能力の高いチームがいて、具体的な評価基準があれば、彼らは通常、問題で大きな進歩を遂げることができます。しかし、評価がなければ、前に進むのは本当に難しいのです。

実際、私たちはまだ「自己向上ループの実現にどれだけ近づいているか」を測定できる評価基準さえ定義できていません。このような測定方法の欠如が、この方向への進歩を定量化することをより困難にしています。いくつかの代替指標はありますが、例えばモデルがこの方向に踏み出す一歩一歩を評価したり、特定のフレームワーク内でモデルが自身を改善するのを助ける能力を評価したりすることです。評価システムを構築する難しさは、極めて複雑な評価を実行するために必要なインフラも非常に複雑であることにもあります。

面白いことに、私たちは時にモデルのための安全な実行環境をどのように作るかに苦労します。例えば、Google内部で、研究エンジニアや科学学者ができるすべての作業を安全に実行させるにはどうすればよいか？現在、彼らが常に正しいことをし続けるという確信はまだありません。彼らがどこまで進め、どれだけ長く続けられるかを測定することは非常に困難です。これらすべての点をモデルが実行する環境に接続し、効率的に実行し、同時に評価に多様性をもたらすことは、間違いなく進歩のためのボトルネックの一つです。

継続的な自己向上の方法：形式検証を参考にし、「グラウンディング」を保つ

Matt Turk： 数週間前、Axiom MathのKarina Hong氏と「形式検証」について話しました。あなたの視点から、これは有望な分野ですか？形式検証は向上サイクルを継続させることを保証できますか？

Mostafa Dehghani： 私の見解では、形式検証は自己向上を開く最も強力な鍵の一つですが、唯一の鍵ではありません。数学やコードの論理については、それは非常に優れています。証明を実行すれば、通るか通らないかのどちらかです。しかし、他のより混乱した分野に入ると、例えば医師のアドバイスが良いかどうかを形式的な証明で判断することはできません。

したがって、形式検証を現実世界のすべての分野に拡張することは容易ではありません。しかし、非常に相关のある問題は、現実世界の混乱した部分のために、あのような密接で誠実なフィードバックループをどのように構築するかを、形式検証の方法から借りてくることです。これは非常に刺激的であり、検証が容易ではない分野に拡張するために形式検証の方法に基づいて構築することです。進歩するためには、何らかの明確で密接なフィードバックループが必要です。

Matt Turk： これは強化学習が直面する問題に似ています。数学とコードから外れると、非常に混乱した分野に入ります。では「モデル崩壊」は考慮すべき問題ですか？

Mostafa Dehghani： モデル崩壊は間違いなくリスクの一つです。モデル崩壊は主にループが完全に閉じている場合に起こると言えるでしょう。もし外部からのシグナルがなく、モデルが自分自身と話しているだけ、あるいは制限された環境で動いている場合、モデルが崩壊する可能性が高いです。しかし、強力な検証器、あるいはAIが生成したデータを現実に固定する何らかの報酬シグナルがあれば、それは非常に強力になります。ここでの鍵は「グラウンディング（接地）」を保つこと、つまり現実の事物に固定することで、モデル崩壊を大抵は回避できます。

Matt Turk： 皆さんが理解できるように、まず「モデル崩壊」を定義していただけますか？

Mostafa Dehghani： 簡単に言えば、モデルが相互作用するデータと環境が別のモデルによって設計されている場合のことです。そして、その特定の部分に対して非常に得意になりますが、突然、それ以外の何に対しても汎化能力を失ってしまいます。これがモデル崩壊の定義または事例の一つです。

専門化モデルは汎化モデルへの「敷石」である

Matt Turk： あなたは「汎化能力」の喪失に言及しました。RSIの概念において、これは懸念される問題ですか？つまり、自己強化するループを持つが非常に狭い範囲に限られるか、あるいはより汎用的なモデルを持つがループの利点を失うか、という二択ですか？

Mostafa Dehghani： これは興味深い問題です：汎化か専門化か。長期的には、何でも知っていて、いつ深く掘り下げるべきか、いつ広く展開すべきかを知っているモデルが欲しいです。エージェントを想像してください。もしプログラミングエージェントなら、操作の各ステップで極めて強く、非常に優秀なプログラマーであるとします。これは素晴らしく、非常に専門化されています。しかし、多くのプログラミング問題には、ある種の計画、現状の理解、情報の収集、文脈に基づいた意思決定が必要です。ステップを定義した後、超強力な専門化が介入します。それまでは、全才であることが非常に役立ちます。

汎化はAGIの究極の目標に到達するための必須の道です。しかし短期的には、専門家モデルを構築することが「何が本当に可能なのか」を学ぶための最速の方法かもしれません。多くの場合、これらの専門化モデルは全才モデルへの「敷石」となりつつあります。もし自己向上を考えるなら、まず特定の分野（例えばコーディング）で成功できることを確認し、成功すればどう拡大するかを考えると想像できます。私はよく言いますが、人々は自分の問題がどのカテゴリに属するかは気にしません。人間がある事を「問題」と呼ぶなら、AIはそれを解決できなければなりません。これが全才の根本的な要求です。したがって、結局は汎化が必要です。汎用と専門の間のトレードオフは、長期的か短期的か、そしてその過程でそれぞれの利点をどう活用するかに関わるものです。

Matt Turk： 今日の専門化モデルとはどのようなものですか？独立したモデルですか、それとも強化学習（RL）で特定の方法で訓練された汎用大規模モデルですか？

Mostafa Dehghani： 以前は計算リソースに制限があり、モデルを強化したい場合、特定の次元を選択し計算量を割り当てて、その分野の専門家にしました。これは計算予算が限られている場合のトレードオフです。計算がより安価で入手しやすくなると、今度はデータに制限される可能性があります。

もう一つのトレードオフはポストトレーニング（事後学習）の段階で現れます。時には、モデルをすべての分野で優秀にさせるのが難しい場合があります。マルチモーダルを得意にさせようとすると、コードで少し後退することがわかったり、コードとマルチモーダルを得意にさせると、数学と推論で前のモデルより少し劣ったりします。これはポストトレーニングが少し「過学習」を引き起こすためです。ポストトレーニングは本質的に、手持ちの最良の局所最適解に適合させようとする試みです。問題が「最良の局所最適解を見つけるにはどうすればよいか」になると、すべてに対して完璧な解は一つもないため、選択をしなければなりません。

例えば、一部の企業はコードに非常に注力しており、全方位的に優秀なモデルを作りたい競合他社よりも実現が容易です。短期的には非常に効果的です。なぜなら、開発期間中にすべての次元を心配する必要がなく、研究員やエンジニアが一つのことを極限まで推し進めることに集中できるからです。専門化モデルは特定の軸を選び、モデルを非常に優秀に見せるものです。

AIが自己創造を始めるが、AI研究員はまだ失業していない

Matt Turk： あなたが先ほど言及した点は非常に興味をそそられます。Karpathy氏のような人やあなたのような人が、将来自動化される可能性があるということです。世界で最も優秀な頭脳が自動化され、AIが自己創造を始めたらどうなるでしょうか？もはやAIがどのように機能しているかを誰も知らないような時が来るのでしょうか？

Mostafa Dehghani： この部分は非常に哲学的です。私は知りません。数日前の私の考えを少し共有します。私には1歳半の娘がいます。過去数年、私は深く感銘を受けましたが、面白いことに、タイムラインの予測は何度も間違っていることが証明されました。時に「これは6ヶ月以内に起こる」と言って起こらなかったり、「これは難しすぎて10年以内には解決不可能だ」と思っていたことが、突然、2、3ヶ月後に誰かが天才的なアイデアを持って解決したりしました。

未来について本当に予測するのは難しいです。Karpathy氏などの研究員について話していますが、私は次世代のことを考えています。もし娘が後に「何を学ぶべき？推奨する専門は？どの科学分野を深く研究して専門家になるべき？」と聞いてきたら、私は本当に良い答えを持っていません。

私が知っているのは、いくつかのスキルが世界に影響を与え、競争力を維持するための鍵かもしれないということです。その一つは「戦略的視点」であり、意思決定の際にすべてのパラメータをテーブルに出せる能力です。そして近い将来、ある非常に具体的な学科の絶対的な専門家になることは、それほど有用ではなくなるかもしれません。Karpathy氏の才能は、彼が優秀なプログラマーであること（もちろんそうですが）だけでなく、彼が「極めて優れた全局観」を持っていることにあります。自身を情報の流れに置くことで、次に最も影響力のあることは何かを決定できます。彼が影響力を生み出す方法は5年前とは全く異なります。彼がそれを持続できると考えています。5年後に彼は何をするか？わかりませんが、彼がどうやって継続的に世界に影響を与えるかを見つけ出すだけの賢さは持っていると知っています。だからAI研究員はまだ失業していません。私たちが十分に賢く対応できることを願っています。

データ関連の仕事は「環境構築」に移行する可能性

Matt Turk： これはマクロな問題です。もしAIが継続的に自己創造するなら、その方程式においてデータはまだ重要ですか？それともすべては計算にかかっていますか？

Mostafa Dehghani： 「データ」の概念は「トークン」よりも広くなります。データを、モデルがそこから信号を得られるあらゆるものと見なすなら—事前学習の次トークン予測であれ、モデルが相互作用し信号を得る超複雑な環境であれ—データやその価値が消えることはありません。

データ関連の仕事は「環境構築」、あるいはこれらのモデルが物理世界と相互作用しフィードバックを得られるようにすることに移行するかもしれません。これは、どうやってこれらのモデルにもっと「地に足のついた」機会を提供するか、という問題になります。彼らは自己向上が得意ですが、前提として現実世界のデータや環境に触れさせなければなりません。データを提供することは、どうやってこのモデルにそれが触れたことのない情報を提供するか、になります。

少しサイエンスフィクション的なアイデアを言えば、どうやってAIに「匂い」を感じさせるか？今はまだ良い方法がありません。しかし人間にとっては、すべての感覚器官があるため、情報の取得は非常に簡単です。私はここに座り、椅子がどれくらい硬いか、部屋の温度はどれくらいかを知っています。これらすべての感覚情報が私に集まり、私が見る次の言葉はこれらすべての入力に基づいています。自己向上するモデルにこれらの感覚情報を提供することは難しい問題です。したがって、データ関連の仕事は、これらの感覚情報をより利用可能にし、モデルがより効果的な方法で本当に自分自身を向上できるようにすることに移行するでしょう。

モデル研究は事前学習とポストトレーニングの間で行き来し続ける

Matt Turk： 昨年の大きなテーマは、ポストトレーニングと事前学習の同時加速でした。今後数ヶ月の進歩はどこから生まれると予想しますか？

Mostafa Dehghani： それはいつその質問をするかによります。明らかに、私たちは事前学習とポストトレーニングの間で行き来し続けるでしょう。結局のところ、事前学習は依然として基礎であり、悪い基礎モデルをポストトレーニングで救い出すことは決してできません。しかし現在、ポストトレーニングの投資対効果は非常に強力です。数ヶ月前、私はGeminiのポストトレーニング（主にコードとエージェントの方向性）に参加し始めました。事前学習のコストのほんの一部で、モデルの振る舞いを10倍良くする天才的な小さなアイデアがどうやって生まれるかを見ることができます。

一方で、Google DeepMind（GDM）では、多くのエキサイティングな研究が事前学習側—新しいレシピ、新しいアイデア—に注ぎ込まれています。事前学習で行っている作業が、多くの下流の可能性を解き放つと考えています。ポストトレーニングは私にとっては単に異なる運用モードですが、私もこの分野はまだ始めたばかりです。しかし、両者の間には常に一種の交代があると予想しています。

Matt Turk： 事前学習についてのあなたの見解は、数ヶ月前にあったような「事前学習は死んだ」という説を覆すものに見えます。

Mostafa Dehghani： 私は皆が事前学習について何らかのアイデアを持っていると思います。そのアイデアを実現するかどうかは、複雑さと期待される利益に依存します。時には、より簡単に摘める実もあると感じるのです。

私は手元に事前学習の案を持っていて、それはシンプルでエレガント、かつ非常に拡張性があります。私はまずその案を進め、その後エネルギーをポストトレーニングの段階に向けようと考えています。ある時点で、基礎モデル自体がボトルネックになり、その時は複雑な案を採用し事前学習に導入して、それを推進し続けることになるでしょう。

「事前学習は死んだ」という言説については、「古い」と「新しい」について語ることはしばしば微妙です。なぜなら、時間の範囲の定義が非常に主観的だからです。だから私が「古い」と言うとき、それは2週間前のことを指しているかもしれません。しかし、私たちが1、2年前に行っていた事前学習のやり方には、確かに明確な収穫逓減が現れていました。しかし、新しいアイデアが事前学習に新たな活力を注ぎ込み、突然、奇妙な新分野への扉を開くのを見ることができ、これは時間の経過とともに基礎モデルの能力を根本的に変える可能性があります。

自己向上と継続学習の「共通の敵」は重みが凍結されたモデル

Matt Turk： では、Gemini 4がリリースされる時には、きっと多くのエキサイティングなものがあるでしょう。あなたは先ほど継続学習に言及しましたが、これも人々が議論しているホットなトピックの一つです。継続学習とは何か定義していただけますか？より広範なリスナーにとって教育的な会話にするためです。おそらく「自己向上ループ」と対比してみてください。それらは異なる二つのことですが、その違いを理解するのを手伝ってください。

Mostafa Dehghani： それらは関連していますが、異なります。自己向上とは、モデルが時間の経過とともにより賢くなり、自身の能力を向上させることであり、これはモデルが自律的に行います。一方、継続学習は主にモデルがどうやって「最新の状態」を保つかについてです。医師を想像してください。彼は絶えず新しい研究成果を読み、自分の知識ストックを更新し、知識が時代遅れにならないように努力しています。

自己向上と継続学習の共通の「敵」は、重みが凍結されたモデルです。世界が移ろいの中、もしモデルの重みが凍結されていて、世界が前に進んでいるなら、自己向上も継続学習も実現できません。継続学習は、世界が新しい知識を生み出したとき、モデルの知識の切断点が過去に留まらないようにすることに重点を置いています。つまり、継続的に更新されます。例えば、一夜にして世界中で起きたすべてのニュース、すべての変動が同期されます。今日モデルに質問すれば、非常に新鮮な知識がすでにモデルの重みの中にあり、外部ソースに頼って取得する必要がなくなります。

これは難しい、本当に本当に難しいです。その大きな問題の一つが破滅的忘却です。つまり、主トレーニング段階が終わった後にモデルに新しい情報を学習させると、主トレーニング段階で学んだ古い知識に突然劣化が見られることです。これは現在、非常に活発な研究分野です。

Matt Turk： では、継続学習の現状はどうなっていますか？既存のシステムに組み込まれているのですか、それともまだ全くそこまで至っていないのですか？

Mostafa Dehghani： これは二つの側面から見ることができます。一方で、研究はまだ「これが究極の解決策であり、開発して本番環境に投入するだけでいい」というレベルには達していないと思います。基本的に、重要な新しい問題に遭遇するたびに、探索段階を経ます。人々は異なるアイデアを試し、ある点から全く異なるかもしれない点へと飛び移ります。ある方法がある程度うまく機能するという確信が得られて初めて、「活用」モードに入り、洗練させ、極限まで押し上げます。私たちはそのためにスケールを拡大し、インフラを開発し、速度を上げ、本番環境化します。

私はまだそこまで至っていないと考えています。もう一方で、私が言ったように、非常に確信を持てる継続学習の案を持っていないため、この状況でインフラに投資し、高速システムを構築することは非常に困難です。そうは言っても、Google DeepMind内部でこの面での非常に顕著な進展を見ています。これは非常に理論的であるため面白いです。純粋な理論研究をしている人々がこの問題に取り組み、楽しんでおり、多くの影響を生み出しているのを見てきました。得られた進歩は印象的ですが、すべての人が「これだ、これに沿ってやろう」と公認するようなアイデアはまだないと思います。

Universal Transformerの誕生：パラメータ再利用と深い再帰→テスト時計算→適応的計算

Matt Turk： では、あなたとあなたのバックグラウンドについてお聞かせください。あなたのストーリーについて数分お話しいただけますか？どのようにこの仕事を始めたのですか？AI分野への道筋はどういったもので、どうやってGoogle DeepMindに参加したのですか？

Mostafa Dehghani： 私はアムステルダム大学で機械学習の博士号を取得し、主な研究分野は言語モデル、テキスト、そして検索でした。私が本当に主流の視点に入り、進歩を必死に追い求めるこの人たちの一員になりたいと思ったきっかけは、2016年と2017年にいくつかのインターンシップを経験したことです。面白いことに、2017年初めにGoogle Brainでインターンシップをしましたが、その経験は素晴らしいものでした。私が参加したチームは当時、LSTMを使って要約生成を研究していました。要約生成は当時、最も興味深い問題の一つでした。私は驚き、「これはクールだ、余生はずっとこれをやり続けたい。これだ」と思いました。

その年の後半、再びインターンシップのオファーを受けました。採用担当者は、あるチームがちょうど論文を発表したと言い、もしかしたら聞いたことがあるかもしれません、Transformerという論文で、彼らはインターン生を募集していました。私はŁukasz Kaiser氏と話したことを覚えています。Łukasz氏は Transformerに基づいてアルゴリズムマシンを構築する方法を興奮気味に説明してくれました。話を終えた後、私は採用担当者にメッセージを送り、「そのチームに行きたいかどうかわからない。彼らがやっていることはランダムに感じる。みんなLSTMをやっているのに、なぜTransformerのようなランダムなアーキテクチャを研究している人たちと一緒に働きに行かなきゃいけないんだ？あれは時代遅れになるに決まっている」と言いました。

結果として、彼は私が参加できる他のチームを見つけられなかったため、私はインターンとしてそのチームに参加することになりました。それが私の人生を変えました。この超知的的で才能ある人たちと働き、他のほとんどすべての人が別のことに興奮している時、彼らは自分のビジョンと方向性を信じていました。それは非常に刺激的でした。後に、私たちはその「アルゴリズムマシン」のアイデアをUniversal Transformerの論文に変え、そこで深い再帰とパラメータ再利用の概念が生まれました。約10年経った今でも、それは依然として巨大な影響力を持っています。

Matt Turk： 簡単にそれについて説明してください。あれは2019年でしたよね？あなたはその論文の共著者ですが、その論文のアイデアは、冒頭で述べたループと再帰に非常に適っています。

Mostafa Dehghani： 「Universal Transformer」は2018年に書いたもので、ある会議で一度拒絶されたことを覚えています。その後、2019年に採択されました。正確にはどこか忘れましたが、ICLRだったと思いますが、それ以前にNeurIPSなどで拒絶されました。核心的な直感は、パラメータの再利用と、モデルに自分の出力を再度処理させることにある種の価値があるということです。基本的には何かを生成し、それを再びモデルに戻し、モデルが再処理する機会を与えます。Łukasz氏が当時「アルゴリズムタスク」と呼んでいたデータセットがあったことを覚えています。

それはTensorFlowのコードベースの一部であるTensor2Tensorに基づいていました。コードはまだあり、当時Universal Transformerのコードを提出したマージリクエストを見つけることもできます。いくつかの問題を処理する際—例えば入力を出力にコピーするとか、超長い入力を処理するアルゴリズム的タスク—これらは通常のモデル（通常のTransformer）にとっては非常に困難で、パフォーマンスが悪かったのですが、ループを通じて完璧に解決できました。当時、私たちはMetaのbAbIデータセットを使い、パフォーマンスも非常に良かったと覚えています。

続いて「テスト時計算」のアイデアが現れました：固定の計算量で訓練するが、テスト時には、モデルのポテンシャルを解放し、入力に対してより多くの計算量を投じさせることができます。私たちはこれに非常に興奮しました。最終的に、私たちはその中に適応的計算メカニズムを導入しました。これは実際にはAlex Graves氏のLSTMに関する論文からインスピレーションを得たものです。それは非常に興味深い道のりでした。当時、私たちが追求していたものは非常に前衛的に聞こえましたが、当時の業界全体は、適応的計算をどのように使って単純な問題のコストを下げるかに関心が集中しすぎていました。

しかし今では、それを使って困難な問題の計算コストを増やすことができるとわかっています。これはコインの裏表のようなものです。当時はリソースに制限されていたため、常に考えていました：なぜすべての層を走らせるのにそれほどの計算能力を使うのか？文の終わりが単なるピリオドなら、本当に24層全部走らせる必要があるのか？どうやって計算量を減らせるか？しかし今は異なる視点を持っています：例えばある物理問題について、推論のために2週間走らせてもいいかもしれない。ではどうやって計算量を増やすか？

この天才たちと働くのは本当に楽しいです。この深さでの再帰とパラメータの再利用、あるいは後に「負のスパース性」と呼ばれるものは、非常に良い概念です。これはMixture of Experts（MoE）とよく対比できます。MoEでは、「計算量を増やさないパラメータ」を持っています。一方、ループでは、「パラメータを増やさない計算量」を持っています。追加のパラメータなしで、同じ問題により多くの計算量を投じられます。これはスパース性とは別の方向に向かい、非常に効果的です。人々がこれに気づき始め、この方向で多くのエキサイティングな進展を見ていると思います。

ViTモデルの誕生：画像をスライスし、Transformerに渡し、スケールを拡大する

Matt Turk： 非常に魅力的です。あなたがこの分野で成し遂げたもう一つの根本的に重要な貢献は、視覚に関するものです。Vision TransformerはどのようにAIを変えましたか？2022年に「An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale」という論文を見ました。それについて教えていただけますか？

Mustafa Dehghani： それにも面白い話があります。私はその論文を通じて視覚とマルチモーダルの分野に入りました。それ以前は視覚の問題を研究したことはありませんでした。主に、視覚を研究する同僚の隣に座っていたからです。私の机は彼らの真隣にあり、彼らとの会話で興味を持ち、これは本当に面白いと感じました。当時、Aakash氏らと共に、外部ではPaLMと呼ばれる論文を研究していたことを覚えています。私は当時、「なぜ我々は4000億パラメータの言語モデルを持っているのに、視覚分野の最大モデルはResNetのように大概1億パラメータしかないのか？なぜスケール化が利益をもたらさないのか？」と考えていました。

Mustafa Dehghani： 私は同僚たちと研究し始めました：多分Transformerの中に、それをスケーラブルにする何かがあるかもしれない、畳み込みを捨てて試してみようと。正直、それがスケーラビリティを実現する唯一の方法だとは言いません。もし一群の人々が畳み込みに十分な時間を費やせば、それを同様にスケーラブルで優れたものにできるかもしれません。しかし、Transformerを採用することにはもう一つ利点がありました：当時、機械学習の分野全体で、言語を研究する人々がこのアーキテクチャを使用しており、彼らはそのためのインフラを構築し、より速くしていました。時には、ハードウェアも短期的にはこのアーキテクチャに基づいて設計されていました。

そこで私たちは進め始めました。当時、「もし各ピクセルがトークンだったらどうなる？」など多くのアイデアがありましたが、それはコストが高すぎ、コンテキストのシーケンスが超長くなってしまいます。私たちは議論を重ねましたが、面白いことに、最初は非常に複雑な角度からこの問題を考えていました。畳み込みをシミュレートして機能させようとしましたが、結果として、チューリッヒの同僚たちがシンプルなアイデアを試しました：もし画像を直接16x16のピクセル塊に分割したら？各ピクセル塊をトークンとして扱い、重なるピクセル塊やウィンドウなどの複雑なデザインは忘れるのです。

こうして、画像を切り刻み、Transformerに渡し、スケールを積み上げる—大量のデータを使い、識別タスクから始めてこのモデルを訓練しました。結果、それは成功しました。これは私たち全員を少し驚かせました。私たちは派手で複雑な畳み込みの統合などを考えていましたが、実際に機能したのはこのシンプルなアイデアでした：スライスし、Transformerに渡し、スケールを拡大する。ドン！非常に優れた表現学習モデルが誕生しました。

Matt Turk： 最高次元から繰り返しますと、これは基本的にTransformerアーキテクチャを画像に適用できることを意味します。かつてはこれらは二つの異なる世界でした：テキストはTransformerの世界、画像はCNN（畳み込みニューラルネットワーク）の世界。あなたたちの突破は、Transformerも同様に画像によくスケールできることを証明し、これは基本的に今日のGemini 3への道を敷きました。なぜなら、それはネイティブマルチモーダルモデルだからです。これで公平ですか？

Mustafa Dehghani： はい、その通りです。これに基づき、私たちは一歩進み、ビデオとオーディオもTransformerを採用し始めました。それがマルチモーダルを実現する唯一のアーキテクチャではないにせよ、単一のアーキテクチャを使ってトレーニング中にすべてのモダリティを含めることができるため、これらのモデルをネイティブに訓練することが非常にシンプルになりました。

ネイティブマルチモーダルでMustafaが最も興奮している点：モダリティ間の転移を垣間見る

Matt Turk： これはあなたのNano Bananaチームでの仕事と画像AIの未来に完璧につながります。あなたはNano Bananaチームの一員で、製品の発表後、完全に話題になりました。その後、2025年11月のNano Banana Pro、そして数週間前に発表されたNano Banana 2、つまりGemini 3.1 Flash Imageがありました。多くの人は画像生成を翻訳機のようなものだと思っています：AIがプロンプトを読み、描画指示に翻訳し、描く。しかし私たちが言ったように、Geminiはネイティブマルチモーダルです。ではどう機能しているのか？モデルはテキストとピクセルを同時に処理して画像を構築するのか？

Mustafa Dehghani： 私が生成分野に入った理由は……ちなみに、私は画像生成の専門家ではありません。仕事を始めた当初、私は他の人と会議をしていましたが、彼らはコンピュータグラフィックスや様々な古い直感について話し、私は何を言っているのか全く分かりませんでした。私が知っているのはTransformerを訓練しスケールを拡大する方法だけで、それが役立つなら貢献できると思っていました。

この超知的な人たちと協力するのは非常に楽しいです。私が興奮したのは、モダリティ間の「正の転移」に興味があったからです。ネイティブマルチモーダルについて考えると、一方では能力の追加です：モデルは画像、ビデオ、オーディオ、テキストを理解でき、これらすべてのモダリティを生成できます。製品の観点からは素晴らしいです。しかし私にとって、最も興奮するのは、モダリティ間の転移を垣間見られるかどうかです。

例えば、あるモデルが画像生成を得意になるよう訓練した場合、テキスト生成も得意になるのか？言語学の文献には「報告バイアス」という古い概念があります。例えば友人の家に行き、バナナの形をしたソファを見たとします。帰宅後、普通のソファについて話す確率よりも、このソファについて話す確率の方がはるかに高いでしょう。「あそこに行ったんだけど、彼らのソファがバナナの形をしてて、面白かったんだ」と友達に言うでしょう。しかしソファが普通なら、わざわざそれを話題にするのは奇妙です。

これが言語の報告バイアスです：言語は分布の中心（平凡）な事物については語りません。しかし画像入力があれば、その情報はそこにあり、「報告」される必要はありません。したがって、言語を通じて世界知識を得るのは効率的ではありません。不可能とは言いませんが、効率的ではありません。例えば重力を学ぶ場合、モデルにビデオを見せる方が、すべての教科書を読んで重力の概念を理解するより簡単です。

マルチモーダルの導入はモデルを世界モデルにする近道である

Matt Turk： これが画像表現に組み込まれた「世界モデル」の概念ですか？

Mustafa Dehghani： その通りです。これらのモデルを世界モデルにし、この世界について知ってほしい。テキストを通じてモデルに教えることは可能ですが、マルチモーダルを導入することはそれを実現する近道です。そしてあるモダリティを学ぶ最良の方法は、それを生成する方法を学ぶことです。Geminiは初日からマルチモーダルでした。バージョン1や2ではなく2.5で画像生成を発表したのは、以前は効果が十分でなく、推進が必要だったからです。その後、モデルの他の能力を低下させることなく、ネイティブ生成を導入する方法を見つけました。

これは私が非常に興味を持っている点です。残念ながら、明確な「正の転移」を見るのは非常に困難です。訓練されたモデルは優秀ですが、「画像を訓練したら、テキストのパープレキシティが下がった」と直感的に見るのは難しいです。しかし私の希望は、マルチモーダル訓練が最終的にモダリティを跨いだ正の転移を実現することです。

視覚品質に対して絶妙なセンスを持つ専門家たち。時にはモデルが素晴らしいと思っても彼らに送ると、ダメだと言われます。彼らは私には同じに見える二つの画像の微小な違いを指摘できます。彼らの直感がNano Bananaを作りました。しかし私は、これを従来の画像生成の枠を超えて推し進めたらどうなるかと考えていました。

「テキストから画像」への翻訳機ではなく、画像についての「思考マシン」を作るのです。例えば、交互のテキスト画像生成を実現し、モデルはテキストトークンだけでなく、ピクセル空間でも思考できるようにする。テキストを生成し、次に画像を生成し、またテキストを生成する。これは童話の本など、ストーリーテリングに使えます。

私がもう一つ興奮しているのは「インクリメンタル生成」です。DALL-EやImagineのような単独モデルに50の詳細を含むシーンの生成を頼むと、失敗するかもしれません。55の詳細を処理できるモデルを訓練できますが、60になるとまた問題が生じます。単一の生成には常にボトルネックがあります。しかしインクリメンタル生成があれば、モデルは詳細を一つずつ生成できます。モデルが最初の一発で完璧な画像を描くことを期待するのではなく、計画することを期待します。「まず大きな物体から始めよう、なぜなら最初に小さな物体を置くと、大きな物体が置けなくなるかもしれないから」と考えるでしょう。この計画は、単一生成のパフォーマンスボトルネックを回避します。

Nano Banana 2の高速生成の裏側：モデルの軽量化、蒸留研究、推論最適化

Matt Turk： これは効率向上に役立ちますか？特にNano Banana 2はFlashの特性を持ち、生成速度が極めて速いです。その舞台裏の立役者は何ですか？

Mustafa Dehghani： まず、私は最初のNano BananaとPro版に関わりましたが、最後のバージョンはチームが提供しました。なぜなら私はポストトレーニングとエージェントに移ったからです。高次元の観点から見ると、モデルをより速く、より効率的にしている理由は、一部は「モデルのサイズ」（Flash版はパラメータ構成がより軽量）です。もう一部は、複雑なプロセスをより軽量に蒸留する「蒸留スキーム」に多くの時間を費やしたことです。

驚くべきことに、推論サービスのインフラ作業も非常に重要です。私たちには非常に天才的な推論エンジニアがいます。時に机の前に座っていると、彼らが通りすがりに「ところで、モデルの速度を10倍にしておいたよ」と何気なく言うことがあります。それは信じられないほどです。これらのモデルの動作は通常の言語モデルとは異なり、優秀なエンジニアは推論プロセスを的確に最適化できます。

AI分野への批判的見解：継続学習は過小評価されている、AI技術の進歩速度は世界の配套メカニズムの発展より速い

Matt Turk： 対話も終盤に近づきました。いくつかの鋭い見解についてお聞きしましょう。現在、AI分野で間違っているやり方は何ですか？

Mustafa Dehghani： 一つだけ挙げるのは難しいですが、これは私の個人的な見解です。私たちは「ギザギザの知能」を修正するのがどれほど難しいかを過小評価していると思います。人々は、モデルが複雑な数学問題を解けるのに、単語の中の文字を数えられないのを見て、通常ただ笑って済ませてしまいます。しかし私は、これがこれらのシステムの知識の表現と処理における、いくつかの深く未解決の問題を指し示していると考えています。これは単にパッチを当てられるバグではなく、モデルの学習方法の構造的な特徴です。

Matt Turk： 現在のAI研究で、過小評価されているアイデアは何ですか？

Mustafa Dehghani： 継続学習です。私が言ったように、問題はしばしば探索段階にとどまりますが、確信が持てて初めて活用段階に入ります。私は今、それを本番環境に押し出す必要がある時期に来ていると考えています。現在の基礎モデルは本質的に時間の中で「凍結」されており、訓練が終わると固定されます。すべてのRAGパイプライン、ファインチューニングのフロー、検索システムは、「モデルは凍結されている」という仮定に基づいて構築されています。この仮定は強すぎます。私たちはより積極的にそれを変える方法を考える必要があります。

Matt Turk： RAGは時間とともに消えると思いますか？

Mustafa Dehghani： 今日のような形ではなくなるでしょうが、完全に消えるかどうかは確信が持てません。RAGは単に新鮮な情報をもたらすだけでなく、文脈学習もあります。モデルの重みにある知識と文脈にある知識には違いがあります。おそらく、すべてのことにRAGをトリガーする必要はなくなるでしょうが、長い裾野を持つ情報については、依然としてRAGを使用するでしょう。

Matt Turk： 人々が何に対して過剰に自信を持っていると思いますか？

Mustafa Dehghani： 人々は技術側を推し進めれば十分だと考え、モデルさえより賭明になれば、他のすべては自然に解決すると考えています。私の見解では、あるバージョンのAIが技術的な問題には優れているが、他の面に盲点があれば、それは有意義な世界の進歩を生み出せません。ガバナンス、規制、社会的信頼、アクセス権の配分、機関の吸収能力、これらは解決された問題ではなく、技術部分よりもさらに困難です。現在、技術進歩の速度は明らかに世界の配套メカニズムの能力よりも先を行っており、この格差は拡大しています。

Mustafaが現在関心を持っている方向：超長期間タスク、「グラウンディング」問題、知能の定義

Matt Turk： 最後の質問です。もし今日ゼロから始めるとしたら、何を研究しますか？

Mustafa Dehghani： ゼロからは始めたくありません（笑）。それは難しすぎます。しかし、私が非常に興奮している方向を一つ教えるとすれば、それは超長期間タスク（Super Long Horizon Task）の完全自動化です。現在のエージェントのデモは市場性がありますが、「複合信頼性問題」についてはあまり語られていません。

想像してみてください。あるエージェントがタスクを完了するのに100の連続ステップを必要とすると仮定します。各ステップの成功率が95%（これは非常に楽観的）だと、タスク全体を完了し、エラーなく成功する確率は：

この数学的論理は残酷です。長期間の自動化には、極めて高い単一ステップの信頼性とエラー回復能力が必要ですが、現在のシステムはまだそれを持っていません。人々が体験するのはモデルの平均パフォーマンスではなく、その失敗です。一つの愚かなエラーが信頼に与えるダメージは、100の正しいことをした利益よりもはるかに大きいです。

さらに、私は「グラウンディング」の問題、そして物理世界と接続する安定したAIシステムをどのように構築するかを研究します。私たちはテキストとピクセルの中の統計的パターンから脱却しなければなりません。最後に、「知能」そのものを定義することさえ、実質的な意味を持つ問題です。私たちは常にモデルをより賢くすることを追求していますが、知能の定義は非常に曖昧で、真の進歩を測るのが難しいです。私たちは知能を定義する体系的な方法を必要とし、目標を明確にし、それから全速力で進むべきです。

Matt Turk： Mustafa、これは非常に素晴らしい対話でした。時間を割いていただきありがとうございます。

Mustafa Dehghani： 招聘ありがとうございました。楽しかったです。

参照リンク：

https://www.youtube.com/watch?v=Bo19sXssYXI

「重みの凍結」はAI進歩の敵！DeepMind研究者が語る自己改善の鍵、専門家モデルの役割とは

関連記事

分享網址