編集 | 玉澄
Google DeepMindのCEOであるDemis Hassabis氏が、このほどY Combinator(YC)の旗艦インタビューシリーズ『How to Build the Future(未来の築き方)』に登場した。
このシリーズは、もともとOpenAIのCEOであるSam Altman氏が数年前に開始したもので、テクノロジー界のトップ人物を招き、先端技術、起業、AIの未来、科学的ブレークスルーといった壮大なテーマについて議論する。番組は一時中断された後、Garry Tan氏がYCの社長に就任したことで再開され、現在も彼がホストを務めている。
Demis氏についてよくご存じの方もいるかもしれないが、改めて簡単に紹介しよう。
Demis氏は幼い頃チェスの神童であり、17歳の時には人気ビデオゲーム『テーマパーク』を設計した。卒業後に起業し、その後アカデミアに戻り認知神経科学の博士号を取得した。当時は、脳における記憶と想像力のメカニズムの研究に没頭していた。
2010年、彼は一つの使命、すなわち「知能を解き明かす」ことだけを掲げてDeepMindを共同設立した。
それ以来、彼らの成果であるAlphaGoは囲碁の世界チャンピオンを破り、AlphaFoldシリーズは生物学における50年来の難題「タンパク質構造予測問題」を解決した。これにより、彼は2024年にノーベル化学賞を受賞した。現在、彼はGoogle DeepMindを率いてGeminiを構築し、汎用人工知能(AGI)への歩みを進めている。
このインタビューを聞いて感じたのは、彼とOpenAIの共同創業者の一人であるGreg Brockman氏は、AIへの情熱と使命感において非常に似ているということだ。二人とも、AIが「うまくいかない」と考えられていた非常に若い頃から、AIの研究こそ最も影響力のあることだと確信していた。
Demis氏は、現在の主流である大規模モデルのアプローチは行き止まりではないと考えている。大規模な事前学習、RLHF(人間のフィードバックからの強化学習)、思考連鎖(Chain of Thought)といったパラダイムは、AGIの最終的なアーキテクチャの一部になると述べている。
彼によれば、現在AGI実現の障壁となっているのは、継続学習、長期的推論、記憶といった難題だ。
人間の脳は継続学習において非常に優れている。夢を見る周期のレム睡眠段階では、海馬が非常に活発になり記憶の再生に関与する。これが記憶の定着を助け、新しい知識を既存の知識ベースに統合する。しかし、現在のモデルにはこのような継続学習メカニズムが欠けている。彼は、これがエージェントが完全なタスクを実行するのを妨げる要因の一つだと考えている。
長期推論に関して、彼は自身がGeminiとチェスを指した例を挙げた。Geminiの思考プロセスを観察すると、ある手を検討し、それが悪手だと認識しているにもかかわらず、より良い手が見つからないためにその手を指してしまうことがある、と発見したという。
「しかし、非常に正確な推論システムであれば、そのようなことが起こるべきではない」と彼は言う。つまり、AIには自身の思考プロセスへの「内省」に関して何かがまだ欠けており、思考連鎖のモニタリングには大きな改善の余地があると考えている。
同時に、AGIを達成するためには、主体的に問題を解決してくれる「アクティブなシステム」が不可欠であり、エージェントこそがその唯一の道だと強調する。「DeepMind設立当初から、我々はエージェントの研究を続けてきた」と彼は語り、現在はまだ始まったばかりだと考えている。
AIに創造性があるかどうかについて、Demis氏は明確な答えを出すことができない。もしAIが囲碁を発明できたり、「一流の数学者たちが同様に深遠で有意義であり、生涯をかけて研究し解決する価値があると認めるような、新たなミレニアム懸賞問題」を提起したり、1901年時点の物理学の知識を背景に、アインシュタインが1905年に発表した特殊相対性理論を含む「奇跡の年(Annus Mirabilis)」の成果を生み出すことができたなら、AIに新しいものを創造する能力があると認めるだろうと述べている。
彼はAGIの到来を2030年頃と予測している。これは、AnthropicのCEOであるDario Amodei氏が予測する2026年末や2027年よりもずっと遅い。Garry氏が、AI業界を目指す若者への起業アドバイスを求めた際、彼はAGIが実現した世界がどのようなものかを想像し、AGI時代が到来した後も役に立ち続けるものを作るべきだと提言した。
さらに、彼は直感に反して、小規模モデルの価値を強調する。蒸留(distillation)によって、小規模モデルは大規模モデルと同様の能力を獲得できるという。また、小規模モデルは、Googleの10億人以上のユーザーを抱える十数個のプロダクトをサポートするなど、AIアプリケーションに極めて高速、高効率、低遅延、かつ安価にサービスを提供できる。それらは、スマートフォン、スマートグラス、ロボットなどのエッジデバイスでの実行にも適している。
エッジデバイスに関して彼は、そうしたデバイスで使用するモデルはオープンソースモデルが最適だと述べた。オープンソース分野では中国のモデルがリードしており、Gemmaも非常に競争力がある。
Demis氏の話はまったく無駄がなく、どの言葉にも価値があると心から感じた。Garry氏の質問も非常に的を射ており、核心を突いたものだった。これは質の高い対談である。インタビューには他にも多くの素晴らしい見解が含まれている。全文は以下の通り。
現在のモデルパラダイムはAGIの最終的なアーキテクチャの一部になる
Garry:あなたはほぼ誰よりも長くAGIについて考えてきました。現在のパラダイム、すなわち大規模な事前学習、RLHF(人間のフィードバックからの強化学習)、思考連鎖(Chain of Thought)を見たとき、我々はAGIの最終的なアーキテクチャのどれだけを既に手中に収めており、根本的にまだ何が欠けているのでしょうか?
Demis:その質問についてですが、あなたが挙げたそれらのコンポーネントは、間違いなくAGIの最終的なアーキテクチャの一部になると思います。それらは非常に長い道のりを経て、非常に多くのことができることを既に証明しています。数年後にこれが行き止まりだったと判明するとは想像できません。それは私にとって意味をなしません。
しかし、我々が既に有効だと知っている技術に加えて、おそらくあと一つか二つ、重要な点が欠けています。例えば、継続学習や長期的推論、そして記憶の特定の側面は、今も未解決のままです。さらに、システムのあらゆる面での一貫性を高める方法も課題です。これらはすべてAGIに必要だと考えています。現在の状況では、いくつかの革新と漸進的な改善によって、既存の技術がその段階まで到達するよう拡張できる可能性があります。しかし、核心となる大きな問題が一つか二つ残っており、それを克服する必要があるかもしれません。もし本当にそうした問題が存在するとしても、その数は一つか二つを超えることはないでしょう。私の見立てでは、その確率は半々(50/50)です。もちろん、Google DeepMindでは、両方の方向性で同時に取り組んでいます。
記憶などの分野には大きな革新の余地がある:継続学習、夢の周期と海馬
Garry:一連のエージェントシステムを扱う際に最も信じられないと思うことの一つは、それらが大部分で同じ重みを再利用していることです。継続学習という概念は非常に興味深いです。現在の我々は、たとえば夜間の「夢の周期(dream cycles)」などを利用して、それをテープで間に合わせ的に繋ぎ合わせているようなものですから。
Demis:ええ、夢の周期は非常にクールです。我々はかつて、エピソード記憶の定着という観点からそれをよく考えていました。実際、それが私が博士課程で研究していた内容です。海馬がどのように機能し、新しい知識を既存の知識ベースに優雅に統合するのか。脳はこの点で非常に優れており、睡眠中(特にレム睡眠段階)に重要なエピソードを再生することで、そこから学習できるようにしています。実際、我々の最初期のAtariプログラムであるDQNがゲームを習得できた方法の一つは、「経験再生(Experience Replay)」によるものでした。我々は神経科学からこのアイデアを借用し、成功した軌跡を何度も再生しました。それは2013年、AIの「暗黒時代」のことで、非常に重要な出来事でした。
あなたの意見に賛成です。我々は今、すべてをコンテキストウィンドウに詰め込むなど、やや「テープ」で間に合わせているようなものです。しかし、それは少し不十分に見えますよね?実際、我々が扱っているのは機械であって生物の脳ではありませんが、理論上は数百万、数千万規模のコンテキストウィンドウやメモリを持つことができ、それは完璧かもしれません。しかし、現在下さなければならない特定の決定に関連する正しい情報を見つけ出すことには、依然としてコストがかかります。たとえ潜在的にすべてを保存できたとしても、このコストは無視できません。記憶のような分野には、実際にはまだ大きな革新の余地があると思います。
Garry:驚くべきことに、100万トークン規模のコンテキストウィンドウは既に非常に大きく、正直なところ十分な大きさだと感じられますが。
Demis:それを使うべきほとんどのシナリオにとっては、確かに十分な大きさです。コンテキストウィンドウを「ワーキングメモリ」と同一視するなら、人間の容量は数個の数字、大体7つ程度ですが、我々は現在、数百万、数千万のコンテキストウィンドウを持っています。しかし問題は、重要でないものや誤ったものまで含めて、すべてをそこに保存しようとしていることです。現在のこの方法はかなり力技で、正しいとは思えません。さらに、リアルタイムのビデオを処理し、天真爛漫にすべてのトークンを記録しようとすれば、100万トークンは実際には多くはなく、約20分程度にしかなりません。ですから、あなたの生活で起きていることを(例えば1ヶ月や2ヶ月のスパンで)理解できるシステムが欲しいなら、実際にはもっと多くの容量が必要です。DeepMindの歴史は一貫して強化学習(RL)と探索に傾倒しており、例えばAlphaGo、AlphaZero、MuZeroがそうです。
Gemini構築の多くのアイデアはAlphaGoの初期の探求に由来する
Garry:その哲学は、現在あなたたちがGeminiを構築するプロセスにどの程度まで組み込まれているのでしょうか? RLは依然として過小評価されているのでしょうか?
Demis:ええ、おそらく過小評価されていると思います。それは潮の満ち引きのようなものです。DeepMind設立当初から、我々はエージェントの研究を続けてきました。実際、それが我々が公表していた仕事の焦点でした。Atariに関するすべての研究、特にAlphaGoは、エージェントシステムです。我々がエージェントと呼ぶのは、自律的に目標を達成し、主体的な決定を下し、計画を立てることができるシステムのことです。もちろん、それを実行可能にするために、我々はそれをゲームの領域で行い、その後、StarCraft(AlphaStar)のような、ますます複雑なゲームへと進みました。我々は基本的に、市場に出回っているすべてのゲームをプレイし尽くしました。次の課題は、それらのモデルを、単純なゲームや複雑なゲームのモデルではなく、世界モデルや言語モデルへと汎化できるかどうかでした。それがこの数年間で我々が取り組んできたことです。
実際、今日我々が行っていることの多くは、すべての主要モデルの「思考モード」や「思考連鎖推論」を含め、AlphaGoの初期探求の特定の側面への回帰だと考えることができます。当時我々が行った多くの研究は、今日でも非常に有意義だと私は実際に思っています。我々は、モンテカルロ木探索(MCTS)や、既存の強化学習を基盤としてRLを強化するその他の手法など、それらの古いアイデアを、より汎用的な方法で大規模な本番環境において再検討しているのです。AlphaGoやAlphaZeroから得られた多くのアイデアは、今日の基盤モデル(Foundation Models)と高い関連性があると考えています。今後数年で見られる進歩の大部分は、ここから生まれると思います。
蒸留によって、小規模モデルは大規模モデルと同様の能力を獲得する
Garry:質問があります。今日、より賢くなるためにはますます大規模なモデルが必要であることは明らかですが、「蒸留」が機能しており、より小規模なモデルがはるかに高速に実行できることも見て取れます。あなたたちが持つ信じられないほどのFlashモデルは、最前線のモデルの能力の約95%に達し、価格は10分の1だと認識していますが、合っていますか?
Demis:これは我々のコアな強みの一つだと思います。最先端の能力を持つためには最大のモデルを構築しなければなりませんが、その能力を迅速に蒸留し、ますます小さなモデルにパッケージ化する能力は、我々の最大の強みの一つです。明らかに、我々がこの蒸留プロセスを発明しました。JeffやOriolといった人々がこの分野の世界的な専門家です。そして、これを行う巨大な需要があるのです。なぜなら、我々はおそらく世界最大のAIアプリケーションのエコシステムをサポートしなければならないからです。AIによる概要を備えた検索があり、Geminiアプリがあり、今やGoogleのすべてのプロダクト(Maps、YouTubeなど)にGeminiまたはその関連技術が組み込まれています。それは数十億人のユーザー、十数個の10億ユーザー超えプロダクトであり、それらは極めて高速、高効率、低遅延、かつ安価にサービス提供されなければなりません。これが、Flashやさらに小さいFlashlightモデルを極めて効率的にすることへの、我々にとって非常に重要な推進力となっています。これが最終的に、皆さんが使用する多くのワークロードにとって非常に役立つことを願っています。
Garry:これらの小規模モデルが実際どこまで賢くなれるのか興味があります。蒸留プロセスに限界はあるのでしょうか? 例えば、50Bや400Bのモデルが、今日のMythos(ここではトップクラスの大規模モデルを指すか)と同じくらい賢くなれるのでしょうか?
Demis:我々はまだ何らかの情報限界に遭遇したとは思いませんし、少なくとも我々の中で誰もその存在を知りません。おそらくどこかの時点で、超えられない情報密度の限界が存在するかもしれませんが、現在の我々の仮説はこうです。我々の主力Proモデルや最前線モデルが発表されてから1年か半年後には、非常に小さなエッジデバイスモデルで同じ能力を獲得できるようになるだろう、と。これは我々のGemmaモデルにも見られます。皆さんがGemma 2モデルを使っていることを願っていますが、そのサイズに対して驚異的なパワーを持っていると思います。ここでもまた、大量の蒸留技術と、これらの微小モデルをいかに極めて効率的にするかというアイデアが使われています。ですから、現時点では理論上の限界は見えておらず、その限界からはまだ遠く離れていると思います。
小規模モデルは、より低コストで高速であり、ローカル展開に適している
Garry:それは驚くべきことです。本当に良いことです。なぜなら、現在我々が見ている最も奇妙なことの一つは、エンジニアの生産性が6ヶ月前の500倍から1000倍にもなりうることだからです。この部屋の中にも、Steve Yeggeが語っていたように、2000年代のGoogleのエンジニアの約1000倍の生産性を持つ人々がいます。
Demis:それは非常にエキサイティングなことだと思います。小規模モデルには多くの用途があります。一つはコストですが、速度も同様に重要です。プログラミングやその他のことを考えると、特にシステムと協調して作業する場合、反復速度を大幅に上げることができます。あなたが言ったように、必ずしも最先端レベルではない(例えば95%や90%の性能)としても、多くの高速システムへの需要があり、それは十分に良いものであり、反復速度から得られる利益は失われた10%をはるかに上回ります。もう一つの大きな点は、エッジデバイス上でこれらのシステムを実行することだと思います。これは効率のためだけでなく、プライバシーとセキュリティのためでもあります。極めてプライベートな情報を処理するこれらのシステムを実行する異なるデバイスや、ロボット工学、例えば自宅にいるロボットを考えるなら、非常に効率的でパワフルなローカルモデルが欲しくなるでしょう。これらのローカルモデルは、おそらくクラウド上の何らかの大規模モデルや最前線モデルによってオーケストレーションされるでしょうが、特定の状況でのみそれらに委任することになります。おそらく、すべてのオーディオ・ビデオストリームをローカルで処理し、データはローカルに保持されるでしょう。それが非常に理想的な最終状態になりうると想像できます。
完全な汎用知能を得るためには、「継続学習」の難題を克服しなければならない
Garry:コンテキストと記憶の話に戻ります。現在のモデルはステートレスですが、もし開発者が「継続学習」能力を持つタスクモデルを使用した場合、開発体験はどのようなものになるでしょうか? それをどのように導くかについて何かアイデアはありますか?
Demis:それは非常に興味深いと思います。現在、継続学習が欠けていることが、エージェントが完全なタスクを実行するのを妨げる要因の一つだと思います。現在のそれらは、タスクの特定の側面では非常に役立ち、それらを組み合わせてクールなことを行うことができます。しかし、それらはあなたが置かれている背景にうまく適応できません。これが、本当の意味で「放っておいても大丈夫(fire and forget)」にして、すべてを自律的に処理させるために欠けている部分だと思います。それらは、あなたがそれらを置く具体的な背景について学習できる必要があります。完全な汎用知能を得るためには、我々はこの難題を克服しなければなりません。
AIには自身の思考プロセスへの「内省」に関して何かが欠けている
Garry:推論における我々の進捗はどうですか? モデルは今や印象的な思考連鎖を実行できますが、優秀な学部生なら間違えないようなことでも依然として失敗します。具体的に何を変える必要があり、推論においてどのような進歩を期待していますか?
Demis:「思考パラダイム」には依然として多くの革新の余地があります。我々の現在のやり方はまだかなり単純で力技だと言わざるを得ません。思考連鎖をモニタリングする点、例えば思考プロセスの途中で介入するといったことには、大きな余地があると想像できます。私は、我々のシステムや競合他社のシステムに対して、「考えすぎ」で、ある種のループに陥っているという印象をしばしば持ちます。
私が時々好んで行うことの一つは、Geminiとチェスを指すことです。主要な基盤モデルはすべて、ゲームのパフォーマンスがかなりひどいもので、これは興味深いことです。それらの思考の軌跡(thinking traces)を観察するのは非常にクールです。なぜなら、それは良く理解できるものだからです。私はすぐに、それが脱線したかどうか、そしてその思考が有効かどうかを非常に証明可能な形で判断できます。我々が目にするのは、ある手を検討し、それが悪手だと気づいているにもかかわらず、より良い手を見つけられず、結局その手に戻ってきて、それを指してしまう、ということが時々あるということです。
非常に正確な推論システムであれば、そのようなことが起こるのを見るべきではありません。ですから、依然として大きなギャップが存在すると思います。ただ、明確にしておきたいのは、これらのギャップを修正するには、おそらくあと1~2回の微調整で済むかもしれないということです。これらのギャップは明らかです。これが「ムラのある知能」が見られる理由です。一方で、それはIMO(国際数学オリンピック)の超難問である金メダル級の問題を解くことができます。しかし他方で、我々が目にしたように、特定の方法で質問すると、依然として基本的な算術ミスや基本的な推論ミスを犯します。ですから、私にとっては、自身の思考プロセスに対するある種の「内省(introspection)」のような何かが、まだ欠けているのだと思います。
エージェントはAGIへの必須の道であり、まだ始まったばかりだ
Garry:エージェントは今非常に注目されていますね。過剰に宣伝されていると言う人もいます。私は個人的には、まだ始まったばかりだと思います。まったくもってクレイジーです。DeepMindの内部研究は、エージェントの実際の能力が、外部の誇大宣伝と比較してどの位置にあると教えていますか?
Demis:あなたの見解に賛成です。我々はまだ始まったばかりだと思います。AGIを実現するためには、主体的に問題を解決してくれる「アクティブなシステム」を持たなければならず、この点は我々にとってずっと明確でした。ですから、エージェントこそがその唯一の道であり、我々はまだ始まったばかりだと思います。
我々全員が、どのように仕事を進めるのが最善かを模索している最中であり、あなた自身が個人的な実験でその点において最先端にいると思います。皆さんの多くもそうしていると信じています。重要なのは、それを単なる「おまけ」以上のものにし、いくつかの根本的なタスクを処理し始めるように、どのようにあなたのワークフローに組み込むかだと思います。私の印象では、現在我々は皆さまざまな実験を行っていますが、おそらくここ数ヶ月でようやく、本当に価値のあるアプリケーションシナリオを発見し始め、テクノロジーもそれをサポートできるぎりぎりの水準に達したばかりではないでしょうか? それはもはや玩具のようなデモではなく、真にあなたの時間と効率に価値を付加するものです。
私はよく考えるのですが、多くの人が数十のエージェントを40時間稼働させようと試みていますが、その投資に見合う成果が出ているかどうかは確信が持てません。しかし、その日は来ると思います。ですから、我々はまだ実験段階にあると考えています。まだ、ランキングのトップに立ち、完全に「バイブコーディング(vibe coded)」で作られたようなAAA級の大ヒット作は見ていませんよね? 私は見たことがありますし、個人的にコーディングもしたので、我々皆が素晴らしい小さなデモを作ったことがあるのは確かです。例えば、今では『テーマパーク』のプロトタイプを30分で作れますが、私が17歳の時はそれに6ヶ月かかりました。
これは本当に胸が張り裂ける思いであり、同時に衝撃的です。夏休み中ずっとそれに没頭すれば、本当に信じられないものが作れるだろうという感覚すら覚えました。しかし、それでもなお職人技、人間の「魂」とセンスが必要です。これは、あなたが作るあらゆるものに必ず持ち込まなければならないものだと思います。そして、これは現在の技術がまだ少し未熟であることも示していると思います。なぜなら、これまでの努力を考えれば、子供が1000万本売れるヒットゲームを作ってもおかしくないのに、まだそれを目にしていないからです。ですから、何かがまだ決定的に欠けているのです。おそらくプロセスに関係しているか、ツールに関係しているか、完全には確信が持てません。皆さんがこの分野で実験を重ねていると確信しているので、皆さんの方が私よりも詳しいかもしれません。私はまだ、期待するような結果、真に価値のすべてを解放するような結果を目にしていません。それは今後6~12ヶ月以内に現れると思います。
AIに創造性があるかは不確かだ
Garry:このうちどれだけが自律的に行われているのか、それとも…つまり、我々が最初に「自律性優先」で動くことはないと思います。実際には、この部屋にいる人々が1000倍の効率で活動するのを最初に目にすることになるでしょう。それが最初に起こるべきことであり、それから皆さんの多く、例えばゲーム会社や他の種類の企業が、これらのツールを活用して何らかのベストセラーアプリやゲームを構築するでしょう。それが最初に起こり、その後でより多くの部分が自動化されるのです。つまり、そこには人間の関与があり、現時点では人間は、これらがエージェントによって行われたとはまだ言いたがらないのです。
Demis:もし創造性について議論したいなら、私がよく引き合いに出すのは、我々が既に行ってきたこと、例えばAlphaGoです。第二局の37手目は明らかに誰もが知っています。私にとっては、AlphaFoldのような科学プロジェクトを始動させるための、ああいう瞬間をずっと待っていました。我々はソウルから戻ったその日にAlphaFoldを始めました。それは10年前のことで、この後AlphaGoの10周年を祝うために韓国に行く予定です。しかし、「37手目」を思いつくだけでは十分ではありません。それはクールで有用ですが、囲碁そのものを発明できるでしょうか? これこそが私が見たいものです。あなたがその高次の記述を与えれば、囲碁を発明できるシステムが欲しいのです。例えば、「5分でルールを覚えられるが、極めるには数世代かかるゲーム。美的に美しく、数時間の午後にプレイし終えられる」。これが私が与える記述だと想像できます。そして、返ってくる結果が囲碁であってほしい。明らかに、今日のシステムにはこれはできません。問題は「なぜか」であり、そこにはまだ何かが欠けていると思います。
Garry:もしかすると、この部屋の中の誰かがそれを作り出せるかもしれませんね。
Demis:もしそうなら、答えは「何も欠けていない」であり、問題は我々がシステムを使用する方法に過ぎないということになります。実際にはそれが答えかもしれません。今日の我々のシステムは既にその能力を備えており、十分に天才的で創造的な人がそれを使い、プロジェクトの推進力と魂を提供し、まるでツールと一体化するかのようにそのツールを使いこなせるならば、可能なのかもしれません。皆さんの多くがそうしているように、あなたが昼夜を問わずこれらのツールを試し、その経験を真に深い創造性と結びつければ、より信じられないことができるだろうと想像できます。
中国のモデルはオープンソース分野でリードしている。エッジデバイスではオープンソースモデルが最適だ
Garry:話題をオープンソースモデル、あるいはオープンウェイトモデルに変えましょう。最近リリースされたGemmaについてですが、あなたたちは非常に高性能でアクセスしやすく、ローカルでも実行可能なオープンソースモデルを作成していますね。これはあなたにとって何を意味しますか? AIは主にクラウドに留まるものではなく、ユーザーの手の中にあるものになるのでしょうか? これは誰がこれらのモデルを利用して構築できるかに変化をもたらしますか?
Demis:全般的に言って、我々はオープンソースとオープンサイエンスの強力な支持者です。あなたが冒頭でAlphaFoldについて触れましたが、我々はそのすべてを無償で公開しました。今日に至るまで、我々のすべての科学的研究は依然として主要なトップジャーナルに発表されています。我々は、同サイズで世界をリードするレベルのモデルを創り出すことを望んでおり、Gemmaが既にそれを達成していることを願っています。我々はこの道に非常にコミットしており、皆さんがGemmaで実験し、構築し、その使用を楽しんでくれることを願っています。現在、ダウンロード数は4000万回に達したと思いますが、それはわずか2週間半でのことです。ですから、我々はこれに非常に興奮しています。
同時に、オープンソース分野で「西側のテクノロジースタック」を持つことも重要だと思います。明らかに、多くの中国のモデルは非常に優れており、彼らは現在オープンソース分野でリードしています。我々はGemmaがあらゆる面でのサイズで非常に競争力があると考えています。我々にとって、これはリソース、人材、計算能力の問題です。異なる特性を持つ二つの最大規模の最前線モデルを同時に製作するだけの遊休計算能力を持つ者など誰もいません。それは非常に困難です。しかし、現在我々が決定しているのは、エッジモデル(つまり、Android、スマートグラス、ロボットに使用したいもの)については、オープンソースモデルが最適であるということです。なぜなら、一度それらをそれらの端末に展開すれば、表面上は元々容易に入手可能だからです。ですから、完全にオープンである方が良いですよね? それゆえ我々は、「Nano(ナノ)」サイズレベルでこれを統一する決定を下しました。これは戦略的にも我々にとって有効です。可能な限り多くの人がその上に構築してくれることを望んでおり、もちろん、我々自身もその上に構築します。
マルチモーダルモデルGeminiには長期的優位性があり、Genieはロボット工学にとって非常に重要だ
Garry:先ほど、このステージに上がる前に、私のバージョンの映画『her/世界でひとつの彼女』に登場するSamanthaのデモをお見せしましたね。私にとって、あなたに何かをデモしようとするのはかなり緊張することです。しかし、それは成功しました。素晴らしかったです。Geminiは誕生時からマルチモーダルでした。私はこれらのモデルの研究に多くの時間を費やしてきました。つまり、モデルと直接音声で対話する際のコンテキストの深さとツール呼び出し能力は、正直なところ、現在最強であり、並ぶものはありません。
Demis Hassabis:はい。これはGeminiシリーズの中で依然として少し過小評価されている側面だと思います。つまり、我々が最初からマルチモーダルとして設計したという点です。これにより、実際、テキストだけに集中するよりも、当初はタスクがはるかに困難になりました。しかし、我々は長期的にはそこから恩恵を受けられると信じています。現在、世界モデルの構築において既に成果が見え始めていると思います。例えば、Geminiを基盤として我々が構築したGenieですが、これはロボット工学にとって非常に重要だと思います。だからこそ、Gemini Robotics(すでに多くの方が試されたかもしれません)は、マルチモーダル基盤モデル上に構築されるのです。
我々は、Geminiのマルチモーダル面での強力な優位性が競争上の強みになると考えています。我々はこれをWaymoなどのプロジェクトにますます応用しています。そして、現実世界に持ち出すデバイスやアシスタント(スマートフォン、メガネ、その他のデバイスかもしれません)を想像してみてください。それらは、あなたの周りの物理世界、直感的な物理学、そしてあなたが置かれている物理的背景を理解する必要があります。これこそが、我々のシステムが極めて得意とするところであり、あなたがご自身のセットアップでそれを好んで使っている理由だと思います。我々はこの面でさらに前進し続ける計画であり、この種の問題を処理する上で、現在最強のモデルを我々は持っていると考えています。
今後数十年、推論は「ほぼ無料」にはならないだろう
Garry:推論コストは急速に低下しています。推論が実質的に無料になったとき、何が可能になるでしょうか? これはあなたのチームが実際に最適化する方向性をどのように変えますか?
Demis:推論が本当に「ほぼ無料」になるかどうかは確信が持てません。ここにはジェボンズのパラドックスのようなものがあります。我々は最終的に、手に入るあらゆる計算能力を使い果たすことになると思います。何百万ものエージェントや、協調して動作するエージェントの大群を想像できます。これが推論用計算能力を消費する一つの方法です。あるいは、単一のエージェントや少数のエージェントグループが複数の方向に思考し、その後アンサンブル(Ensembling)を行うことも想像できます。我々はこれらすべての実験を行っており、おそらく皆さんも試していることでしょう。これらすべてが、利用可能な推論用計算能力をすべて消費し尽くすと思います。
(注:ジェボンズのパラドックス(Jevons Paradox)、あるいはジェボンズ効果とは、経済学における古典的な現象である。その核心的な結論は、技術進歩が特定の資源の使用効率を著しく高めた場合、その資源の総消費量は減少するどころか、むしろ増加する傾向がある、というものである。)
つまり、いつの日かコストがほぼゼロになるかもしれません。もちろん、我々が核融合、超伝導体、最適化されたバッテリー、あるいはこれらの分野の何らかの組み合わせを解決すれば(それは材料科学を通じて実現されると思いますが)、エネルギーコストはほぼゼロになります。しかし、チップの物理的な製造などには依然としてコストがかかります。少なくとも今後数十年は、ここには何らかのボトルネックが残るでしょう。もしそうなら、推論側には依然として割り当てがあり、我々はそれを効率的に使う必要があります。
AIで完全な「仮想細胞」を実現するには、あと約10年
Garry:幸いなことに、小規模モデルがますます賢くなっています。これは素晴らしいことです。聴衆の中には、バイオやバイオテクノロジー分野の創業者が多くいますね。AlphaFold 3はタンパク質を超えて、より広範な生体分子の領域へと我々を導きました。完全な細胞システムをシミュレーションできるようになるまで、あとどのくらいでしょうか? それとも、これは依然として桁違いの根本的な難題なのでしょうか?
Demis:我々はAlphaFold 2の後、DeepMindからIsomorphic Labsをスピンアウトさせました。これは現在非常に順調に進んでいます。多くの方がご存じのように、AlphaFoldは創薬プロセスの一环に過ぎませんが、Isomorphic LabsはAlphaFoldを開発しているだけでなく、適切な特性を持つ化合物を設計するために、隣接する生化学や化学の研究にも取り組んでいます。我々はこの分野で近々いくつかの重大な発表を行う予定です。進捗は非常に順調だと思います。
最終的に、あなたが望むのは完全な「仮想細胞」でしょう。私が多くの科学講演で述べてきたことです。「完全に機能する細胞シミュレーションであり、それに摂動を加えると、その出力が実際の実験結果と十分に近く、実用的な価値を持つようになる」ものです。大量の探索ステップをスキップし、膨大な合成データを生成して他のモデルを訓練し、実際の細胞の状況を予測できるようになります。完全な仮想細胞の実現までには、あと約10年だと見ています。我々は現在、DeepMindの科学部門からこの研究を始めており、まずは仮想的な「細胞核」に着手しています。それは比較的自己完結しているからです。
これらすべての問題を処理する秘訣は、「複雑さの中から一つの断片(スライス)を切り出せるかどうか」です。最終的には人体全体をシミュレーションしたいわけですが、適切な詳細レベルでシミュレーションできるか? 十分に自己完結的な断片を抽出し、その独立系の入力と出力を近似してから、システム自体のみに集中できるか? この観点から、細胞核は非常に興味深い対象です。もう一つの問題は、データがまだ足りていないことです。データが必要です。私は、電子顕微鏡やその他のイメージング技術を研究するさまざまなトップ科学者と話をしました。もし生きた細胞を殺さずにイメージングできれば、それは革新的な進歩となるでしょう。なぜなら、そうすればそれを視覚問題に変換でき、我々は視覚問題の解決方法を知っているからです。しかし現時点では、細胞を破壊せずにナノメートルレベルの解像度を提供し、かつすべての動的相互作用を観察できる技術を私はまだ見ていません。明らかに、その解像度での静止画像を撮影することは可能であり、現在では非常に詳細になっていますが、それを複雑な視覚問題に変換するにはまだ十分ではありません。ですから、これは一つの可能性のある解決経路です。すなわち、ハードウェア主導のデータソリューション、あるいは、これらの動的システムのためのより優れた深層学習シミュレーターを構築するという、モデリングに偏った解決方法です。
AIは科学の究極のツールとなり、科学における「根幹問題」を解決するために使われる
Garry:あなたは生物学だけでなく、材料科学、創薬、気候モデリング、数学など、さまざまな科学分野に注目してきました。今後5年間で最も劇的な変革が起こる科学分野をランク付けするとしたら、あなたのリストには何が入りますか?
Demis:それらはすべて非常にエキサイティングです。これこそが、私が30年以上のキャリアを通じてAIに取り組んできた主な原動力であり、本来の意図です。すなわち、AIを究極のツールとすることです。私はずっと、AIは科学的理解、科学的発見、医学の進歩、そして我々を取り巻く宇宙への理解を推し進めるための究極のツールになると考えてきました。
実際、我々の当初のミッションステートメント(今でも我々の考え方の基本です)を振り返ると、それは二つのステップから成り立っています。第一段階は「知能を解き明かすこと」、つまりAGIを構築することです。第二段階は「それを使って他のすべての問題を解決すること」です。時が経つにつれ、我々はそれを少し修正せざるを得ませんでした。「本当に他の『すべて』を解決することを意味しているのか?」と人々が尋ねたからです。我々はまさにその通りであるという意味です。今日、人々はこれが何を意味するのか理解し始めていると思いますが、具体的に言えば、私が言っているのは、科学における「根幹問題」、つまりまったく新しい研究分野や発見経路を切り開く可能性のある科学的ブレークスルーを解決することです。AlphaFoldは我々がやりたかったことの典型的なケースです。世界中で300万人以上の研究者がおり、今や世界中のほぼすべての生物研究者がAlphaFoldを使用しています。製薬会社の重役である私の友人の何人かは、今や開発されるほぼすべての新薬は、その研究開発プロセスのどこかの段階でAlphaFoldを使用するだろうと私に語りました。これは我々が非常に誇りに思うことであり、AIを通じて我々が生み出したいと考えているインパクトです。
しかし、これはまだ始まりに過ぎないと私は確信しています。AIが役立てられない科学や工学分野はまだ見たことがありません。あなたが挙げた分野に関しては、我々は今、いわば「AlphaFold 1」の瞬間にいると感じています。非常に有望な結果は得られていますが、その分野でまだ超難題を完全に克服してはいません。しかし、今後数年のうちに、これらすべての分野で語るべきことがたくさん出てくると思います。あなたが挙げた材料科学、材料科学から数学に至るまで、すべてが非常にエキサイティングです。
Garry:これは非常にプロメテウス的な響きがありますね。まるでその能力が人類に授けられたかのようです。
Demis:そうだと思います。もちろん、プロメテウスの寓話が伴うのは、我々はそれをどのように使うか、何のために使うか、そして同じツールがもたらしうる誤用についても注意深くならなければならない、ということです。
AIとディープテックの融合は巨大な価値を生む。真に情熱を注げることに取り組め
Garry:この部屋には、AIを科学に応用する企業を立ち上げようとしている人々がたくさんいますね。あなたの目には、真に最先端の進歩を推進するスタートアップと、単に基盤モデルのAPIをラップして「AI駆動科学」と称している企業との違いはどこにあるのでしょうか?
Demis:私がお勧めしたいことの一つです。もしあなたがY Combinatorの立場にいるとしたら、私はどうするだろうかと考えていました。明らかにやらなければならないことの一つは、AI技術のトレンドを捉えることです。これは難しい部分の一つです。しかし、AIの進化の方向性と、何らかの深いテクノロジー分野を結びつけることには、巨大な余地があると私は確信しています。その「ゴールデン・スイートスポット」こそがそこにあると思います。材料、医学、その他の極めて困難な科学分野であれば何でもそうです。私は、その種の学際的なチームは、特に「原子の世界(物理的世界)」が関わる場合、少なくとも予見可能な将来においては、近道がないと思うからです。
これらの分野は非常に安全であり、次世代の基盤モデルのアップデートによって簡単に飲み込まれることはありません。ですから、もしそういった機会を探しているなら、それはより防御力の高い領域の一つです。私は常にディープテックを愛してきましたので、ディープテックに偏見を持っています。長続きし価値あることは決して容易ではないと思うので、私はいつもディープテックに惹かれてきました。明らかに、2010年に我々が始めた頃のAIもそうでしたよね? 当時、人々は「うまくいかないと分かっている」と言っていました。それが投資家や学界すらも私に言った言葉です。それは非常にニッチなテーマと見なされ、90年代に試みられ、うまくいかないと知られている、と。しかし、もしあなたが自身のアイデアに対して信念と確信を持ち、なぜ今回が違うのか、あるいはあなたの経歴の特別な組み合わせ(理想的には、あなたが機械学習とその応用分野の両方の専門家であるか、そのような専門知識を持つ創業チームを作り上げること)があれば、そこに巨大な影響を与え、巨大な価値を築けると私は考えています。
Garry:それは非常に重要なメッセージです。つまり、人は一度成功すれば成功者ですが、成功するまでは誰もが反対するということを忘れがちですからね。
Demis:ええ、もちろんです。誰も信じないでしょう。ですからこそ、自分が本当に情熱を注げることに取り組まなければならないと思います。私にとっては、何があってもAIの研究を続けるつもりでした。私は幼い頃から、これが自分が考えうる限り最も影響力のあることだと確信していました。結果的にその通りになりましたが、そうはならず、我々が50年早すぎたという可能性もありました。それでも、私が考えうる限り最も面白いことでもありました。だから、たとえ今日もまだどこかの小さなガレージにいて、それがまだあまりうまく機能していなくても、私は今日もAIを研究しているでしょう。それでも何らかの方法を探し、おそらくアカデミアかどこかに戻ってでも、研究を続ける方法を見つけるでしょう。
AlphaFold的ブレークスルーに適した科学分野:「巨大な組み合わせ探索空間」、明確な目的関数、そして十分なデータ
Garry:AlphaFoldはあなたが追求し成功したケースの一つです。では、ある科学分野がAlphaFoldのようなブレークスルーを達成するために成熟しているとは、何が条件なのでしょうか? 何かパターンや特定の目的関数は存在しますか?
Demis:5分間の空き時間ができたら、これを書き留めるべきですね。しかし、我々が手がけたすべてのAlphaプロジェクト(特にAlphaGoとAlphaFold)から学んだ教訓はこうです。我々が持つ技術、そして私が探し求めるのが好きな問題は、「巨大な組み合わせ探索空間」と表現できる状況に非常に適しています。ある意味、空間が巨大であればあるほど良いのです。それは、どのような力技や特殊なケースのアルゴリズムもそれを解決できないことを意味します。囲碁の指し手やタンパク質の異なる立体構造はどちらもそうで、その可能性は宇宙の原子の数をはるかに超えています。
それから、明確な目的関数が必要です。例えば、タンパク質の自由エネルギーを最小化すること、あるいは囲碁の試合に勝つことと見なせます。山登り法(Hill climb)による最適化を実行できるように、目的関数を明確に指定する必要があります。そして、十分なデータ、または大量の分布内(in-distribution)の合成データを生成できるシミュレーターが必要です。これらの条件がすべて満たされれば、今日の手法を用いて、問題解決や「干し草の山から針を見つける」ような解決策の発見において、かなりのところまで行けると思います。ついでに言えば、私も創薬を同じように見ています。ですよね? 世の中には、その病気を解決できる化合物が必ず存在し、副作用などもなく、ただそれを見つけ出すことができればいいのです。物理法則が許す限り、唯一の問題は、いかに効率的で扱いやすい方法でそれを見つけるかです。AlphaFoldによって、これらのシステムが大海からその針を(あのケースでは完璧な囲碁の一手を)見つけ出せることを初めて証明できたと思います。
AIが真の科学的発見を成し遂げる日は近い:「アインシュタインテスト」
Garry:少し形而上学的な質問です。我々は人間がこれらの手法を使ってAlphaFoldを創り出したことについて話していますが、そのメタレベルとして、人間がAIを利用して可能性のある仮説空間を探索するというものがあります。単にデータに対してパターンマッチングを行うだけでなく、真の科学的推論を実行できるAIシステムは、今どのくらい先にあるのでしょうか?
Demis Hassabis:かなり近いと思います。我々はそういった汎用システムを研究しています。我々には「Co-scientist(共同科学者)」と呼ばれるシステムがあり、他にもAlphaEvolveのような、基本的なGemini以上のことができるアルゴリズムがあります。明らかに、すべての最先端研究所がこの分野で実験を行っています。
これまでのところ、我々は皆同じようなことを考えていますが、IMOよりも難しい数学の問題のようなものは別として、真に巨大な発見と呼べるものはまだ見ていません。これは私の個人的な見解です。それはもうすぐそこまで来ていると思います。これは、我々が以前に議論した創造性や、既知の境界を超越することに関係しているかもしれません。明らかに、その地点では、それはもはや単なるパターンマッチングではありません。マッチするパターンがないからです。それは外挿の一歩先を行くものです。それは一種の類推的な推論であり、現在のこれらのシステムはまだその能力を持っていないか、少なくとも我々がそれらを正しい方法で使っていないのだと思います。
ですから、科学の分野で私がよく言うのは、「真に興味深い仮説を『提起』できるかどうか」であり、「単に解決する」ことだけではない、ということです。「単に」と言うとき、我々はリーマン予想やミレニアム懸賞問題のようなものを解決することを話題にしています。これは明らかに非常に素晴らしいことであり、おそらくこれを成し遂げるまでにはまだ数年かかるでしょう。私は「P = NP」問題を解決したい。あれは私のお気に入りです。しかし、それよりも難しいのは、一流の数学者たちが同様に深遠で有意義であり、生涯をかけて研究し解決する価値があると認めるような、新たなミレニアム懸賞問題のセットを「提起」できるかどうかです。それは一段と難しいことであり、我々はまだその方法を知らないと思います。
とはいえ、これを超自然的なことだとは思いません。これらのシステムは最終的にそれを成し遂げられると信じています。おそらく、あと一つか二つの何かが欠けているだけでしょう。我々がテストする方法を、私は時々「アインシュタインテスト」と呼んでいます。すなわち、1901年時点の物理知識でシステムを訓練し、それがアインシュタインが1905年に成し遂げたように、特殊相対性理論を含む「奇跡の年(Annus Mirabilis)」の成果を提案できるかどうかを見るのです。それができるでしょうか? 私はこのテストを実施し、それが可能かどうかを観察できると思います。それが達成された時点で、我々はこれらのシステムが真に斬新なものを発明できる瀬戸際にいると思います。
AGIの到来は2030年頃と予測。AGI時代にも役立つものを作れ
Garry:最後の質問です。この部屋にいる、大規模AIに携わりたい、あるいはあなたが築き上げたような規模に近づきたいと考えている技術者たちに対して。あなたは長年にわたりパイオニアであり、これは世界で最も偉大なAIへの取り組みの一つです。このことに関して、この部屋の誰もがあなたとDeepMindの同僚たちに心から感謝していると思います。ありがとうございます。最先端のシステムを構築することに関して、25歳の自分が知っておけばよかったと思うことは何ですか?
Demis:いくつか既にカバーした点があると思います。つまり、困難な問題や深遠な問題を追求することは、ある意味では、浅薄で単純で表面的な問題を追求するよりも難しいわけではない、ということです。それらは単に異なる点で難しいだけなのです。しかし、人生は非常に短く、時間とエネルギーは限られていることを考えると、自分の生命力を、もし自分が手を付けず、推進しなければ、決してインパクトを生まないであろうことに投資すべきではないでしょうか。私はそのレンズを通して物事を見るでしょう。もう一つは、我々が話したディープテックの件です。私は学際的な仕事が大好きです。これは今後数年でさらに一般的になると思います。分野間の融合や、それらの領域間のつながりを見つけることであり、AIを使うことでこれがより容易になるでしょう。
最後に申し上げたいのは、あなたのAGIのタイムライン次第ですが(私の予測では2030年頃です)、もしあなたが今日ディープテックの旅を始めるなら、それは私の見立てでは通常10年がかりの旅です。さて、その旅の途中でAGIが出現することを考慮に入れなければなりません。それは何を意味するでしょうか? 必ずしも悪いことではありませんが、それを考慮する必要があります。あなたのプロジェクトはそれを活用できるか? AGIシステムはそれをどう扱うか? これは先ほどあなたが触れたAlphaFoldと汎用AIシステムの話に少し戻ります。私が予見できることの一つは、GeminiやClaudeといった汎用システムが、AlphaFoldのような特化型システムをツールとして使用するようになるだろうということです。私は、すべてを一つの巨大な「脳」に詰め込むことはないと思います。なぜなら、もしすべてのタンパク質情報をGeminiに入れたとしても、それは無意味であり、劣化が大きすぎるからです。Geminiにタンパク質の折りたたみを行う必要はありません。情報効率の話に戻りますが、それは間違いなくその言語能力に悪影響を及ぼすでしょう。
したがって、より良い方法は、非常に優れた汎用ツール呼び出しモデルを持つことだと思います。それらは特定のツールを訓練することさえできますが、ツールは独立したシステム内に存在するのです。その影響について考えるのは興味深いことです。今日あなたが構築する可能性のあるもの、そして物理的なもの、例えばどのような工場を建てるか、どのような金融システムを構築するかなども含めて。真剣にこのことを受け止める必要があると思います。一方で、その世界がどのようなものになるかを想像し、そして、その世界が途中で出現したときに役立つように、何かを構築することです。
Garry:Demis Hassabis、皆さん。(拍手)
参考リンク:
https://www.youtube.com/watch?v=JNyuX1zoOgU
——好文リンク——
DeepSeek、マルチモーダル技術レポートを公開!詳細満載:7千倍の極限圧縮、視覚プリミティブで思考し、照応のギャップを解消!消費した計算能力は他のトップモデルの数十分の一!
Google Geminiがキングオブワイルドカードモードを起動:一言でPDF、Word、Excelなど30種類以上の異なる形式のファイルを直接生成。実用的な効率化の神器、ゲームチェンジャーだ!