Gemini の中心人物、伝説的エンジニア Jeff Dean 最新インタビュー：未来は一人あたり 50 人の仮想インターン時代、専門家は不要に！

整理｜華衛

「履歴書は基本的に AI のタイムラインそのもの」。これは、Gemini の背後にある中心的な推進者であり、グーグルの首席 AI 科学者であるジェフ・ディーン（Jeff Dean）に対する多くの人々の評価です。2000 年代初頭にグーグル検索のフルスタックを書き換え、数兆パラメータのスパースモデルを復活させ、TPU と最先端の機械学習研究を共設計するに至るまで、ディーンは目立たない方法で、現代の AI テクノロジースタックのほぼすべての層を形成してきました。彼は CPU、シャード化されたインデックスから、テキスト、ビデオ、コードを超えて推論できるマルチモーダルモデルに至るまで、何度ものスケール革命を目撃してきました。

近日、彼はある深い対話の中で鋭い発言を行い、大きな注目を集めました。業界関係者の多くは「情報量が膨大だ」と叫んでいます。このインタビューの中で、ディーン氏は多くの独占的な視点と極めて先見的な判断を示しました。

「大統一モデルの時代が本当に到来しました。重要なのは、モデルがますます強力になり、もはや分野の専門家は必要なくなっていることです」と彼は述べています。未来は専用モデルとモジュール型モデルの組み合わせであり、200 言語、超強力なロボットモジュール、超強力な医療モジュールなどを同時に所有し、異なるシナリオで呼び出すことができるようになります。「モデルの知識はインストール可能であり、ソフトウェアパッケージをダウンロードするのと同じです」。

「コンピュータ史上で最も多作なエンジニアの一人」であるディーン氏は、現在自身が AI を使ってコードを書く方法を惜しみなく共有し、「未来はおそらく、誰もが 50 人の仮想インターンを持つことができるようになるでしょう。彼らをグループに分け、5 つのグループと对接するだけで、各自が作業を行うようになります」と述べています。

さらに、ディーン氏はグーグル内部での「最先端を突き進む」モードや、チームアーキテクチャの改善とモデル能力のアップグレードを推進するための考え方を詳細に明かしました。除此之外、彼は蒸留がなぜ Flash モデルのブレークスルーのたびに核心的な駆動力となるのか、なぜ計算能力ではなくエネルギー消費が真のボトルネックとなっているのか、なぜハードウェアとモデルの共設計を 2〜6 年先に行う必要があるのか、なぜ次の飛躍がより大きなコンテキストウィンドウからではなく、「数兆トークンを処理しているかのように」振る舞うシステムから来るのかなど、いくつかの興味深い問題を提起し、分解しました。

以下は詳細な対話内容です。元の意味を変えない基础上で翻訳および削減を行い、読者にお届けします。

1 次世代モデル、どの古い思路を拾い上げるべきか？

Shawn Wang：今日はグーグルの首席 AI 科学者であるジェフ・ディーン氏をお迎えしました。ようこそ。お招きできて光栄です。あなたの講演は何度も拝見しており、そのキャリアは伝説的です。まず、「パレートフロンティア（Pareto Frontier）」を達成されたこと、おめでとうございます。

Jeff Dean：ありがとうございます。パレートフロンティアは確かに素晴らしく、この位置に立てるのは良いことです。

Shawn Wang：はい、両方を兼ね備えていると思います。パレートフロンティアを占め、顶尖の能力を持ちつつ、効率も兼顾し、人々が使いたくなる一連のモデルを提供する必要があります。その一部はハードウェアの仕事に、一部はモデルの仕事に由来し、間違いなく長年蓄積された独自の秘訣も多いでしょう。これらがこれほど滑らかに統合されているのを見ると、本当に衝撃を受けます。

Jeff Dean：はい、その通りです。あなたが言ったように、これは単一の要因ではなく、テクノロジースタックの上から下まで一整套のものの組み合わせです。これらすべてが合わさって初めて、グーグルは能力が極めて高い大規模モデルを作成でき、同時にソフトウェア技術を通じて、大規模モデルの能力をより小さく、軽量なモデルに移行させることができます。这些小規模モデルはコストが低く、レイテンシも低いですが、自身の規模において依然として非常に強力です。

Alessio Fanelli：パレートフロンティアの下限を守るという点において、どれほどのプレッシャーがありますか？多くの新しいラボが性能の上限を必死に押し上げようとしていると感じます。資金調達などの必要があるからです。一方、あなた方には数十億人のユーザーがいます。昔、CPU を作っていた頃に議論があったのを覚えています：もしグーグルのユーザー全員が毎日 3 分間音声モデルを使用した場合、CPU の数を倍増させなければならない、と。現在、グーグル内部ではどのように議論されていますか？「最先端を突き進む」ことと「必ず実装・展開すること」のバランスをどのように取っていますか？

Jeff Dean：私たちは常に最先端のモデル、あるいは最先端を押し上げるモデルを持ちたいと考えています。なぜなら、それによってのみ、昨年や半年前には存在しなかった新しい能力を見ることができるからです。同時に、これらの顶尖モデルは有用ですが、より広範なシナリオにとっては、速度が遅く、コストが高すぎることも知っています。したがって、私たちのアプローチは 2 つの路線を同時に進めることです。一つは、高能力かつ低コストのモデルで、低レイテンシのシナリオをサポートし、エージェントプログラミングなどのタスクでより簡単に使用できるようにするもの。もう一つは、深い推論や複雑な数学的問題の解決などに向けたハイエンドの最先端モデルです。これらは二者択一ではなく、どちらも有用です。さらに、蒸留という重要な技術を通じて、まず最先端モデルが必要であり、その能力を小規模モデルに蒸留することができます。したがって、これは非此即彼ではなく、相互に補完し合うものです。

Alessio Fanelli：あなたと Jeffrey は 2014 年に関連する方案を提案していましたね。

Jeff Dean：L'Oreal Vinyls に関する論文も忘れないでください。

Alessio Fanelli：どちらもかなり昔のことですね。これらの思路のイテレーションサイクルをどのように見ていますか？例えば、スパースモデルのようなアイデアを、どのように再評価しますか？次世代モデルにおいて、どの古い思路を再び拾い上げる価値があるとお考えですか？あなたは後に巨大な影響を与えた多くのアイデアに関わってきましたが、当時はそれが明らかではなかったものもあります。

Jeff Dean：蒸留の最初の出发点は、当時 3 億枚の画像からなる巨大な画像データセットを持っていたことです。異なる画像カテゴリのために専用モデルを訓練すると、例えば哺乳類に特化したもの、室内シーンに特化したものなど、より広範な画像で事前訓練し、その後クラスタリングされたカテゴリに対して強化データで微調整を行うと、効果が大幅に向上することが分かりました。しかし、これら 50 のモデルを大規模なアンサンブルモデルとして実際に展開することは現実的ではありませんでした。そこで蒸留の思路が生まれました：これらの独立した専門家モデルを、実際に展開可能な形態に「圧縮」するのです。これは今日私たちが行っていることと本質的に同じですが、現在は 50 のモデルのアンサンブルを使用するのではなく、まず超大規模モデルを訓練し、それをはるかに小さなモデルに蒸留しています。

Shawn Wang：蒸留は強化学習の革新とも関係があるのではないかと考えています。表現してみますが、強化学習はモデルを分布の特定の部分で飛躍的に向上させますが、他の領域では損失が生じる可能性があり、一種の不均衡な技術です。しかし、おそらく蒸留を通じてそれを「回収」できるかもしれません。一般的な期待は、能力を向上させつつ、他の場所で劣化しないことです。この無損失の能力融合は、一部は蒸留によって実現できる我感觉しますが、まだ完全に理解できておらず、関連する論文もあまりありません。

Jeff Dean：蒸留の核心的な利点の一つは、非常に小さなモデルでも、超大規模なデータセットを使用し、データを複数回走査することで、超大規模モデルからの論理的確率出力を取得し、小規模モデルがハードラベルだけでは学べない行動を学ぶように導くことができる点です。蒸留により、小規模モデルが大規模モデルの効果に近づけることが観察されています。これは多くの人にとって最適なバランス点です。現在、Gemini はすでに数世代を経ており、新しい Flash バージョンが前世代の Pro バージョンの効果に到達し、甚至在大幅に超越することを可能にしています。私たちはこれを続けたいと考えています。なぜなら、これは非常に健全な方向性だからです。

Shawn Wang：以前、Dara が質問していました：最初のロードマップは Flash、Pro、Ultra でした。你们は常に Ultra を「母モデル」として使用し、そこから蒸留しているのでしょうか？Ultra が究極の源なのでしょうか？

Jeff Dean：私たちには多種多様なモデルがあります。内部モデルで公開または展開されないものもあれば、Pro レベルのモデルもあり、そこから Flash レベルのモデルを蒸留することもできます。この能力は非常に重要であり、推論時の動的拡張もモデルの効果を向上させます。

Shawn Wang：分かりました。そして明らかに、Flash のコスト優位性が絶対的な支配力をもたらしています。最新のデータでは 50 兆トークンのようですが、覚えていませんが、毎日変化しています。

Jeff Dean：はい、市場シェアも上昇していくことを願っています。

Shawn Wang：コストの観点から言えば、Flash は非常に経済的で、ほぼすべてのシナリオで使用できます。現在、Gmail にも YouTube にも、至る所にあります。

Jeff Dean：私たちはますます多くの検索製品でもそれを使用しており、さまざまな AI モードも含まれています。

Shawn Wang：何てことでしょう、Flash が AI 検索モードに入ったのですか？想像もしていませんでした。

Jeff Dean：Flash モデルの大きな利点は、コストが低いだけでなく、レイテンシも低いことです。レイテンシは实际上非常に重要です。なぜなら、将来モデルにより複雑なことを行わせ、より多くのトークンを生成させるようになるからです。例えば、単にループを書くだけでなく、ソフトウェアパッケージ全体を書かせるようになります。これらを低レイテンシで完了できることは非常に重要です。Flash はその一つの道であり、私たちのハードウェアプラットフォームも TPU のような多くのサービス能力をサポートしています。チップ間の相互接続性能が極めて高く、長いコンテキストのアテンションやスパース専門家モデルなどの技術に非常に適しています。これらは大規模展開にとって不可欠です。

Alessio Fanelli：Pro から Flash への蒸留には、ほぼ 1 世代遅れという臨界点があるでしょうか？多くのタスクにおいて、今日は Pro が飽和しており、次世代では同じタスクが Flash の価格帯で飽和する感覺があります。さらに 2 世代後には、Flash がほぼすべての人が必要とするすべてを行えるようになるでしょう。では、大部分のユーザーが Flash で満足するようになった場合、内部に対して Pro の最先端を押し続けるための投資をどう説得しますか？その見解を伺いたいです。

Jeff Dean：ユーザーのニーズ分布が静止不变であれば、確かにそうなるでしょう。しかし、現実は往々にして、モデルが強くなるほど、人々の期待も高まります。私自身も経験があります：1 年前はモデルを使ってコードを書いていましたが、簡単なタスクはできても、複雑なものはできませんでした。現在、複雑なコードにおいて大きな進歩を遂げたため、より難しいことをさせるようになりました。プログラミングだけでなく、現在では世界の再生可能エネルギーの展開を分析させたり、太陽光発電の報告書を書かせたりします。これらは 1 年前には誰もモデルに行わせなかった複雑なタスクです。したがって、境界を拡大するためにより強力なモデルが依然として必要であり、同時にボトルネックを見つけるのにも役立ちます：どこがうまくいかないのか、どのように改善すべきか、そして次世代をより強くする方法です。

2「インターネット全体をコンテキストに含め」、モデルに数兆トークンを処理させる

Alessio Fanelli：内部では専用のベンチマークやテストセットを使用していますか？公開されるものは毎回那几个のベンチマークで、97% から 99% に上昇しますが、内部ではどのようにチームを推進していますか？私たちが真に行うべき目標は何ですか？

Jeff Dean：公開ベンチマークにはその価値がありますが、ライフサイクルは限られています。登場した当初は難しく、モデルの正解率は 10%〜30% でしたが、80%〜90% まで最適化することができます。しかし、95% 程度に達すると、限界効用は極めて低くなり、能力がすでに基準に達しているか、訓練データにリークや類似の内容が含まれているかのどちらかです。したがって、私たちは非公開の内部ベンチマークを保有しており、訓練データに完全に含まれておらず、モデルが現在持っていないが、持つことを望む能力を表しています。その後、評価します：より専門的なデータが必要か？アーキテクチャの改善か？あるいはモデル能力のアップグレードか？どのようにすればより良くなるか。

Shawn Wang：例を挙げていただけますか？あるベンチマークが直接アーキテクチャの改善を启发した例です。ちょうどあなたの話に沿って質問します。

Jeff Dean：Gemini モデル、特に 1.5 で初めて導入された長いコンテキスト能力は、まさにそこから生まれたと思います。当時の目標はそれでした。

Shawn Wang：当時は誰もが殺到し、すべてが緑色のチャートで溢れていました。私は考えていました：なぜみんな同時にブレークスルーしたのか？

Jeff Dean：Stack Benchmark のようなベンチマークは、1k、2k、8k のコンテキスト長ですでに飽和していました。私たちが真に推進しているのは 100 万、200 万のコンテキストの最先端です。なぜなら、そこにこそ真の価値があるからです：数千ページのテキストや数時間のビデオをコンテキストに入れて実際に使用できるからです。単針検索はすでに飽和しており、より複雑な「多針検索」や、より現実的な長いコンテキストの理解と生成タスクが必要です。これにより、ユーザーが真に必要とする能力を測定できます。「この商品番号を見つけられるか」だけではありません。

Shawn Wang：本質は検索であり、機械学習における検索です。より底辺から言いたいのですが：あるベンチマークを見て、それを解決するためにあるアーキテクチャを変更する必要があると気づいても、本当に変更すべきでしょうか？時にはこれは単なる帰納的バイアスに過ぎません。かつてグーグルで働いていた Jason Wei が言ったように：短期的には勝つかもしれませんが、長期的には拡張できないかもしれず、甚至後にやり直す必要があるかもしれません。

Jeff Dean：私は具体的な方案を何にするかについて悩むことはあまりなく、まず明確にします：私たちは本当にどのような能力を必要としているのか？長いコンテキストが有用であることは非常に確信していますが、現在の長さは全く不十分です。真に望んでいるのは、質問に答える際にインターネット全体をコンテキストに含めることでしょう？しかし、既存の方案を単純に拡張するだけでは達成できません。現在のアルゴリズムの複雑さは 2 乗級です。100 万トークンが既存の方案の限界であり、10 億、ましてや 1 兆トークンを実現することは不可能です。しかし、「モデルが 1 兆トークンに注目できる」効果を創出できれば、それは素晴らしいことで、応用シナリオは爆発的に増えるでしょう。

これはインターネット全体をコンテキストとして扱え、YouTube ビデオのすべてのピクセル、および抽出できる深層表現を処理できることを意味します。単一のビデオだけでなく、膨大な量のビデオです。個人版 Gemini のレベルでは、あなたが許可すれば、モデルはあなたのすべての個人状態（メール、写真、ドキュメント、航空券情報など）を関連付けることができます。これは非常に有用だと思います。問題は、アルゴリズムの改善とシステムレベルの最適化を通じて、モデルが真に意味のある形で 1 兆トークンを処理できるようにする方法です。

Shawn Wang：そういえば、以前計算したことがあります：一人の人が毎日 8 時間絶えず話し続けた場合、1 日に生成されるトークンは最大でも約 10 万トークン程度で、この量は現在完全に収容可能です。

Jeff Dean：その通りです。しかし、すべての人がアップロードしたビデオの内容を理解したい場合、それは全く別の次元の話です。

Shawn Wang：また、古典的な例があります：テキストから飛び出し、タンパク質のような情報密度が極めて高い領域に入ると、データ量が爆発します。

Jeff Dean：Gemini は最初からマルチモーダルであることを堅持しています。多くの人にとって、マルチモーダルとはテキスト、画像、ビデオ、オーディオなど、人間に馴染みのあるモダリティを指します。しかし、Gemini に非人間のモダリティを理解させることも非常に重要だと考えています。例えば、Waymo 自動運転車の LiDAR データ、ロボットセンサーデータ、以及各种医療モダリティ：X 線、MRI、医用画像、ゲノム情報などです。世界にはおそらく数百種類のデータモダリティがあり、少なくともモデルに、これが意味があり価値のあるモダリティであることを知らせる必要があります。事前訓練ですべての LiDAR や MRI データを訓練に入れなくても、少なくとも一部を入れることは非常に有用であり、モデルに这类の情報に対する基本概念を持たせることができます。

Shawn Wang：ちょうどこの機会に、ずっと聞きたかった質問をします：「王者モダリティ」、つまり他のすべてのモダリティを統括できるモダリティは存在しますか？簡単な例を挙げると：視覚はピクセルレベルでテキストをエンコードでき、Deepseek の OCR 論文がこれを証明しています。また、視覚はオーディオも処理できます。スペクトログラムに変換できるため、本質的には視覚タスクだからです。そうだとすると、視覚こそが王者モダリティなのでしょうか？

Jeff Dean：視覚と動的時系列は非常に重要です。ここで言う動的とは、静的な画像ではなくビデオのことです。進化により目が独立して 23 回も進化したのには理由があります。周囲の世界を感知する能力は極めて重要であり、这正是私たちがこれらのモデルに持たせたい能力です。モデルは私たちが見て、注目している事物を解釈し、その情報を利用して物事を行うのを助ける必要があります。

Shawn Wang：動的な理解说到、一言褒めなければなりません：Gemini は現在も市場で唯一ネイティブにビデオ理解をサポートするモデルであり、私はよくそれを使って YouTube を見ています。

Jeff Dean：実際、多くの人はまだ Gemini モデルの能力を真に認識していません。私は講演で一つの例を挙げました：過去 20 年間の 18 の古典的なスポーツ瞬間の YouTube ハイライトをモデルに与えます。ジョーダンのファイナルでの決勝ゴールやサッカーのゴールなどが含まれています。ビデオを直接投げつけて、「すべてのイベント、発生時間、簡単な説明をリストした表を作成してください」と言います。

モデルは実際にビデオから直接情報を抽出し、18 行の表を生成することができます。大多数の人は、モデルが直接ビデオを構造化された表に変換できるとは想像もしていません。

Alessio Fanelli：先ほど「インターネット全体をコンテキストに含める」とおっしゃいましたが、グーグル自体が人間にはネットワーク全体の情報を処理できないため、検索ランキングを行う必要がありました。大規模モデルにとって論理は全く異なります：人間は検索結果をおそらく最初の 5〜6 件しか見ませんが、大規模モデルにとっては、20 件の高度に関連するコンテンツを与えるべきなのでしょうか？グーグル内部ではどのように考えていますか：従来の人間の検索よりも広範で、カバレッジが広い AI モードをどのように構築するか？

Jeff Dean：大規模モデルが登場する前でさえ、私たちのランキングシステムはそのように行っていました：インデックスには膨大なウェブページがあり、その大部分は無関係です。まず軽量な方法で関連するものを筛选し、例えば 3 万ドキュメントに絞り込み、その後より複雑なアルゴリズムやより精緻なシグナルを使用して精査し、最終的にユーザーに約 10 件の結果のみを表示します。大規模モデルシステムの思路もそれほど変わらないでしょう。数兆トークンを処理する必要があるように見えますが、実際のプロセスは：まず約 3 万ドキュメント、およそ 3000 万の有用なトークンを筛选します；その後、その中から真に注目する価値のある 117 のドキュメントを慎重に選び出し、ユーザーのタスクを完了するために使用します。

このシステムを想像してみてください：まず軽量モデルと高並列処理を使用して、初期の 3 万候補を筛选します；次に、より強力なモデルを使用して 3 万を 117 に絞り込み；最後に、最も強力なモデルを使用してこれら 117 のコンテンツを深く理解します。このようなシステムだけが、「モデルが数兆トークンを処理できる」という効果を創出できます。グーグル検索が実際にネットワーク全体を検索しているのと同様に、最終的には最も関連性の高い一部のみを提供します。

Shawn Wang：私はよくグーグル検索の歴史を知らない人々に言います。Bert が登場した際、直接検索に組み込まれ、効果が非常に顕著に向上しました。グーグルにとって、これは間違いなく最も核心的なデータです。

Jeff Dean：大規模モデルがもたらすテキスト表現により、「キーワードがウェブページと正確に一致しなければならない」という硬い制限を乗り越え、真にトピックと意味的に関連し、字面での対応ではなくできるようになりました。

Shawn Wang：多くの人々は、大規模モデルがすでにグーグルや YouTube のような超トラフィックシステムを掌握していることに全く気づいていないと思います。YouTube には意味的識別メカニズムがあり、各トークンがビデオに対応し、コードブックでビデオを予測します。YouTube の規模を考えると、これはあまりにも誇張されています。

Jeff Dean：最近、Grok も説明可能な AI に使用されています。実際、大規模モデルが検索に大規模に使用される以前から、私たちは「ユーザーが入力したものは何であれ、それに一致しなければならない」という思路を弱めていました。

Shawn Wang：この一連の進化の历程を整理したことはありますか？

Jeff Dean：2009 年、あるウェブ検索およびデータマイニング会議で講演を行い、1999 年から 2004 年、2005 年頃までのグーグル検索および検索システムの 5〜6 世代のアーキテクチャ進化について話しました。その部分内容は正式に論文として発表していません。2001 年に重要な出来事がありました：複数の次元でシステムを拡張しました。一つはインデックスを大きくし、より多くのウェブページをカバーすることです。質は自然と向上します。インデックスにないページは、永遠に検索できません。二つ目はサービス能力の拡張です。トラフィックが急増したためです。シャード化アーキテクチャを使用しており、インデックスが大きくなればシャードを追加します。例えば 30 シャードから 60 シャードにし、これによりレイテンシを制御します。トラフィックが大きくなればレプリカを増やします。

その後、計算しました：あるデータセンターに 60 のシャードがあり、各シャードに 20 のレプリカがあり、合計 1200 台のハードディスク付きマシンです。これらのマシンのメモリを合計すると、インデックス全体をメモリに収めるのにちょうど十分でした。そこで 2001 年、私たちは直接全量インデックスをメモリに投入し、効果が直接飛び上がりました。それ以前は、非常に慎重である必要がありました。なぜなら、各クエリ語が 60 のシャードでディスクシークをトリガーする必要があり、インデックスが大きくなるほど効率が低下したからです。しかし、全量メモリインデックスになった後、ユーザーが 3〜4 語を入力しただけでも、それを 50 の関連語に拡張することが可能になりました。同義語を追加できます。例えば restaurant、restaurants、cafe、bistro をすべて一緒に検索できます。ついに単語の意味を理解し始め、ユーザーが入力した字面形式に固執する必要がなくなりました。

それは 2001 年のことで、大規模モデルよりも遥か以前でしたが、思路はすでに：厳格な字面マッチングを緩和し、意味理解に近づくことでした。

3「大量のコードを書く前に、まず頭の中で設計空間を推演する」

Alessio Fanelli：システムを設計する際の原則は何ですか？特に 2001 年、インターネットの規模が毎年数倍、3 倍に成長していた頃、現在の大規模モデルも毎年規模と能力が大幅にジャンプしています。一貫した設計原則はありますか？

Jeff Dean：まず、システムを設計する際、最も重要な設計パラメータを捉える必要があります：1 秒間にどれだけのクエリを支える必要があるか？インターネットはどれほど大きいか？インデックスはどれほど大きくする必要があるか？各ドキュメントにどれだけの情報を保存するか？どのように検索するか？トラフィックがさらに 2〜3 倍増加しても支えられるか？私の非常に重要な設計原則の一つは、システムを 5〜10 倍拡張できるように設計することですが、それ以上は必要ありません。なぜなら、100 倍の規模になると、設計空間全体が全く異なり、元々合理的だった方案が直接無効になるからです。例えば、ディスクインデックスからメモリインデックスへの変更は、トラフィックとマシンが十分に多くなった後に初めて可能になり、一気に全く新しいアーキテクチャを開きました。

私は大量のコードを書く前に、まず頭の中で設計空間を推演するのが大好きです。グーグルの初期に戻ると、私たちはインデックスを狂ったように拡大していただけでなく、インデックスの更新頻度こそが最も誇張された変化指標でした。以前は月に 1 回更新していましたが、後には単一ページを 1 分以内に更新できるようにしました。

Shawn Wang：これが核心競争力ですよね？

Jeff Dean：その通りです。ニュース関連のクエリにおいて、インデックスが先月のままであれば、全く役に立ちません。

Shawn Wang：ニュースは特殊なシナリオですが、当時それを独立したシステムに分割することはできなかったのですか？

Jeff Dean：確かにグーグルニュースをリリースしましたが、ユーザーがメイン検索でニュース関連のキーワードを入力した場合も、最新の結果を取得する必要があります。

Shawn Wang：したがって、ページを分類し、どのページを高頻度で更新すべきか、頻度はどれくらいかを判断する必要がありますね。

Jeff Dean：背後には、ページの更新頻度と重要度を決定するための一整套のシステムがあります。変化確率が低いページでも、更新価値が極めて高ければ、非常に頻繁に再クロールされます。

Shawn Wang：レイテンシとストレージ说到、あなたの古典的な作品の一つを挙げなければなりません：『すべてのプログラマーが知るべきレイテンシ数字』です。背後にはどのような物語がありますか？随手に整理したものですか？

Jeff Dean：その中には約 8〜9 種類、10 項目ほどの指標がリストされています：キャッシュミスによるオーバーヘッド、分岐予測失敗によるオーバーヘッド、メモリアクセスによるオーバーヘッド、米国からオランダへデータパケットを送信する時間などです。

Shawn Wang：ついでに聞きますが、なぜオランダなのですか？Chrome との関係ですか？

Jeff Dean：当時、オランダにデータセンターがありました。実際、これは迅速な見積もりという事に戻ります。これらは最も基本的な指標であり、それらを使用して判断を下すことができます：例えば、画像検索を行い、サムネイルを生成する場合、事前にサムネイルを計算しておくか、大きな画像からリアルタイムで生成するか？どれだけの帯域幅が必要か？何回のディスクシークが発生するか？これらの基本的な数値を手元に持っていれば、数十秒で頭の中で一度推演を行うことができます。より高度なライブラリを使用してソフトウェアを書く際にも、同じ直感を養う必要があります：例えば、ある構造内でデータを 1 回検索するのにどれくらい時間がかかるかなどです。

Shawn Wang：これは単純なバイト変換であり、特別なことはありません。もしあなたがその記事を更新するとしたら…と考えています。

Jeff Dean：モデル内の計算量、訓練か推論かを問わず、計算する必要があると思います。

Jeff Dean：一つの優れた視点は：メモリからどれだけの状態を移動する必要があるか、オンチップ SRAM、アクセラレータの HBM、DRAM、あるいはネットワーク転送か？その後、データ移動のコストと、行列乗算ユニット内の実際の乗算演算 1 回のコストを比較します。実際、計算コストは非常に非常に低く、精度によって異なりますが、およそ 1 pJ 未満です。

Shawn Wang：ああ、分かりました。エネルギー消費で測定しているのですね。

Jeff Dean：はい、核心はエネルギー消費であり、どのようにして最もエネルギー効率の高いシステムを作るかです。同じチップ上で、単に一方の SRAM から他方へ転送するだけでも、エネルギー消費は 1000 pJ に達する可能性があります。これが、アクセラレータが必ずバッチ処理（batching）を使用しなければならない理由です。モデルパラメータをオンチップ SRAM から乗算ユニットへ移動するのに 1000 pJ かかる場合、そのパラメータを何度も繰り返し使用する必要があります。これがバッチ次元の意味です。バッチを 256 に設定すればまあまあですが、1 であれば非常に不採算です。

Shawn Wang：はい、その通りです。

Jeff Dean：1 pJ の乗算を行うために 1000 pJ を費やしているからです。

Shawn Wang：エネルギー消費の観点からバッチ処理を説明するのを聞いたことがありません。

Jeff Dean：これが人々がバッチを使用する根本的な理由です。理論的には、batch=1 がレイテンシとしては完璧ですが、エネルギー消費と計算効率の浪費があまりにも大きすぎます。

Shawn Wang：レイテンシは最高です。

Jeff Dean：はい、しかし代償が高すぎます。

4 TPU の神级的な決断：逆にモデルアーキテクチャを調整する

Shawn Wang：かつての「インデックス全体をメモリに入れる」のような神级的なテクニックはありますか？例えば、NVIDIA が今回 SRAM に賭けて Grok を行い、大きな轰动を巻き起こしました。TPU を作成する際、あなた方はすでにこの点を見ていたのでしょうか？毕竟、你们的規模を支えるには、事前に予測しておく必要があります。これらの現象から、どのようなハードウェアの革新や洞察をまとめましたか？

Jeff Dean：TPU には非常に整然とした構造があります。2D または 3D のグリッドで、多くのチップが接続されており、それぞれに HBM が付属しています。

特定のモデルを展開する際、HBM からデータを取得する方が、オンチップ SRAM からデータを取得するよりも、コストとレイテンシの両方がはるかに高くなります。したがって、モデルが十分に小さい場合、モデル並列を使用して、それを多くのチップに分散させることができます。スループットとレイテンシが顕著に向上します。中小規模のモデルを 16 または 64 のチップに分散させ、すべてを SRAM に収めることができれば、向上は非常に巨大になります。これは意外ではありませんが、確かに良いテクニックです。

Alessio Fanelli：では TPU の設計についてはどうですか？改善方向をどのように決定しますか？例を挙げると、1000 pJ を 50 に下げる方法はありますか？そのために专门に新しいチップを設計する価値がありますか？最も極端なのは、モデルを直接 ASIC に焼き付けるという意見です。分野の変化がこれほど速い中、どの程度のことをハードウェアで解決する価値がありますか？内部ではどのように議論されていますか？

Jeff Dean：私たちの TPU チップ設計アーキテクチャチームと高层モデリング専門家の間には大量の協力があります。共設計する必要があるからです：機械学習研究の将来の方向性に基づいて、次世代の TPU がどのようなものであるべきかを定義します。ML ハードウェアを行う人々は皆知っています。今日チップの設計を開始しても、データセンターに入るまで 2 年かかり、さらに 3〜4 年使用されます。未来 2〜6 年に、人々がどのような機械学習計算を実行したいかを予測する必要があります。したがって、その期間中にどの思路が有効になり、より重要になるかを研究する人々が必要です。そうして初めて、有用なハードウェア特性を未来の数世代の TPU に追加することができます。

Shawn Wang：チップのイテレーションサイクルは 2 世代後ですか？

Jeff Dean：ほぼそうです。小さな変更は次世代に含めることができますが、大きな変更はもっと早く設計を開始する必要があります。条件が許す限り、私たちはそうします。時には试探的な機能を追加することもあります。チップ面積をあまり占有せず、もし成功すれば直接 10 倍速くなります。たとえ成功しなくても、面積を少し浪費するだけで、大きな問題ではありません。しかし、特に大きな変更の場合、非常に慎重になり、方向が正しいことを確認するために大量の実験を行います。

Alessio Fanelli：逆の状況はありますか？チップ設計がすでに決定しているため、モデルアーキテクチャはそのように進められない、一致しないからです。

Jeff Dean：確かにあります。逆にモデルアーキテクチャを調整し、その世代のチップ上で訓練と推論をより効率的に行うようにします。両側は相互に影響し合います。例えば、未来の世代のチップがより低い精度をサポートする場合、現在の世代が完全にサポートしていなくても、事前にその精度で訓練することさえできます。

Shawn Wang：では、精度はどこまで下げることができますか？

Jeff Dean：多くの人が 3 値精度について話しています。私は個人的に極めて低い精度を非常に支持しています。なぜなら、膨大な量のエネルギー消費を節約できるからです。エネルギー消費はビットごとの転送で計算され、ビット数を減らすことが最も直接的な方法です。業界はすでに極めて低いビット精度で多くの効果を上げており、一組の重みのスケーリング因子と組み合わせれば、効果は非常に安定します。

Shawn Wang：興味深いですね。低精度ですが、スケーリング重み付きです。以前はこの点を考えたことがありませんでした。

Shawn Wang：說到これ、精度という概念自体がサンプリングシナリオでは非常に奇妙だと思います。これほど多くの計算能力が強いチップを積み上げながら、最後にランダム数生成器を前に掛ける必要があります。現在、業界はエネルギーベースモデル、エネルギー指向プロセッサへ向かう傾向があります。あなたも明らかに考えていると思いますが、あなたの見解を話していただけますか？

Jeff Dean：確かにいくつかの興味深い方向があります。エネルギーベースモデルはその一つであり、トークンを順序通りにデコードしない拡散モデルはもう一つです。また、speculative decoding（推测デコード）もあります。これは非常に小さなドラフトバッチに相当し、まず 8 トークンを予測し、有効なバッチサイズを 8 倍に拡大し、最後にそのうち 5〜6 を受け入れます。これにより、重みを乗算ユニットへ移動するコストが薄まり、数倍の向上をもたらすことができます。これらはすべて非常に良いテクニックです。そして、真のエネルギー消費、レイテンシ、スループットという観点から見なければ、正しい方向を見つけることはできません：より大きなモデルを提供できるか、あるいは同等のモデルでコストが低く、レイテンシが低くなるかです。

Shawn Wang：この思路は理論的には非常に魅力的ですが、まだ真の主流にはなっていません。しかし、ある意味では非常に美的です。ハードウェアの底辺からうまく設計されていれば、これほど多くの工夫をする必要がなくなるからです。

Jeff Dean：さらに先端的な方向もあります。例えば、デジタル回路ではなくアナログ計算基盤です。理論的にはエネルギー効率が極めて高い可能性がありますが、問題はデジタルシステムと接続する必要があり、数値 - アナログ、アナログ - 数値変換の部分がエネルギー効率の優位性の大部分を食い尽くしてしまうことです。しかし、デジタル方向だけを見ても、より専用で効率的なハードウェアに頼ることで、エネルギー効率において私たちはまだ巨大な向上空間を持っています。

5 大統一モデルの時代到来、専門家は不要か？

Alessio Fanelli：他にもどのような興味深い研究方向を見ていますか？あるいは、グーグルで一時的に行えないが、他の研究者に試してほしい方向はありますか？

Jeff Dean：私たちの研究レイアウトはすでに非常に広範です。多くの未解決の問題があります：どのようにしてモデルをより信頼できるようにし、より長く、より複雑で、多数のサブタスクを含むことを行えるようにするか？どのようにしてモデルが他のモデルをツールとして呼び出し、組み合わせることで、単一モデルよりもはるかに意味のある仕事を完了できるようにするか？この部分は非常に興味深いです。また、どのようにして強化学習を検証不可能な領域でも機能するようにするか？これは素晴らしい未解決の問題です。数学やコードでの進歩を、それほど容易に検証できない他の領域にも複製できれば、モデルの能力はさらに大きな段階に進むでしょう。

Alessio Fanelli：以前、Noam Brown が番組に来て、すでに深い推論を通じてこれを証明したと言っていました。ある意味で、あなた方の AI モードも検証不可能です。ここに共通の糸があるのではないかと考えています。例えば、情報検索を行い、JSON を返すなどです。検索こそがスコア付けでき、検証可能な部分なのでしょうか？この問題をどのように理解していますか？

Jeff Dean：他のモデルを使用して最初のモデルの結果を評価したり、甚至検索を行ったりすることができます。例えば、別のモデルに判断させます：検索して戻ってきたコンテンツは関連しているか？2000 件中最も関連性の高い 50 件はどれか？这类の方法は实际上非常に効果的です。甚至同じモデルでも、プロンプトを変更するだけで、「検索システム」から「評価者」に変えることができます。

Shawn Wang：いつも非常に明確な敷居があるように感じます：簡単なことはすべて完了し、残りはすべて非常に難しいようです。実際、毎年誰もがそう感じています。特に RLVR の分野では、誰もが質問しています：検証不可能な問題の次の段階はどのように行うのか？そして誰もが言います：分からない、評価を待っているだけだと。

Jeff Dean：この分野の良いところは、無数の賢い人々がこれらの難題に対して創造的な解決策を考えていることです。誰もがはっきりと見ています：モデルはある事柄においては非常に強いですが、エッジケースでは失敗します。テクニックを提案し、効果を検証し、進歩を推進すること。これがこの分野の研究の核心です。2 年前を思い出してください。GSM8K のような小学校の数学問題でさえ苦労していました。現在はどうですか？モデルはすでに純粋に言語だけで国際数学オリンピックやエルデシュレベルの問題を解くことができます。1 年半での能力の飛躍は驚異的です。他の分野ではまだ完全に道筋が見えていませんが、いくつかはすでに夜明けを見ています。私たちは全力でこの飛躍を複製していきます。

Shawn Wang：その通りです。

Alessio Fanelli：例えば YouTube のサムネイル生成です。この機能は非常に実用的で、私たちはそれを非常に必要としています。これはまさに AGI レベルのニーズです。

Shawn Wang：コンテンツクリエイターにとっては間違いそうです。

Jeff Dean：私は YouTube クリエイターではないため、この問題に対してそれほど敏感ではありませんが、多くの人が非常に気にしていることは知っています。

Shawn Wang：確かに大家都非常重視しています。毕竟、人々は本当に「表紙でビデオを論じる」からです。数学オリンピックの話に戻りますが、今でも非常に信じられないと思います：1 年前は AlphaProof、AlphaGeometry などの専用システムに取り組んでいましたが、今年は直接「算了、すべて Gemini に放り込めばいい」となりました。この件をどのように見ていますか？過去、人々は一般的に、記号システムと大規模モデルは結合する必要があると考えていましたが、後には人々は直接選択しました：すべて大規模モデルで解決すると。

Jeff Dean：これは非常に合理的だと思います。人間は確かに記号を操作しますが、私たちの頭の中にはおそらく明確な記号システムはなく、ある種の分散表現であり、本質的にはニューラルネットワークに近いものです。大量のニューロンが特定の状況で活性化パターンを生み出し、推論、計画、思考の連鎖を行い、ある道が通じないと分かれば別の道に切り替えます。多くの面で、ニューラルネットワークに基づくモデルは、私たちの直感における脳内で起こっていることをシミュレートしています。したがって、私にとって、完全に離散的で独立した記号システムと、全く別の思考メカニズムを分離することは、从来あまり合理的ではありませんでした。

Shawn Wang：興味深いです。あなたにとっては当然のことかもしれませんが、1 年前の私はそうではありませんでした。

Jeff Dean：数学オリンピックのタスクも同様です。最初は Lean 言語に翻訳し、専用ツールを使用する必要があり、2 年目には専用幾何モデルが必要でしたが、今年には直接統一モデルに切り替わりました。オンライン正式版のモデルであり、推論リソースを少し多く与えただけです。

これは実際には良いことです。汎用モデルの能力が大幅に向上し、もはや専用モデルが必要なくなったことを示しています。これは 2013 年から 2016 年までの機械学習の発展の波と非常によく似ています：以前は各タスクごとに個別にモデルを訓練する必要がありました。道路標識の認識には一つ、音声認識には一つ。現在、大統一モデルの時代が本当に到来しました。重要なのは、これらのモデルが未見の新しいタスクにおいてどのように汎化するかであり、それらはますます強くなっています。

Shawn Wang：そして、もはや分野の専門家は必要ありません。以前、関連チームの人々にインタビューしましたが、彼は言いました：私は数学オリンピックを全く理解しておらず、試合がどこで開催されるか、ルールは何かも知りません。私はモデルを訓練するだけです。非常に興味深いです。現在、機械学習という汎用的なスキルさえあれば、データと計算能力を与えることで、ほぼすべてのタスクを処理できます。これがおそらくいわゆる「苦い教訓」でしょう。

Jeff Dean：私は、汎用モデルがほとんどの場合、専用モデルに勝ると思います。

6 未来のモデル知識は直接「インストール」、「ソフトウェアパッケージをダウンロードするのと同じ」

Shawn Wang：この点についてさらに追问したいです。ここには穴があると思います：モデルの容量は抽象的であり、収容できる知識はパラメータ量に対応するビット数だけです。誰もが Gemini Pro が数兆のパラメータを持っていることを知っていますが、具体的にどれほどかは誰も知りません。Gemma のようなモデルの場合、多くの人がオープンソースでローカルで実行できる小規模モデルを望んでいますが、それらはすべての知識を収容できません。大規模モデルは条件があれば何でも知ることができますが、小規模モデルは蒸留や圧縮の過程で、実際には多くの役に立たないものを記憶してしまいます。したがって、知識と推論を分離することはできませんか？

Jeff Dean：確かに、モデルに推論を最大限に行わせると同時に、検索能力を持たせることを望みます。貴重なパラメータ空間を使用して、検索できるような難解な知識を記憶させるのは、最適な使用方法ではありません。パラメータは、より汎用的で、より多くのシナリオで有用な能力に使用することを望みます。同時に、モデルを完全に世界知識から切り離したくもありません。例えば、ゴールデンゲートブリッジがおよそどれほど長いかを知ること、「橋がどれほど長いか」についての基本概念を持つことは有用です。世界上のある偏遠な小橋の長さを知る必要はありませんが、相当規模の世界知識を持つことは役立ちます。モデルが大きければ大きいほど、収容できるものは多くなります。しかし、確かに、検索と推論を組み合わせ、モデルが多輪検索を得意とすることは、重要な方向性だと思います。

Shawn Wang：そして、中間の検索結果に基づいて推論を行うことで、モデルは実際よりもはるかに強く見えます。例えば、個人版 Gemini のように。

Jeff Dean：私のメールを取って Gemini を訓練することはおそらく不可能でしょう。より合理的な方法は：統一モデルを使用し、私のメールや私の写真を検索することをツールとして扱い、モデルにこれらの情報に基づいて推論させ、対話させ、多輪でタスクを完了させることです。これこそが合理的です。

Alessio Fanelli：垂直分野モデルは意味があると思いますか？例えば、多くの人が「最高の医療大規模モデル、最高の法律大規模モデルを作る」と言っています。これらは単なる短期的な過渡方案ですか？

Jeff Dean：いいえ、垂直モデルには価値があると思います。非常に強力な基盤モデルから出発し、医療やロボットなどの垂直分野でデータ分布を豊富にすることができます。すべてのロボットデータを Gemini の訓練に放り込むことはおそらく不可能です。能力のバランスを保つ必要があるからです。一部のロボットデータを見せますが、極めて優れたロボットモデルを作成したい場合、汎用モデルを基盤として、さらに多くのロボットデータで訓練する必要があります。それにより、翻訳能力が少し失われるかもしれませんが、ロボット能力は大幅に向上します。

基盤 Gemini を訓練する際、私たちは常に这类のデータ比率のトレードオフを行っています。200 以上の言語のデータを追加したいと考えていますが、これにより他の能力が圧迫されます：Pearl プログラミングがそれほど強くなくなるかもしれませんが、Python は維持できるかもしれませんが、他の小衆言語やマルチモーダル能力が影響を受ける可能性があります。したがって、未来は専用モデルとモジュール型モデルの組み合わせだと思います。200 の言語、超強力なロボットモジュール、超強力な医療モジュールを同時に所有し、異なるシナリオで呼び出すことができます。例えば、医療問題を処理する際、医療モジュールと基盤モデルを一緒に使用すれば、効果はより良くなります。

Shawn Wang：インストール可能な知識ですね。

Jeff Dean：その通りです。

Shawn Wang：ソフトウェアパッケージをダウンロードするのと同じです。

Jeff Dean：インストール可能な知識の一部は検索から来ることもできますが、另一部は事前訓練から来るべきです。例えば、事前に 1000 億、1 兆トークンの医療データで訓練しておくなどです。

Shawn Wang：Gemma 3 の論文にはすでに少しこの匂いがします。

Alessio Fanelli：問題は、前沿の基盤モデルの進歩速度に追いつくために、実際に何千億トークンが必要なのかということです。より強力な医療モデルを作成したい場合、メインモデルの Gemini が絶えず進化している中で、500 億トークンが必要ですか？1000 億？1 兆の医療トークンが必要であれば、そのデータはそもそも存在しません。

Jeff Dean：医療は特に挑戦的な分野です。多くの医療データには適切なアクセス権限がありませんが、多くの医療組織は独自の私有データでモデルを訓練したいと考えています。したがって、機会は大規模な医療機関と協力し、それらのためにモデルをカスタマイズすることにあります。効果はおそらく、公開データのみで訓練された汎用モデルよりも良くなるでしょう。

Shawn Wang：そういえば、これは言語のトピックとも少し似ています。あなたが最もよく挙げる例は：低資源言語をコンテキストに入れると、モデルは直接学習できるというものです。

Jeff Dean：はい、Calaba という言語を使用したことがあります。リソースが極めて不足しており、世界中で話者が約 120 人しかおらず、文字さえありません。

Shawn Wang：直接コンテキストに入れるだけで、データセット全体を放り込めばいいのです。

Jeff Dean：ソマリア語やアムハラ語のような言語には、世界上にいくつかのテキストがあります。すべてのデータを Gemini の訓練に入れるわけではありませんが、入れれば入れるほど、モデルの能力は強くなります。

Shawn Wang：私は個人的に言語学に副業的な興味を持っており、大学でいくつかのコースを受講しました。もし私が言語学者で、これらのモデルを使用できるなら、言語そのものに関する根本的な質問をします。例えば、サピア＝ウォーフの仮説：あなたが話す言語があなたの思考にどれほど影響を与えるか？ある言語には他の言語に存在しない概念があり、多くの概念は重複しています。また、「プラトン的表現」について言及した非常に有名な論文もあります。例えば、「カップ」の画像に、大量の「cup」というテキストを組み合わせると、最終的に表現はほぼ同じ位置に収束します。この論理は理論的には言語にも適用できますが、適用できない場所もあり、これらの適用できない場所こそが、人間固有の概念の違いを反映しています。ある概念は英語にも存在しません。この部分は非常に興味深いと思います。

Jeff Dean：私は昔、テキスト表現と画像モデルを組み合わせ、ImageNet などのデータで訓練し、トップ層の表現を融合するモデルを作成しました。モデルがかつて見たことのない新しい画像を与えられると、多くの場合、正しいラベルを提供できることが分かります。例えば、モデルは望遠鏡と双眼鏡を学習していますが、顕微鏡は見たことがありません。顕微鏡の画像を与えると、なんと「microscope」というラベルを出力できます。このラベルが付いた画像を一度も見たことがないにもかかわらずです。

Shawn Wang：これはとてもクールです。

7 8 歳から考え始める：計算能力を使用して大規模ニューラルネットワークを作成する

Shawn Wang：あなたの視野において、ハードウェア、モデル、研究について話しましたが、どの種類の質問を最も聞かれたいと思いますか？

Jeff Dean：面白いことが一つあります。1990 年、私の学部卒業論文はニューラルネットワークの並列訓練でした。当時、ニューラルネットワークは正しい抽象化の方向性だと感じていましたが、計算能力が全く不足していました。学科にあった 32 コアの並列コンピュータでは、少し興味深いモデルを実行できるだけで、真の問題を解決するには程遠いものでした。2008 年、2009 年になるまで、ムーアの法則が十分な計算能力をもたらし、より大きなデータセットと相まって、ニューラルネットワークが真に人々が関心を持つ真の問題を解決し始めました：音声、視覚、そして最後に言語です。

2011 年末にグーグルでニューラルネットワークの作業を開始した際、私は固く信じていました：大規模並列計算を使用して、ニューラルネットワークの規模を引き上げる必要があると。学部論文のいくつかの思路を再び拾い上げさえしました。モデル並列、データ並列を含み、比較を行いました。可以说、私は 8 歳からこれらのことを考え始めていました。ただし、当時は呼び方が異なっていましたが。

Shawn Wang：その論文は公開されていますか？見つけることができますか？

Jeff Dean：はい、インターネットで検索できます。過去 15 年間、これらの技術を統合し、全力でスケールアップを行うことは非常に重要でした。これにはハードウェアレベルの進歩、例えば TPU のような専用チップの研究開発を推進すること、およびソフトウェアレベルでのより高レベルの抽象化を行い、人々がアイデアをより簡単にコンピュータに実装できるようにすることも含まれます。

Shawn Wang：当時、この見解に同意していましたか？あるいは現在、異なる復習がありますか？

Jeff Dean：計算能力割り当ての「脳市場」メカニズムについて言っているのですか？

Shawn Wang：はい、計算能力割り当てです。David は以前 OpenAI でエンジニアリング担当副社長を務め、後にはグーグルにも行きました。彼の核心的な見解は：OpenAI は all in する勇気があり、賭けを一つのことに全額投入した；一方、グーグルはより「民主化」されており、誰もが独自の割り当てを持っているというものです。もしスケールアップが重要だと信じるなら、これは会社全体レベルでの重要な決断です。

Jeff Dean：一部同意します。実際、当時、リソースを断片化することは愚かだとする 1 ページのメモランダムを書いたこともあります。当時、グーグルリサーチと Brain チームが大規模言語モデルを行い、他の部門がマルチモーダルを行い、DeepMind 側も Chinchilla、Flamingo などのモデルを行っていました。結果として、計算能力が分割されただけでなく、最も優秀な人材と精力も分割されました。当時、私はこう言いました：これはあまりにも愚かです。なぜ一緒にして、最初からマルチモーダルで全能の大統一モデルを作成するために力を集中させないのか？これが Gemini プロジェクトの起源です。

Shawn Wang：あなたのこの 1 ページのメモランダムは成功しました。素晴らしいです。当時、名前は決まっていましたか？誰もが知っているように、Gemini はあなたが付けた名前です。

Jeff Dean：私が付けました。当時、もう一つの候補名もありましたが、2 つのチームが一緒にになることは、ある意味で双子のようだと考えました。また、NASA にも Gemini プランがあり、アポロ月面着陸の前に非常に重要な一歩でした。したがって、この名前は非常に適しており、双子が携手することを表しています。

8 史上最高産のエンジニアのコード作成：50 人の「AI インターン」を率いる

Alessio Fanelli：素晴らしいです。時間があまりないことは知っていますが、最後に興味があります：現在、AI を使用してどのようにコードを書いていますか？あなたはコンピュータ史上で最も多作なエンジニアの一人と言えます。あなたと Sanjay の協力方法についての記事を読んだことがあります。あなたは：思考が合う人を見つけてペアプログラミングを行い、2 人を合わせれば相乗効果が生じると言っていました。コードエージェントをどのように見ていますか？思考と互換性のあるコードアシスタントをどのように形成しますか？現在のツールに何点を付けますか？未来の方向はどこにありますか？

Jeff Dean：まず、コードツールは 1〜2 年前と比較してはるかに強くなっており、現在ではより複雑なタスクをそれらに任せることができます。人間エンジニアとコードモデルの間の相互作用方法は、实际上、それがどのようにあなたに協力するかを逆に決定します。完全なテストを書かせることもできますし、パフォーマンス最適化の思路をブレインストーミングさせることもできます。あなたとそれが相互作用する方法が、その出力スタイル、問題を解決する粒度、およびあなたがそれをより自律的にするか、より頻繁にあなたと調整するかを決定します。万能なスタイルはありません。ある問題では高頻度の相互作用が必要ですが、ある問題では「これを実装してください」と直接言うだけで済みます。

未来には、より多くの独立したソフトウェアエージェントが登場し、さまざまなことを代行してくれるでしょう。難しいのは、適切な人間 - 機械相互作用モード、インターフェースを設計し、それがいつあなたを中断すべきかを決定することです：「より多くの指針が必要です」または「完了しました、次は何をしますか」。この部分についてはまだ最終的な答えを持っていません。モデルが強くなった後、相互作用モードも変化するでしょう。50 人のインターンを連れてきたと想像してください。どのように管理しますか？もし彼らの能力が非常に強ければ、本当に 50 人を望むかもしれません。

Shawn Wang：しかし、管理コストも非常に高いです。

Jeff Dean：その通りです。しかし、未来はおそらく誰もが 50 人の仮想インターンを持つことができるようになるでしょう。では、どのように手配しますか？間違いなく、彼らをグループに分けます。50 人を管理する必要はなく、5 つのグループと对接するだけで、各自が作業を行います。最終的にどのように進化するかは、私も完全に確信していません。

Alessio Fanelli：では、人間同士の協力は？AI 支援プログラミングの利点は、新しい思路をもたらすことです。しかし、大量のコードエージェントが並列でコードを書いている場合、他の人が介入することは非常に困難です。膨大なコンテキストに追いつく必要があるからです。チームの人々がより孤立するようになることを心配しませんか？

Jeff Dean：可能性はあります。しかし、逆に考えてみてください。伝統的な AI 支援のないチームでは、50 人が作業を行い、組織構造は自然的に階層化されており、各グループ間の相互作用は多くありません。しかし、5 人がそれぞれ 50 の仮想エージェントを管理する場合、この 5 人の間のコミュニケーション帯域幅は、伝統的な 5 人のグループリーダーが 50 人を調整するモードよりも高くなる可能性があります。

Alessio Fanelli：では、あなた自身の仕事のリズムは変わりましたか？アーキテクチャや設計目標を人々と調整するためにより多くの時間を費やすようになりますか？

Jeff Dean：非常に興味深い点があると思います：以前、他人にソフトウェアを書くように教える際、要件ドキュメントを明確に書くようにと言っていましたが、大家は実際にはそれを重要視していませんでした。しかし現在、エージェントにコードを書かせる場合、要件を極めて明確に定義する必要があります。これが直接出力品質を決定します。ある境界ケースを処理する必要があると言わなかったり、パフォーマンス要件を強調しなかったりすると、それを行わない可能性があります。人々はますます、明確で曖昧さのない方法で目標を記述するのが上手くなるでしょう。これは悪いことではありません。エンジニアかどうかにかかわらず、有用なスキルです。

Shawn Wang：冗談で、現在モデルに指示を出すことは、高階の幹部とコミュニケーションを取るのと同じで、内部メモランダムを書くように、一字一句を吟味すると言いました。また、マルチモーダルは非常に重要だと思います。グーグルの Anti-Gravity チームは最初から非常に強力なマルチモーダル、ビデオ理解を含むものを作成しました。これはモデルに与えることができる、最も帯域幅の広い「プロンプト」であり、非常に強力です。

Alessio Fanelli：普段、頭の中にあるそれらの経験をどのように整理していますか？例えば、あなたのその超強力なパフォーマンス最適化の直感について、誰もがあなたは一見してどこで効率を向上できるか分かると言っています。もしそれらの経験を汎用ドキュメントに書き、モデルに検索させて学習させたら、非常に価値があるのではないでしょうか？境界ケースが良い例です。システムを行う人々の頭の中には特定の境界シナリオがありますが、現在では毎回繰り返して言う必要があります。人々はより多くの時間を費やしてドキュメントを書き、汎用経験を抽出するようになると思いますか？

Jeff Dean：確かに、よく書かれたソフトウェアエンジニアリングガイドは非常に有用だと思います。モデルへの入力としても、他の開発者への参考としても使用できます。彼らがプロンプトを書く際、底辺のシステムが何を実装すべきかをより明確に理解できるようにするためです。各シナリオごとに個別にカスタマイズする必要はありません。汎用ガイドがあれば、コードエージェントのコンテキストに入れるだけで、非常に役立ちます。例えば、分散システムの場合、考慮すべき故障タイプ、処理方案をリストアップできます。Paxos レプリケーション、二重書き込みリクエスト、一つが返却されれば故障に耐えられるなど。这类の分散システム設計テクニックを 20 個まとめれば、コードエージェントが信頼性が高く、堅牢な分散システムを生成する能力を大幅に向上させることができます。

9 レイテンシは 1 万トークン/秒を突破可能、人間はコードを読む必要がなくなる

Shawn Wang：Gemini がいつ自分で Spanner（分散システムの CAP 不可能三角を解決した関係型データベース）を作成できるか考えています。

Alessio Fanelli：おそらくコードはとっくにすべて見ています。これは良い例です。CAP 定理は公认的な真理であり、破ることはできませんが、最後にはあなた方はそれを破ったかのようなものを作成しました。

Shawn Wang：モデルはある意味でそれを「破った」と言えますか？CAP 定理を破ったと言いますか？特定の仮定の下、例えば精密な時計同期の前提の下で。

Alessio Fanelli：時にはいわゆる真理に固執する必要はありません。しかし、モデルは時々、あなたが告げたことを過度に信じる場合があります。

Jeff Dean：プロンプトとイテレーションの問題に戻ります。私は常に比較実験を行いたいと考えています：一つは、3 回の高速だが普通のモデル呼び出しを使用し、その間に人間のアライメントを加え、人が結果を一度見て、新しいプロンプトを与える方法。もう一つは、非常に長く、非常に精緻なプロンプトを長い時間かけて書き、直接超強力なモデルに一度に完了させる方法。これら 2 つの方法の効果の差を見てみたいと思います。多くの場合、効果が良くないのは、モデルがダメなのではなく、要件の記述が不完全であり、モデルがあなたが何を望んでいるかを推測することなど到底できないからです。

Shawn Wang：定義が不明確であり、モデルは 10 の結果を生成できますが、そのうち 1 つだけがあなたが望むものです。軽量で高速なモデルを使用して多輪対話を行う方が、むしろ十分です。

Jeff Dean：私はレイテンシを非常に重視しています。低レイテンシの相互作用体験は、10 倍、20 倍遅いシステムよりもはるかに快適です。未来には、モデル、ソフトウェア、ハードウェア全体のレイテンシが現在よりも 20 倍、50 倍低くなるでしょう。これは大量の相互作用を必要とするシステムにとって極めて重要です。

Shawn Wang：現在、2 つの極端があります。一方は極致の速さ、もう一方は DeepThink のような極致の深い思考です。

Jeff Dean：コストとレイテンシを考慮しなければ、誰もが常に DeepThink を使用するでしょう。底辺のハードウェアとシステムがレイテンシをさらに 20 倍向上させ、コストが下がれば、使用しない理由はありません。

Shawn Wang：パレート曲線は常に上昇し、絶えず拡大していきます。いくつかの予測を質問しましょう。常に注目している小さなテスト、あるいは現在十分ではないが、すぐに実現できると思うものはありますか？

Jeff Dean：このカテゴリに属さない予測を 2 つ言います。第一に、あなたを知り、許可されたすべての個人データにアクセスできるパーソナライズされたモデルは、汎用モデルと比較して巨大な価値の向上をもたらします。私のすべてのメール、写真、見たビデオ、すべての情報を関連付けることができることは、非常に有用です。第二に、ますます専用化されたハードウェアにより、モデルのレイテンシが低くなり、能力が強くなり、コストが手頃になるでしょう。この点も非常に重要です。

Shawn Wang：あなたが言う低レイテンシは、大家は通常 1 秒あたりのトークン数で測定します。現在は約 100 トークン/秒ですが、1000 まで行けると思いますか？10000 は意味がありますか？

Jeff Dean：絶対にあります。思考の連鎖推論があるからです。より多くのラウンドの推演を並列で行い、より多くのコードを生成し、思考の連鎖で正しさを検証できます。10000 トークン/秒は非常に強力です。

Shawn Wang：10000 トークン/秒になれば、人間はコードを読む必要がなくなり、直接モデルに生成させればいいのです。

Jeff Dean：最終的に 10000 トークンのコードを出力するとは限りません。おそらく 1000 トークンのコードかもしれませんが、背後には 9000 トークンの推論プロセスがあり、このようなコードの品質ははるかに高くなります。

Alessio Fanelli：「もしもっと時間があれば、より短い手紙を書くだろう」のようです。Jeff、今日は素晴らしかったです。お時間をいただきありがとうございます。

Jeff Dean：とても嬉しく思います。お招きいただきありがとうございます。

参考リンク：https://youtu.be/F_1oDPWxpFQ