文|灰信鸽
編集|一弋
みんな(私を含めて)つい最近まで世界モデルはゲーム制作に向かないと断言していたが、あっという間に顔を叩かれる結果となった——
アメリカのシリコンバレーとシンガポールに拠点を置く企業LinearGameが、世界モデルを使ってゲーム開発プラットフォーム「Yoroll」を作った。
Yorollは「エンジンレスゲーム」という新たなパラダイムを提唱しているという。
調べてみたが、こう言っておこう。たとえYorollが最終的に成果を出せなかったとしても、その提示した解決アプローチだけで、多くの人にインスピレーションを与える価値がある。
今、AIスタートアップで成功するのはYorollのような存在だ:新技術が出てくると、それがどのような新たなニーズを生み出せるかを考える。
カギは、新たなニーズを掘り出すための梃子(てこ)を見つけられるかどうかだ。
Yorollについて簡単に説明すると、現在公開されている情報は2つだけだ:Business Wireのサードパーティ報道と、LinearGame公式サイトの紹介動画。
これらはそれぞれ2つの情報を提供している:1. Yorollをどのように作ったか、2. Yorollをどのように使うか。
この2つが組み合わさって、プロジェクトの全貌が見えてくる:LinearGameがどのように世界モデルを使って新たなニーズを創造しているか。
まず、Business Wireが提供する情報から。この情報はチームの共有によるもので、Yorollの製品コンセプトに関するものだ。
意外なほどシンプルだ。
背景として、ゲーム業界における世界モデルへの評価は、その本質が記憶力によって維持されており、夢を見るようなもので、プロジェクトとして成立しないというものだった。
不安定で持続性がなく、ゲーム業界が求める「コントロール可能性」とは正反対だからだ。
しかしYorollの理解はこうだ。ゲームの第一性原理は安定性や持続性ではなく、フィードバックにある。
これは製品構造からも見て取れる。報道によると、Yorollは3層の技術構造を持つ:表現層、判断層、状態層。
最も基礎的なのは表現層で、ここに世界モデルが位置している。
世界モデルは、Genheなどが示すように、高品質な映像生成+物理・因果律に合ったルール+基本的なインタラクションを提供する。
Yorollは世界モデルの品質を変えていない。唯一異なるのは、インタラクションの種類を増やしたことで、移動だけでなく、クリック、スワイプ、音声などが含まれる。
以上、これだけだ。
この基礎技術の上に、Yorollは2つのエンジニアリングシステムを追加している——これが世界モデルでゲームを作れる鍵となる。
第一層は判断層。視覚-言語大規模言語モデルで、世界モデルが生成した映像を監視し、何が起きているかを判断する。
世界モデルは何が起きるかを推論し、映像で提示するが、映像そのものには行動データがない。
判断層は、映像上の重要な行動を定量化可能なデータに要約する。
あるアクションを行った後、好感度が上がったのか、HPが減ったのか、これは確定的なデータになる。
データは第二層、つまり状態層に到達し、従来のデータストレージに渡される。これらはHPや状態といった数値に対応する。
そして状態層は、これらのデータを再びプロンプトとして世界モデルに渡し、世界モデルの変化に影響を与える。
こうして、1つの技術基盤+2つの工学的な工夫が、極めてシンプルだが効果的なループを構成する:
「生成-収集-保存+フィードバック」→次の生成に影響を与える。
なぜYorollは「世界モデルではゲームが作れない」という枠を突破できたのか?それは、Yorollと従来のゲームシステムが全く異なるロジックを持っているからだ。
従来のゲームは精密な機械のようなもので、一つ一つの歯車が噛み合っている:1つのインタラクションフィードバックを見るにも、衝突判定、パラメータ判定などが必要だ……
Yorollは違う。何を見て、何をしたか、そして世界モデルに次に何が変化するかを伝えるだけだ。
エンジニアリングはシンプルで荒削りだが、世界モデルをゲームの領域に引き込むには十分だ。
ただ、Yorollが世界モデルでゲームを作れるもう一つの重要な要因がある:インタラクティブ映画、Interactive Filmだ。
インタラクティブ映画は、視覚を重視し、フィードバックは軽量で、絶えずシーンを切り替える必要がある。
このジャンルは世界モデルとは天作の組み合わせだ。
インタラクティブ映画は、世界の安定性を必要とせず、3Dアセットがないことや空間が長く続かないという欠点を完全に回避できる。
一方で、世界モデルのAAA級の映像品質という強みは、インタラクティブ映画が求める長所でもある。
言い換えれば、世界モデルという新技術が出てきたとき、インタラクティブ映画こそが、そこから新たなニーズを生み出せるアーキテクチャなのだ。
どのようなニーズか?これについては、2つ目の情報源であるLinearGameの公式動画から説明する必要がある。市場はYorollというプラットフォームをどのように使うべきか。
製品構造と同様に、Yorollのユーザー向けアプローチも第一性原理に従っている:インタラクティブ映画を作る上で重要なのはアイデアだ。
Yorollの創作プロセスは極めてシンプルで、TikTokで日常を投稿するようなもので、わずか3ステップ——
1. 方向性を決め、プロンプトを書く——>ワンクリック生成;
2. アセットを確定し、ストーリーとキャラクター設定を見る——>ワンクリック生成;
3. 詳細を確定し、カメラとインタラクションを調整し、内容のつながりを確認する——>ワンクリックでパッケージ化。
コンテンツ量が足りず、さらに追加したい場合も、ワンクリックで生成できる。
煩雑な撮影や編集はすべて省略され、ユーザーがやるべきことは「アイデアを出す」だけになる。
もし不満足で修正したい場合も、ユーザーは「プロンプトを入力」して「設定をクリック」するだけだ。
つまり「社長式開発」だ:下でどう実装されているかは気にせず、上では明確な結果を見て、センスの良いアイデアを出すだけ。
そのため、Yorollが提示するプロジェクトのエンジニアリングは極めてシンプルで、核心は2つだけ:Story&Cast、そしてStoryboard。
Story&Castでは、ストーリーはあらすじと主要人物だけで、長文はなく、内容を自由に短縮または延長できる。
キャラクターには三面図のデザインがあり、服装のディテールもある。不満足ならプロンプトで直接修正できる。
Storyboardに移ると、構造はさらにシンプルで、ScriptとCanvasだけだ。
Scriptは、各具体的なショットを管理し、各ショートの基本的な映像、イベント、セリフ、そしてゲームプレイと遷移方法を見る。
Canvasは大きな物語構造を管理し、メインストーリーの進行ルートと分岐条件を扱う。簡単なドラッグで調整が完了する。
最後にPublish。ユーザーはタイトルとカバー画像を追加するだけで、クリックするだけで遊べるゲームとしてパッケージ化できる。
パッケージ化されたゲームは、PCでもスマートフォンでも遊べる。
全プロセスは極めてシンプルで、説明するまでもないほど、動画を撮って投稿を公開するよりも簡単だ。
Yorollが創造する「軽制作、軽公開、軽体験」が順調に進めば、そこから生まれるのは、その源であるインタラクティブ映画よりもさらに軽量な新たな形式になるだろう。
これが、冒頭で述べた新たなニーズ、ひいては新たなエコシステムだ。
Yorollは現在まだ招待制で、正式版までには距離があるが、そのコンセプトはすでに十分に明確だ。
「世界モデルではゲームが作れない」という判断は、既存の業界がどのようにAIを使って効率化を図るかという観点に基づいている。
新技術が出てくると、みんな最初に考えるのは、「それが今やっていることを手助けしてくれるか」だ。
これは典型的な「代替」の考え方だ。
業界は世界モデルに対する市場の誤解を指摘したが、それは間違っていない。その判断はもともとAAAゲームの代替に関するものだった。
しかし新技術、特に業界外からやってきた技術の場合、その存在は代替するためではなく、新しいものを生み出すためのものだ。
だとすれば、従来の思考法はかえって、それに対する想像力を縛り付けてしまう。
おそらく、Yorollは世界モデルに対する最適解ではなく、本当にゲームが作れる保証もないかもしれない。
しかしYorollは、自らの思考によって、「判断層&状態層」という小さな梃子を使って、世界モデルをゲームの領域に初めて押し開けた先駆者だ。