あなたがブラウザを開くと、そこにはコードも、HTMLも、CSSレイアウトエンジンも存在しない。画面上の全てのフレームは、AIモデルによってリアルタイムに生成されたピクセルビデオストリームなのだ。
それはあなたの意図を瞬時に理解し、パリ旅行の計画から複雑なデータの可視化に至るまで、手描きのイラストのように生き生きとしたインターフェース全体を動的に再構築する。しかも、クリックに応じてシームレスに変形し、相互作用する。
まさにSFが現実に降り立ったかのような感覚だ!
これこそが、Zain Shah(元OpenAI、Y Combinator出身)と彼のチームが発表したばかりのプロトタイプ「Flipbook」である。
体験先: flipbook.page
わずか一日で、X(旧Twitter)プラットフォーム上で2億回以上閲覧される大爆発となった。ネットユーザーはすでに夢中だ!スマートフォンでも遊べる。
ライブビデオストリームモードをオンにすると、体感はさらに衝撃的になるだろう。
Zainは、最適化されたLTX Studioビデオモデルによって実現したリアルタイムデモを公開した。それは、Modal GPUサーバーをバックエンドに、1080p、24fpsでのリアルタイムストリーミングだ。
従来のウェブ開発パラダイムは完全に打ち破られた。フロントエンドのレイアウトは不要で、まるで本をめくるかのようにネットサーフィンができるのだ。
現在のウェブページは、「硬直化したコードとルールによって生成されているため、複雑で詳細なアイデアを伝えるのが難しい」とされている。
しかしFlipbookはこれを放棄した。その理念は「百聞は一見にしかず」であり、あなたが訪れるすべての「ページ」は一枚の画像なのである。
面白いのは、画像の中のどの隅をクリックしても、新しい画像が得られ、その対象についてより深く探求し続けることができるという点だ。
あなたが目にするコンテンツの中には、HTML、コード、特定のリンクやフィールドは一切含まれていない。ウェブ全体が、単にあなたの画面に表示された生成ピクセルであり、文字でさえも画像の中のピクセルで構成されている。
まさに、本のページをめくるような体験そのものだ。
過去20年間、私たちはHTML + CSS + JavaScript + Reactなどに依存してインターフェースを構築してきた。今、Flipbookはすべてを「ピクセルストリーム」へと簡略化する。モデルが、あなたが何を見て、どう相互作用するかを直接決定するのだ。
レイアウトエンジン不要: イラストはウィンドウに合わせて適応変形し、もはやCSSの枠に縛られない。
フルスクリーンインタラクション: あらゆるピクセルがクリックに反応し、モデルがリアルタイムで意図を判断するため、あらかじめ定義されたボタンに限定されない。
ビジュアルファースト: 複雑な概念は、退屈なテキストや四角形の枠ではなく、イラスト、アニメーション、リアルなレンダリングで表現される。
ここから読み取れる一つのシグナルは、フロントエンドエンジニアの「コードを書いてインターフェースを構築する」時代が終焉を迎えつつあるということだ。
AIネイティブブラウジングは、まさに無敵である。
筆者も早速体験してみたが、確かに「無限探索型リーディング」という感覚があった。
例えば、Qwen2.5-72Bモデルが発表された。以前なら各種ベンチマークスコアの比較を注意深く見なければならなかったが、今では解釈をFlipbookに任せられる。
筆者が業界で今非常に注目されている「SWE-bench Verified」をクリックすると、それはまるで虫眼鏡ツールのように、より具体的な比較数値と分析を生成してくれた。
筆者がさらに関連性の高い「エージェンティックフロー」をクリックすると、視覚化可能なループ図が表示された。
この強い探求感を伴うインタラクション方式は、前例のないものだ。
前のページに戻りたい場合はどうすればいいのか?ナビゲーションバーにはすでにパスの記憶が作られており、それを遡ってクリックするだけでいい。
この小さなツールを過小評価してはいけない。外部ではこれを業界に激震をもたらすシグナルと見なしている。
複雑な図表を解読する以外にも、筆者は別の素晴らしい使い道を発見した。それは、現実の人物の微表情の解読である。
芸能人の表情の特徴を解読してみよう。無駄にしない主義で、筆者は「沈騰のTIME誌の表紙」をFlipbookに与えてみた。その表情は、眉毛、目、鼻、口、そしてえくぼに至るまで、明瞭に解読された。
なるほど、沈騰のこの顔は、あまりにも権威的だ。
実は奇妙な使い道が他にもたくさんある。あなたが思いつかないだけで、Flipbookにできないことはない。
小学生の宿題を手伝わせると、抽象的な数学の問題がすべて「可視化」される。これなら簡単に解けるのではないか?
要するに、あらゆる抽象的なものが、ここでは具体的で認識しやすくなるのだ!
これだけではない。想像の余地は非常に大きく、画像であれば何でも解読できる。
ライブ配信でゲストが誰か分からない場合も、これに聞けばいい(P.S. 現在の能力はまだ十分ではなく、知名度の高い人物しか認識できず、間違えやすいが)。
さらに驚きの機能がある!
画像がない?どうすればいい?URLに直接プロンプトを入力すればいいのだ。例えば、筆者はこう入力した。
「桜木花道のダンクシュート動作の分解図を作って!」
そして、忘れてはならないのは、上記のすべてのフレームには、より高度な「リアルタイムビデオストリーム」バージョンが存在するということだ。筆者のネット速度が十分でないのが残念だが、そうでなければ桜木花道のダンクのスローモーションを直接見られただろう。
容易に想像できるように、将来の製品プロトタイプも、「ワイヤーフレームを描く」ことから、「プロンプトを直接入力してインタラクティブなビデオインターフェースを生成する」ことへと変わるだろう。
そして、ローコード/ノーコードも、「ゼロコードAIネイティブインターフェース」へと進化するだろう。
無限のビジュアルを備えたAIネイティブブラウザ:AIビデオモデルのリアルタイム化のブレイクスルー。
ZainはX(旧Twitter)上で、リアルタイムビデオの進化技術について特に言及した。それは、最適化されたLTXStudioビデオモデルだ。
「これらの画像を生き生きと躍動させるために、私たちは@LTXStudioのビデオモデルに大幅な最適化を施しました。これは、@modal_labsのサーバーレスGPUインフラストラクチャにWebSocket経由で直接接続し、ユーザーの画面に24fpsで1080pのビデオを直接ストリーミングすることができます。」
現時点で見ると、このFlipbookはAIネイティブブラウザのようでもあり、AIネイティブプレーヤーのようでもある。しかも、インタラクションに全く引っかかりがなく、一般的な動画生成とは大きく異なる。これはどのように実現されているのだろうか?
実は、Flipbookの背後にある中核技術は、Lightricks(AIファーストのクリエイティブを専門とするイスラエルのテック企業)のLTX-2/LTX-2.3シリーズというオープンソースのDiTモデルである。これは、高圧縮の潜在空間、マルチスケールレンダリング、同期音響・映像を実現し、リアルタイムよりも高速で(H100上で数秒の動画を数秒で生成)、ネイティブの4K/1080pポートレートをサポートする。
これにより、生成されたビデオは、リアルタイム性、状態認識、インタラクティブ生成という特性を備えることになる。エージェンティック検索と組み合わせることで、モデルはリアルタイムデータを取得し、正確性を確保することもできる。
次の野望:構造化UIプログラミング。
これほど熱い製品体験、その次のステップはどのようなものになるのだろうか?
Zainは、Flipbookにはまだ多くの制限があることを認めており、そのためチームは現在、ビジュアルによる説明を中心に据えて設計している。
しかし、彼らの野心は実際もっと大きい。モデルがより正確で、より状態を保持できるようになるにつれて、この方法で行う価値のあることの集合は拡大するだろう。プログラミングのような、構造化されたUIが必要だと思われるものでさえもだ。
先述の通り、この技術は私たちの既存のほぼすべてのワークフローを覆し、速度も10倍に向上させる可能性がある。
UI/UXデザイン: 静的なモックアップから動的なビデオプロトタイプへ、イテレーション速度が10倍以上向上する。デザイナーはプロンプトを入力するだけで、完全なユーザージャーニーをテストできる。
コンテンツ制作と教育: 旅行計画、チュートリアル、データストーリーテリングが、すべて没入型のビジュアルナラティブに変わる。教育界には「AI動的教科書」が到来するかもしれない。
Eコマース/製品デモ: 商品ページはもはや画像とテキストではなく、リアルタイム生成された3Dライクなインタラクティブシーンとなり、ユーザーの好みに応じてパーソナライズされて変形する。
ゲームとAR/VR: カットシーンやインターフェースがリアルタイムに生成され、軽量なAI駆動体験への道を開く。
まだこれで終わりではない。現在の製品体験は、モデルの能力の上限に制限されている。もしモデルが十分に安定した状態まで発展すれば、ソフトウェアインターフェース全体が「生成的」なものに変わる可能性がある。
その時が来れば、ブラウザはまだ存在するだろうが、その中で動いているのはもはやウェブページではなく、AIが駆動する「無限ビジュアルブラウザ」なのだ。
Flipbookの背後にあるもの:それは「焼け付くような金」だが、未来はそれに十分値する。
しかし、これほど先見的な技術体験を、すべての人に普及させるためにスケーリングし続けるには、容易ではない困難がある。
主に問題となるのは、計算コストだ。誰もが知っているように、従来のウェブページのクライアントサイドレンダリングはほぼ無料である。しかし、Flipbookはサーバーサイドでの継続的なGPU推論を必要とする。帯域幅とコストのボトルネック(ビデオストリームとテキストストリームでは50~150倍の差がある)は解決されなければならない。
しかし、この問題は解決不可能ではない。ジェンスン・フアンやa16zなどの業界関係者や機関の言葉によれば、推論用計算能力のコストは毎年20%、あるいは10%にまで低下するという。さらに、オープンソースモデルのローカライゼーション(FP8量子化)のペースも加速している。経済的な問題は、5年から10年以内に解消される見込みだ。
さらに、Lightricksのような企業はオープンソース+エンタープライズ版を推進しており、Modalのようなインフラストラクチャはすでに準備が整っている。誰が最初にスケーリングの問題を解決するか、その者が最大の利益を得るだろう。
さらに大きなシグナルは、インターネットコンピューティングのパラダイムが「クライアント主導」から「クラウドAI生成主導」へとシフトしていることだ。そうなれば、クラウドコンピューティング、エッジコンピューティング、ブラウザアーキテクチャといった私たちの現在の技術スタックはすべて再構築され、新たな「AI OS」の誕生を促すことさえあるかもしれない。
背後にあるチーム。
筆者はFlipbookの背後にあるチームの背景も少し調べてみた。
Flipbookの背後にあるチームは、実は小規模で、分野横断的なコラボレーションを行う「クリエイティブテクノロジー」グループであり、伝統的な意味での正式な会社のチームではない。
ある意味で、これはサイドプロジェクトと言っても過言ではなく、情熱的なメイカーやテックギークたちがコミュニティラボ環境で迅速に組み上げたものだ。
その中心人物であるZain Shahは、リーダーであり発起人である。Zainの経歴には、Samsungのクリエイティブテクノロジストとして将来のデバイス、ウェアラブルデバイス、AIアシスタントのプロトタイプ開発を担当したことが含まれる。それ以前はOpenAIの研究員であり、Y CombinatorのS13卒業生(Watchsendを創業)であり、Opendoorでのデータサイエンス/エンジニアリングの経験も持つ。
要するに、ZainはAIとインタラクションインターフェース、ハードウェアプロトタイプを組み合わせることに長けているのだ。
さらに特筆すべきは、彼がサンフランシスコ中心部にある非営利コミュニティのメイカーズスペース兼ラボである「MadSci」を共同設立したことだ。Flipbookの多くのインスピレーションと実際の開発は、ここで行われた可能性が非常に高い。
また、彼の個人ウェブサイトでFlipbookについて言及する際に、「It took a village(それには村全体、つまり集団の努力が必要だった)」という表現を用いており、彼一人ではなく、共同作業の成果であることを示している。
ZainはFlipbookの発表投稿の中で、特に以下のメンバーに感謝の意を表している。
サンフランシスコのスタートアップコミュニティ「South Park Commons」のメンバーで、Humane、Slack、Brown出身のEddie Jiao。そう、またアジア系の顔だ!
もう一人の中核メンバーは、Apple出身のDrew O'Carrである。
これらのメンバーの経歴から見ると、3人に共通するのは、全員が「AI時代のインターフェースの形態」を探求する実験的なビルダーであるということだ。
AIネイティブインタラクション時代、爆発の前夜。
2023年から、業界ではすでに「AIネイティブ製品」というテーマについて喧々諤々の議論が始まっている。
人々は、生成AI時代の製品とはいったいどのような姿をしているべきか、多くの探求を行ってきた。
従来のインターネット製品に「チャットボックス」を追加するものから、Claude Codeのような純粋なCLIまで。前者はすでに「鶏肋(むだが多く捨てるに忍びない)」と評され、後者は非プログラマー集団に急速に普及させるのが難しい。
しかし、Flipbookはそれを実現する希望を持っているように見える!
CSSを書くことからプロンプトエンジニアリングへ、URLに一行の指示を書くだけで、欲しい情報が前のフレームのピクセル間を流動し再構成される。
画像こそがすべてというインタラクティブな体験に、プロンプトの生成魔法が組み合わさり、「AIネイティブブラウザ」の定義に触れたと言っても過言ではない。
私たちの未来のあらゆるインタラクションは、仕事上のマーケティングデザイン、プログラミング、プレゼン資料作成、プロトタイプデザインであれ、あるいは日常生活の旅行、子供の宿題指導、芸能人のホットトピック検索であれ、これらの体験はすべて新たな「ビジュアル化」による再構築を迎える可能性があると予見できる。
最後に:HTMLが隠退する日も遠くない。
もちろん、前文で述べたように、Flipbookは現在まだプロトタイプ段階であり、主に「ビジュアルによる説明」に用いられており、実際の速度にはまだ最適化の余地がある。
しかし、それは未来を明確に指し示している。それは、AIモデルが十分に速く、賢くなったとき、インターフェースは現実世界のように豊かで、即時的で、パーソナライズされたものになるということだ。
想像できるのは、私たちのウェブサイトは最終的に「塗り絵ブロックのウェブページ」という形態を刷新し、「一人ひとりのためにカスタム生成されたビジュアル宇宙」へと変貌を遂げるだろうということだ。
とにかく、HTMLが隠退する日は、もう遠くない!
確かなのは、このAIインターフェース革命は、まだ始まったばかりだということだ。
参考リンク:
https://x.com/zan2434/status/2046982383430496444
https://sandner.art/ltx-video-locally-facts-and-myths-debunked-tips-included/