論文リンク:https://arxiv.org/abs/2603.11896
プロジェクトリンク:https://github.com/wl666hhh/Think_While_Watching.git
痛点を直撃:ストリーミング動画推論における「知覚 - 生成」の排他的ロック
マルチモーダル大規模言語モデル(MLLMs)は、オフラインの動画理解ベンチマークでは次々と新記録を樹立していますが、ライブ配信の分析、エンボディッド AI ロボット、リアルタイム監視など、連続する動画ストリームを扱うシナリオでは、そのパフォーマンスは往々にして期待を大きく裏切るものです。現在のストリーミング大規模モデルは概して「インタリーブ型知覚 - 生成(Interleaved Perception-Generation)」パラダイムを採用しています。これは、モデルが動画の一部を見て、一度停止してテキストを生成し、その後で次の動画セグメントを見るという動作です。
私が考えるに、知覚と生成を強制的に直列化させるこの設計には、2 つの致命的な欠陥があります。1 つ目はメモリ侵食(Memory Erosion)です。多輪の質疑応答において、その後の質問は往々にして初期の視覚的手がかりに強く依存しますが、インタリーブ型のテキストデコードが長距離の時系列特徴の連続的なモデリングを阻害し、モデルが「後ろを見れば前を忘れる」状態を招きます。2 つ目は深刻な遅延の蓄積です。論文の著者は付録において待ち行列理論を用いて見事な理論的説明を行っています。動画が速度 $\lambda$ で到着し、モデルの処理速度が $\mu$ (負荷率 $\rho = \lambda / \mu$)であると仮定します。先取のないデコードに $T_{gen}$ の時間を要する間、システムは動画の受信を停止するため、$\lambda T_{gen}$ の蓄積が発生します。さらに恐ろしいことに、システムがこの蓄積分を取り戻すために要する追いつき時間は以下の通りです。
これは、負荷率が満杯に近づくにつれ、わずか数秒間の生成停止でさえも、システム全体の連鎖的な遅延崩壊を引き起こす可能性があることを意味します。この「知覚 - 生成」の排他的ロックこそが、マルチモーダル大規模モデルが真のオンラインシナリオへ進出するのを阻む最大の障壁なのです。
TWW の中核的解決策:連続するセグメントレベルのメモリフローの維持
前述の困境を打破するため、この論文では「Think While Watching (TWW)」フレームワークが提案されています。TWW の中核的洞察は、ストリーミングマルチモーダル推論は一度きりの「閲覧後破棄」であるべきではなく、時間アンカーに基づいたセグメントレベルメモリ(Segment-Level Memory)機構を構築すべきだという点にあります。
具体的には、TWW は動画の履歴全体を無差別なコンテキストとして扱うという従来のモデルの乱暴なアプローチを放棄します。動画ストリームが入力され続ける過程で、TWW はバックグラウンドで静かに稼働し、到着する各動画セグメントのために能動的に「メモリノート(Memory Notes)」を生成します。これらのノートは、現在のセグメントから重要なエンティティ、動作の状態、シーンの遷移を抽出・圧縮したものです。ユーザーが任意の時点で突然、多輪の連続した質問を投げかけた場合、モデルは膨大な元の動画トークンを改めて遡って参照するのではなく、すでに構造化されたこれらのセグメントメモリを直接呼び出して連鎖思考(Chain-of-Thought, CoT)を行います。この仕組みは、人間が長編ドキュメンタリーを視聴する際に脳内で知識のスナップショットを絶えず作成する行為に似ており、長距離依存の連続性を保証しつつ、多輪対話における認知的負荷を大幅に軽減します。
データの断絶を埋める:3 段階の合成ストリーミング CoT 指示セット
アーキテクチャの構想ができても、次に立ちはだかる課題は、「ストリーミングメモリ注釈」付きの高品質な多輪対話データセットがオープンソース界にほぼ存在しないという点です。この訓練データのギャップを埋めるため、著者は GPT-5.2 を活用して 3 段階からなるストリーミング CoT データセットを慎重に合成し、各段階に適合した段階的訓練戦略を設計しました。
- 第 1 段階(短編動画の単輪):単一の動画セグメントに対して状態を抽出し、メモリノートを作成する能力をモデルに訓練させる。
- 第 2 段階(短編動画の多輪):多輪対話間の一貫性を育成。モデルに対し、後続の質問に答える際は以前のメモリノートを再利用することを強制し、未発生的未来の動画セグメントを覗き見ることを絶対に禁止する。
- 第 3 段階(長編動画の複雑推論):YouTube の長編動画(数十分単位のチュートリアルや講義など)を導入し、膨大なノイズ情報の中から長距離で手がかりを呼び戻し、不確実性を処理する能力を訓練する。
特筆すべきは、データの合成およびモデルの訓練期間中、TWW が極めて厳格な因果律の制約を課している点です。$N$ 個の動画セグメントと $M$ 個の質問からなる入力ストリームに対し、モデルは正確に $M$ 個の推論ブロックを生成しなければなりません。「未来を盗み見る」ことを根本的に防ぐため、TWW はストリーミング因果マスク(Streaming Causal Mask)とストリーミング回転位置エンコーディング(Streaming RoPE)を導入し、各質問のクエリが現在のタイムスタンプまでの視覚コンテンツにのみアクセス可能であることを保証しています。
推論エンジンの最適化:デュアル KV キャッシュと適応型アテンション
エンジニアリングの実装面において、限られた計算リソースでいかにして真の「見ながら考える」状態を実現するか。TWW は推論パイプラインの設計において、読み書き分離型の適応型パイプラインという、非常に美しく実用的な解決策を提示しています。
システムはデュアル KV キャッシュ(Dual KV Cache)機構により、動画ストリームの継続的な取り込みと、テキストの自己回帰的デコードを完全に分離(デカップリング)します。これにより、動画処理スレッドとテキスト生成スレッドが並列実行可能となり、前述の $\lambda T_{gen}$ による遅延蓄積効果を根本から解消します。
さらに興味深いのは、生成の各段階に合わせて著者が設計した適応型アテンションバックエンド(Adaptive Attention Backend)です。ストリーミングマスクのルール下では、アテンション機構のクエリ長($Q_{len}$)とキー長($K_{len}$)が頻繁に変化します。TWW は動的なルーティングを行います。ソース動画特徴のプリフィル($T_{prefill}$)や標準的な 1 ステップの自己回帰デコード($T_{decode}$)を行う際は、最大のスループットを追求して最適化された Flash Attention を呼び出します。一方、$T_{stream}$ といった特殊なストリーミング質疑応答の段階に直面した際は、不規則なカスタム因果マスクの適用が必要となるため、システムはシームレスに Memory-Efficient Attention へ切り替わります。この「地に足をつけた」底辺のスケジューリングにより、ストリーミング推論は厳密な時系列の因果論理を満たしつつ、究極の推論速度も損なうことはありません。
驚異的なデータパフォーマンス:トークン消費の半減とオフライン性能への好影響
実験結果は TWW アーキテクチャの有効性を如実に証明しています。Qwen3-VL(4B)をベースとしたテストにおいて、単輪ストリーミング設定下では、TWW は StreamingBench において精度を 58.52% から 60.04% へ向上。現実世界の動画理解を重視する OVO-Bench では 50.70% から 55.02% へと飛躍させました。
しかし、私が最も興奮を覚えたデータは多輪対話プロトコルの下に現れました。精度を維持、あるいはわずかに向上させたまま、TWW はその強力なセグメントメモリの再利用能力により、生成される平均トークン数を56%(OVO-Bench でも 45.8% 減)も劇的に削減することに成功しました。遅延と計算コストに極めて敏感なオンラインビジネスにおいて、計算コストを半減させながら能力を低下させないこの改善は、極めて商業的価値の高いものです。さらに、このパラダイムはストリーミングシナリオ専用に設計されたものですが、オフラインの長編動画ベンチマーク(Video-MME や LV-Bench など)においても強力な Zero-Shot 汎化能力を発揮。「見ながら考える」という機構が、本質的にモデルの超長文脈処理能力を底上げしていることを証明しています。
技術的示唆と限界:ストリーミング知能の真の難所は「タイミング」
TWW がストリーミングマルチモーダル推論の巨大な可能性を示した一方で、その現状の限界は、同時に未来の研究への道筋をも指し示しています。論文の付録では、超長距離にわたる細粒度のエンティティ同一性の忘却や、頻繁な場面転換による干渉下でのメモリ汚染など、いくつかの典型的な失敗事例が率直に示されています。
より深層的な課題は、「不完全な証拠下での早期の確約(Premature Commitment)」です。実際のテストでは、「選手がコーナーキックを蹴ろうとしている」といった動作が半分ほど進行した段階で質問された場合、モデルは「様子を見る(=追加のフレームを待って判断する)」ことができず、不十分な中途半端な映像に基づいて早期に確定的な結論を下してしまう傾向が見られました。これは、真のオンライン知能には「何が起きているか」を理解するだけでなく、「今が回答する最佳のタイミングか」を判断する能力も必要だと私たちに警鐘を鳴らしています。将来の研究で音声の手がかりを導入したり、映像の変化の激しさに基づく適応型セグメンテーションを実現したりすることができれば、この技術はエンボディッド AI やリアルタイム運転支援の分野でさらに強力な力を発揮するでしょう。
一言で総括するならば、ストリーミング推論の到達点とは、コンテキストウィンドウを無限に拡大することではなく、見ながら、記録しながら、考えるという動的メモリエンジンを掌握することにあるのです。