多模態視訊串流推論效能提升 56%：揭密 TWW 的分段級動態記憶機制

論文連結：https://arxiv.org/abs/2603.11896
專案程式碼：https://github.com/wl666hhh/Think_While_Watching.git

直擊痛點：串流視訊推論的「感知 - 生成」互斥鎖

儘管多模態大語言模型（MLLMs）在離線視訊理解基準測試中屢創佳績，但在諸如直播分析、具身智能機器人、即時安防等連續視訊串流場景中，它們的表現往往令人大跌眼鏡。當前的串流大模型普遍採用「交錯式感知 - 生成」（Interleaved Perception-Generation）範式：模型看一段影片，停下來生成文字，然後再看下一段。

交錯式感知 - 生成範式示意圖

我認為，這種將感知與生成強行串行化的設計存在兩個致命缺陷。首先是記憶侵蝕（Memory Erosion）。在多輪問答中，後續問題往往高度依賴早期的視覺線索，但交錯式的文字解碼會阻斷長程時序特徵的連續建模，導致模型「看後面忘前面」。其次是嚴重的延遲積壓。論文作者在附錄中用排隊論給出了精妙的理論解釋：假設影片以速率 λ 到達，模型處理速率為 μ（負載率 ρ=λ/μ）。在非搶占式的解碼耗時 T_gen 期間，系統停止接收影片，導致積壓 λ*T_gen。更可怕的是，系統為了追平這部分積壓，需要耗費的追趕時間為：

延遲積壓與追趕時間公式示意圖

這意味著，隨著負載率接近滿載，哪怕僅僅幾秒鐘的生成停頓，也會引發系統級聯式的延遲崩潰。這種「感知 - 生成」的互斥鎖，是阻礙多模態大模型走向真實線上場景的最大絆腳石。

TWW 的核心解法：維護連續的分段級記憶流

為了打破上述困境，這篇論文提出了 Think While Watching (TWW) 框架。TWW 的核心洞察在於：串流多模態推論不應該是一次性的「閱後即焚」，而應該建立一個基於時間錨點的分段級記憶（Segment-Level Memory）機制。

TWW 分段級記憶機制架構圖

具體而言，TWW 放棄了傳統模型將整個影片歷史視作無差別上下文的粗暴做法。在影片串流持續輸入的過程中，TWW 會在後台靜默運行，為每個到來的影片片段主動生成「記憶筆記」（Memory Notes）。這些筆記提取並壓縮了當前片段中的關鍵實體、動作狀態和場景轉換。當使用者在任意時刻突然插入多輪連問時，模型不需要重新回溯龐大的原始影片 Token，而是直接調用這些已經結構化的分段記憶進行鏈式思考（Chain-of-Thought, CoT）。這套機制就像人類看長篇紀錄片時在腦海中不斷做知識快照，既保證了長程依賴的連貫性，又大幅降低了多輪對話中的認知負擔。

彌補數據斷層：三階段合成串流 CoT 指令集

有了架構構想，隨之而來的挑戰是：開放原始碼界幾乎不存在帶有「串流記憶註釋」的高品質多輪對話數據集。為彌合這一訓練數據缺口，作者調用 GPT-5.2 精心合成了一個包含三個階段的串流 CoT 數據集，並設計了階段匹配的漸進式訓練策略。

三階段串流 CoT 數據集合成流程圖

第一階段（短影片單輪）：訓練模型針對單一影片片段提取狀態並撰寫記憶筆記的能力。
第二階段（短影片多輪）：培養多輪對話間的一致性，強制要求模型在回答後續問題時複用之前的記憶筆記，且絕對禁止窺探未來尚未發生的影片片段。
第三階段（長影片複雜推理）：引入 YouTube 長影片（如動輒數十分鐘的教學或講座），訓練模型在海量干擾資訊下長程召回線索、處理不確定性的能力。

值得注意的是，在數據合成和模型訓練期間，TWW 實施了極其嚴格的因果性約束。對於包含 N 個影片片段和 M 個問題的輸入流，模型必須精準生成 M 個推理塊。為了在底層機制上杜絕「偷看未來」，TWW 引入了串流因果遮罩（Streaming Causal Mask）和串流旋轉位置編碼（Streaming RoPE），確保每個問題查詢只對截至當前時間戳的視覺內容可見。

推理工程優化：雙 KV Cache 與自適應注意力

在工程落地層面，如何在有限算力下做到真正的「邊看邊想」？TWW 在推理管道設計上給出了非常漂亮且實用的工程解法：讀寫分離的自適應流水線。

雙 KV Cache 與自適應注意力後端架構圖

系統透過雙 KV Cache（Dual KV Cache）機制，將影片串的持續攝入與文字的自回歸解碼完全解耦。影片處理執行緒和文字生成執行緒可以並發執行，從根本上消除了前文提到的 λ*T_gen 延遲積壓效應。

更有趣的是作者針對生成階段設計的自適應注意力後端（Adaptive Attention Backend）。在串流遮罩規則下，注意力機制的查詢長度（Q）與鍵長度（K）經常發生變化。TWW 會進行動態路由：當進行源影片特徵的預填充（Prefill）或標準的單步自回歸解碼（Decode）時，系統調用極致優化的 Flash Attention 以追求最大吞吐；而在遇到 Q≠K 的特殊串流問答階段時，由於需要施加不規則的定制因果遮罩，系統會無縫切換回 Memory-Efficient Attention。這種因地制宜的底層調度，保證了串流推理既滿足嚴格的時序因果邏輯，又不失極致的推理速度。

驚豔的數據表現：減半 Token 消耗並反哺離線

實驗結果充分證明了 TWW 架構的有效性。在基於 Qwen3-VL（4B）的測試中，單輪串流設定下，TWW 在 StreamingBench 上將準確率從 58.52% 提升至 60.04%，在注重真實世界影片理解的 OVO-Bench 上則從 50.70% 躍升至 55.02%。

TWW 於 StreamingBench 與 OVO-Bench 之效能比較圖

但我認為最振奮人心的數據出現在多輪對話協議下。在保持甚至微漲準確率的前提下，TWW 憑藉其強大的分段記憶複用能力，將生成的平均 Token 數量暴降了56%（在 OVO-Bench 上也下降了 45.8%）。在對延遲和算力成本極度敏感的線上業務中，計算開銷減半而能力不降，這是一個具有極高商業化價值的改進。此外，雖然這套範式專為串流場景設計，但它在離線的長影片基準測試（如 Video-MME 和 LV-Bench）中依然展現了強大的 Zero-Shot 泛化能力，證明「邊看邊想」的機制天然提升了模型處理極長上下文的內功。

多輪對話下 Token 消耗量與準確率比較圖

技術啟發與局限：串流智能的真正難點在「時機」

儘管 TWW 向我們展示了串流多模態推理的巨大潛力，但它目前的局限性也恰恰為未來的研究指明了方向。論文在附錄中坦誠地展示了幾個典型的失敗案例，比如超長跨度下的細粒度實體身份遺忘，以及在存在頻繁畫面跳轉干擾時的記憶污染。

TWW 模型在細粒度實體遺忘與記憶污染之失敗案例

更深層的挑戰在於「在不完整證據下的過早承諾（Premature Commitment）」。在實際測試中，當一個動作（如「球員正在開角球」）剛剛發生到一半時被提問，模型往往無法做出「讓子彈飛一會兒」的判斷，而是基於不充分的半截畫面過早給出確定性結論。這提醒我們，真正的線上智能不仅需要理解「發生了什麼」，還需要學會判斷「現在是不是回答的最佳時機」。未來的工作如果能引入音訊線索，或實現基於畫面變化劇烈程度的自適應切片分割，這項技術將在具身智慧和即時輔助駕駛領域爆發出更強大的威力。

總結成一句話：串流推理的終局並非無限擴大上下文視窗，而是掌握一套邊看、邊記、邊思考的動態記憶引擎。