長影片推理為何總是翻車？Symphony 給出的答案是認知分工

論文名稱：Symphony: A Cognitively-Inspired Multi-Agent System for Long-Video Understanding
論文連結：https://www.arxiv.org/abs/2603.17307

長影片理解一直處於尷尬境地：影片越長、資訊越密集、問題越複雜，單一多模態大型模型就越容易在檢索、定位和推理鏈上同時失靈。Symphony 這篇論文的核心貢獻，並非再次訓練一個更強的影片模型，而是將長影片理解拆解成一個「認知分工明確」的多 Agent 系統：規劃、定位、字幕分析、視覺感知、反思驗證各司其職。

作者的判斷相當明確——LVU 的瓶頸已不再僅限於視覺編碼，而是複雜問題下的系統性推理能力。如果你關心 Agent 在多模態場景中如何真正落地，這篇論文值得一讀。

單 Agent 路線，卡在「會找」和「會想」兩頭

作者對現有方法的批評相當到位。一派是 RAG/clip retrieval：先建立影片庫，再根據問題檢索片段；問題在於，複雜問題往往包含隱含意圖、抽象概念和跨時間線索，原始問題本身並非好的查詢指令。

另一派是單一 Agent 反覆呼叫工具：看起來較為靈活，但推理負擔全壓在核心 LLM 上，一旦問題超越模型能力上限，就會退化成淺層搜尋和憑直覺回答。論文中的例子很典型：像「為什麼前面的母親和孩子進不了城」這類問題，既要定位關鍵片段，又要理解賄賂、通行證、外來者這類隱含線索，還要比對不同人物的行為，傳統方案很容易在中途遺失關鍵證據。

這套系統最聰明之處，在於按能力而非模態拆解任務

我認為 Symphony 最有價值的洞見，在於它沒有沿著「文字 Agent、視覺 Agent」這種常見模態分工繼續發展，而是借鑑認知心理學的思路，按能力維度拆解系統。

Planning Agent 負責拆解任務和調度，Grounding Agent 負責尋找相關影片段落，Subtitle Agent 專門處理字幕，Visual Perception Agent 負責解讀影像和時序，Reflection Agent 則像一位驗證者，對整條推理鏈進行覆查。這樣的好處是，主規劃器不必親自兼顧檢索、感知、比對和總結，負擔明顯減輕。論文還引入了「reflection-enhanced dynamic collaboration」：先進行一輪推理，再由反思 Agent 判斷證據是否充分、邏輯是否一致，若不足則提出評論，驅動第二輪探索。這比線性流程更接近真正的問題解決過程。

Grounding 才是長影片問答成敗的關鍵

這篇論文另一個值得關注的重點，是將 grounding 獨立製作成核心模組。作者認為，複雜長影片問題的失敗，往往不是答錯，而是一開始就沒找到該看的片段。

為此，他們並未直接使用原始問題進行 CLIP 檢索，而是先讓 LLM 對問題進行語意擴展和意圖分析，再讓 VLM 針對分鐘級影片段落評估相關性分數。這個設計本質上是在修復「檢索 query 過於淺層」的問題：CLIP 擅長實體匹配，但對賄賂、進入城市、前後行為比對這類抽象或時序性概念並不穩定；VLM 評分則能將「潛在線索」納入判斷。論文中的圖解說明得很清楚：原始檢索能抓到守衛，卻可能遺漏賄賂和進城這類真正決定答案的證據。

成果亮眼，但別忽略這是一項重度系統工程

在實驗方面，Symphony 在四個基準測試上都取得了 SOTA 成績：LVBench 71.8%，比先前最強方法 DVD 高出 5 個百分點；LongVideoBench 77.1%，VideoMME-long 78.1%，MLVU 81.0%。

更具說服力的是消融實驗：移除 Reflection 會下降 2.5%，將字幕直接交給規劃器會下降 1.4%，移除獨立視覺感知 Agent 會下降 2.2%。這些結果說明，效能提升並非單靠基座模型堆疊，而是系統分工確實發揮效用。

不過實驗也有需要審慎看待之處：首先是多個模組依賴不同模型協作，工程複雜度和調參成本都不低；其次是作者使用了 DeepSeek R1、DeepSeek V3、Seed 1.6 VL 等強力基座，系統效益中有多少來自框架、多少來自基座模型組合，雖然做了部分比較，但仍難以完全區分；第三是 voting 版本還能繼續提升表現，說明當前單次協作流程仍不夠穩定。

對從業人員有啟發，但未必適合所有人照搬

這項工作最值得從業人員借鑑的，並非具體的 prompt 或 agent 名稱，而是一個判斷：長影片理解正從「模型能力問題」轉向「系統組織問題」。當任務包含長時間定位、跨片段比對、隱性因果推論時，單一 agent 很難同時做到精準定位、深度思考，還能自我修正錯誤。

Symphony 給出的答案是明確分工加上動態反思，這套思路對影片 QA、多模態檢索、具身智慧中的長軌跡理解都有參考價值。但其限制也很明確：鏈路長、呼叫次數多、延遲高，適合高價值複雜任務，不適合低成本即時場景。對學習者而言，這篇論文最大的價值在於提醒我們，下一階段 agent 研究的重點，或許不再是「再加一個工具」，而是如何讓不同能力模組形成有效的協作閉環。