VideoSeek 長影片理解 Agent:讓 GPT-5 在長影片理解上再提 10 個百分點的祕密

當前主流影片智慧體(Video Agents)存在一個共同隱憂:無論問題難易,皆傾向盡可能多採幀、密集解析。諸如 VideoAgent、VideoTree、DVD 等方法在 LVBench 測試中需檢視數千幀畫面,本質上是以算力換取準確率的粗放策略。這在實際應用場景中代價極高——若將一段小時級影片以 1FPS 全量輸入,其 Token 消耗量與延遲皆是工程上的夢魘。更關鍵的是,幀數多並不等於資訊量大:大量幀之間高度冗餘,真正攜帶答案線索的往往僅寥寥數秒。AMD 與羅徹斯特大學(University of Rochester)這篇《VideoSeek》論文,正是針對此根本矛盾提出的解方。

主流影片理解方法對比示意圖

影片具有邏輯流,這是最重要的洞察

VideoSeek 的核心洞察(Insight)其實並不複雜,卻遭過往研究系統性地忽視:影片內容具備邏輯結構。場景切換、事件順序、因果鏈結——這些「影片邏輯流」本質上是一張免費的導航地圖。只要模型能預先建立對影片結構的巨集觀認知,就能預測答案最可能藏匿的時間區段,而非從頭到尾盲目掃描。

影片邏輯流與導航地圖概念圖

將此洞察轉化為系統設計,即為三個粒度遞進的工具:<overview> 負責全域摘要,<skim> 對候选片段進行粗掃定位,<focus> 則針對關鍵短片段進行 1FPS 精讀。智慧體在「思考 – 行動 – 觀察」(Think–Act–Observe)的迴圈中,每一步皆依據既有證據決定下一步該動用哪把刀——這並非預設由粗至細的流水線作業,而是真正的按需調用。

VideoSeek 三階段工具運作流程圖

Think–Act–Observe 的工程細節值得細究

在演算法流程上,VideoSeek 基於 ReAct 風格,以 GPT-5 作為思考型大型語言模型(Thinking LLM)。每輪輸出推理鏈與工具調用計劃,執行後將觀測結果追加至軌跡中,最多循環數輪。

ReAct 風格演算法流程示意圖

以下幾項設計亮點值得特別關注:

工具約束設計極為嚴格。提示詞(Prompt)明確規定每輪僅能調用一個工具,skim 僅能用於超過閾值長度的片段,focus 則僅能處理短片段。此類硬約束避免了模型「偷懶」跳過巨集觀層級直接進入聚焦,強制維持層次化推理。

幀數預算參數 α 實現跨基準測試適配。針對 LVBench 平均 67 分鐘的長影片,設定 α=4;其他較短影片的基準測試則設 α=2。overview 採樣幀數、skim 每次採樣幀數、focus 上限秒數皆據此統一縮放,使超參數調整直觀且具彈性。

中介推理的價值獲得單獨驗證。論文設計了 GPT-5 對照組——直接使用 VideoSeek 選出的幀輸入 GPT-5(不經過智慧體迴圈),結果比全幀 GPT-5 高出 3.8 個百分點,但仍比完整的 VideoSeek 低了 4.5 個百分點。這證明效益來自兩部分:更佳的幀選擇策略加上多輪中介推理,兩者缺一不可。

中介推理價值驗證對比圖表

數據說話:效率與精度雙贏

在 LVBench(包含 103 段小時級影片、共 1549 題)測試中,VideoSeek 無字幕版本平均僅用 92.3 幀即達到 68.4% 準確率,優於所有對比的影片智慧體;加入字幕後,僅需 27.2 幀即可將準確率提升至 72.2%,而排名第二的影片智慧體則需約 8000 幀以上。兩者幀數差距高達約 300 倍,這絕非小幅優化,而是量級上的差異。

LVBench 效能與幀數對比圖表

對比基線模型 GPT-5(384 幀,準確率 60.1%),VideoSeek 提升了 10.2 個絕對百分點,同時節省了 93% 的幀數。在 Video-MME long 與 LongVideoBench long 等測試集上亦有穩定提升。

多基準測試效能提升比較圖

消融實驗揭示了工具的重要性排序:移除 overview 導致準確率下降 13.3 個百分點,移除 skim 下降 6.0 個百分點,移除 focus 則下降 4.7 個百分點。overview 的作用至關重要,因為若缺乏全域結構認知,後續的定向搜索無異於無本之木。

消融實驗工具重要性分析圖

思考型 LLM 的選擇影響亦十分顯著:當換成 GPT-4.1(非思考型模型)後,準確率從 68.4% 跌至 53.0%,且平均輪數減少(2.99 輪 vs 4.42 輪)——這顯示較弱的推理模型傾向過早結束判斷,其自信心與實際能力嚴重不匹配。

不同 LLM 模型對效能影響比較圖

界線清晰,對工程落地具實際參考價值

VideoSeek 對「具備邏輯結構的影片」效果最佳——如劇情片、紀錄片、會議錄影等內容天然適合。論文也直接指出其局限:對於異常檢測等場景(關鍵證據無法透過邏輯推斷預判位置),此框架效果有限。

適用場景與限制條件示意圖

運行時間方面需注意:儘管 Token 消耗量少,但多輪調用導致總延遲(約 136 秒)高於單次 GPT-5 調用(66 秒)。論文坦承運行時間受網路延遲等因素影響,不作為可靠指標——這種誠實態度值得肯定,但工程師於即時場景部署時需自行評估。

整體而言,VideoSeek 提供了一個清晰的設計典範:以結構化工具搭配推理迴圈取代暴力採幀,而非單純堆疊上下文長度。對於正着手建構影片理解系統的工程師來說,這套工具粒度劃分與提示詞設計(論文附錄提供完整提示詞)皆具直接的參考價值。


進階學習

👉 若您想系統性掌握多模態大型模型的前沿技術與應用,推薦您學習我的精選課程:

📚 課程涵蓋主流多模態架構、多模態智慧體(Agent)、數據構建、訓練流程、評估與幻覺分析,並配套多個專案實戰:LLaVA、LLaVA-NeXT、Qwen3-VL、InternLM-XComposer(IXC)、TimeSearch-R 影片理解等,包含演算法講解、模型微調/推理、服務部署、核心原始碼解析。

💡 本課程目前持續更新中,您可透過以下管道參與學習:

📺 B 站課堂(點擊下方連結直接跳轉):https://www.bilibili.com/cheese/play/ss33184

🌐 官方網站連結(中國大陸地區訪問需透過特殊網路環境):https://www.tgltommy.com/p/multimodal-season-1

多模態大模型課程推廣海報

分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.