當前主流影片智慧體（Video Agents）存在一個共同隱憂：無論問題難易，皆傾向盡可能多採幀、密集解析。諸如 VideoAgent、VideoTree、DVD 等方法在 LVBench 測試中需檢視數千幀畫面，本質上是以算力換取準確率的粗放策略。這在實際應用場景中代價極高——若將一段小時級影片以 1FPS 全量輸入，其 Token 消耗量與延遲皆是工程上的夢魘。更關鍵的是，幀數多並不等於資訊量大：大量幀之間高度冗餘，真正攜帶答案線索的往往僅寥寥數秒。AMD 與羅徹斯特大學（University of Rochester）這篇《VideoSeek》論文，正是針對此根本矛盾提出的解方。

影片具有邏輯流，這是最重要的洞察

VideoSeek 的核心洞察（Insight）其實並不複雜，卻遭過往研究系統性地忽視：影片內容具備邏輯結構。場景切換、事件順序、因果鏈結——這些「影片邏輯流」本質上是一張免費的導航地圖。只要模型能預先建立對影片結構的巨集觀認知，就能預測答案最可能藏匿的時間區段，而非從頭到尾盲目掃描。

將此洞察轉化為系統設計，即為三個粒度遞進的工具：<overview> 負責全域摘要，<skim> 對候选片段進行粗掃定位，<focus> 則針對關鍵短片段進行 1FPS 精讀。智慧體在「思考 – 行動 – 觀察」（Think–Act–Observe）的迴圈中，每一步皆依據既有證據決定下一步該動用哪把刀——這並非預設由粗至細的流水線作業，而是真正的按需調用。

Think–Act–Observe 的工程細節值得細究

在演算法流程上，VideoSeek 基於 ReAct 風格，以 GPT-5 作為思考型大型語言模型（Thinking LLM）。每輪輸出推理鏈與工具調用計劃，執行後將觀測結果追加至軌跡中，最多循環數輪。

以下幾項設計亮點值得特別關注：

工具約束設計極為嚴格。提示詞（Prompt）明確規定每輪僅能調用一個工具，skim 僅能用於超過閾值長度的片段，focus 則僅能處理短片段。此類硬約束避免了模型「偷懶」跳過巨集觀層級直接進入聚焦，強制維持層次化推理。

幀數預算參數 α 實現跨基準測試適配。針對 LVBench 平均 67 分鐘的長影片，設定 α=4；其他較短影片的基準測試則設 α=2。overview 採樣幀數、skim 每次採樣幀數、focus 上限秒數皆據此統一縮放，使超參數調整直觀且具彈性。

中介推理的價值獲得單獨驗證。論文設計了 GPT-5 對照組——直接使用 VideoSeek 選出的幀輸入 GPT-5（不經過智慧體迴圈），結果比全幀 GPT-5 高出 3.8 個百分點，但仍比完整的 VideoSeek 低了 4.5 個百分點。這證明效益來自兩部分：更佳的幀選擇策略加上多輪中介推理，兩者缺一不可。

數據說話：效率與精度雙贏

在 LVBench（包含 103 段小時級影片、共 1549 題）測試中，VideoSeek 無字幕版本平均僅用 92.3 幀即達到 68.4% 準確率，優於所有對比的影片智慧體；加入字幕後，僅需 27.2 幀即可將準確率提升至 72.2%，而排名第二的影片智慧體則需約 8000 幀以上。兩者幀數差距高達約 300 倍，這絕非小幅優化，而是量級上的差異。

對比基線模型 GPT-5（384 幀，準確率 60.1%），VideoSeek 提升了 10.2 個絕對百分點，同時節省了 93% 的幀數。在 Video-MME long 與 LongVideoBench long 等測試集上亦有穩定提升。

消融實驗揭示了工具的重要性排序：移除 overview 導致準確率下降 13.3 個百分點，移除 skim 下降 6.0 個百分點，移除 focus 則下降 4.7 個百分點。overview 的作用至關重要，因為若缺乏全域結構認知，後續的定向搜索無異於無本之木。

思考型 LLM 的選擇影響亦十分顯著：當換成 GPT-4.1（非思考型模型）後，準確率從 68.4% 跌至 53.0%，且平均輪數減少（2.99 輪 vs 4.42 輪）——這顯示較弱的推理模型傾向過早結束判斷，其自信心與實際能力嚴重不匹配。

界線清晰，對工程落地具實際參考價值

VideoSeek 對「具備邏輯結構的影片」效果最佳——如劇情片、紀錄片、會議錄影等內容天然適合。論文也直接指出其局限：對於異常檢測等場景（關鍵證據無法透過邏輯推斷預判位置），此框架效果有限。

運行時間方面需注意：儘管 Token 消耗量少，但多輪調用導致總延遲（約 136 秒）高於單次 GPT-5 調用（66 秒）。論文坦承運行時間受網路延遲等因素影響，不作為可靠指標——這種誠實態度值得肯定，但工程師於即時場景部署時需自行評估。

整體而言，VideoSeek 提供了一個清晰的設計典範：以結構化工具搭配推理迴圈取代暴力採幀，而非單純堆疊上下文長度。對於正着手建構影片理解系統的工程師來說，這套工具粒度劃分與提示詞設計（論文附錄提供完整提示詞）皆具直接的參考價值。

進階學習

👉 若您想系統性掌握多模態大型模型的前沿技術與應用，推薦您學習我的精選課程：

📚 課程涵蓋主流多模態架構、多模態智慧體（Agent）、數據構建、訓練流程、評估與幻覺分析，並配套多個專案實戰：LLaVA、LLaVA-NeXT、Qwen3-VL、InternLM-XComposer（IXC）、TimeSearch-R 影片理解等，包含演算法講解、模型微調/推理、服務部署、核心原始碼解析。

💡 本課程目前持續更新中，您可透過以下管道參與學習：

📺 B 站課堂（點擊下方連結直接跳轉）：https://www.bilibili.com/cheese/play/ss33184

🌐 官方網站連結（中國大陸地區訪問需透過特殊網路環境）：https://www.tgltommy.com/p/multimodal-season-1

VideoSeek 長影片理解 Agent：讓 GPT-5 在長影片理解上再提 10 個百分點的祕密

影片具有邏輯流，這是最重要的洞察

Think–Act–Observe 的工程細節值得細究

數據說話：效率與精度雙贏

界線清晰，對工程落地具實際參考價值

進階學習

相關文章推薦

分享網址