現在の主要な動画 AI エージェントには共通する重大な隐患があります。それは、問題の難易度に関わらず、できるだけ多くのフレームをサンプリングし、集中的に解析しようとする傾向です。VideoAgent、VideoTree、DVD といった手法は、LVBench において数千フレームもの処理を必要としますが、これは本質的に計算リソースを Accuracy（精度）と引き換えにする強引な戦略に過ぎません。このアプローチは実用シナリオにおいて極めて代償が大きく、1 時間規模の動画を 1FPS で全量入力しようとすれば、トークン消費量とレイテンシはエンジニアリング上の悪夢となります。さらに重要なのは、「フレーム数が多い＝情報量が多い」ではないという点です。フレーム間には膨大な冗長性があり、正解への手がかりを実際に含んでいるのは、ほんの数秒間に過ぎないことがほとんどです。AMD とロチェスター大学が発表した「VideoSeek」は、まさにこの根本的な矛盾を解決するために提案された手法です。

動画には「論理の流れ」がある。これが最大の気づき（Insight）である

VideoSeek の中核となる洞察は複雑なものではなく、むしろこれまでの研究で体系的に見過ごされてきた点にあります。それは「動画コンテンツには論理的構造が存在する」という事実です。シーンの切り替わり、事象の時系列、因果の連鎖――これら「動画の論理フロー」は、本質的に無料のナビゲーションマップとして機能します。モデルがまず動画構造に対する粗い粒度の認識を確立できれば、最初から最後まで闇雲にスキャンするのではなく、答えが最も存在しうる時間帯を予測して探索することが可能になります。

この洞察をシステム設計に落とし込むと、粒度が段階的に異なる 3 つのツールに行き着きます。<overview>で全体要約を行い、<skim>で候補となる断片を大まかにスキャンして特定し、<focus>で重要な短い断片を 1FPS で精読します。エージェントは「思考（Think）→行動（Act）→観察（Observe）」のループにおいて、既存の証拠に基づき、次の一歩でどの「刃（ツール）」を使うかを都度決定します。これは事前に定義された「粗いところから細かいところへ（coarse-to-fine）」の単なるパイプラインではなく、真の意味でのオンデマンドな呼び出しなのです。

「Think–Act–Observe」のエンジニアリング的詳細に注目せよ

アルゴリズムのプロセスとして、VideoSeek は ReAct スタイルに基づいており、GPT-5 を思考用 LLM として採用しています。各ラウンドで推論チェーンとツール呼び出しプランを出力し、実行後に観測結果を追跡記録（Trajectory）に追加します。このサイクルは最大で規定回数まで繰り返されます。

特に注目すべき設計ポイントは以下の 3 点です。

1. ツールの制約設計が極めて厳格であること。
プロンプトにより、1 ラウンドあたりのツール呼び出しは 1 つのみと明記されています。また、skim は閾値を超える長さの断片にのみ、focus は短い断片にのみ使用可能です。このハードな制約により、モデルが「手抜き」をして粗い粒度の処理をスキップし、直接focus へ移行することを防ぎ、階層的な推論を強制的に維持させています。

2. フレーム予算パラメータαのベンチマーク横断的な適応。
LVBench の動画平均長は 67 分であり、この場合α=4 と設定されます。他のベンチマークで動画が短い場合はα=2 です。overviewでのサンプリングフレーム数、skimでの 1 回あたりのサンプリングフレーム数、focusの上限秒数は、この統一されたスケーリング設計により、ハイパーパラメータの調整が直感的に行えるようになっています。

3. 中間推論の価値が個別に検証されていること。
論文では GPT-5 の対照実験が設計されており、VideoSeek が選択したフレームを直接 GPT-5 に投入（エージェントループを経ない）させた場合、全フレームを投入した場合に比べて精度は 3.8 ポイント向上しましたが、依然として VideoSeek 本体よりは 4.5 ポイント低い結果となりました。これは、性能向上の要因が「より優れたフレーム選択」と「多段階の中間推論」の 2 点にあり、どちらが欠けても成り立たないことを示しています。

数字が語る真実：効率性と精度の両方で勝利

LVBench（103 本の長時間動画、1549 問）において、VideoSeek の字幕なしバージョンは平均 92.3 フレームという少数の処理で 68.4% の精度を達成し、比較対象のあらゆる動画エージェントを上回りました。字幕を追加した場合は、わずか 27.2 フレームで 72.2% まで向上し、2 位以下の動画エージェントは約 8000 フレーム以上を必要としました。フレーム数にして約 1/300 という差は、単なる最適化の域を超えた桁違いの差と言えます。

ベースモデルである GPT-5（384 フレーム、60.1%）と比較すると、VideoSeek は 10.2 ポイントもの絶対値向上を果たしつつ、フレーム数を 93% も削減しました。Video-MME long および LongVideoBench long においても安定した向上が見られています。

アブレーション実験により、各ツールの重要性順位も明らかになりました。overviewを除去すると 13.3 ポイント、skimで 6.0 ポイント、focusで 4.7 ポイントも精度が低下します。特にoverviewの役割は決定的です。なぜなら、全体構造の認識がなければ、その後の指向性のある検索は「根無しの草（本のない木）」となってしまうからです。

思考用 LLM の選択も結果に大きく影響します。GPT-4.1（非思考モデル）に置き換えた場合、精度は 68.4% から 53.0% へ急落し、平均ラウンド数も減少（4.42 から 2.99 へ）しました。これは、推論能力の低いモデルは早期に終了する傾向があり、自信過剰でありながら実能力が伴っていないことを示唆しています。

境界は明確、エンジニアリングへの実装価値は高い

VideoSeek は「論理的構造を持つ動画」に対して最も効果を発揮します。ドラマ、ドキュメンタリー、会議録画などは、その性質上このフレームワークに最適です。一方で論文自体が限界点も正直に指摘しています。異常検知などのシナリオ（論理的推論で鍵となる証拠の場所を予測できない場合）では、このフレームワークの効果は限定的です。

実行時間に関する注意点として、トークン消費量は少ないものの、多段階の呼び出しにより合計遅延時間（約 136 秒）は、GPT-5 の 1 回呼び出し（66 秒）を上回ります。論文では実行時間がネットワーク遅延などの要因に影響されるため、信頼できる指標とはみなさない旨が言及されており、この誠実な姿勢は評価できますが、エンジニアがリアルタイム性を要する場面で導入する際は、独自の評価が必要です。

総じて、VideoSeek は明確な設計パラダイムを示しています。それは、コンテキスト長を単純に積み増すのではなく、構造化されたツールと推論ループで力任せのフレームサンプリングを代替するというアプローチです。動画理解システムの構築に取り組むエンジニアにとって、このツールの粒度の切り分けやプロンプト設計（論文の付録に完全なプロンプトが記載されています）は、直接的な参考価値を持つものでしょう。

上級者向け学習リソース

もしマルチモーダル大規模モデルの最先端技術と応用を体系的にマスターしたいとお考えの方は、私の提供する専門コースの受講をお勧めします。

本コースでは、主要なマルチモーダルアーキテクチャ、マルチモーダルエージェント、データ構築、トレーニングフロー、評価手法、そして幻覚（ハルシネーション）分析までを網羅しています。さらに、以下のプロジェクトを通じた実践演習も含まれています：LLaVA、LLaVA-NeXT、Qwen3-VL、InternLM-XComposer（IXC）、TimeSearch-R 動画理解など。アルゴリズムの解説から、モデルの微調整（ファインチューニング）・推論、サービスデプロイ、中核ソースコードの解析までを網羅しています。

現在、本コースは更新中です。学習への参加は、私の個人公式サイトまたは Bilibili（B 站）の授業ページから可能です。

📺 Bilibili 授業ページ（詳細はhttps://www.bilibili.com/cheese/play/ss33184へアクセス）

🌐 公式ウェブサイト（中国国内からのアクセスには特別なネットワーク設定が必要です）：https://www.tgltommy.com/p/multimodal-season-1

VideoSeek 長編動画理解エージェント：GPT-5 の性能を 10 ポイント向上させる秘密

動画には「論理の流れ」がある。これが最大の気づき（Insight）である

「Think–Act–Observe」のエンジニアリング的詳細に注目せよ

数字が語る真実：効率性と精度の両方で勝利

境界は明確、エンジニアリングへの実装価値は高い

上級者向け学習リソース

関連記事

分享網址