Qwen3.7-Plus：見て、書いて、画面操作までこなすマルチモーダルAIエージェントが実用段階へ

仕事中にこんな経験はないだろうか？手元にプロトタイプのスケッチやUIのスクリーンショットがあるのに、それをフロントエンドのコードに手動で変換するのに午後を丸々費やしたり、特定のアプリに対して繰り返し機能テストを行い、異なる画面間を行き来しながらクリック、記録、検証を繰り返し、膨大な労力を浪費したりすることは。これまでのAIモデルが、単に画像を「理解」し質問に「答える」だけだったとしたら、今日からは、一つの大規模モデルがあなたに代わってインターフェースを「操作」し、コードを生成し、数時間に及ぶタスクを安定して実行し続ける——これは、ようやく生産性ツールらしく聞こえ始めないだろうか？

2026年6月1日、Qwenチームが発表したQwen3.7-Plusは、まさにこの方向への重要な一歩である。これは視覚的理解と言語推論を単一の基盤モデルに統合しただけでなく、画面認識、GUI操作、ビジュアルプログラミング、検索拡張型視覚質問応答といった「実際に役立つ」能力を体系的に強化した。この記事を読めば、この新モデルの中核的な技術的ブレークスルーとは何か、どのベンチマークで既存のSOTA（最先端）を上回ったのか、そして開発者にとって実際にどのような応用シーンがあるのかが分かるだろう。

Qwen3.7-Plusの公式プロモーション画像は、マルチモーダル対話型ハイブリッドエージェント、コーディングと生産性アシスタント、ビジュアルエージェント、分野横断的な汎化能力という、4つの中核的な位置付けを明確に示している。

「理解できる」から「行動できる」へ：位置付けの飛躍

昨年の大規模モデルが「誰がより正確に画像を見て話せるか」を競っていたとすれば、Qwen3.7-Plusの発表は明らかに戦場を一段階先に進めた。その公式な位置付けには、非常に重要な表現がある——マルチモーダル対話型ハイブリッドエージェントである。この言葉を分解すると、画像、テキスト、動画の入力を処理するだけでなく、単一のタスク内でGUI操作とCLI操作をシームレスに融合させ、要件の理解から結果の提供までの全プロセスをエンドツーエンドで完了することを意味する。

言い換えれば、これまでのモデルは提案をして退く「参謀」のようなものだったが、Qwen3.7-Plusは自ら現場で動く「実行者」として設計されているのだ。

コア技術：「見る、考える、書く、行う、検証する」を一本化

Qwen3.7-Plusの技術的アップグレードは、単発的な修正ではなく、実際のタスクのクローズドループを中心に据えた体系的な能力の再構築である。以下、最も注目すべき技術的方向性を一つずつ紐解いていこう。

マルチモーダル対話型ハイブリッドエージェント：6時間以上連続稼働

これがQwen3.7-Plusの最も中核的なブレークスルーだ。

従来のエージェント開発では、視覚と行動はしばしば分離されていた。あるモデルが画像認識を担当し、別のモデルが行動計画を立案し、その間を繋ぐグルーコードが必要だった。Qwen3.7-Plusのアプローチは、これら二つを同一のモデルに統合し、「画面を見る」→「インターフェースを操作する」→「結果を検証する」という一連のサイクルをモデル自身に完結させるというものだ。

このインフォグラフィックは非常に直感的だ。Qwen3.7-Plusベースのエージェントは、一度の長時間タスクで1,000回以上のツール呼び出し、300回以上のGUI操作を実行し、6時間以上（実際のケースでは11時間）安定して稼働し、最終的に英単語学習アプリの開発を単独で完了した。

レポートで開示された実際の事例はより具体的だ。英単語学習アプリの開発タスクにおいて、エージェントは1,000回以上のツール呼び出し、300回以上のGUI操作を実現し、11時間以上連続で安定稼働、要件定義からバージョン反復までの完全なクローズドループを完了した。別のmacOSネイティブの「株価」アプリを複製するテストでは、ハイブリッドエージェントが全プロセスを自律的に遂行し、UIレイアウトの理解、SwiftUIソースコードの生成、リアルタイム株価APIの接続、そして10項目の自動機能検証を完了し、忠実度の高いアプリケーションを納品した。

これは、モデルがもはや「単発の質疑応答」にとどまらず、長時間・多段階のタスクにおいてコンテキストと操作の一貫性を維持する能力を備えたことを意味する。実際のプロジェクトで「エージェントが動いているうちに迷子になる」問題に遭遇したことはないだろうか。Qwen3.7-Plusのこの点における安定性の向上は、一部のチームの自動化開発プロセスを変える可能性がある。

ビジュアルエージェント：認識からプログラムによる解決へ

「間違い探し」「華容道（パズル）」「迷路」といった視覚的パズルに直面した時、人間は通常、まず構造を観察し、次に頭の中で手順を推論する。Qwen3.7-Plusのやり方もこれと軌を一にする。まず画像内の幾何学的構造と制約条件を計算可能な問題表現に変換し、それから自律的にPythonコードを生成・実行して解を求めることができるのだ。

この能力の飛躍の意義は、モデルがもはや画像に対してラベリングのような「説明」をするだけではなく、視覚入力を論理的な解決が必要な問題として扱えるようになった点にある。これにより、品質検査、ゲームテスト、教育支援など、「見る」ことと「計算する」ことの組み合わせが必要な分野での応用可能性が大きく広がる。

ビジュアルプログラミングとGUIエージェント：スクリーンショットがコードに、インターフェースが命令に

Qwen3.7-PlusにおけるビジュアルコーディングとGUIエージェントの能力は、相互に補完し合う関係にある。

ビジュアルコーディングは、モデルが視覚的リファレンスから幾何学的構造、色、レイアウト、さらには動的な変化までも理解し、SVG、Webページ、またはインタラクティブなフロントエンドコードとして正確に再現することを可能にする。これは、フロントエンド開発者とデザイナーがやり取りする場面において、デザインカンプから編集可能なコードへのハードルを大幅に下げることを意味する。
GUIエージェントは、モバイルおよびデスクトップ環境下で、インターフェースのレイアウトを理解し、UI要素を特定し、タスクを計画し、複数ステップの対話を実行することを可能にする。Qwen3.7-Plusを基盤とするブラウザアシスタントは、Browser Agentとして実際のブラウザ内でクリック、入力、画面遷移、設定、検証などの操作を実行し、クラウドサーバーの調達から運用・保守のアップグレードに至るまでの全自動化を達成した例もある。

これを見て、社内にある管理システムで何度も「ポチポチ」とクリックを繰り返す必要のある運用・保守フローを思い出さないだろうか？この方向性が成熟し続ければ、解放されるのはプログラマだけではないはずだ。

検索拡張型視覚質問応答：未知の世界への「分からない」を解消

外部知識に依存する視覚的な問題に対し、Qwen3.7-Plusは画像入力とWeb検索を組み合わせることができる。モデルはまず視覚情報から主要なエンティティとシーンの手がかりを抽出し、次にリアルタイムでウェブ検索を行って最新知識を取得し、最後に視覚的証拠と検索結果を総合して信頼性の高い回答を導き出す。

これにより、実世界におけるモデルの質問応答の限界は大きく拡張される。例えば、見知らぬ植物の写真を撮り、「この植物は雲南省での栽培に適していますか」と質問した場合、モデルはまず植物の種類を識別し、次に対応する栽培条件を検索し、最終的に総合的な回答を一度の推論サイクルで完了できる。

主要フレームワークとのシームレスな統合：開発者の導入障壁を低減

技術がどれほど優れていても、開発者の導入コストが高ければ普及は難しい。Qwen3.7-Plusはこの点で実用的な布陣を敷いている。Anthropic APIプロトコルを通じてClaude Codeにシームレスに接続可能であることに加え、Alibaba Cloud（アリババクラウド）の百錬（Bailian）プラットフォーム上で簡単な設定を行うだけでOpenClawと連携できる。Qwenチームはまた、モデルの性能を最大限に引き出すために最適化されたQwen Codeツールも提供している。どのフレームワークを使い慣れていても、理論的には低い学習コストで導入できるはずだ。

データが証明：複数ベンチマークで実力を示す

宣伝がどれほど響いても、最終的にはどれだけのスコアを獲得したかが重要だ。Qwen3.7-Plusは、純粋テキスト・エージェント、およびマルチモーダルの二大領域において、非常に詳細なベンチマーク比較を行っている。

純粋テキストとエージェント能力

この表は、Qwen3.7-PlusとOpus-4.6 Max、DeepSeek-V4-Pro Maxといったトップモデルの、純粋テキストおよびエージェントのベンチマークにおけるパフォーマンスを比較している。Qwen3.7-Plusは、Terminal Bench 2.0（ターミナルコーディングエージェント）で70.3点を獲得し1位、Deep-Planning（深度計画）で62.3点と顕著にリード、MCP-Mark（MCPツール使用）でも58.7点でトップに立った。

コーディングエージェント分野では、Terminal Bench 2.0（ターミナルコーディングエージェント）で70.3点、QwenSVG（SVGコード生成）で1588点を獲得し、いずれもリードしている（前者はDeepSeek-V4-Pro Maxの67.9点を上回る）。汎用エージェントでは、Deep-Planning（深度計画）で62.3点、MCP-Mark（MCPツール使用）で58.7点を獲得し、複雑な多段階タスクにおける自律的な計画立案と実行の安定性を示している。特筆すべきは、SWE-Verified（ソフトウェア工学検証）において、Qwen3.7-Plusの77.7点はOpus-4.6 Maxの最高点である80.8点をわずかに下回っている点だ。GPQA Diamond（STEM推論）でも、90.3点はOpus-4.6 Maxの91.3点にやや及ばない。しかし全体的に見れば、エージェント関連指標における競争力はすでに非常に際立っている。

マルチモーダル能力：質的飛躍

マルチモーダルこそが、Qwen3.7-Plusの真の「主戦場」である。

マルチモーダル比較表は、Qwen3.7-PlusがBabyVision（70.4）、ScreenSpot Pro（79.0）、AndroidWorld（81.0）など、複数の中核ベンチマークで同種の競合を大きくリードし、前世代のQwen3.6-Plusと比較しても、目に見えるほどの世代間の飛躍を遂げていることを示している。

前世代のQwen3.6-Plusと比較して、Qwen3.7-PlusはBabyVision（初期視覚認知推論）で37.4点から70.4点へとほぼ倍増、AndroidWorld（モバイル端末でのタスク実行）では67.2点から81.0点へと飛躍した。ScreenSpot Pro（GUI要素の特定）では79.0点を獲得し、GPT-5.4の67.4点、Gemini-3.1 Proの67.5点を大幅に引き離した。

これらのベンチマークの躍進は特に注目に値する。なぜなら、それらは単なる「画像を見て答える」問題よりも、「実際のインターフェース上で作業する」能力に近いからだ。BabyVisionが測定するのは、人間の初期視覚認知や空間推論に似た能力であり、データの倍増は、モデルがこの基盤能力においてまさに質的ブレークスルーを達成したことを示唆している。

7つの主要モデルを横断的に比較し、12のベンチマークを網羅したこの可視化グラフでは、Qwen3.7-Plusが大多数の項目で首位に立っている。特にTerminal-Bench 2.0、ScreenSpot Pro、RealWorldQAといったエージェントコーディングや視覚理解の次元で優位性が顕著であり、NL2Repo、HLEなどごく一部のテストでのみ、特定の競合をわずかに下回った。

価格とエコシステム

Qwen3.7-Plusは現在、Alibaba Cloud（アリババクラウド）の百錬（Bailian）プラットフォームを通じてAPIサービスを提供している。今回の発表で、具体的なインプット/アウトプットトークンあたりの価格は公式には開示されていないが、「百錬を通じてサービスを提供する」というモデルから見て、Alibaba Cloudの既存モデルの商用体系を踏襲するものと予想される。開発者は、百錬プラットフォームで後日更新される価格詳細に注目されたい。

これらの能力は具体的にどこで活用できるのか？

Qwen3.7-Plusの技術的方向性は、いくつかの非常に具体的な応用シーンを示している。

エンドツーエンドのソフトウェア開発：デザインカンプやインターフェースのスクリーンショットを渡せば、モデルが実行可能なフロントエンドコードを直接生成する。技術的なバックグラウンドを持たないプロダクトマネージャーやデザイナーにとって、プロトタイプ検証のために頻繁に開発リソースを頼る必要がなくなる。
自動テストと運用・保守：エージェントにアプリケーションのインターフェースを認識させ、タスクの手順を理解させ、自律的に検証を実行させることで、ソフトウェアのリグレッションテスト、アプリのデータスクレイピング、クラウドリソースの一括管理において、手作業の繰り返し作業の割合を大幅に削減できる。
マルチモーダル知識アシスタント：検索拡張型視覚質問応答と組み合わせることで、競合製品分析（スクリーンショット＋リアルタイム情報検索）、旅行案内（観光地の写真＋最新の旅行情報）、リサーチレポートの生成など、「見る」と「調べる」の融合が必要なシーンで、より信頼性の高い総合的な回答を提供できる。

注目すべき点は、Qwen3.7-PlusがClaude Code、OpenClaw、Qwen Codeといった主要フレームワークと互換性を持つことで、その能力を活用するために使い慣れた開発ツールチェーンを変更する必要がないということだ。この現実的な戦略が、開発者コミュニティでの普及を加速させる可能性がある。

総括：マルチモーダルAIエージェントが「実用化」へ向かう重要な一歩

Qwen3.7-Plusのリリースは、本質的にはマルチモーダル大規模モデルの競争の焦点を、「お絵かきクイズ」から、より複雑なGUI/CLIハイブリッドエージェントの領域へと推し進めるものである。BabyVision、ScreenSpot Pro、AndroidWorld等のベンチマークでの大幅な向上は、実際のデジタル環境における認識、計画、操作、構築の能力が「デモはクールだが実装は難しい」という段階から脱却しつつあることを証明している。

今後注目し続けるべき方向性は二つある。一つは、この長時間稼働型エージェントが、より長期間、よりオープンな環境下でどこまで安定性を示せるか。もう一つは、Qwen3.7-Plusを中心とした開発者エコシステムと応用事例が持続的に豊富になっていくかどうかだ。結局のところ、強力なモデルが本当にワークフローを変えるためには、最終的には、どれだけの開発者がその価値にお金を払い、実際の場面で真の問題を解決するために使うかにかかっているのだ。

参考資料

Qwen3.7-Plus技術詳細レポート: https://qwen.ai/blog?id=qwen3.7-plus
Qwen3.7-PlusマルチベンチマークSOTA比較表（テキスト/エージェント）
Qwen3.7-PlusマルチモーダルSOTA比較表
Qwen3.7-Plus公式プロモーション画像と性能比較チャート