Qwen3.7-Plus：能看會寫還能操控螢幕，這個多模態智慧體離實用更近了

你有沒有在工作中遇過這樣的場景：手邊有一張原型草圖或 UI 截圖，卻要花一整個下午手動把它轉成前端程式碼；或者你需要對某個 App 做重複性的功能測試，在不同介面間來回點擊、記錄、驗證，浪費了大量心力。如果說過去的 AI 模型只是能「看懂」圖和「回答」問題，從今天開始，一個大型模型能替你「操作」介面、生成程式碼，並在長達數小時的任務中保持穩定執行——這聽起來是不是開始有點生產力工具的樣子了？

2026 年 6 月 1 日，Qwen 團隊發布的Qwen3.7-Plus，正是朝著這個方向邁出的重要一步。它不僅將視覺理解與語言推理整合進同一個基座，更系統性地強化了螢幕感知、GUI 操作、視覺程式設計和搜尋增強視覺問答等「真正能幹活」的能力。讀完今天的文章，你將會了解：這個新模型的核心技術突破是什麼、在哪些基準測試上跑贏了現有頂尖模型、以及它對開發者來說有哪些實際可用的場景。

Qwen3.7-Plus 的官方宣傳海報清晰地展示了其四大核心定位：多模態互動混合智慧體、編碼與生產力助手、視覺智慧體以及跨領域泛化能力。

從「看得懂」到「能動手」：一次定位的躍遷

如果說去年的大型模型還在比拼「誰看圖說故事比較準」，Qwen3.7-Plus 的發布則明顯把戰場往前推進了一步。它的官方定位裡有個很關鍵的表述——多模態互動混合智慧體。這個詞拆開來看，意味著它不僅要處理圖、文、影片的輸入，還要在單一任務中無縫融合 GUI 操作和 CLI 操作，端到端地完成從理解需求到交付結果的全過程。

換句話說，以前的模型更像一個「參謀」，提供建議後就退出了；Qwen3.7-Plus 則被設計成一個能親自上場幹活的「執行者」。

核心技術：把「看、想、寫、做、驗」擰成一股繩

Qwen3.7-Plus 的技術升級不是單點修補，而是圍繞真實任務閉環做了一次系統性的能力重構。下面我們逐一拆解它最值得關注的幾個技術方向。

多模態互動混合智慧體：能連續幹活超過 6 小時

這是 Qwen3.7-Plus 最核心的突破。

在傳統的智慧體開發中，視覺和行動往往是分開的：一個模型負責看圖，另一個模型負責規劃動作，中間還要靠膠水程式碼來銜接。Qwen3.7-Plus 的思路是把這兩件事整合進同一個模型，讓它自己去完成從「看到螢幕」到「操作介面」再到「驗證結果」的完整循環。

這張資訊圖非常直觀：基於 Qwen3.7-Plus 的智慧體在一次長程任務中，完成了 1,000 次以上的工具調用、300 次以上的 GUI 操作，並穩定運行超過 6 小時（實際案例中達 11 小時），最終獨立完成了一款英語單字學習 App 的開發。

報告披露的真實案例更具體。在開發一款英語單字學習 App 的任務中，智慧體實現了 1,000 次以上的工具調用、300 次以上的 GUI 操作，並持續穩定運行超過 11 小時，完成了從需求分析到版本迭代的完整閉環。在另一個復刻 macOS 原生「股市」應用程式的測試裡，Hybrid-Agent 全程自主完成了 UI 佈局理解、SwiftUI 原始碼生成、真實行情 API 接入以及 10 項自動化功能驗證，交付了高保真的應用。

這意味著模型不再只是「一次性問答」，而是具備了在長時間、多步驟任務中保持脈絡和操作一致性的能力。你在實際專案中遇過「智慧體跑著跑著就迷路」的問題嗎？Qwen3.7-Plus 在這方面的穩定性提升，可能會改變一些團隊的自動化開發流程。

視覺智慧體：從感知到程式化求解

面對「大家來找碴」、「解華容道」、「走迷宮」這類視覺謎題，人類通常會先觀察結構，再在大腦裡推演步驟。Qwen3.7-Plus 的做法異曲同工：它能先把圖像中的幾何結構和約束條件轉化為可計算的問題表示，然後自主生成並執行 Python 程式碼來求解。

這個能力躍升的意義在於，模型不再只是對圖像做標籤式的「描述」，而是能夠把視覺輸入當成一個需要邏輯求解的問題來處理。這讓它在品管、遊戲測試、教育輔助等需要將「看」和「算」結合的領域有了更大的應用想像空間。

視覺程式設計與 GUI 智慧體：截圖即程式碼，介面即指令

Qwen3.7-Plus 在視覺程式設計和GUI 智慧體這兩個方向上的能力是相輔相成的。

視覺程式設計讓模型能夠理解視覺參考中的幾何結構、顏色、佈局甚至動態變化，並以 SVG、網頁或互動式前端程式碼的形式精確重現。這對前端開發者和設計師互動的場景來說，意味著從設計稿到可編輯程式碼的門檻被大幅降低。
GUI 智慧體則讓模型在行動端和桌面端環境下，能夠理解介面佈局、定位控制項、規劃任務並進行多步互動。有瀏覽器智慧助手基於 Qwen3.7-Plus，能作為瀏覽器智慧體在真實瀏覽器中執行點擊、輸入、跳轉、配置和驗證等操作，甚至完成從雲端伺服器採購到維運升級的全鏈路自動化。

看到這裡，不知道你是否想起了公司裡那些需要反覆在後台系統裡「點點點」的維運流程？這個方向如果持續成熟，解放的恐怕不只是工程師。

搜尋增強視覺問答：解開開放世界的「我不認識」

對於依賴外部知識的視覺問題，Qwen3.7-Plus 能將圖像輸入和網路搜尋結合起來。模型先從視覺中提取關鍵實體和場景線索，再即時檢索網路取得最新知識，最後綜合視覺證據和檢索結果給出可靠答案。

這讓模型在開放世界中的問答邊界大大擴展。舉個例子：你拍下一張不知名的植物照片，問「這種植物在台灣適合種植嗎」，模型能先識別出植物種類，再搜尋對應的種植條件，最後綜合回答——整個過程在一次推理循環裡完成。

無縫整合主流框架：降低開發者接入門檻

技術再好，如果開發者接入成本太高，也難以落地。Qwen3.7-Plus 在這方面做了比較務實的佈局：它支援透過 Anthropic API 協議無縫接入Claude Code；在阿里雲百鍊平台上簡單配置就能連接OpenClaw；Qwen 團隊還推出了為其深度優化的Qwen Code工具，最大程度發揮模型性能。無論你習慣用哪個框架，理論上都能以較低的學習成本接入。

數據會說話：多項基準上見真章

宣傳再響亮，最終還是要看跑出了多少分。Qwen3.7-Plus 在純文本和智慧體、以及多模態兩大方向上，都進行了相當詳細的基準測試對比。

純文本與智慧體能力

這張表格對比了 Qwen3.7-Plus 與 Opus-4.6 Max、DeepSeek-V4-Pro Max 等頂尖模型在純文本和智慧體基準上的表現。Qwen3.7-Plus 在 Terminal Bench 2.0（終端編碼智慧體）上以 70.3 分位列第一，在 Deep-Planning（深度規劃）上以 62.3 分顯著領先，在 MCP-Mark（MCP 工具使用）上也以 58.7 分拔得頭籌。

在編碼智慧體領域，Qwen3.7-Plus 在Terminal Bench 2.0（終端編碼智慧體）上拿下70.3分、在QwenSVG（SVG 程式碼生成）上拿到1588分，均處於領先水準（前者超過 DeepSeek-V4-Pro Max 的 67.9 分）。在通用智慧體方面，Deep-Planning（深度規劃）拿到62.3分、MCP-Mark（MCP 工具使用）拿到58.7分，顯示出在複雜多步任務中的自主規劃與執行穩定性。需要說明的是，在 SWE-Verified（軟體工程驗證）上，Qwen3.7-Plus 的77.7分略低於 Opus-4.6 Max 的最高分80.8分；在 GPQA Diamond（STEM 推理）上，90.3 分也略低於 Opus-4.6 Max 的 91.3 分。但整體來看，其在智慧體相關指標上的競爭力已相當突出。

多模態能力：質的飛躍

多模態才是 Qwen3.7-Plus 真正的「主戰場」。

多模態對比表顯示，Qwen3.7-Plus 在 BabyVision（70.4）、ScreenSpot Pro（79.0）、AndroidWorld（81.0）等多項核心基準上大幅領先同類競品，相比前代 Qwen3.6-Plus 更是實現了肉眼可見的代際提升。

相比於前代 Qwen3.6-Plus，Qwen3.7-Plus 在BabyVision（早期視覺認知推理）上從 37.4 分躍升至70.4分，幾乎翻倍；在AndroidWorld（行動端任務執行）上從 67.2 分躍升至81.0分。在ScreenSpot Pro（GUI 元素定位）上以79.0分顯著超越 GPT-5.4 的 67.4 分和 Gemini-3.1 Pro 的 67.5 分。

這幾個基準的躍升尤其值得關注，因為它們更貼近「在真實介面上幹活」的能力，而不是單純的看圖答題。BabyVision 測的正是類似人類早期視覺認知和空間推理的本領，數據翻倍說明模型在這個底層能力上確實有了質的突破。

在這張橫向對比了 7 款主流模型、覆蓋 12 個基準的可視化圖表中，Qwen3.7-Plus 在多數項目上位列第一。尤其在 Terminal-Bench 2.0、ScreenSpot Pro、RealWorldQA 等智慧體編碼和視覺理解維度上優勢明顯，僅在 NL2Repo、HLE 等少數測試中略低於個別競品。

定價與生態

Qwen3.7-Plus 目前已透過阿里雲百鍊平台提供 API 服務。本次發布中官方並未揭露具體的輸入/輸出 token 定價，但從其「透過百鍊提供服務」的模式來看，預計會沿用阿里雲模型現有的商業化體系。開發者可以關注百鍊平台後續更新的價格詳情。

這些能力到底能在哪裡落地？

Qwen3.7-Plus 的技術方向，指向了幾個非常具體的應用場景：

端到端軟體開發：你給一張設計稿或介面截圖，模型就能直接生成可運行的前端程式碼。對非技術背景的產品經理或設計師來說，原型驗證不再需要頻繁求助開發資源。
自動化測試與維運：讓智慧體去感知應用介面、理解任務步驟並自主執行驗證，這在軟體迴歸測試、App 數據爬取、雲端資源批量管理中能顯著降低人工重複勞動的佔比。
多模態知識助手：結合搜尋增強視覺問答，在產品競品分析（截圖+即時資訊檢索）、旅遊問詢（景點照片+最新攻略）、研究報告生成等需要融合「看」和「查」的場景中，模型能給出更可靠的綜合回答。

一個值得關注的點是，Qwen3.7-Plus 對 Claude Code、OpenClaw、Qwen Code 等主流框架的相容性，意味著你不需要為了用它的能力而換掉自己熟悉的開發工具鏈。這個務實策略可能會加速它在開發者社群的普及。

總結：多模態智慧體走向「實用化」的關鍵一步

Qwen3.7-Plus 的發布，本質上把多模態大型模型的競爭焦點從「看圖說故事」推向了更複雜的GUI/CLI 混合智慧體領域。它用 BabyVision、ScreenSpot Pro、AndroidWorld 等基準上的大幅提升，證明了自己在真實數位環境中的感知、規劃、操作和構建能力，正在走出「展示很酷但落地很難」的階段。

未來值得持續觀察的方向有兩個：一是這種長程智慧體在更長週期、更開放環境下的穩定性表現；二是圍繞 Qwen3.7-Plus 的開發者生態和應用案例能否持續豐富起來。畢竟，一個強大的模型要真正改變工作流程，最終還是要看有多少開發者願意為它買單，用它在實際場景中解決真實問題。

參考資料

1. Qwen3.7-Plus 技術深度報告: https://qwen.ai/blog?id=qwen3.7-plus
2. Qwen3.7-Plus 多基準 SOTA 對比表（文本/智慧體）
3. Qwen3.7-Plus 多模態 SOTA 對比表
4. Qwen3.7-Plus 官方宣傳海報與性能對比圖