你有沒有在工作中遇過這樣的場景:手邊有一張原型草圖或 UI 截圖,卻要花一整個下午手動把它轉成前端程式碼;或者你需要對某個 App 做重複性的功能測試,在不同介面間來回點擊、記錄、驗證,浪費了大量心力。如果說過去的 AI 模型只是能「看懂」圖和「回答」問題,從今天開始,一個大型模型能替你「操作」介面、生成程式碼,並在長達數小時的任務中保持穩定執行——這聽起來是不是開始有點生產力工具的樣子了?
2026 年 6 月 1 日,Qwen 團隊發布的Qwen3.7-Plus,正是朝著這個方向邁出的重要一步。它不僅將視覺理解與語言推理整合進同一個基座,更系統性地強化了螢幕感知、GUI 操作、視覺程式設計和搜尋增強視覺問答等「真正能幹活」的能力。讀完今天的文章,你將會了解:這個新模型的核心技術突破是什麼、在哪些基準測試上跑贏了現有頂尖模型、以及它對開發者來說有哪些實際可用的場景。
Qwen3.7-Plus 的官方宣傳海報清晰地展示了其四大核心定位:多模態互動混合智慧體、編碼與生產力助手、視覺智慧體以及跨領域泛化能力。
從「看得懂」到「能動手」:一次定位的躍遷
如果說去年的大型模型還在比拼「誰看圖說故事比較準」,Qwen3.7-Plus 的發布則明顯把戰場往前推進了一步。它的官方定位裡有個很關鍵的表述——多模態互動混合智慧體。這個詞拆開來看,意味著它不僅要處理圖、文、影片的輸入,還要在單一任務中無縫融合 GUI 操作和 CLI 操作,端到端地完成從理解需求到交付結果的全過程。
換句話說,以前的模型更像一個「參謀」,提供建議後就退出了;Qwen3.7-Plus 則被設計成一個能親自上場幹活的「執行者」。
核心技術:把「看、想、寫、做、驗」擰成一股繩
Qwen3.7-Plus 的技術升級不是單點修補,而是圍繞真實任務閉環做了一次系統性的能力重構。下面我們逐一拆解它最值得關注的幾個技術方向。
多模態互動混合智慧體:能連續幹活超過 6 小時
這是 Qwen3.7-Plus 最核心的突破。
在傳統的智慧體開發中,視覺和行動往往是分開的:一個模型負責看圖,另一個模型負責規劃動作,中間還要靠膠水程式碼來銜接。Qwen3.7-Plus 的思路是把這兩件事整合進同一個模型,讓它自己去完成從「看到螢幕」到「操作介面」再到「驗證結果」的完整循環。
這張資訊圖非常直觀:基於 Qwen3.7-Plus 的智慧體在一次長程任務中,完成了 1,000 次以上的工具調用、300 次以上的 GUI 操作,並穩定運行超過 6 小時(實際案例中達 11 小時),最終獨立完成了一款英語單字學習 App 的開發。
報告披露的真實案例更具體。在開發一款英語單字學習 App 的任務中,智慧體實現了 1,000 次以上的工具調用、300 次以上的 GUI 操作,並持續穩定運行超過 11 小時,完成了從需求分析到版本迭代的完整閉環。在另一個復刻 macOS 原生「股市」應用程式的測試裡,Hybrid-Agent 全程自主完成了 UI 佈局理解、SwiftUI 原始碼生成、真實行情 API 接入以及 10 項自動化功能驗證,交付了高保真的應用。
這意味著模型不再只是「一次性問答」,而是具備了在長時間、多步驟任務中保持脈絡和操作一致性的能力。你在實際專案中遇過「智慧體跑著跑著就迷路」的問題嗎?Qwen3.7-Plus 在這方面的穩定性提升,可能會改變一些團隊的自動化開發流程。
視覺智慧體:從感知到程式化求解
面對「大家來找碴」、「解華容道」、「走迷宮」這類視覺謎題,人類通常會先觀察結構,再在大腦裡推演步驟。Qwen3.7-Plus 的做法異曲同工:它能先把圖像中的幾何結構和約束條件轉化為可計算的問題表示,然後自主生成並執行 Python 程式碼來求解。
這個能力躍升的意義在於,模型不再只是對圖像做標籤式的「描述」,而是能夠把視覺輸入當成一個需要邏輯求解的問題來處理。這讓它在品管、遊戲測試、教育輔助等需要將「看」和「算」結合的領域有了更大的應用想像空間。
視覺程式設計與 GUI 智慧體:截圖即程式碼,介面即指令
Qwen3.7-Plus 在視覺程式設計和GUI 智慧體這兩個方向上的能力是相輔相成的。
- 視覺程式設計讓模型能夠理解視覺參考中的幾何結構、顏色、佈局甚至動態變化,並以 SVG、網頁或互動式前端程式碼的形式精確重現。這對前端開發者和設計師互動的場景來說,意味著從設計稿到可編輯程式碼的門檻被大幅降低。
- GUI 智慧體則讓模型在行動端和桌面端環境下,能夠理解介面佈局、定位控制項、規劃任務並進行多步互動。有瀏覽器智慧助手基於 Qwen3.7-Plus,能作為瀏覽器智慧體在真實瀏覽器中執行點擊、輸入、跳轉、配置和驗證等操作,甚至完成從雲端伺服器採購到維運升級的全鏈路自動化。
看到這裡,不知道你是否想起了公司裡那些需要反覆在後台系統裡「點點點」的維運流程?這個方向如果持續成熟,解放的恐怕不只是工程師。
搜尋增強視覺問答:解開開放世界的「我不認識」
對於依賴外部知識的視覺問題,Qwen3.7-Plus 能將圖像輸入和網路搜尋結合起來。模型先從視覺中提取關鍵實體和場景線索,再即時檢索網路取得最新知識,最後綜合視覺證據和檢索結果給出可靠答案。
這讓模型在開放世界中的問答邊界大大擴展。舉個例子:你拍下一張不知名的植物照片,問「這種植物在台灣適合種植嗎」,模型能先識別出植物種類,再搜尋對應的種植條件,最後綜合回答——整個過程在一次推理循環裡完成。
無縫整合主流框架:降低開發者接入門檻
技術再好,如果開發者接入成本太高,也難以落地。Qwen3.7-Plus 在這方面做了比較務實的佈局:它支援透過 Anthropic API 協議無縫接入Claude Code;在阿里雲百鍊平台上簡單配置就能連接OpenClaw;Qwen 團隊還推出了為其深度優化的Qwen Code工具,最大程度發揮模型性能。無論你習慣用哪個框架,理論上都能以較低的學習成本接入。
數據會說話:多項基準上見真章
宣傳再響亮,最終還是要看跑出了多少分。Qwen3.7-Plus 在純文本和智慧體、以及多模態兩大方向上,都進行了相當詳細的基準測試對比。
純文本與智慧體能力
這張表格對比了 Qwen3.7-Plus 與 Opus-4.6 Max、DeepSeek-V4-Pro Max 等頂尖模型在純文本和智慧體基準上的表現。Qwen3.7-Plus 在 Terminal Bench 2.0(終端編碼智慧體)上以 70.3 分位列第一,在 Deep-Planning(深度規劃)上以 62.3 分顯著領先,在 MCP-Mark(MCP 工具使用)上也以 58.7 分拔得頭籌。
在編碼智慧體領域,Qwen3.7-Plus 在Terminal Bench 2.0(終端編碼智慧體)上拿下70.3分、在QwenSVG(SVG 程式碼生成)上拿到1588分,均處於領先水準(前者超過 DeepSeek-V4-Pro Max 的 67.9 分)。在通用智慧體方面,Deep-Planning(深度規劃)拿到62.3分、MCP-Mark(MCP 工具使用)拿到58.7分,顯示出在複雜多步任務中的自主規劃與執行穩定性。需要說明的是,在 SWE-Verified(軟體工程驗證)上,Qwen3.7-Plus 的77.7分略低於 Opus-4.6 Max 的最高分80.8分;在 GPQA Diamond(STEM 推理)上,90.3 分也略低於 Opus-4.6 Max 的 91.3 分。但整體來看,其在智慧體相關指標上的競爭力已相當突出。
多模態能力:質的飛躍
多模態才是 Qwen3.7-Plus 真正的「主戰場」。
多模態對比表顯示,Qwen3.7-Plus 在 BabyVision(70.4)、ScreenSpot Pro(79.0)、AndroidWorld(81.0)等多項核心基準上大幅領先同類競品,相比前代 Qwen3.6-Plus 更是實現了肉眼可見的代際提升。
相比於前代 Qwen3.6-Plus,Qwen3.7-Plus 在BabyVision(早期視覺認知推理)上從 37.4 分躍升至70.4分,幾乎翻倍;在AndroidWorld(行動端任務執行)上從 67.2 分躍升至81.0分。在ScreenSpot Pro(GUI 元素定位)上以79.0分顯著超越 GPT-5.4 的 67.4 分和 Gemini-3.1 Pro 的 67.5 分。
這幾個基準的躍升尤其值得關注,因為它們更貼近「在真實介面上幹活」的能力,而不是單純的看圖答題。BabyVision 測的正是類似人類早期視覺認知和空間推理的本領,數據翻倍說明模型在這個底層能力上確實有了質的突破。
在這張橫向對比了 7 款主流模型、覆蓋 12 個基準的可視化圖表中,Qwen3.7-Plus 在多數項目上位列第一。尤其在 Terminal-Bench 2.0、ScreenSpot Pro、RealWorldQA 等智慧體編碼和視覺理解維度上優勢明顯,僅在 NL2Repo、HLE 等少數測試中略低於個別競品。
定價與生態
Qwen3.7-Plus 目前已透過阿里雲百鍊平台提供 API 服務。本次發布中官方並未揭露具體的輸入/輸出 token 定價,但從其「透過百鍊提供服務」的模式來看,預計會沿用阿里雲模型現有的商業化體系。開發者可以關注百鍊平台後續更新的價格詳情。
這些能力到底能在哪裡落地?
Qwen3.7-Plus 的技術方向,指向了幾個非常具體的應用場景:
- 端到端軟體開發:你給一張設計稿或介面截圖,模型就能直接生成可運行的前端程式碼。對非技術背景的產品經理或設計師來說,原型驗證不再需要頻繁求助開發資源。
- 自動化測試與維運:讓智慧體去感知應用介面、理解任務步驟並自主執行驗證,這在軟體迴歸測試、App 數據爬取、雲端資源批量管理中能顯著降低人工重複勞動的佔比。
- 多模態知識助手:結合搜尋增強視覺問答,在產品競品分析(截圖+即時資訊檢索)、旅遊問詢(景點照片+最新攻略)、研究報告生成等需要融合「看」和「查」的場景中,模型能給出更可靠的綜合回答。
一個值得關注的點是,Qwen3.7-Plus 對 Claude Code、OpenClaw、Qwen Code 等主流框架的相容性,意味著你不需要為了用它的能力而換掉自己熟悉的開發工具鏈。這個務實策略可能會加速它在開發者社群的普及。
總結:多模態智慧體走向「實用化」的關鍵一步
Qwen3.7-Plus 的發布,本質上把多模態大型模型的競爭焦點從「看圖說故事」推向了更複雜的GUI/CLI 混合智慧體領域。它用 BabyVision、ScreenSpot Pro、AndroidWorld 等基準上的大幅提升,證明了自己在真實數位環境中的感知、規劃、操作和構建能力,正在走出「展示很酷但落地很難」的階段。
未來值得持續觀察的方向有兩個:一是這種長程智慧體在更長週期、更開放環境下的穩定性表現;二是圍繞 Qwen3.7-Plus 的開發者生態和應用案例能否持續豐富起來。畢竟,一個強大的模型要真正改變工作流程,最終還是要看有多少開發者願意為它買單,用它在實際場景中解決真實問題。
參考資料
- 1. Qwen3.7-Plus 技術深度報告: https://qwen.ai/blog?id=qwen3.7-plus
- 2. Qwen3.7-Plus 多基準 SOTA 對比表(文本/智慧體)
- 3. Qwen3.7-Plus 多模態 SOTA 對比表
- 4. Qwen3.7-Plus 官方宣傳海報與性能對比圖