編輯|+0、杜偉
短短一個月後,阿里巴巴又帶著最強的旗艦模型殺回來了!
昨天一早,阿里給了全球開發者一個大大的驚喜,悄悄上線了 Qwen3.7 Preview,包括 Qwen3.7 Max Preview 與 Qwen3.7 Plus Preview 兩個版本。
第三方權威評測機構 Arena 公佈了這兩個模型的榜單成績,其中 Qwen3.7 Max Preview 與 Qwen3.7 Plus Preview 分別拿下了文本領域、視覺領域的本土模型第一名。
左為 Qwen3.7 Max Preview,右為 Qwen3.7 Plus Preview
Qwen3.7 預覽版的性能已經如此不俗,讓大家對正式版的表現充滿了期待。
今天上午,在 2026 阿里雲峰會上,阿里全新一代千問旗艦模型 Qwen3.7-Max 登場了!
阿里巴巴集團通義大模型事業部負責人「周靖人」
果然沒有令人失望,Qwen3.7-Max 一出手就是王牌。
在 Arena 公佈的最新一期全球大模型盲測總榜中,Qwen3.7-Max 總成績位列本土模型第一:傲視一眾本土大模型,包括 Kimi-K2.6、DeepSeek-v4 Pro、GLM-5.1,性能直逼 GPT、Claude、Gemini 等全球最強模型。
除了亮眼的總榜成績,Qwen3.7-Max 特別針對當下被眾多廠商押注並佈局的智慧代理人(Agent)進行了系統性優化,憑藉代理人、推理、通用等能力的持續突破,進一步拉高了其作為下一代通用智慧體底座的性能上限。
在程式開發代理人方面,Qwen3.7-Max 在 SWE-Pro、SWE-Multilingual 等多個權威測評中均取得 SOTA 表現,其中在 Terminal Bench 2.0-Terminus 上取得最高 69.7 分,超過了 DeepSeek-v4-pro-Max、Claude-Opus 4.6 等一眾模型。
在通用代理人方面,Qwen3.7-Max 提升明顯,在 MCP-Atlas、MCP-Mark、Skillbench 等現實能力評測中表現優異,超越了 GLM-5.1、Kimi-K2.6 等,創下本土新高,並在 Kernel Bench L3 上展示了強大的 GPU 核心優化能力。
而在推理方面, Qwen3.7-Max 表現同樣出色,在 GPQA Diamond、HLE、HMMT 2026 Feb、IMOAnswerBench 等核心推理測評中均超越了 Claude-Opus 4.6 及所有本土模型。
在通用能力與多語言方面,Qwen3.7-Max 在指令遵循評測 IFBench 中得分突破新高達到 79.1 分,在多語言理解和翻譯的 WMT24++、MAXIFE 評測中保持領先。
智慧代理人基礎能力的全方位躍升,讓 Qwen3.7-Max 有了挑戰真實執行環境中超長程程式開發任務的底氣。在發佈會上,阿里展示了一個 AI 自主迭代的工程創舉:
Qwen3.7-Max 被放在了一個全新硬體平台(平頭哥訓推一體 AI 晶片真武 M890)上,工作空間裡只有任務描述、SGLang Triton 參考實作和評測腳本,沒有任何其他提示或干預。結果,模型連續編寫程式 35 個小時,自主完成了一個生產級注意力核心算子的優化。並且,經過模型優化的推理核心比 SGLang Triton 官方參考實作取得了 10 倍的加速。效率如此之高的 AI 替代方案誰不喜歡呢。
模型「化身」為一位資深工程師,進行了 432 次核心評估、1158 次工具調用,從編寫、編譯、性能分析到迭代改進,全程都由自己完成。
在接下來的實測環節,Qwen3.7-Max 在處理複雜代理人任務中的速度和準確度都讓人眼前一亮。
一手實測
從零程式開發到複雜工具調度
如果你沒有任何程式基礎,想要自己做一個電腦上的小工具(比如一個極簡的桌面番茄鐘),在以前,你需要從零開始學寫程式、學配環境、學怎麼修 Bug,最後還要學怎麼把程式打包成點兩下就能執行的 .exe 軟體。
但現在,在 Qwen3.7-Max 模型強大的原生代理人推理能力驅動下,搭配上 Claude Code 這樣的執行工具,你只需要下達簡短指令「幫我做一個桌面番茄鐘應用」,它就能在背後為你擺平一切。
面對模糊的需求,Qwen3.7-Max 展現了極強的產品架構能力。它沒有直接開始堆砌程式碼,而是謀定而後動。在確認了技術棧(Python + PyQt)和功能範圍後,模型迅速輸出一份結構化的 Markdown 架構計劃,並指揮工具開始執行。
缺少工具?沒關係,大模型會調度系統自動安裝,全程不需要你操心。在執行中,由於電腦路徑不匹配引發了連續的紅字錯誤訊息,當 Claude Code 將錯誤訊息抓取回來後,Qwen3.7-Max 瞬間鎖定了錯誤根源,並展現出驚豔的自我糾錯能力。它迅速推理出了好幾種替代命令方案進行動態試錯。短短幾秒內,它就排除了系統環境的干擾,把精美的番茄鐘穩穩地彈到了你的桌面上。
有不滿意的地方,比如想換個莫蘭迪色系,只要一句話,模型就能精準理解審美需求並修改程式碼,一下子就能解決。
如果你想把這個好用的番茄鐘分享給朋友,只需要下達最終交付指令:「幫我打包成 exe」。Qwen3.7-Max 再次發揮代理人本能,識別出環境缺失後,生成對應指令讓工具自動安裝了打包依賴。經過它在後台的一連串流暢調度,原本複雜難懂的程式碼,變成了一個乾乾淨淨的 .exe 檔案,安靜地躺在你的資料夾裡,點兩下就能用。
如果你覺得讓 AI 寫個桌面軟體只是大模型在程式「舒適區」裡的基本操作,那不妨看看它在真實的網路環境、CLI 以及 Skill 調用中,是如何展現真正的代理人實力的。
我們先調用近期很熱門的 CLI 工具,首先讓代理人幫我下載了 opencli,讓它具備了直接觸及並檢索全網資訊的能力。
下達指令「使用 opencli 工具,幫我查查小紅書上北京必吃的粵菜,附圖片」後,Qwen3.7-Max 迅速從零開始「閱讀」工具文件,自主摸索出了正確的調用語法。在抓取過程中,程式遭遇了網絡超時崩潰,它也自主推理出了修改底層配置的繞路方案來延長等待時間。
你不需要看懂它在後台排除了多少次 Bug,只需幾分鐘,它就已經把滿滿的美食圖片穩穩地下載到了你的本機資料夾裡。收集完素材後,當然還可以讓代理人順手把調研結果快速轉為 PPT 和線上文件,完成工作流程的閉環。
代理人(Agent)的另一項核心能力,在於能針對特定場景靈活調用技能(Skill)。
面對一段充滿「首先其次最後」、「跨越時空的讚歌」等套路化詞彙的遊記,只需簡短地輸入「去 AI 味」,Qwen3.7-Max 準確識別了文字修改的核心訴求,並主動調度了系統內的技能。
在完成重寫後,模型輸出了一句結構化的 Markdown 覆盤表格。它條理清楚地列出了自己去除了哪些「填充短語」和「宣傳性語言」,並從「直接性」、「真實性」等維度對修改結果進行了量化打分。
從零基礎的桌面軟體開發,到陌生終端工具的自主摸索,再到高階文本的技能調度與反思,Qwen3.7-Max 在這三個場景中,展現的不只是單純的文本生成能力,還有高度成熟的代理人獨立執行力。
三個月三連更
阿里按下 AI「加速度」
這一連串令人矚目的榜單成績與實戰效果,是千問大模型近期快速發展的一個縮影。
千問旗艦模型的迭代週期已經捲到「月更」:3 月 20 日,Qwen3.5-Max-Preview 發佈;4 月 20 日, Qwen3.6-Max-Preview 發佈。到今天,Qwen3.7-Max 又來了。對於用戶來說,正在經歷「甜蜜的負擔」。
圖源:@LotusDecoder
能保證一個月推出一代旗艦模型,靠的絕非只是模型團隊的「爆肝」。阿里巴巴自今年 3 月成立 ATH(Alibaba Token Hub)組織以來,逐漸形成的晶片、雲端、模型、應用全棧能力,才最大程度上促成了如今的局面。
其中,平頭哥的定製晶片提供了極致的訓練與推理效率,阿里雲的彈性算力讓大規模預訓練和部署無縫銜接,模型層的快速迭代又能直接反哺上層應用。這樣的垂直整合壓縮了溝通成本和工程損耗,讓千問的研發節奏可以像網路產品一樣快速滾動。
可以說,千問旗艦模型的加速度,源自阿里巴巴全棧 AI 體系的爆發。這種體系化的壁壘優勢,要比單一模型的一次刷榜高分更難複製。
千問在走高頻迭代路線的同時,也沒有放棄對開源社群的深耕。不誇張地說,千問已經成為本土乃至全球開源模型的標竿,幾乎每次新發佈都會引起極大的關注。
上個月開源的 Qwen3.6-27B 和 Qwen3.6-35B-A3B 更是成為「以小勝大」的代表作,登頂了 HuggingFace 全球開源榜單,在主要程式設計基準上全面超越了上代更大體量的 Qwen3.5-397B-A17B,也大幅領先同等規模的稠密模型。
這些中小規模的千問模型,憑藉極低的部署成本,提供了超越同尺寸甚至跨級挑戰的性能,更好地滿足了本機部署和客製化的剛性需求,讓全球開發者不自覺地將它們作為預設底座。正如一位用戶所說,「阿里巴巴正帶著千問飛速前進。開源這條賽道捲瘋了,但最終是所有人的勝利。」
開源社群的口碑形成了強大的引力場,讓開發者「用腳投票」,在 API 調用上願意為千問模型付費。
上個月,Qwen3.6-Plus 奪得了全球知名大模型 API 調用平台 OpenRouter 日榜和周榜的雙料冠軍,並首創了單日單模型調用量突破 1.4 兆 Token 的全球紀錄。千問模型在全球開發者心目中的地位可見一斑。
在收穫全球開發者心佔率的同時,千問也悄悄佔據了全球 Token 經濟的流量入口。如今,Token 正在迅速成爲了解決問題的通用輸入,而阿里巴巴透過千問牢牢抓住了這個發展節點。
智慧代理人軟體的地基
正在被鋪設
月更旗艦,看似「秀肌肉」,實際上是在為代理人時代搶佔先機。
不難發現,千問近半年來的模型均指向了同一個主題 —— 代理人(Agent),其中 Qwen3.5 打造原生多模態智慧代理人,Qwen3.6-Plus 走向現實世界智慧代理人,Qwen3.7-Max 開闢智慧代理人新前沿。每一次新發佈都伴隨著模型自主規劃、工具調用與長程任務執行能力的提升。
此次 Qwen3.7-Max 被寄予厚望。阿里巴巴想將它打造成為下一代全能智慧代理人底座,因而不滿足於其僅僅充當被調用的大腦,也希望透過下沉到硬體層,進行系統級程式設計與優化。Qwen3.7-Max 在平頭哥新 AI 晶片上成功執行 35 個小時超長程代理人任務,是這一轉變的有力例證。
不僅如此,Qwen3.7-Max 還湧現出了跨代理人框架的泛化能力。無需專門訓練,就能流暢支援 Claude Code、OpenClaw、Hermes Agent 等框架。這像極了當年作業系統的崛起邏輯,包括 PC 時代的 Windows、行動時代的 Android,透過統一的標準與介面,讓開發者在其上繁衍豐富的生態。
千問正在努力搭建代理人時代的「標準介面」,讓自身成為不同代理人框架的首選底座。這種面向未來的佈局,更具有戰略眼光。
另外,代理人時代拼的終歸還是模型能力能否站得住腳。阿里巴巴深知並一直實踐著這一點,並透過開源提升在全球開發者社群中的影響力。當越來越多開發者習慣於使用千問搭建代理人並執行任務時,阿里巴巴在下一代 Agentic 軟體生態的建設中就能掌握更多話語權。
當下,Anthropic 與 OpenAI 透過「產品驅動」(Claude Code、Codex)路線贏得使用者和企業,並在商業市場謀求鉅額上市。而作為本土大模型代表大廠之一的阿里巴巴,選擇了一條更難、更宏大的路徑,從技術到生態再到話語權,「全都要」。
在這場關鍵的卡位戰中,阿里巴巴千問的野心遠比我們想像中的更大,它志在成為開發者構建智慧代理人系統時最不可或缺的底層基礎設施。
© THE END
轉載請聯繫本公眾號獲得授權
投稿或尋求報導:liyazhou@jiqizhixin.com