Qwen3.5:邁向原生多模態智慧代理人

圖片

我們很高興正式發佈 Qwen3.5,並推出 Qwen3.5 系列的第一款模型 Qwen3.5-397B-A17B 的開放權重版本。作為原生視覺-語言模型,Qwen3.5-397B-A17B 在推理、程式設計、智慧代理人能力與多模態理解等全方位基準評估中表現優異,協助開發者與企業顯著提升生產力。該模型採用創新的混合架構,將線性注意力與稀疏混合專家相結合,實現出色的推理效率:總參數量達 3970 億,每次前向傳播僅啟用 170 億參數,在保持能力的同時最佳化速度與成本。我們還將語言與方言支援從 119 種擴展至 201 種,為全球用戶提供更廣泛的可用性與更完善的支援。

圖片

(Qwen3.5-Plus 效能表現)

歡迎體驗

Qwen Chat:

https://chat.qwen.ai/

模型表現

自然語言

下面我們在多種評估任務與模態下,對 Qwen3.5 與前沿模型進行全面對比評估。

圖片

視覺語言

圖片

相對於 Qwen3 系列模型,Qwen3.5 的 Post-training 效能提升主要來自於我們對各類 RL 任務和環境的全面擴展。我們更加強調 RL 環境的難度與可泛化性,而非針對特定指標或狹隘類別的 query 進行最佳化。下圖展示了在通用 Agent 能力上,模型效果隨 RL Environment scaling 帶來的增益。整體效能由各模型在以下基準上的平均排名計算得出:BFCL-V4、VITA-Bench、DeepPlanning、Tool-Decathlon 和 MCP-Mark。更多任務的 scaling 效果將在我們即將發佈的技術報告中詳述。

圖片

(Agent 模型效果隨著 RL Environment scaling 帶來的增益)

預訓練

Qwen3.5 在能力、效率與通用性三個維度上推進預訓練:

能力:在更大規模的視覺-文本語料上訓練,並加強中英文、多語言、STEM 與推理資料,採用更嚴格的過濾,實現跨代持平:Qwen3.5-397B-A17B 與參數量超過 1T 的 Qwen3-Max-Base 表現相當。

效率:基於 Qwen3-Next 架構——更高稀疏度的 MoE、Gated DeltaNet + Gated Attention 混合注意力、穩定性最佳化與多 token 預測。在 32k/256k 上下文長度下,Qwen3.5-397B-A17B 的解碼吞吐量分別是 Qwen3-Max 的 8.6 倍/19.0 倍,且效能相當。Qwen3.5-397B-A17B 的解碼吞吐量分別是 Qwen3-235B-A22B 的 3.5 倍/7.2 倍。

通用性:透過早期文本-視覺融合與擴展的視覺/STEM/影片資料實現原生多模態,在相近規模下優於 Qwen3-VL。多語言覆蓋從 119 增至 201 種語言/方言;25 萬詞表(vs. 15 萬)在多數語言上帶來約 10–60% 的編碼/解碼效率提升。

圖片

(Qwen3.5 推理效率大幅提升)

以下是基座模型的效能表現:

圖片

基礎設施

Qwen3.5 透過異構基礎設施實現高效的原生多模態訓練:在視覺與語言組件上解耦並行策略,避免統一方案帶來的低效。利用稀疏啟用實現跨模組計算重疊,在混合文本-影像-影片資料上相比純文本基線達到近 100% 的訓練吞吐。在此基礎上,原生 FP8 流水線對啟用、MoE 路由與 GEMM 運算採用低精度,並透過執行時監控在敏感層保持 BF16,實現約 50% 的啟用顯存降低與超過 10% 的加速,並穩定擴展至數兆 token。

為了持續釋放強化學習的潛力,我們建構了可擴展的非同步強化學習框架,支援 Qwen3.5 全尺寸模型,並全面覆蓋文本、多模態及多輪互動場景。透過訓推分離架構的解耦式設計,該框架顯著提升了硬體利用率,實現了動態負載平衡和細粒度的故障恢復。配合 FP8 訓推、Rollout 路由回放、投機採樣以及多輪 Rollout 鎖定等技術,我們進一步最佳化了系統吞吐,提高了訓推一致性。透過系統與演算法協同設計,該框架在嚴格控制樣本陳舊性的基礎上有效緩解了資料長尾問題,提高了訓練曲線的穩定性和效能上限。此外,框架面向原生智慧代理人工作流設計,能夠實現穩定、無縫的多輪環境互動,消除了框架層的調度中斷。這種解耦設計使得系統能夠擴展百萬級規模的 Agent 腳手架與環境,從而顯著增強模型的泛化能力。上述最佳化最終取得了 3×–5× 的端到端加速,展現了卓越的穩定性、高效率與可擴展性。

圖片

開始使用 Qwen3.5

與 Qwen3.5 互動

歡迎在 chat.qwen.ai 上使用 Qwen3.5。我們提供自動、思考與快速三種模式供用戶選擇。「自動」模式下用戶可使用自適應思考,並呼叫搜尋、程式碼解譯器等工具;「思考」模式下模型會對難題進行深度思考;「快速」模式下模型將直接回答問題,不消耗思考 token。

阿里雲百煉

用戶可透過阿里雲百煉呼叫我們的旗艦模型 Qwen3.5-Plus 進行體驗。若要開啟推理、聯網搜尋與 Code Interpreter 等進階能力,只需傳入以下參數:

enable_thinking:開啟推理模式(鏈式思考)

enable_search:開啟聯網搜尋與 Code Interpreter

示例程式碼如下:

"""
Environment variables (per official docs):
  DASHSCOPE_API_KEY: Your API Key from https://bailian.console.aliyun.com
  DASHSCOPE_BASE_URL: (optional) Base URL for compatible-mode API.
  DASHSCOPE_MODEL: (optional) Model name; override for different models.
  DASHSCOPE_BASE_URL:
    - Beijing: https://dashscope.aliyuncs.com/compatible-mode/v1
    - Singapore: https://dashscope-intl.aliyuncs.com/compatible-mode/v1
    - US (Virginia): https://dashscope-us.aliyuncs.com/compatible-mode/v1
"""
from openai import OpenAI
import os

api_key = os.environ.get("DASHSCOPE_API_KEY")
if not api_key:
    raise ValueError(
        "DASHSCOPE_API_KEY is required. "
        "Set it via: export DASHSCOPE_API_KEY='your-api-key'"
    )

client = OpenAI(
    api_key=api_key,
    base_url=os.environ.get(
        "DASHSCOPE_BASE_URL",
        "https://dashscope.aliyuncs.com/compatible-mode/v1",
    ),
)

messages = [{"role": "user", "content": "Introduce Qwen3.5."}]

model = os.environ.get(
    "DASHSCOPE_MODEL",
    "qwen3.5-plus",
)
completion = client.chat.completions.create(
    model=model,
    messages=messages,
    extra_body={
        "enable_thinking": True,
        "enable_search": False
    },
    stream=True
)

reasoning_content = ""  # Full reasoning trace
answer_content = ""  # Full response
is_answering = False  # Whether we have entered the answer phase
print("\n" + "=" * 20 + "Reasoning" + "=" * 20 + "\n")

for chunk in completion:
    if not chunk.choices:
        print("\nUsage:")
        print(chunk.usage)
        continue

    delta = chunk.choices[0].delta

    # Collect reasoning content only
    if hasattr(delta, "reasoning_content") and delta.reasoning_content is not None:
        if not is_answering:
            print(delta.reasoning_content, end="", flush=True)
        reasoning_content += delta.reasoning_content

    # Received content, start answer phase
    if hasattr(delta, "content") and delta.content:
        if not is_answering:
            print("\n" + "=" * 20 + "Answer" + "=" * 20 + "\n")
            is_answering = True
        print(delta.content, end="", flush=True)
        answer_content += delta.content

你可以將百煉 API 與 Qwen Code、Claude Code、Cline、OpenClaw、OpenCode 等第三方程式設計工具無縫整合,獲得流暢的「vibe coding」體驗。

總結及未來工作

Qwen3.5 憑藉高效的混合架構與原生多模態推理,為通用數位智慧代理人奠定了堅實基礎。下一階段的重點將從模型規模轉向系統整合:建構具備跨會話持久記憶的智慧代理人、面向真實世界互動的具身介面、自我改進機制,目標是能夠長期自主運行、邏輯一致的系統,將當前以任務為邊界的助手升級為可持續、可信任的夥伴。

Demo

如今,具備 agent 能力的 Qwen3.5 能夠結合多模態做到邊思考、邊搜尋、邊呼叫工具。

程式碼智慧代理人

1. 網頁開發

Qwen3.5 可以協助進行網頁開發,尤其在建構網頁和設計使用者介面等前端任務方面表現出色。它能夠將簡單的指令轉化為可執行的程式碼,讓網站建立變得更加輕鬆高效。

2. OpenClaw

Qwen3.5 可與 OpenClaw 整合,驅動程式設計任務。透過將 OpenClaw 作為第三方智慧代理人環境整合,Qwen3.5 能夠進行網頁搜尋、資訊收集和結構化報告生成——它結合自身的推理與工具呼叫能力,以及 OpenClaw 的介面,為用戶帶來流暢的編碼和研究體驗。

3. Qwen Code

以 Qwen3.5 為底層模型,Qwen Code 支援「vibe coding」體驗,可將自然語言指令轉化為程式碼、即時迭代開發專案,並支援如生成影片等富有創意的任務。Qwen Code 與 Qwen3.5 協同,為日常程式設計和探索性程式設計帶來流暢高效的體驗。

視覺智慧代理人

1. GUI 智慧代理人

Qwen3.5 可作為視覺智慧代理人,自主操作手機與電腦完成日常任務。在行動端,它已適配更多主流應用,支援自然語言指令驅動操作;在 PC 端,能處理跨應用的資料整理、多步驟流程自動化等複雜任務,有效減少重複性人工干預,提升工作效率。

2. 視覺程式設計

Qwen3.5 支援影像與影片輸入,上下文視窗擴展至 1M tokens,可直接處理長達 2 小時的影片內容。基於此,它能將手繪介面草圖轉化為結構清晰的前端程式碼,對簡單遊戲影片進行邏輯還原,或將長影片內容自動提煉為結構化網頁或視覺化圖表,降低創意到實現的門檻。

Prompt:

Create a homepage of OpenQwen, a virtual assistant personal agent that can help with coding, office works, shopping and so on. Generate high-quality images as the website's resources, including an avatar and demos of its use cases.

圖片

3. 帶圖推理

突破傳統去背工具的限制,Qwen3.5 原生支援程式碼級影像處理:可自動裁切局部區域放大細節,或透過標註、增強等操作強化關鍵特徵,實現更精細的視覺推理與分析。

4. 空間智慧

借助對影像像素級位置資訊的建模,Qwen3.5 在物體計數、相對位置判斷、空間關係描述等任務中表現更準確。它能有效緩解因視角變化或遮擋導致的誤判,在自動駕駛場景理解、機器人導航等具身智慧應用中展現出良好的空間感知潛力。

5. 視覺推理

相比 Qwen3-VL,Qwen3.5 在學科解題及其他視覺推理任務上表現更穩健。透過將影像內容與上下文理解相結合,它能進行多步邏輯推理,為教育、科研等領域的多模態 Agent 應用提供更可靠的基礎。

主標籤:人工智慧

次標籤:大型語言模型機器學習智慧代理人多模態


上一篇:應用程式最終都將演變為 API | OpenClaw 創辦人最新 3 小時對話實錄

下一篇:Claude Sonnet 4.6 登場:百萬上下文下放,表現超越 Opus 4.5

分享短網址