Qwen3.5:ネイティブマルチモーダルエージェントへの道

画像

Qwen3.5を正式にリリースし、Qwen3.5シリーズの最初のモデルQwen3.5-397B-A17Bのオープンウェイト版を公開できることを嬉しく思います。ネイティブ視覚・言語モデルとして、Qwen3.5-397B-A17Bは推論、プログラミング、エージェント能力、マルチモーダル理解など全方位のベンチマーク評価において優れた性能を発揮し、開発者や企業の生産性向上に大きく貢献します。本モデルは革新的なハイブリッドアーキテクチャを採用し、線形アテンション(Gated Delta Networks)と疎混合専門家(MoE)を組み合わせることで、優れた推論効率を実現しています。総パラメータ数は3970億に達しながら、順伝播ごとに活性化するパラメータは170億のみで、能力を維持しながら速度とコストを最適化しています。また、言語・方言サポートを119言語から201言語に拡大し、世界中のユーザーにより広範な利用可能性と充実したサポートを提供します。

画像

(Qwen3.5-Plusの性能)

ぜひ体験してください

Qwen Chat:

https://chat.qwen.ai/

モデルの性能

自然言語

以下では、様々な評価タスクとモダリティにおいて、Qwen3.5と最先端モデルの包括的な比較評価を行います。

画像

視覚言語

画像

Qwen3シリーズと比較して、Qwen3.5のポストトレーニング性能向上は、主に様々なRLタスクと環境の全面的な拡張によるものです。特定の指標や狭いカテゴリのクエリに対する最適化よりも、RL環境の難易度と汎化性を重視しています。以下の図は、一般的なエージェント能力において、RL環境のスケーリングによるモデル性能の向上を示しています。全体的な性能は、BFCL-V4、VITA-Bench、DeepPlanning、Tool-Decathlon、MCP-Markの各ベンチマークにおける平均ランキングから算出されています。より多くのタスクにおけるスケーリング効果については、近日公開予定の技術レポートで詳述します。

画像

(エージェントモデルの性能に対するRL環境スケーリングの効果)

事前学習

Qwen3.5は、能力、効率、汎用性の3つの次元で事前学習を推進しています:

  • 能力:より大規模な視覚・テキストコーパスで学習し、中国語・英語・多言語・STEM・推論データを強化。より厳格なフィルタリングを採用し、世代を超えて同等の性能を実現:Qwen3.5-397B-A17Bは、パラメータ数1Tを超えるQwen3-Max-Baseと同等の性能を発揮します。

  • 効率:Qwen3-Nextアーキテクチャを基盤に、より高いスパース性を持つMoE、Gated DeltaNet + Gated Attentionの混合アテンション、安定性の最適化、マルチトークン予測を採用。32k/256kコンテキスト長において、Qwen3.5-397B-A17BのデコードスループットはQwen3-Maxのそれぞれ8.6倍/19.0倍で、性能は同等です。Qwen3.5-397B-A17BのデコードスループットはQwen3-235B-A22Bのそれぞれ3.5倍/7.2倍です。

  • 汎用性:早期のテキスト・視覚融合と拡張された視覚/STEM/動画データによりネイティブマルチモーダルを実現。同規模のQwen3-VLを上回る性能。多言語対応は119から201言語/方言に拡大。25万語彙(従来は15万)により、多くの言語で約10〜60%のエンコード/デコード効率向上を実現。

画像

(Qwen3.5の推論効率が大幅に向上)

以下はベースモデルの性能です:

画像

インフラストラクチャ

Qwen3.5は、異種インフラストラクチャにより効率的なネイティブマルチモーダル学習を実現しています。視覚と言語コンポーネントで並列戦略を分離し、統一アプローチによる非効率を回避しています。疎活性化によりモジュール間の計算オーバーラップを実現し、混合テキスト・画像・動画データにおいて、純テキストベースラインと比較してほぼ100%の学習スループットを達成。さらに、ネイティブFP8パイプラインが活性化、MoEルーティング、GEMM演算に低精度を採用し、ランタイム監視で感受性の高い層はBF16を維持することで、約50%の活性化メモリ削減と10%以上の高速化を実現し、数兆トークンまで安定してスケールしています。

強化学習の可能性を継続的に引き出すため、Qwen3.5のフルサイズモデルに対応し、テキスト、マルチモーダル、マルチターン対話シナリオを包括的にカバーするスケーラブルな非同期強化学習フレームワークを構築しました。学習・推論分離アーキテクチャの脱結合設計により、ハードウェア利用率を大幅に向上させ、動的負荷分散と詳細な障害回復を実現。FP8学習・推論、Rolloutルーティング再生、投機的サンプリング、マルチターンRolloutロックなどの技術と組み合わせて、システムスループットをさらに最適化し、学習・推論の一貫性を向上。システムとアルゴリズムの協調設計により、サンプルの陳腐化を厳密に制御しながらデータのロングテール問題を効果的に緩和し、学習曲線の安定性と性能上限を向上。さらに、フレームワークはネイティブエージェントワークフロー向けに設計され、安定したシームレスなマルチターン環境対話を実現し、フレームワーク層のスケジューリング中断を排除。この脱結合設計により、システムは百万規模のエージェントスキャフォールディングと環境に拡張可能となり、モデルの汎化能力を大幅に強化。上記の最適化により、エンドツーエンドで3倍〜5倍の高速化を達成し、卓越した安定性、高効率、スケーラビリティを示しています。

画像

Qwen3.5を使ってみよう

Qwen3.5との対話

chat.qwen.aiでQwen3.5をご利用ください。自動、思考、高速の3つのモードを提供しています。「自動」モードでは、適応的思考を使用し、検索やコードインタープリタなどのツールを呼び出し可能。「思考」モードでは、モデルが難問について深く思考。「高速」モードでは、モデルが質問に直接回答し、思考トークンを消費しません。

Alibaba Cloud百錬

Alibaba Cloud百錬を通じて、フラグシップモデルQwen3.5-Plusをご体験いただけます。推論、インターネット検索、Code Interpreterなどの高度な機能を有効にするには、以下のパラメータを渡すだけです:

  • enable_thinking:推論モード(Chain of Thought)を有効化

  • enable_search:インターネット検索とCode Interpreterを有効化

サンプルコードは以下の通りです:

"""
Environment variables (per official docs):
  DASHSCOPE_API_KEY: Your API Key from https://bailian.console.aliyun.com
  DASHSCOPE_BASE_URL: (optional) Base URL for compatible-mode API.
  DASHSCOPE_MODEL: (optional) Model name; override for different models.
  DASHSCOPE_BASE_URL:
    - Beijing: https://dashscope.aliyuncs.com/compatible-mode/v1
    - Singapore: https://dashscope-intl.aliyuncs.com/compatible-mode/v1
    - US (Virginia): https://dashscope-us.aliyuncs.com/compatible-mode/v1
"""
from openai import OpenAI
import os

api_key = os.environ.get("DASHSCOPE_API_KEY")
if not api_key:
    raise ValueError(
        "DASHSCOPE_API_KEY is required. "
        "Set it via: export DASHSCOPE_API_KEY='your-api-key'"
    )

client = OpenAI(
    api_key=api_key,
    base_url=os.environ.get(
        "DASHSCOPE_BASE_URL",
        "https://dashscope.aliyuncs.com/compatible-mode/v1",
    ),
)

messages = [{"role": "user", "content": "Introduce Qwen3.5."}]

model = os.environ.get(
    "DASHSCOPE_MODEL",
    "qwen3.5-plus",
)
completion = client.chat.completions.create(
    model=model,
    messages=messages,
    extra_body={
        "enable_thinking": True,
        "enable_search": False
    },
    stream=True
)

reasoning_content = ""  # Full reasoning trace
answer_content = ""  # Full response
is_answering = False  # Whether we have entered the answer phase
print("\n" + "=" * 20 + "Reasoning" + "=" * 20 + "\n")

for chunk in completion:
    if not chunk.choices:
        print("\nUsage:")
        print(chunk.usage)
        continue

    delta = chunk.choices[0].delta

    # Collect reasoning content only
    if hasattr(delta, "reasoning_content") and delta.reasoning_content is not None:
        if not is_answering:
            print(delta.reasoning_content, end="", flush=True)
        reasoning_content += delta.reasoning_content

    # Received content, start answer phase
    if hasattr(delta, "content") and delta.content:
        if not is_answering:
            print("\n" + "=" * 20 + "Answer" + "=" * 20 + "\n")
            is_answering = True
        print(delta.content, end="", flush=True)
        answer_content += delta.content

百錬APIは、Qwen Code、Claude Code、Cline、OpenClaw、OpenCodeなどのサードパーティ製プログラミングツールとシームレスに統合でき、スムーズな「vibe coding」体験を実現します。

まとめと今後の展望

Qwen3.5は、効率的なハイブリッドアーキテクチャとネイティブマルチモーダル推論により、汎用デジタルエージェントの強固な基盤を築きました。次のフェーズでは、モデル規模からシステム統合へと重点を移します:セッションを跨いだ永続記憶を持つエージェントの構築、実世界対話のための身体性インターフェース、自己改善メカニズムを開発し、長期的に自律動作し、論理的一貫性のあるシステムを目指します。現在のタスク境界のアシスタントから、持続可能で信頼できるパートナーへと進化させます。

デモ

現在、エージェント能力を持つQwen3.5は、マルチモーダルと組み合わせて、考えながら、検索しながら、ツールを呼び出すことができます。

コードエージェント

1. Web開発

Qwen3.5はWeb開発を支援し、特にWebページの構築やユーザーインターフェース設計などのフロントエンドタスクで優れた性能を発揮します。シンプルな指示を動作可能なコードに変換し、Webサイト作成をより簡単で効率的にします。

2. OpenClaw

Qwen3.5はOpenClawと統合し、プログラミングタスクを駆動できます。OpenClawをサードパーティ製エージェント環境として統合することで、Qwen3.5はWeb検索、情報収集、構造化レポート生成が可能に——自身の推論・ツール呼び出し能力とOpenClawのインターフェースを組み合わせ、ユーザーにスムーズなコーディングとリサーチ体験を提供します。

3. Qwen Code

Qwen3.5を基盤モデルとして、Qwen Codeは「vibe coding」体験をサポートし、自然言語の指示をコードに変換、開発プロジェクトをリアルタイムで反復、動画生成などの創造的なタスクも可能。Qwen CodeとQwen3.5が協調し、日常的なプログラミングと探索的プログラミングにスムーズで効率的な体験を提供します。

視覚エージェント

1. GUIエージェント

Qwen3.5は視覚エージェントとして、スマートフォンやPCを自律的に操作し、日常タスクを完了できます。モバイルでは、より多くの主要アプリに対応し、自然言語の指示による操作をサポート。PCでは、アプリを跨いだデータ整理、マルチステッププロセスの自動化などの複雑なタスクを処理し、反復的な手動作業を効果的に削減し、業務効率を向上させます。

2. 視覚プログラミング

Qwen3.5は画像と動画の入力をサポートし、コンテキストウィンドウは1Mトークンに拡張され、最大2時間の動画コンテンツを直接処理可能。これに基づき、手描きのインターフェーススケッチを構造化されたフロントエンドコードに変換、シンプルなゲーム動画のロジック復元、長時間動画コンテンツの構造化Webページや可視化グラフへの自動要約などが可能で、アイデアから実現までのハードルを下げます。

Prompt:

Create a homepage of OpenQwen, a virtual assistant personal agent that can help with coding, office works, shopping and so on. Generate high-quality images as the website's resources, including an avatar and demos of its use cases.

画像

3. 画像を伴う推論

従来の画像切り抜きツールの限界を突破し、Qwen3.5はコードレベルの画像処理をネイティブにサポート:局所領域を自動的に切り抜いて詳細を拡大、または注釈・強調などの操作で主要な特徴を強化し、より精細な視覚推論と分析を実現します。

4. 空間知能

画像のピクセルレベル位置情報のモデリングにより、Qwen3.5は物体カウント、相対位置判断、空間関係記述などのタスクでより正確な性能を発揮。視点変化や遮蔽による誤判定を効果的に緩和し、自動運転シーン理解、ロボットナビゲーションなどの身体性AI応用において良好な空間認識の可能性を示しています。

5. 視覚推論

Qwen3-VLと比較して、Qwen3.5は学術問題解決やその他の視覚推論タスクでより堅牢な性能を発揮。画像コンテンツとコンテキスト理解を組み合わせることで、マルチステップの論理推論が可能になり、教育、研究などの分野でのマルチモーダルエージェント応用により信頼性の高い基盤を提供します。

画像

フォローして、Qwen大規模モデルの最新情報を入手

関連記事

分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.