編集|+0、杜偉
わずか1か月後、アリババが最強フラッグシップモデルを引っ提げて再び帰ってきた!
昨日の朝、アリババは世界中の開発者に大きなサプライズを届けた。Qwen3.7 Previewを静かに公開したのだ。Qwen3.7 Max PreviewとQwen3.7 Plus Previewの2バージョンが含まれている。
第三者評価機関「Arena」がこれら2モデルのベンチマークスコアを発表した。Qwen3.7 Max PreviewとQwen3.7 Plus Previewは、それぞれテキスト分野とビジョン分野で国産モデル第1位を獲得した。
左がQwen3.7 Max Preview、右がQwen3.7 Plus Preview。
Qwen3.7プレビュー版の性能がこれほど優れているため、正式版のパフォーマンスへの期待が高まっている。
そして本日午前、2026阿里雲サミットにおいて、アリババの新世代千問フラッグシップモデル「Qwen3.7-Max」が登場した!
阿里巴巴グループ通義大模型事業部責任者「周靖人」
期待を裏切らない、Qwen3.7-Maxは最初から衝撃的なデビューを果たした。
Arenaが発表した最新のグローバル大規模モデルブラインドテスト総合ランキングで、Qwen3.7-Maxは国産モデルで総合第1位を獲得した。Kimi-K2.6、DeepSeek-v4 Pro、GLM-5.1など国産大規模モデルを凌駕し、性能はGPT、Claude、Geminiといった世界最強モデルに肉薄している。
輝かしい総合ランキングの成績に加え、Qwen3.7-Maxは、現在多くの企業が注力し投資しているエージェント(Agent)向けに特別に体系的な最適化が施されている。エージェント能力、推論能力、汎用能力などの継続的なブレークスルーにより、次世代汎用AIエージェント基盤としての性能上限をさらに引き上げている。
プログラミングエージェントにおいて、Qwen3.7-MaxはSWE-Pro、SWE-Multilingualなどの複数の権威ある評価でSOTAを達成した。特にTerminal Bench 2.0-Terminusでは最高69.7点を獲得し、DeepSeek-v4-pro-MaxやClaude-Opus 4.6などを上回った。
汎用エージェントにおいても、Qwen3.7-Maxは大幅に向上した。MCP-Atlas、MCP-Mark、Skillbenchなどの現実的な能力評価で優れたパフォーマンスを示し、GLM-5.1、Kimi-K2.6を超え国産モデル最高記録を更新した。さらに、Kernel Bench L3では強力なGPUカーネル最適化能力を示した。
推論においても、Qwen3.7-Maxのパフォーマンスは同様に優れており、GPQA Diamond、HLE、HMMT 2026 Feb、IMOAnswerBenchなどのコア推論ベンチマークでClaude-Opus 4.6およびすべての国産モデルを上回った。
汎用能力と多言語においては、Qwen3.7-Maxは命令追従ベンチマークIFBenchで過去最高の79.1点を獲得し、多言語理解と翻訳のWMT24++、MAXIFE評価でもリードを保っている。
エージェント基盤能力の全面的な飛躍により、Qwen3.7-Maxは実運用環境における超長時間のプログラミングタスクに挑戦する自信を得た。発表会でアリババは、AIが自律的に反復する工学的壮挙を披露した。
Qwen3.7-Maxは、新しいハードウェアプラットフォーム(平頭哥の学習推論一体型AIチップ「真武M890」)上に配置された。作業スペースにはタスク記述、SGLang Tritonのリファレンス実装、評価スクリプトのみがあり、他の指示や介入は一切なかった。結果、モデルは35時間連続でプログラミングを行い、プロダクションレベルのAttentionカーネル演算子の最適化を自律的に完了した。さらに、モデルが最適化した推論カーネルは、SGLang Tritonの公式リファレンス実装と比較して10倍の高速化を達成した。これほど効率的なAIによる代替を好まない人はいないだろう。
モデルは「ベテランエンジニア」と化し、432回のカーネル評価と1158回のツール呼び出しを実行。コーディング、コンパイル、性能分析から反復改善まで、全プロセスを単独でやり遂げた。
続く実機テストでは、Qwen3.7-Maxの複雑なエージェントタスク処理における速度と正確性が目を見張るものがあった。
実機テスト
ゼロコード開発から複雑なツールオーケストレーションまで
プログラミングの基礎知識が全くなくても、PC用の小さなツール(例えばミニマルなデスクトップポモドーロタイマー)を自作したい場合、以前ならコードの書き方、環境設定、バグ修正をゼロから学び、最終的にコードをダブルクリックで実行可能な.exeソフトウェアにパッケージ化する方法まで学ぶ必要があった。
しかし今では、Qwen3.7-Maxモデルの強力なネイティブAgent推論能力と、Claude Codeのような実行ツールを組み合わせることで、「デスクトップポモドーロアプリを作って」と簡単に指示するだけで、裏ですべてを処理してくれる。
曖昧な要求に対し、Qwen3.7-Maxは非常に高いプロダクトアーキテクチャ能力を示した。すぐにコードを書き始めるのではなく、まず計画を練ってから行動に移す。技術スタック(Python + PyQt)と機能範囲を確認した後、モデルは即座に構造化されたMarkdownのアーキテクチャ計画を出力し、ツールに実行開始を指示した。
ツールが不足していても問題ない。大規模モデルがシステムを自動でインストールするようオーケストレーションするため、ユーザーは一切気にする必要がない。実行中、PCのパス不一致により連続して赤いエラーメッセージが表示されたが、Claude Codeがエラー情報を取得すると、Qwen3.7-Maxは瞬時にエラーの根本原因を特定し、驚異的な自己修正能力を発揮した。動的な試行錯誤のために、複数の代替コマンド案を素早く推論。ほんの数秒でシステム環境の干渉を排除し、美しいポモドーロタイマーを見事にデスクトップに表示させた。
気に入らない点があれば、例えばモランディカラーに変更したい場合も、一言でモデルが美的要望を正確に理解しコードを修正、あっという間に解決する。
この便利なポモドーロタイマーを友人に送りたいなら、「exeにパッケージ化して」と最終的なデリバリー指示を出すだけだ。Qwen3.7-Maxは再びエージェント本能を発揮し、環境の欠落を識別すると、対応するコマンドを生成してツールにパッケージングの依存関係を自動インストールさせた。バックグラウンドでのスムーズなオーケストレーションを経て、もともと複雑で難解だったコードは、フォルダ内に静かに佇むクリーンな.exeファイルへと変わり、ダブルクリックするだけで使用できる。
AIにデスクトップソフトを作らせるのが、大規模モデルのコードの「コンフォートゾーン」での基本操作に過ぎないと感じるなら、実際のインターネット環境、CLI、スキル呼び出しにおいて、真のエージェントの実力をどのように発揮するかを見てみよう。
まず、最近話題のCLIツールを呼び出す。エージェントにopencliをダウンロードさせ、全ウェブ情報に直接アクセスし検索する能力を付与した。
「opencliツールを使用して、小紅書(RED)で北京の必食広東料理を調べて、画像付きで」と指示すると、Qwen3.7-Maxは即座にゼロからツールのドキュメントを「読み込み」、正しい呼び出し構文を自律的に模索した。スクレイピング中、プログラムがネットワークタイムアウトでクラッシュしたが、待機時間を延長するために、基盤設定を変更する回避策を自律的に推論した。
バックグラウンドでどれだけ多くのバグを排除したかを理解する必要はない。わずか数分で、満載の料理画像がローカルフォルダにしっかりとダウンロードされた。素材を収集した後は、もちろんエージェントに調査結果を迅速にPPTやオンラインドキュメントに変換させ、ワークフローを完結させることもできる。
エージェントのもう一つのコア能力は、特定のシナリオに応じてスキルを柔軟に呼び出すことにある。
「まず、次に、最後に」や「時空を超えた賛歌」といった決まり文句で溢れた旅行記に対し、「AIっぽさを消して」と短く入力するだけで、Qwen3.7-Maxはテキスト修正の核心的な要望を正確に識別し、システム内のスキルを自発的にオーケストレーションした。
書き換え完了後、モデルは構造化されたMarkdownの振り返り表を出力した。どの「フィラー句」や「プロモーション的表現」を除去したかを明確にリストアップし、「直接性」「真実性」などの次元から修正結果を定量的に採点した。
プログラミング未経験者によるデスクトップソフト開発から、未知のターミナルツールの自律的な模索、さらに高度なテキストのスキルオーケストレーションと内省まで、Qwen3.7-Maxはこれら3つのシナリオで、単なるテキスト生成能力だけでなく、高度に成熟したエージェントの独立した実行力を示した。
3ヶ月で3連続アップデート
アリババがAI「加速度」を発動
この一連の目覚ましいベンチマーク結果と実戦効果は、千問大規模モデルの最近の急成長の縮図である。
千問フラッグシップモデルのイテレーションサイクルは、もはや「月次更新」レベルに達している。3月20日にQwen3.5-Max-Previewがリリースされ、4月20日にはQwen3.6-Max-Previewが公開された。そして今日、Qwen3.7-Maxが登場した。ユーザーにとっては「嬉しい悲鳴」をあげている状況だ。
画像ソース:@LotusDecoder
1ヶ月ごとに新世代のフラッグシップモデルをリリースできるのは、決してモデルチームの「頑張り」だけによるものではない。アリババが今年3月にATH(Alibaba Token Hub)組織を設立して以来、徐々に形成されてきたチップ、クラウド、モデル、アプリケーションにわたるフルスタック能力こそが、現在の状況を最大限に後押ししている。
中でも、平頭哥(T-Head)のカスタムチップは究極の学習・推論効率を提供し、阿里雲(Alibaba Cloud)の弾力的なコンピューティングパワーは大規模な事前学習とデプロイをシームレスに接続する。モデル層の迅速なイテレーションは、上位のアプリケーション層に直接フィードバックされる。この垂直統合によりコミュニケーションコストとエンジニアリング上のロスが圧縮され、千問の研究開発リズムはインターネット製品のように高速にロールアウトできるようになった。
千問フラッグシップモデルの加速度は、アリババのフルスタックAIシステムの爆発的成長に端を発していると言える。この体系的な競争優位性は、単一モデルが一度ベンチマークで高得点を取るよりも複製が難しい。
千問は高頻度のイテレーション路線を歩む一方で、オープンソースコミュニティへの深耕も放棄していない。誇張抜きに、千問はすでに国産、ひいては世界のオープンソースモデルのベンチマークとなっており、ほぼ毎回の新リリースが大きな注目を集めている。
先月オープンソース化されたQwen3.6-27BとQwen3.6-35B-A3Bは、「小をもって大を制す」代表作となった。HuggingFaceのグローバルオープンソースランキングで首位を獲得し、主要なプログラミングベンチマークにおいて前世代のより大規模なQwen3.5-397B-A17Bを全面的に上回り、同規模の密モデルも大幅にリードした。
これら中小規模の千問モデルは、極めて低いデプロイコストで、同サイズを超える、あるいは上位クラスに挑戦するパフォーマンスを提供し、ローカルデプロイやカスタマイズの強い需要をより良く満たす。そのため、世界中の開発者は知らず知らずのうちにこれらをデフォルトの基盤モデルとして採用している。あるユーザーが述べたように、「アリババは千問と共に急速に前進している。オープンソースのこの分野は競争が激化しているが、最終的には全員の勝利だ」。
オープンソースコミュニティでの評判は強力な引力場を形成し、開発者を「足で投票」させ、API呼び出しにおいて千問モデルに喜んで支払うようにさせている。
先月、Qwen3.6-Plusは世界的に有名な大規模モデルAPI呼び出しプラットフォームOpenRouterで、デイリーランキングとウィークリーランキングの二冠を達成し、単一モデルの1日あたりの呼び出し量が1.4兆トークンを突破する世界記録を樹立した。千問モデルが世界中の開発者の心の中で占める位置が伺い知れる。
世界中の開発者の支持を集める一方で、千問は静かにグローバルなトークンエコノミーのトラフィック入口も占拠しつつある。今やトークンは急速に問題解決のための普遍的なインプットとなりつつあり、アリババは千問を通じてこの発展の節目をしっかりと捉えている。
エージェントソフトウェアの基盤が
敷設されつつある
フラッグシップモデルの月次更新は、一見「実力の誇示」に見えるが、実際にはエージェント時代の先手を打つためのものだ。
気づくのは難しくないが、ここ半年ほどの千問モデルはすべて「エージェント」という同一テーマを指し示している。Qwen3.5はネイティブマルチモーダルエージェントを、Qwen3.6-Plusは現実世界のエージェントへと向かい、Qwen3.7-Maxはエージェントの新境地を切り開く。新リリースのたびに、モデルの自律的な計画、ツール呼び出し、長時間タスクの実行能力が向上している。
今回のQwen3.7-Maxには大きな期待が寄せられている。アリババはこれを次世代のオールラウンドエージェント基盤に育て上げたいと考えている。そのため、単に呼び出される頭脳として機能するだけでは満足せず、ハードウェア層にまで降りてシステムレベルのプログラミングと最適化を行うことを望んでいる。Qwen3.7-Maxが平頭哥の新AIチップ上で35時間の超長時間エージェントタスクを成功させたことは、この転換の有力な証拠である。
それだけでなく、Qwen3.7-Maxはエージェントフレームワークを跨ぐ汎化能力も創発している。特別な学習なしに、Claude Code、OpenClaw、Hermes Agentなどのフレームワークをスムーズにサポートする。これは、かつてのOSの台頭の論理に酷似している。PC時代のWindows、モバイル時代のAndroidが、統一された標準とインターフェースを通じて、開発者に豊かなエコシステムを繁栄させたのと同じだ。
千問は、エージェント時代の「標準インターフェース」を構築し、自身を様々なエージェントフレームワークの第一選択の基盤にしようと努力している。このような未来を見据えた布陣は、より戦略的な眼識を持つものだ。
また、エージェント時代に最終的に競われるのは、モデル能力が確固たるものかどうかだ。アリババはこの点を深く理解し実践し続けており、オープンソースを通じてグローバルな開発者コミュニティでの影響力を高めている。より多くの開発者が千問を使ってエージェントを構築しタスクを実行することに慣れれば、アリババは次世代のAgenticソフトウェアエコシステムの構築において、より多くの発言権を掌握できる。
現在、AnthropicとOpenAIは「製品駆動」(Claude Code、Codex)の路線でユーザーと企業を獲得し、商業市場で時価総額1兆ドルを目指している。一方、国産大規模モデルを代表する大手の一角であるアリババは、より困難で壮大な道を選んだ。技術からエコシステム、発言権に至るまで、「全てを取る」戦略だ。
この重要なポジション争いにおいて、アリババ千問の野心は我々の想像をはるかに超える。それは、開発者がエージェントシステムを構築する際に最も不可欠な基盤インフラとなることを目指しているのだ。
© THE END
転載は本公式アカウントに連絡し許可を得てください
投稿または取材の申し込み:liyazhou@jiqizhixin.com