Kimi K2.6 がオープンソース化！300 人のエージェント要員まで付属？

月之暗面（Moonshot AI）は昨夜、Kimi K2.6 を発表し、引き続きオープンソースとしました。

しかし、さらに特筆すべきは、そのコーディング能力がオープンソースモデルとして SOTA（State of the Art）の頂点に立ち、2 つのクローズドソースモデルをも凌駕した点です。

SWE-Bench Pro で 58.6 を記録し、GPT-5.4（xhigh）や Claude Opus 4.6（max effort）を上回りました。

つまり、1 つのオープンソースモデルが、現在ほぼ最強とされる 2 つのクローズドソースモデルを打ち負かしたのです。

オープンソースのプログラミングモデルにとって、主要なベンチマークでこのような優位性を示したのは、おそらく初めてのことです。

もちろん、スコアは物語の半分に過ぎないことも承知しています……。K2.6 には、暴力と美しさを兼ね備えた「エージェントクラスター」機能も備わっており、これについては後ほど詳しく解説します。

01 ベンチマークスコア

まずはハードなデータをご覧ください。

K2.6 は、プログラミングおよびエージェント関連のベンチマークにおいて、ほぼ全項目でリードしています。

SWE-Bench Pro：58.6（オープンソース SOTA）
SWE-Bench Verified：80.2
SWE-Bench Multilingual：76.7
Terminal-Bench 2.0：66.7
HLE w/ tools：54.0
BrowseComp：83.2
LiveCodeBench v6：89.6

数学や視覚認識の分野でも見劣りせず、AIME 2026 では 96.4、MathVision w/ python では 93.2 を記録しました。

Yuchen Jin 氏は Kimi の公式投稿をリツイートし、こうコメントしています。

「オープンソース SOTA！SWE-Bench Pro で 58.6 を記録し、GPT-5.4（xhigh）と Claude Opus 4.6（max effort）を凌駕。Kimi のリリースペースは加速する一方で、S ランク級のオープンソースモデルチームと言えるでしょう」

02 スコアだけではない

もちろん、スコアが高いことと、実際の現場で長時間・高負荷の作業に耐えうるかは別問題です。

私たちでさえそう思うのですから、Kimi もそれを理解しているのは明らかです。そのため、今回の K2.6 の進歩は、単なるスコア以上に注目すべき点だと言えます。

12 時間ぶっ通しで稼働し、クラッシュしません。

公式が挙げた事例の一つは、Mac 上で Zig 言語を用いて Qwen3.5-0.8B モデルをローカルにデプロイするというもの。このプロセスには 4000 回を超えるツール呼び出しが含まれ、14 ラウンドの反復を経て、12 時間を要しました。

最終的に、193 tokens/sec という推論速度を達成し、LM Studio よりも 20% 高速化しました。

もう一つの事例はさらに過酷です。金融マッチングエンジンである exchange-core の全面リファクタリングを行い、13 時間、1000 回以上のツール呼び出し、4000 行以上のコード修正を実施。ミドルロード時のスループットを 185%、全体のパフォーマンスを 133% 向上させました。

つまり、K2.6 はもはや、途中でヘタれることなく十数時間連続で働き続ける、頼れるエンジニアのようになり得るのです。

しかも、言語を選びません。Rust、Go、Python、フロントエンド、DevOps ワークフローまで、安定して成果を出します。公式の表現を借りれば、

「言語やフレームワークを超えた汎化能力」

Vercel によれば、K2.6 は Next.js ベンチマークで 50% 以上のパフォーマンス向上を示しました。また、CodeBuddy は、長いコンテキストの安定性が 18% 向上し、ツール呼び出しの成功率が 96.60% に達したと報告しています。

さらに、K2.6 には非常に実用的な改善点があります。平均ステップ数が K2.5 に比べて約 35% 削減されました。

ステップ数が減ることは、トークン消費の削減、エラー発生の確率低下、そして速度向上を意味します。

より短い道筋で正解にたどり着くことこそが、モデルの「賢さ」を直感的に測る尺度だと言えるでしょう。

内部ベンチマーク「Kimi Code Bench」の結果もこれを裏付けています。K2.6 は K2.5 の 57.4 から 68.2 へと向上し、約 20% もの大幅な伸びを示しました。

03 300 人のエージェントが着任

そして、今回のハイライトがこれです。

K2.6 の「エージェントクラスター」機能は K2.5 から導入されていましたが、私の感覚では、今回こそが真の成熟を迎えたと言えます。

タスクを 1 つ与えるだけで、自動的に細分化され、異なる役割を持つ多数の「分身」が生成され、並列で作業を開始します。

K2.5 の上限はサブエージェント 100 体、1500 ステップでしたが、K2.6 ではそれがサブエージェント 300 体、4000 ステップへと引き上げられました。

一人の人間が、たった一行の指示で、一つのチームを動かす。

もちろん、私が自分で試してみる必要があります。

04 プログラミングツール分析の実践テスト

私は K2.6 エージェントクラスターに、以下のように入力しました。

「2025-2026 年のグローバル AI プログラミングツール市場分析に関する成果物セットを、エージェントクラスターを使って作成してください。10 ページの業界分析 PDF、Excel データシート、15 ページの PPT です」

すると、動き出しました。

数分かけて実行計画を立案し、タスクを 12 の次元に分解しました。

市場構造、競合状況、Cursor の深掘り、GitHub Copilot の深掘り、その他の主要ツールとの比較、オープンソースエコシステム、機能・技術比較、価格設定とビジネスモデル、企業導入状況、技術トレンド、セキュリティと信頼性、地域市場の差異です。

各次元について、独立した検索、分析、執筆が必要となります。

そして、無限の分身が動き出す時が来ました。

05 自らチームを編成

K2.6 はまず、名前、アイコン、役割定義を持つ 12 人のサブエージェントを自動生成しました。

進捗管理専門家の翔哥（シャンガー）、翻訳専門家の青枝（チンジー）、執筆担当の著名作家ハイメンウェイ（そう、その名もハイメンウェイです）、ビジネスコンサルタントの馬秘書（マーひしょ）、データアナリストの崔浩（ツイハオ）、品質管理専門家の阿哲（アージェ）……。計 12 名がそれぞれの持ち場で動きます。

申し訳ありませんが、ここでは GIF 画像をキャプチャできませんでしたが、Kimi は非常にクールなインタラクションを用意しています。ぜひ実際に試して見ていただくことをお勧めします。この布陣を見た瞬間、私は少し驚きました。これ、私のためにプロジェクトチームを組んでるの？

そして、この 12 人のエージェントが並列作業を開始しました。

内蔵ブラウザ環境「Kimi's Computer」を起動し、12 人のエージェントが同時に異なる次元の情報をネット検索。数百から数千ページに及ぶ情報を収集しました。

06 1 時間の生産ライン

作業フローはいくつかの大きなフェーズに分かれました。

フェーズ 1：ランドスケープスキャン（5 ラウンドの検索で完了）

フェーズ 2：次元分解（12 の次元を定義完了）

フェーズ 3：並列深層調査（12 のサブエージェントが同時稼働）

フェーズ 4-6：相互検証と洞察の抽出

その後は、成果物作成フェーズへ移行します。

ステージ 2：レポート執筆（9 章＋エグゼクティブサマリー）

ステージ 3：Excel データシート作成

ステージ 4：PDF 生成（12 ページの専門レポート）

ステージ 5：PPT 生成（15 ページのプレゼン資料）

作成フェーズに入ると、さらに 3 人のサブエージェントが並列で派遣されました。Excel 担当の巴泰（バータイ）、PDF 担当の陳野（チンイエ）、PPT 担当の家情（ジアチン）の 3 名が同時に作業を開始します。

ここで、ある詳細に気づきました。

陳野が PDF を作成する際、実際にはサンドボックス内で Python コードを書いてファイルを生成していました。Chromium をインストールし、HTML から PDF への変換を行うことで、レイアウトの品質を確保していたのです。

途中でちょっとしたハプニングもありました。生成されたレポートの画像サイズに問題があったのですが、あるエージェントがそれを発見し、自ら CSS を修正して対応したのです。

この一連のプロセスにかかった時間は、およそ 1 時間でした。

07 成果物の納品

最終的に、3 セットの完全なファイルが納品されました。

1 つ目は PDF 形式の業界レポート。表紙のデザインも……なかなかの出来で、目次、章立て、データチャートも完備。内容は市場構造（Copilot 42% 対 Cursor 年間収益 20 億ドル）、採用率（開発者の 84% が使用、企業の 91% が採用するも信頼は 29% のみ）、技術トレンド（エージェント・コーディング革命、MCP プロトコルの標準化）、セキュリティ課題、中国市場（浸透率 30%、年平均成長率 38.4%）などを網羅していました。

2 つ目は Excel データシート。主要な AI プログラミングツールの機能、価格設定、ユーザー規模の比較データです。

Excel には複数のシートが含まれている点にもご注目ください。

3 つ目は 15 ページの PPT。チャート、データ、分析フレームワーク付きです。

もちろん、私はあえて粗探しをするつもりで（このテーマは私の得意分野ですから）確認しましたが、大きな欠陥はありませんでした。ただ、細かい点がいくつかあるのは事実です。

ですから、これをそのまま出版社に持ち込んで出版するのは避けたほうがよいでしょう。しかし、日常の参考資料や学習、あるいは分析用としては、十分すぎるほどです。

しかし、欠点は重要なのではありません。重要なのは、これが「一言の指示、1 時間、人的介入ゼロ」で達成された結果だということです。

この作業を Claude Code に頼んだら、「少しお休みになりますか？」と聞いてきた後、自分からギブアップしていたでしょう……。

それが今や、私は一言入力してゲームを数回楽しんでいる間に、完成したファイルが整然とそこに並んでいたのです。

あえて欠点を挙げるなら、少し時間がかかったことですが、それは私があまりに無茶なタスクを指示したせいでもあります。

08 フルスタック機能の進化

エージェントクラスターに加え、K2.6 はフロントエンド生成機能も大幅にアップグレードしました。

公式は K2.6 エージェントのフロントエンド能力として、以下を実演しました。

WebGL シェーダーアニメーション：GLSL/WGSL コードを直接記述し、液体金属、コースティクス効果、レイトレーシングなどを表現可能。

ビデオヒーローセクション：動画生成 API を呼び出して映画並みのヒーローエリアを作成し、スクロールと連動してページに合成。

3D シーン：Three.js と React Three Fiber を使用して真の 3D シーンを構築し、GSAP ScrollTrigger でスクロール連動アニメーションを実現。

デザイン言語の理解：ブルータリズム、映画的表現、スイス式グリッド、Y2K クロム、雑誌レイアウトなど、K2.6 はこれらのデザイン用語を理解し、ウェブページに独特の雰囲気を付与します。

フロントエンドだけでなく、今回さらに重要なのが、バックエンドもサポートするようになった点です。ユーザー登録・ログイン＋データベースまで、プロンプト 1 つでフロントエンドからバックエンドまでを完結させます。

「ページを描いて」という段階から、「アプリケーション全体を生成して」という段階へ進化したのです。

公式はフロントエンドデザイン能力を測定するための内部ベンチマーク「Kimi Design Bench」も導入しました。Google AI Studio 上で K2.6 エージェントと Gemini 3.1 Pro を比較したところ、Kimi の勝利 47.5%、引き分け 21.1%、Google の勝利 31.4% という結果でした。

09 オープンソースである意義

ユーザーの SmartFind 氏はこうコメントしています。

「スコアが素晴らしいのは確かですが、真の変化は自律性にあります。モデルが数時間連続で動作し、複数のエージェントを調整し、技術スタックを超えて成果物を納品できるようになれば、ボトルネックは『いかにコードを書くか』から『何を創るべきか』へと移ります」

そして、これらすべてがオープンソースなのです。

重みデータは HuggingFace で公開され、API も開放されており、専用の CLI ツール「Kimi Code CLI」も用意されています。価格は Claude Opus 4.6 の 6 分の 1 です。

ユーザーの反応も、一方的に絶賛の嵐です。

Alamin 氏はこう主張します。

「もはやオープンソースは追いかける側ではありません。ペースメーカー（先行者）になりつつあります（Open-source is no longer catching up, it's starting to set the pace）」

タイムラインを振り返ると、K2.5 は今年 1 月末、K2.6 は 4 月です。3 か月足らずでの大型バージョンアップです。

Yuchen Jin 氏が言うように「Kimi のリリースペースは加速している」のは事実です。

10 最後に

K2.6 は、AI プログラミングツールを巡る競争が、「どのモデルのスコアが高いか」から「どれだけ多くのことを成し遂げられるか」へと移行したというシグナルを私たちに示しています。

スコアは入場券であり、エージェントクラスターが製品力です。

一人の人間が一言入力するだけで、300 人のエージェントが 1 時間並列稼働し、望むすべての成果物を納品する。

オープンソースモデルが、初めて、追いかける側ではなくなったのです。だからこそ、私はこう期待せずにはいられません。

次世代の K3 が現れた時、いったいどんな姿をしているのだろうか？

◇ ◆ ◇