Kimi K2.6 開源上陣！還附贈 300 位 Agent 員工？

月之暗面昨晚發布了 Kimi K2.6，這次依然選擇開源。

但更值得注意的是，其程式設計能力不僅在開源模型中登上 SOTA（最先进技術）寶座，更強勢超越了兩個頂尖的閉源模型。

在 SWE-Bench Pro 測試中，K2.6 取得了 58.6 的成績，超越了 GPT-5.4（xhigh）和 Claude Opus 4.6（max effort）。

換句話說：一個開源模型，跑贏了目前市面上幾乎最強的兩個閉源模型。

對開源程式設計模型而言，這應該是首次在主流基準測試上取得壓倒性優勢。

當然，我們都知道，跑分只是故事的一半……K2.6 還擁有一個極具爆發力與美感的 Agent 集群功能，稍後我會詳細說明。

01 基準跑分

先來看硬數據。

K2.6 在程式設計與 Agent 相關的基準測試中，幾乎全線領先：

• SWE-Bench Pro：58.6（開源 SOTA）

• SWE-Bench Verified：80.2

• SWE-Bench Multilingual：76.7

• Terminal-Bench 2.0：66.7

• HLE w/ tools：54.0

• BrowseComp：83.2

• LiveCodeBench v6：89.6

數學與視覺能力也未缺席，AIME 2026 拿下 96.4 分，MathVision w/ python 則為 93.2 分。

Yuchen Jin 轉發了 Kimi 官方貼文並評論道：

「開源 SOTA！SWE-Bench Pro 58.6，超越了 GPT-5.4（xhigh）和 Claude Opus 4.6（max effort）。Kimi 的發布速度越來越快，堪稱 S 級的開源模型團隊。」

02 不只跑分

當然，跑分高是一回事，能否在真實場景中扛住長時間、高強度的工作，則是另一回事。

這點我們知道，Kimi 顯然也明白……因此 K2.6 在這方面的進步，可能比跑分更值得關注。

它可以連續工作 12 小時不崩潰。

官方提供的一個案例是：使用 K2.6 在 Mac 上以 Zig 語言本地部署 Qwen3.5-0.8B 模型，整個過程涉及 4000 多次工具調用，跨越 14 輪迭代，耗時 12 小時。

最終，它達到了 193 tokens/sec 的推理速度，比 LM Studio 快了 20%。

另一個案例更為硬核：對 exchange-core 金融撮合引擎進行全面重構，耗時 13 小時，進行 1000 多次工具調用，修改了 4000 多行程式碼。結果中等負載下的吞吐量提升 185%，整體效能提升 133%。

效能提升圖表

換句話說，K2.6 已經能像一位可靠的工程師那樣，連續工作十幾個小時，中間絕不掉鏈子。

而且，它完全不挑語言。無論是 Rust、Go、Python、前端開發還是 DevOps 工作流程，都能穩定輸出。官方說法是：

「具備跨語言與框架的泛化能力。」

Vercel 表示，K2.6 在 Next.js 基準上的表現提升了超過 50%。CodeBuddy 則報告了長上下文穩定性提升 18%，工具調用成功率高達 96.60%。

此外，K2.6 還有一項非常實用的改進：平均步驟數比 K2.5 減少了約 35%。

更少的步驟意味著更少的 Token 消耗、更少的出錯機會，以及更快的執行速度。

用更短路徑抵達正確答案，這其實是衡量模型「聰明」程度更直觀的方式。

內部的 Kimi Code Bench 基準測試結果也佐證了這一點：K2.6 從 K2.5 的 57.4 分提升至 68.2 分，直接成長了近 20%。

03 300 個 Agent 上崗

接下來，是本次的重頭戲。

K2.6 的 Agent 集群功能，雖然從 K2.5 就開始引入，但我的感受是，這次才算真正成熟。

我們只需給它一個任務，它就會自動拆解，建立一堆不同角色的「分身」，讓它們並行工作。

K2.5 的上限是 100 個子 Agent、1500 步，而到了 K2.6，則直接拉高到300 個子 Agent、4000 步。

一個人、一句指令、一支團隊。

我當然得親自來試一試。

04 程式設計工具分析實測

我給 K2.6 Agent 集群輸入了一句話：

「請用 Agent 集群幫我完成一份關於『2025-2026 全球 AI 程式設計工具市場分析』的交付物套組：一份 10 頁的產業分析 PDF、一份 Excel 數據表、一份 15 頁的 PPT。」

然後，它就開始動作了。

它先花了幾分鐘擬定執行計畫，把任務拆解成 12 個維度：

市場格局、競爭格局、Cursor 深度分析、GitHub Copilot 深度分析、其他主要工具對比、開源生態、功能技術對比、定價與商業模式、企業採用情況、技術趨勢、安全與信任治理、區域市場差異。

每個維度，它都需要獨立進行搜尋、分析與撰寫。

接著，就是無限分身開啟的時刻了。

05 自己組了個團隊

K2.6 首先自動建立了 12 個子代理，每個都有名字、頭像與角色定位。

翔哥是進度編纂專家，青枝是翻譯專家，海明威（沒錯，就叫海明威）是知名作家負責撰寫，馬秘書是業務顧問，崔浩是數據分析師，阿哲是品質控制專家……

一共 12 位，各司其職。

抱歉我上面沒截到 GIF 圖，Kimi 還做了非常酷炫的互動介面，建議你一定要去試試看。看到這個陣容時，我還是稍微愣了一下，這……是在幫我組專案團隊嗎？

接著，這 12 個 Agent 就開始並行工作了。

它打開了 Kimi's Computer（內建瀏覽器環境），12 個 Agent 同時在網上搜尋不同維度的資料，可能搜尋了數百甚至上千個頁面的資訊。

06 一小時流水線

整個工作流程分為幾個大階段：

Phase 1：景觀掃描（5 輪搜尋完成）

Phase 2：維度分解（12 個維度定義完成）

Phase 3：並行深度研究（12 個子代理同時工作）

Phase 4-6：交叉驗證與洞察提取

然後進入產物製作階段：

Stage 2：報告寫作（9 章 + 執行摘要）

Stage 3：Excel 數據表製作

Stage 4：PDF 生成（12 頁專業報告）

Stage 5：PPT 生成（15 頁簡報）

到了製作階段，它又並行派出了三個子代理：巴泰負責 Excel，陳野負責 PDF，家情負責 PPT。三個人同時開工。

這時我注意到一個細節：

陳野在做 PDF 的時候，實際上是在 sandbox 裡用 Python 寫程式碼來生成檔案。它安裝了 Chromium，採用 HTML 轉 PDF 的方式來確保排版品質。

甚至中間還出了個小插曲：生成的報告圖片尺寸有問題，一個 Agent 發現後主動去修改 CSS 來修復。

整個過程，花了大約一小時。

07 交付結果

最終，它給我交付了三套完整的檔案：

一份 PDF 產業報告，封面設計得……還挺像那麼一回事，有目錄、有章節、有數據圖表。內容涵蓋市場格局（Copilot 42% vs Cursor 20 億美元年度經常性收入）、採用率（84% 開發者使用、91% 企業採用但僅 29% 信任）、技術趨勢（Agentic Coding 革命、MCP 協議標準）、安全挑戰、中國市場（30% 滲透率、年複合成長率 38.4%）等等。

一份 Excel 數據表，主要 AI 程式設計工具的功能、定價、用戶量級對比。