月之暗面昨晚發布了 Kimi K2.6,這次依然選擇開源。
但更值得注意的是,其程式設計能力不僅在開源模型中登上 SOTA(最先进技術)寶座,更強勢超越了兩個頂尖的閉源模型。
在 SWE-Bench Pro 測試中,K2.6 取得了 58.6 的成績,超越了 GPT-5.4(xhigh)和 Claude Opus 4.6(max effort)。
換句話說:一個開源模型,跑贏了目前市面上幾乎最強的兩個閉源模型。
對開源程式設計模型而言,這應該是首次在主流基準測試上取得壓倒性優勢。
當然,我們都知道,跑分只是故事的一半……K2.6 還擁有一個極具爆發力與美感的 Agent 集群功能,稍後我會詳細說明。
01 基準跑分
先來看硬數據。
K2.6 在程式設計與 Agent 相關的基準測試中,幾乎全線領先:
• SWE-Bench Pro:58.6(開源 SOTA)
• SWE-Bench Verified:80.2
• SWE-Bench Multilingual:76.7
• Terminal-Bench 2.0:66.7
• HLE w/ tools:54.0
• BrowseComp:83.2
• LiveCodeBench v6:89.6
數學與視覺能力也未缺席,AIME 2026 拿下 96.4 分,MathVision w/ python 則為 93.2 分。
Yuchen Jin 轉發了 Kimi 官方貼文並評論道:
「開源 SOTA!SWE-Bench Pro 58.6,超越了 GPT-5.4(xhigh)和 Claude Opus 4.6(max effort)。Kimi 的發布速度越來越快,堪稱 S 級的開源模型團隊。」
02 不只跑分
當然,跑分高是一回事,能否在真實場景中扛住長時間、高強度的工作,則是另一回事。
這點我們知道,Kimi 顯然也明白……因此 K2.6 在這方面的進步,可能比跑分更值得關注。
它可以連續工作 12 小時不崩潰。
官方提供的一個案例是:使用 K2.6 在 Mac 上以 Zig 語言本地部署 Qwen3.5-0.8B 模型,整個過程涉及 4000 多次工具調用,跨越 14 輪迭代,耗時 12 小時。
最終,它達到了 193 tokens/sec 的推理速度,比 LM Studio 快了 20%。
另一個案例更為硬核:對 exchange-core 金融撮合引擎進行全面重構,耗時 13 小時,進行 1000 多次工具調用,修改了 4000 多行程式碼。結果中等負載下的吞吐量提升 185%,整體效能提升 133%。
換句話說,K2.6 已經能像一位可靠的工程師那樣,連續工作十幾個小時,中間絕不掉鏈子。
而且,它完全不挑語言。無論是 Rust、Go、Python、前端開發還是 DevOps 工作流程,都能穩定輸出。官方說法是:
「具備跨語言與框架的泛化能力。」
Vercel 表示,K2.6 在 Next.js 基準上的表現提升了超過 50%。CodeBuddy 則報告了長上下文穩定性提升 18%,工具調用成功率高達 96.60%。
此外,K2.6 還有一項非常實用的改進:平均步驟數比 K2.5 減少了約 35%。
更少的步驟意味著更少的 Token 消耗、更少的出錯機會,以及更快的執行速度。
用更短路徑抵達正確答案,這其實是衡量模型「聰明」程度更直觀的方式。
內部的 Kimi Code Bench 基準測試結果也佐證了這一點:K2.6 從 K2.5 的 57.4 分提升至 68.2 分,直接成長了近 20%。
03 300 個 Agent 上崗
接下來,是本次的重頭戲。
K2.6 的 Agent 集群功能,雖然從 K2.5 就開始引入,但我的感受是,這次才算真正成熟。
我們只需給它一個任務,它就會自動拆解,建立一堆不同角色的「分身」,讓它們並行工作。
K2.5 的上限是 100 個子 Agent、1500 步,而到了 K2.6,則直接拉高到300 個子 Agent、4000 步。
一個人、一句指令、一支團隊。
我當然得親自來試一試。
04 程式設計工具分析實測
我給 K2.6 Agent 集群輸入了一句話:
「請用 Agent 集群幫我完成一份關於『2025-2026 全球 AI 程式設計工具市場分析』的交付物套組:一份 10 頁的產業分析 PDF、一份 Excel 數據表、一份 15 頁的 PPT。」
然後,它就開始動作了。
它先花了幾分鐘擬定執行計畫,把任務拆解成 12 個維度:
市場格局、競爭格局、Cursor 深度分析、GitHub Copilot 深度分析、其他主要工具對比、開源生態、功能技術對比、定價與商業模式、企業採用情況、技術趨勢、安全與信任治理、區域市場差異。
每個維度,它都需要獨立進行搜尋、分析與撰寫。
接著,就是無限分身開啟的時刻了。
05 自己組了個團隊
K2.6 首先自動建立了 12 個子代理,每個都有名字、頭像與角色定位。
翔哥是進度編纂專家,青枝是翻譯專家,海明威(沒錯,就叫海明威)是知名作家負責撰寫,馬秘書是業務顧問,崔浩是數據分析師,阿哲是品質控制專家……
一共 12 位,各司其職。
抱歉我上面沒截到 GIF 圖,Kimi 還做了非常酷炫的互動介面,建議你一定要去試試看。看到這個陣容時,我還是稍微愣了一下,這……是在幫我組專案團隊嗎?
接著,這 12 個 Agent 就開始並行工作了。
它打開了 Kimi's Computer(內建瀏覽器環境),12 個 Agent 同時在網上搜尋不同維度的資料,可能搜尋了數百甚至上千個頁面的資訊。
06 一小時流水線
整個工作流程分為幾個大階段:
Phase 1:景觀掃描(5 輪搜尋完成)
Phase 2:維度分解(12 個維度定義完成)
Phase 3:並行深度研究(12 個子代理同時工作)
Phase 4-6:交叉驗證與洞察提取
然後進入產物製作階段:
Stage 2:報告寫作(9 章 + 執行摘要)
Stage 3:Excel 數據表製作
Stage 4:PDF 生成(12 頁專業報告)
Stage 5:PPT 生成(15 頁簡報)
到了製作階段,它又並行派出了三個子代理:巴泰負責 Excel,陳野負責 PDF,家情負責 PPT。三個人同時開工。
這時我注意到一個細節:
陳野在做 PDF 的時候,實際上是在 sandbox 裡用 Python 寫程式碼來生成檔案。它安裝了 Chromium,採用 HTML 轉 PDF 的方式來確保排版品質。
甚至中間還出了個小插曲:生成的報告圖片尺寸有問題,一個 Agent 發現後主動去修改 CSS 來修復。
整個過程,花了大約一小時。
07 交付結果
最終,它給我交付了三套完整的檔案:
一份 PDF 產業報告,封面設計得……還挺像那麼一回事,有目錄、有章節、有數據圖表。內容涵蓋市場格局(Copilot 42% vs Cursor 20 億美元年度經常性收入)、採用率(84% 開發者使用、91% 企業採用但僅 29% 信任)、技術趨勢(Agentic Coding 革命、MCP 協議標準)、安全挑戰、中國市場(30% 滲透率、年複合成長率 38.4%)等等。
一份 Excel 數據表,主要 AI 程式設計工具的功能、定價、用戶量級對比。
EXCEL,注意還有多個分頁。
一份 15 頁 PPT,帶圖表、帶數據、帶分析框架。
當然,我帶著挑刺的眼光(畢竟這個主題顯然屬於我的舒適圈啊)看了一下,大毛病確實沒有,但小問題多少還是有一点点的。
所以你要是這樣直接拿來給出版社出書,那還是要再過目一下子。不過日常拿來參考、學習、或者做點分析,那是非常地足夠了。
但瑕疵不是重點,這裡重點在於:這是一句話、一小時、零人工干预的結果。
這活我要是交給 Claude Code,它大概會問我:要不你先去睡吧,然後就自己……现在就自己罢工了……
而現在,我就輸入了一句話,去打了几把王者,回來文件就整整齊齊擺在那了。
非要说有什么缺點,那就是略有點久,只能怪我交待的任務太不簡單了。
08 全棧能力升級
除了 Agent 集群,K2.6 在前端生成方面也有不小的升級。
官方還展示了 K2.6 Agent 的前端能力:
WebGL Shader 動畫:直接寫 GLSL/WGSL 程式碼,能做出液態金屬、焦散效果、光線追蹤。
Video Hero Section:調用影片生成 API 建立電影級 hero 區域,合成到頁面裡,跟滾動同步。
3D 場景:用 Three.js + React Three Fiber 建構真實 3D 場景,配合 GSAP ScrollTrigger 做滾動驅動動畫。
設計語言理解:Brutalist、電影感、瑞士網格、Y2K 鍍鉻、雜誌排版,K2.6 能理解這些設計詞彙,輸出的網頁自帶氛圍感。
而不只是前端,這次更關鍵的是,它還支援了後端:用戶註冊登入 + 資料庫,一個 prompt 搞定前後端。
從「幫我畫個頁面」進化到了「幫我生成一個完整應用」。
官方還推出了一個內部的 Kimi Design Bench,用來衡量前端設計能力。K2.6 Agent 和 Gemini 3.1 Pro 在 Google AI Studio 上對比,Kimi 勝出 47.5%,平手 21.1%,Google 勝出 31.4%。
09 開源的意義
網友 SmartFind 評論稱:
「跑分確實亮眼,但真正的轉變是自主性。當模型能連續運行好幾個小時、協調多個 Agent、跨技術棧交付,瓶頸就從『怎麼寫程式碼』變成了『應該造什麼』。」
而這一切,是開源的。
權重放在了 HuggingFace 上,API 開放,還有專門的 Kimi Code CLI 工具。價格是 Claude Opus 4.6 的六分之一。
網友也是一邊倒的刷屏式好評:
Alamin 声称:
「開源不再是追趕者了,它開始領跑。(Open-source is no longer catching up, it's starting to set the pace.)」
回頭看看時間線,K2.5 是今年 1 月底發的,K2.6 就到了 4 月。不到三個月,又一次大版本迭代。
Yuchen Jin 說「Kimi 的發布速度越來越快了」,確實如此。
10 最後
K2.6 讓我看到了一個信號:AI 程式設計工具的競爭,已經從「誰的模型跑分高」转向了「誰能幫你做更多的事」。
跑分是門票,Agent 集群是產品力。
一個人輸入一句話,300 個 Agent 並行工作一小時,交出所有你想要的結果。
開源模型,第一次,不只是追趕者。所以我甚至開始期待了:
當 K3 來的時候,會是什麼樣子?
◇ ◆ ◇
相關連結:
• 技術部落格:https://www.kimi.com/blog/kimi-k2-6
• 模型權重:https://huggingface.co/moonshotai/Kimi-K2.6
• Kimi 官網:https://kimi.com
• Kimi Code:https://kimi.com/code