Kimi K2.6 開源上陣!還附贈 300 位 Agent 員工?

月之暗面昨晚發布了 Kimi K2.6,這次依然選擇開源。

但更值得注意的是,其程式設計能力不僅在開源模型中登上 SOTA(最先进技術)寶座,更強勢超越了兩個頂尖的閉源模型。

Kimi K2.6 模型來了

在 SWE-Bench Pro 測試中,K2.6 取得了 58.6 的成績,超越了 GPT-5.4(xhigh)和 Claude Opus 4.6(max effort)。

換句話說:一個開源模型,跑贏了目前市面上幾乎最強的兩個閉源模型。

對開源程式設計模型而言,這應該是首次在主流基準測試上取得壓倒性優勢。

基準測試

當然,我們都知道,跑分只是故事的一半……K2.6 還擁有一個極具爆發力與美感的 Agent 集群功能,稍後我會詳細說明。

01 基準跑分

先來看硬數據。

K2.6 在程式設計與 Agent 相關的基準測試中,幾乎全線領先:

SWE-Bench Pro:58.6(開源 SOTA)

SWE-Bench Verified:80.2

SWE-Bench Multilingual:76.7

Terminal-Bench 2.0:66.7

HLE w/ tools:54.0

BrowseComp:83.2

LiveCodeBench v6:89.6

數學與視覺能力也未缺席,AIME 2026 拿下 96.4 分,MathVision w/ python 則為 93.2 分。

SWE-Bench Pro 大賽

Yuchen Jin 轉發了 Kimi 官方貼文並評論道:

「開源 SOTA!SWE-Bench Pro 58.6,超越了 GPT-5.4(xhigh)和 Claude Opus 4.6(max effort)。Kimi 的發布速度越來越快,堪稱 S 級的開源模型團隊。」

Yuchen Jin 評價 K2.6

02 不只跑分

當然,跑分高是一回事,能否在真實場景中扛住長時間、高強度的工作,則是另一回事。

這點我們知道,Kimi 顯然也明白……因此 K2.6 在這方面的進步,可能比跑分更值得關注。

它可以連續工作 12 小時不崩潰。

官方提供的一個案例是:使用 K2.6 在 Mac 上以 Zig 語言本地部署 Qwen3.5-0.8B 模型,整個過程涉及 4000 多次工具調用,跨越 14 輪迭代,耗時 12 小時。

執行過程截圖

最終,它達到了 193 tokens/sec 的推理速度,比 LM Studio 快了 20%。

另一個案例更為硬核:對 exchange-core 金融撮合引擎進行全面重構,耗時 13 小時,進行 1000 多次工具調用,修改了 4000 多行程式碼。結果中等負載下的吞吐量提升 185%,整體效能提升 133%。

效能提升圖表

換句話說,K2.6 已經能像一位可靠的工程師那樣,連續工作十幾個小時,中間絕不掉鏈子。

而且,它完全不挑語言。無論是 Rust、Go、Python、前端開發還是 DevOps 工作流程,都能穩定輸出。官方說法是:

「具備跨語言與框架的泛化能力。」

Vercel 表示,K2.6 在 Next.js 基準上的表現提升了超過 50%。CodeBuddy 則報告了長上下文穩定性提升 18%,工具調用成功率高達 96.60%。

此外,K2.6 還有一項非常實用的改進:平均步驟數比 K2.5 減少了約 35%。

更少的步驟意味著更少的 Token 消耗、更少的出錯機會,以及更快的執行速度。

用更短路徑抵達正確答案,這其實是衡量模型「聰明」程度更直觀的方式。

Kimi Code Bench

內部的 Kimi Code Bench 基準測試結果也佐證了這一點:K2.6 從 K2.5 的 57.4 分提升至 68.2 分,直接成長了近 20%。

03 300 個 Agent 上崗

接下來,是本次的重頭戲。

K2.6 的 Agent 集群功能,雖然從 K2.5 就開始引入,但我的感受是,這次才算真正成熟。

Agent 集群全新升級

我們只需給它一個任務,它就會自動拆解,建立一堆不同角色的「分身」,讓它們並行工作。

K2.5 的上限是 100 個子 Agent、1500 步,而到了 K2.6,則直接拉高到300 個子 Agent、4000 步

K2.6 vs K2.5 跨欄

一個人、一句指令、一支團隊。

我當然得親自來試一試。

04 程式設計工具分析實測

我給 K2.6 Agent 集群輸入了一句話:

「請用 Agent 集群幫我完成一份關於『2025-2026 全球 AI 程式設計工具市場分析』的交付物套組:一份 10 頁的產業分析 PDF、一份 Excel 數據表、一份 15 頁的 PPT。」

然後,它就開始動作了。

選擇 K2.6 Agent 集群模式

它先花了幾分鐘擬定執行計畫,把任務拆解成 12 個維度:

市場格局、競爭格局、Cursor 深度分析、GitHub Copilot 深度分析、其他主要工具對比、開源生態、功能技術對比、定價與商業模式、企業採用情況、技術趨勢、安全與信任治理、區域市場差異。

每個維度,它都需要獨立進行搜尋、分析與撰寫。

接著,就是無限分身開啟的時刻了。

05 自己組了個團隊

K2.6 首先自動建立了 12 個子代理,每個都有名字、頭像與角色定位。

12 個 Agent 各有名字和角色

翔哥是進度編纂專家,青枝是翻譯專家,海明威(沒錯,就叫海明威)是知名作家負責撰寫,馬秘書是業務顧問,崔浩是數據分析師,阿哲是品質控制專家……

一共 12 位,各司其職。

抱歉我上面沒截到 GIF 圖,Kimi 還做了非常酷炫的互動介面,建議你一定要去試試看。看到這個陣容時,我還是稍微愣了一下,這……是在幫我組專案團隊嗎?

並行搜尋和研究

接著,這 12 個 Agent 就開始並行工作了。

它打開了 Kimi's Computer(內建瀏覽器環境),12 個 Agent 同時在網上搜尋不同維度的資料,可能搜尋了數百甚至上千個頁面的資訊。

06 一小時流水線

整個工作流程分為幾個大階段:

Phase 1:景觀掃描(5 輪搜尋完成)

Phase 2:維度分解(12 個維度定義完成)

Phase 3:並行深度研究(12 個子代理同時工作)

Phase 進度面板

Phase 4-6:交叉驗證與洞察提取

然後進入產物製作階段:

Stage 2:報告寫作(9 章 + 執行摘要)

Stage 3:Excel 數據表製作

Stage 4:PDF 生成(12 頁專業報告)

Stage 5:PPT 生成(15 頁簡報)

交付物製作階段

到了製作階段,它又並行派出了三個子代理:巴泰負責 Excel,陳野負責 PDF,家情負責 PPT。三個人同時開工。

三個 Agent 並行製作文件

這時我注意到一個細節:

陳野在做 PDF 的時候,實際上是在 sandbox 裡用 Python 寫程式碼來生成檔案。它安裝了 Chromium,採用 HTML 轉 PDF 的方式來確保排版品質。

主動修復 CSS 樣式

甚至中間還出了個小插曲:生成的報告圖片尺寸有問題,一個 Agent 發現後主動去修改 CSS 來修復。

整個過程,花了大約一小時。

07 交付結果

最終,它給我交付了三套完整的檔案:

最終交付物

一份 PDF 產業報告,封面設計得……還挺像那麼一回事,有目錄、有章節、有數據圖表。內容涵蓋市場格局(Copilot 42% vs Cursor 20 億美元年度經常性收入)、採用率(84% 開發者使用、91% 企業採用但僅 29% 信任)、技術趨勢(Agentic Coding 革命、MCP 協議標準)、安全挑戰、中國市場(30% 滲透率、年複合成長率 38.4%)等等。

一份 Excel 數據表,主要 AI 程式設計工具的功能、定價、用戶量級對比。

Excel 數據表

EXCEL,注意還有多個分頁。

一份 15 頁 PPT,帶圖表、帶數據、帶分析框架。

PPT 預覽

當然,我帶著挑刺的眼光(畢竟這個主題顯然屬於我的舒適圈啊)看了一下,大毛病確實沒有,但小問題多少還是有一点点的。

所以你要是這樣直接拿來給出版社出書,那還是要再過目一下子。不過日常拿來參考、學習、或者做點分析,那是非常地足夠了。

任務完成狀態

但瑕疵不是重點,這裡重點在於:這是一句話、一小時、零人工干预的結果。

這活我要是交給 Claude Code,它大概會問我:要不你先去睡吧,然後就自己……现在就自己罢工了……

而現在,我就輸入了一句話,去打了几把王者,回來文件就整整齊齊擺在那了。

一句話到三套文件

非要说有什么缺點,那就是略有點久,只能怪我交待的任務太不簡單了。

08 全棧能力升級

除了 Agent 集群,K2.6 在前端生成方面也有不小的升級。

官方還展示了 K2.6 Agent 的前端能力:

WebGL Shader 動畫:直接寫 GLSL/WGSL 程式碼,能做出液態金屬、焦散效果、光線追蹤。

若影片無法播放,請改看 來源頁

Video Hero Section:調用影片生成 API 建立電影級 hero 區域,合成到頁面裡,跟滾動同步。

若影片無法播放,請改看 來源頁

3D 場景:用 Three.js + React Three Fiber 建構真實 3D 場景,配合 GSAP ScrollTrigger 做滾動驅動動畫。

若影片無法播放,請改看 來源頁

設計語言理解:Brutalist、電影感、瑞士網格、Y2K 鍍鉻、雜誌排版,K2.6 能理解這些設計詞彙,輸出的網頁自帶氛圍感。

若影片無法播放,請改看 來源頁

而不只是前端,這次更關鍵的是,它還支援了後端:用戶註冊登入 + 資料庫,一個 prompt 搞定前後端。

若影片無法播放,請改看 來源頁

從「幫我畫個頁面」進化到了「幫我生成一個完整應用」。

官方還推出了一個內部的 Kimi Design Bench,用來衡量前端設計能力。K2.6 Agent 和 Gemini 3.1 Pro 在 Google AI Studio 上對比,Kimi 勝出 47.5%,平手 21.1%,Google 勝出 31.4%。

Kimi Design Bench

09 開源的意義

網友 SmartFind 評論稱:

「跑分確實亮眼,但真正的轉變是自主性。當模型能連續運行好幾個小時、協調多個 Agent、跨技術棧交付,瓶頸就從『怎麼寫程式碼』變成了『應該造什麼』。」

而這一切,是開源的。

權重放在了 HuggingFace 上,API 開放,還有專門的 Kimi Code CLI 工具。價格是 Claude Opus 4.6 的六分之一。

開源 vs 閉源

網友也是一邊倒的刷屏式好評:

網友好評截圖

Alamin 声称:

「開源不再是追趕者了,它開始領跑。(Open-source is no longer catching up, it's starting to set the pace.)」

回頭看看時間線,K2.5 是今年 1 月底發的,K2.6 就到了 4 月。不到三個月,又一次大版本迭代。

Yuchen Jin 說「Kimi 的發布速度越來越快了」,確實如此。

10 最後

K2.6 讓我看到了一個信號:AI 程式設計工具的競爭,已經從「誰的模型跑分高」转向了「誰能幫你做更多的事」。

跑分是門票,Agent 集群是產品力。

一個人輸入一句話,300 個 Agent 並行工作一小時,交出所有你想要的結果。

從個體到集群

開源模型,第一次,不只是追趕者。所以我甚至開始期待了:

當 K3 來的時候,會是什麼樣子?

◇ ◆ ◇

相關連結:

• 技術部落格:https://www.kimi.com/blog/kimi-k2-6

• 模型權重:https://huggingface.co/moonshotai/Kimi-K2.6

• Kimi 官網:https://kimi.com

• Kimi Code:https://kimi.com/code

• API:https://platform.moonshot.ai

相關文章推薦

分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.