在 M2 系列模型發布後的幾個月,我們收到了大量熱心用戶的反饋與建議,這促使我們進一步加速模型的迭代效率。除了更加認真工作之外,我們能找到的唯一途徑就是開啟模型和組織的自我進化。MiniMax M2.7 是我們第一個模型深度參與迭代自己的模型。
M2.7 能夠自行構建複雜的 Agent Harness(智能體框架),並基於 Agent Teams(智能體團隊)、複雜 Skills(技能)、Tool Search tool(工具搜尋)等能力,完成高度複雜的生產力任務。例如,在研發 M2.7 的過程中,我們基於模型構建強化學習 Harness 中的數十個複雜 skills,更新自己的 memory(記憶),驅動模型自身的強化學習,並基於結果優化強化學習過程和 Harness,開啟模型的自我進化。
M2.7 在真實的軟體工程中有優異的表現,包括端到端的完整專案交付、分析日誌排查 Bug、程式碼安全、機器學習等。在基準測試 SWE-Pro 中,M2.7 得分 56.22%,幾乎接近 Opus 最好的水準。這一能力同樣延伸到了端到端的完整專案交付場景(VIBE-Pro 55.6%)以及對複雜工程系統的深層理解 Terminal Bench 2(57.0%)。
在專業辦公領域,我們提升了模型在各領域的專業知識和任務交付能力,在 GDPval-AA 的 ELO 得分是 1495,為開源最高。M2.7 對 Office 三件套 Excel/PPT/Word 的複雜編輯能力顯著提升,能更好地完成多輪修改和高保真的編輯。M2.7 具備與複雜環境互動的能力,M2.7 在 40 個複雜 skills(> 2000 Token)的案例上,仍能保持 97% 的 skills 遵循率。在 OpenClaw 的使用中,M2.7 相比於 M2.5 也有了顯著的提升,在 MM-Claw 的評測中接近 Sonnet 4.6。
M2.7 具備優秀的身分保持能力和情商,除了生產力使用外,給互動娛樂場景的創新也準備了空間。
基於上述能力,M2.7 也在顯著加速我們自身向一個 AI Native(AI 原生)組織的進化。
01
構建模型自我進化智能體
在最開始,我們分享一個我們內部讓 M2 系列模型自我進化的實踐,這也是對模型 Agent 能力邊界的探索。
Agent Harness 通常依賴複雜的 Skills、記憶系統和其他組件來提升模型對不同工作環境的適應能力。在此基礎上,我們在 M2 的早期版本中,將其引導為一個研究型 Agent 框架——它能夠與不同的研究專案組進行互動和協作。該系統覆蓋了數據流水線、訓練環境、評測基礎設施、跨團隊協作、持久化記憶——讓研究員可以驅動它來交付更好的模型。研究 Agent 驅動著產出下一代模型的迭代循環。研究員在每一層引導方向,模型在每一層負責構建。
以一個 RL(強化學習)場景為例:研究員從一個實驗想法出發,與 Agent 展開討論。Agent 協助進行文獻調研,持續跟踪預設的實驗規格,完成數據流水線及其他對接工作,並啟動實驗。實驗運行期間,它會自動監控和分析實驗狀態,並自動觸發日誌讀取、問題排查、指標分析、程式碼修復、合併請求以及冒煙測試,識別並配置那些細微但關鍵的變更。這些工作過去可能需要來自不同團隊的多位同事協作完成,而現在研究員只需在關鍵決策和討論時介入。這大幅加速了問題發現和實驗迭代,從而更快地交付模型。在這個場景下,M2.7 能夠勝任 30-50% 的工作流。
我們在迭代過程中也意識到,模型自主迭代 harness 的能力也至關重要。我們內部的 harness 會自主收集反饋,建立內部任務的評測集,並基於此不斷迭代自己的 Agent 架構、Skills/MCP 實現和記憶機制,來更好和更高效地完成任務。
舉個例子,我們讓 M2.7 優化一個內部腳手架上模型的軟體工程開發表現。M2.7 全程自主運行,執行「分析失敗軌跡 → 規劃改動 → 修改腳手架程式碼 → 運行評測 → 對比結果 → 決定保留或回退」的迭代循環超過 100 輪。
這個過程中 M2.7 發現了針對模型的有效優化:系統性搜尋溫度、頻率懲罰、存在懲罰等採樣參數的最優組合;為模型設計更具體的工作流指引(如修復後自動搜尋其他檔案中的相同 bug 模式);在腳手架的 Agent Loop 中添加循環檢測等優化。最終在內部評測集上效果提升 30%。
我們相信,未來的 AI 自我進化會逐步向完全自動化過渡,包括完全自主的協調數據構建、模型訓練、推理架構、評測等等。我們用 M2.7 參與了 MLE Bench Lite 的 22 個機器學習任務測試,幾乎囊括了研發的所有環節。
我們設計和實現了一個簡易的腳手架來引導 Agent 進行自主優化,核心的模組包括短時記憶、自反饋以及自優化三個模組。具體來講,Agent 完成每輪迭代後會形成一個短時記憶檔案,同時對當前輪次的結果進行自反饋,從而給下一輪次提供潛在的優化方向,下一輪次基於所有歷史輪次的記憶及自反饋鏈進行下一步的自優化。
我們總共測試三次,每次有 24 小時來迭代進化,從下圖中能夠看到 M2.7 隨時間不斷取得更高的性能。最好的一次取得 9 枚金牌,5 枚銀牌,1 枚銅牌。三次平均是 66.6% 的得牌率,此成績僅次於 Opus-4.6 (75.7%)、GPT-5.4 (71.2%),和 Gemini-3.1 (66.6%) 持平。
02
真實的軟體工程
在編程等程式碼生成類任務上,M2.7 更深入地打磨了真實軟體工程所需的編程能力,覆蓋日誌分析與 Bug 定位、程式碼重構、程式碼安全、機器學習、安卓開發等方向。
以線上最常見的線上生產環境故障調試為例——這類任務不僅需要生成程式碼,還需要很強的綜合推理能力。面對我們實際的生產環境告警,M2.7 能關聯監控指標與部署時間線做因果推理,對軌跡採樣做統計分析並提出精準假設,主動連接數據庫執行驗證根因,定位到程式碼倉庫中缺失的索引遷移檔案,甚至知道用非阻塞建索引先止血,再提 MR(合併請求)。
從可觀測性分析、數據庫專業知識到 SRE 級別的決策判斷——這不只是一個會寫程式碼的模型,而是一個真正理解生產系統的模型。相比傳統的人工排障流程,基於 M2.7,我們已多次將線上生產系統故障的恢復時間縮短到三分鐘以內。
線上生產環境故障調試
在單項編程能力上,M2.7 已具備國際一線模型水準。在涵蓋多種編程語言的 SWE-Pro 中,M2.7 以 56.22% 的正確率追平 GPT-5.3-Codex;而在更貼近真實工程場景的 SWE Multilingual(76.5)和 Multi SWE Bench(52.7)中展現出更顯著優勢。
這一能力同樣延伸到了端到端的完整專案交付場景。在 Repo 級程式碼生成基準 VIBE-Pro 上,M2.7 得分 55.6%,幾乎與 Opus 4.6 持平 —— 這意味著無論是 Web、Android、iOS 還是 Simulation 類需求,都可以直接交給 M2.7 完成。
更值得關注的,是對複雜工程系統的深層理解。在對系統認知要求極高的 Terminal Bench 2(57.0%)和 NL2Repo(39.8%)中,M2.7 同樣表現穩健,進一步印證了它不只擅長程式碼生成,更能深入理解軟體系統的運行邏輯與協作流程。
基於 M2.7 生成的 WildGuard 演示網頁
為了提升開發效率,一個比較重要的特性是原生的 Agent Teams(多智能體協作)。Agent Teams 對模型提出了範式級要求:角色邊界、對抗性推理、協議遵循、行為分化——這些無法通過提示詞,必須內化為模型的原生能力。
Agent Teams 場景下,模型需要穩定錨定角色身分、主動挑戰隊友的邏輯與倫理盲區、在複雜狀態機中自主決策。下面是我們內部使用的一個做產品原型開發的 Agent Teams,裡面包含了做產品原型的一個最小組織。
Agent Teams 協作模擬演示
03
專業辦公
除了軟體工程外,Agent 開始在辦公場景中變得越來越有用,我們認為這是兩個核心能力:
專業知識與任務交付能力。模型需要具備各領域的專業知識,理解用戶的需求。在衡量這一能力的 GDPval-AA 的評測中,M2.7 在 45 個模型中的 ELO 得分是 1500,僅次於 Opus 4.6、Sonnet 4.6 和 GPT5.4,超過了 GPT5.3。在最常見的辦公文件處理上,我們系統性地優化了模型處理 Word、Excel 和 PPT 的能力。M2.7 在各種 Agent Harness 上,既能夠基於範本和 skills 直接生成文件,也能夠遵從用戶的互動指令,對已有的文件做多輪的高保真編輯,最終給出可編輯的產物。
與複雜環境的互動能力。泛化的日常場景意味著模型需要靈活適應各類上下文、調用各種 skills 和工具、並在長程互動中保持穩定的指令遵循。M2.7 在這些方面有大幅提升。在 Toolathon 上,M2.7 的正確率 46.3%,達到了全球第一梯隊水準。真實工作場景中的 Agent Harness 往往也需要理解和調用大量複雜的 skills。在 MM-Claw 的測試中,M2.7 在 40 個複雜 skills (> 2000 Token) 的案例上,仍能保持 97% 的 skills 遵循率。
我們測試了在 Finance(金融)領域的專業水準,與上代模型相比,模型的能力提升顯著。例如,在 Finance 領域一個閱讀研報並建模公司未來營收的場景,M2.7 可以自主閱讀公司的年報與業績溝通會紀要,交叉比對多篇研報,獨立設計假設並構建營收預測模型,再基於範本產出 PPT 和研究報告——像一個初級分析師一樣理解、判斷、輸出,並在多輪互動中自我修正。從業者的評價是:產出物已經可以作為初稿直接進入後續工作流程。
下面是一個關於台積電的例子。
任務:基於台積電年報和業績溝通會資訊,構建台積電的營收模型,讀取多個研報,設計對應的假設,基於最新的資訊對台積電營收建模,然後基於 PPT 範本產出 PPT,並寫一個 Word 文檔研究報告和 Excel 圖表。
① PPT 報告演示(可上下滑動)
② Word 調研報告(可上下滑動)
③ Excel 樞紐報表
最近 OpenClaw 爆火為代表的 Agent 社區蓬勃發展,我們很高興看到 M2 系列模型幫助到了社區的繁榮。我們基於 OpenClaw 中的常用任務,構建了一個評測集 MM-Claw,涵蓋個人學習規劃,到辦公文檔的處理與交付、定時的專業資訊調研與投資建議、程式碼開發與維護等工作與生活中形形色色的真實需求。M2.7 在這個測試中達到了接近 Sonnet 4.6 的水準,正確率是 62.7%。
04
互動娛樂
在 OpenClaw 等 Agent 腳手架的使用過程中,不少用戶在使用 Agent 完成工作的同時,還希望模型具備比較高的情商和複雜人設保持能力。在有人設的情況下,用戶不再只是讓模型機械完成任務,而是開始自然於與 Agent「相處」。這促使我們思考,產品與互動設計、內容創作、甚至娛樂體驗的構建,都可以被 AI 原生驅動的可能性。我們認為這會讓 Agentic 模型的使用從單純的生產力能進一步拓展到互動娛樂。為此,我們在 M2.7 中極大加強了人設保持和對話能力。
基於此,我們構建了一個 Agent 互動系統 OpenRoom,它將 AI 互動置入一個萬物皆可互動的 Web GUI 空間。在這裡,對話即驅動,實時產生視覺反饋與場景互動,角色可以主動地與環境互動。我們認為這個框架擴展性較高,能夠隨著模型 Agentic 能力的提升和社區的共建持續進化,探索出更多人與 Agent 之間全新的互動方式。為了促進這個領域的創新,我們已將這個原型專案開源(這個裡面的程式碼大部分也是 AI 寫的):
專案位址:github.com/MiniMax-AI/OpenRoom
立即體驗:openroom.ai
MiniMax M2.7 已在 MiniMax Agent 與開放平台上全量上線,期待用戶和開發者朋友們能在 MiniMax M2.7 上探索出更多有趣場景。
MiniMax Agent:agent.minimaxi.com
API 服務:platform.minimaxi.com
Coding Plan 訂閱:platform.minimaxi.com/subscribe/coding-plan
Intelligence with Everyone.