近年來,AI 大模型的程式設計能力突飛猛進,各大 AI 廠商在程式設計基準測試上你追我趕,不斷刷新紀錄。這讓不少工程師開始擔憂:AI 是不是很快就要搶走我們的飯碗了?
然而,中山大學與阿里巴巴聯合發布的一項最新研究給工程師們吃下了一顆「定心丸」。
3 月 4 日,兩家機構聯合發布了一項評測結果。這項測試名為「SWE-CI:透過持續整合評估智能體維護程式碼庫的能力」(SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration),首次對包含 Anthropic、OpenAI、Kimi 和 DeepSeek 等 8 家主流廠商的 18 款 AI 大模型的長期程式碼維護能力進行了嚴苛的系統性評估測試。
測試包含 100 項任務,總 Token 消耗逾 100 億。結果顯示,Claude Opus 系列綜合表現領跑。
在控制性能退化方面,千問、DeepSeek、MiniMax、Kimi 和豆包等多數 AI 大模型的表現明顯不佳。也就是說,AI 在長期程式碼維護過程中,可能將程式碼「越改越糟」。
中國團隊推出全球首個評估 AI 大模型長期程式碼維護能力的評測系統
長期以來,AI 程式設計能力的主流評測基準的共同特點是快照式評測,以「單次接收需求、一次性輸出解決方案」為核心。
然而,這種評估方式僅檢驗大模型是否能寫出功能正確的程式碼,無法反映真實軟體開發中持續迭代、長期維護的核心需求。
在現實中,成熟的軟體很少是一蹴而就的,而是長期維護的結果。雷曼定律表明,軟體品質會隨著維護的進行而自然下降。而維護工作占軟體生命週期總成本的 60% 到 80%。
為評估 AI 在長期程式碼維護中的表現,中山大學與阿里巴巴團隊聯合推出了 SWE‑CI 評測基準。這是全球首個專門評估 AI 智能體在長期程式碼維護表現的評測系統,它不再滿足於考察 AI 程式設計的「一次性正確」,而是評估 AI 是否像真正的軟體工程師一樣,在數月甚至數年的開發過程中持續保持程式碼品質。
SWE‑CI 基準測試的建構經過四層嚴格篩選,最終形成高品質評測集。
研究團隊先從 GitHub 全網的 Python 程式碼庫中篩選出維護三年以上、星標逾 500、包含依賴檔案和完整單元測試套件,以及採用 MIT/Apache‑2.0 等寬鬆協議的 4923 個程式碼庫;再提取依賴穩定、程式碼修改量逾 1000 行的提交配對,得到 8311 個候選樣本;透過自動建構 Docker 環境與自修復依賴機制,保留 1458 組可運行候選配對;最後經測試啟動校驗、通過率差異篩選、時間跨度與提交量排序,確定 100 項最終任務。
研究團隊精心建構的 100 項任務中,每項任務都對應著真實世界中一個軟體項目的完整進化歷程。這些項目平均橫跨 233 天的開發時間,包含 71 次連續的程式碼提交記錄。團隊還設計了一個精巧的「架構師 - 程式設計師」雙智能體協作機制。設計的靈感來自真實軟體團隊中常見的分工模式:架構師負責分析需求和制定技術方案,程式設計師負責具體的程式碼開發。
為適配長期迭代評測,SWE‑CI 提出了「歸一化變化」與「EvoScore(進化得分)」兩大核心指標。
「歸一化變化」以測試用例通過數為基礎,將程式碼狀態映射到 [-1,1] 區間,正向表示功能提升,負向表示出現功能退化。
EvoScore 更側重衡量 AI 大模型在未來修改任務中的表現。
實測結果:Claude Opus 斷層領跑
多數大模型在 75% 任務中會破壞原有程式碼
研究團隊對 8 家公司——月之暗面、Anthropic、智譜、千問、MiniMax、DeepSeek、OpenAI 和豆包——的 18 個主流 AI 大模型進行了系統性測試,累計消耗了超過 100 億 Token 的測試數據。這一實驗規模在 AI 程式設計評估領域堪稱史無前例。
研究結果顯示,從時間維度來看,AI 大模型在程式碼維護能力上的進化呈現出明顯的加速曲線。
從下圖可以發現,同一廠商的大模型新版本普遍穩定高於前一代,且 2026 年後的躍升幅度顯著擴大,EvoScore 更高。這表明,當前大模型的程式碼能力正從靜態缺陷修復,快速向持續、長期的程式碼維護演進。
8 家廠商的主流大模型在 SWE‑CI 測試中的 EvoScore 變化情況。圖片來源:論文截圖
在所有參評大模型中,Claude Opus 系列表現最為突出,從 Claude-opus-4.5 到 Claude-opus-4.6,其 EvoScore 躍升至約 0.9 的高位,明顯拉開了與所有競爭對手的差距。
中國的 AI 大模型中,智譜 GLM 系列進步顯著,成為第二梯隊中最具競爭力的選手。緊隨其後的是 Qwen 和 MiniMax,整體趨勢向好。而 Kimi 和豆包雖有提升,但缺乏突破。
研究還發現,不同廠商在大模型訓練策略上偏好存在明顯分化。
具體而言,MiniMax、DeepSeek 以及 OpenAI 的 GPT 系列大模型更偏好長期效益,顯示出其在長期程式碼維護任務中的優勢。這意味著,這類大模型在生成程式碼時,更傾向於採用有利於長期演進與穩定性的策略,而非追求短期修復的最優解。
相比之下,Kimi 與智譜 GLM 系列更偏向於短期見效的優化的路徑。
而千問、豆包以及 Claude 系列大模型則呈現出另一種特徵:其訓練策略在短期效果與長期維護之間取得了一定平衡。
隨著權重參數γ的變化,各個大模型的排名也隨之發生顯著調整。當γ>1 時,大模型排名越高,其程式碼庫維護能力越強。圖片來源:論文截圖
另外,研究還有一項關鍵發現:在長期程式碼維護中,所有大模型在有效控制性能退化(Regression)方面都表現不佳。
性能退化是衡量軟體品質穩定性的核心指標。如果某個單元測試在程式碼更新前已經通過,而更新後失敗了,則判定該變更觸發了性能退化。一旦出現性能退化,不僅會直接影響用戶體驗,在長期維護過程中,隨著修改次數累積,還可能導致系統品質系統性退化。
研究團隊測量了「零退化率」——即在整個維護過程中完全沒有破壞原有功能的任務比例。零退化率越高,維護的系統越穩定。
研究結果表明,在所有參與測試的 18 個大模型中,只有 Anthropic 的 Claude Opus 大模型保持了 50% 以上的零退化率,多數大模型的零退化率都低於 25%。
18 個大模型的零退化率(從低到高排序)。圖片來源:論文截圖
具體而言,Claude-opus-4.6 以 76% 的零退化率遙遙領先。這意味著在絕大多數測試場景中,其性能能夠保持穩定。Claude-opus-4.5 以 51% 位列第二。相比之下,Kimi-K2.5(37%)與 GLM-5(36%)表現接近,構成第二梯隊,雖具備一定穩定性,但與頭部大模型仍存在顯著差距。
包含 GPT-5.2、Qwen3.5-plus、MiniMax-M2.5 和 DeepSeek-V3.2 在內的其餘 14 個 AI 大模型的零退化率都在 25% 以下,這意味著在長期程式碼維護過程中,大模型在超過 75% 的任務中會破壞原本正常的程式碼功能,引發性能退化問題。
但從版本迭代的角度看,頭部廠商的 AI 大模型正快速進步。例如,Claude-opus 系列的「零退化率」從 4.5 版本的 51% 提升至 4.6 版本的 76%,智譜 GLM 系列從 GLM-4.6 和 GLM-4.7 的 14% 躍升至 GLM-5 的 36%。
但即便如此,絕大多數大模型仍難以在長期程式碼維護中杜絕性能退化問題,距離可靠的自動化長期開發仍有明顯差距。
SWECI 基準測試結果的發布,讓行業意識到,「寫程式碼」和「維護程式碼」是兩種截然不同的能力。對於大模型廠商而言,持續優化可維護性、性能退化控制、架構設計能力,或許將是贏得下半場競爭的關鍵。
(免責聲明:本文內容與數據僅供參考,不構成投資建議,使用前請核實。據此操作,風險自負。)