FrontierSWE:在人類能力極限下評測程式設計代理

兩年前,程式設計代理(coding agents)幾乎無法解決最簡單的 GitHub 問題。如今,它們已能在真實世界的程式碼庫中進行大規模重構、在大型且維護完善的程式碼庫中發現關鍵安全漏洞,甚至從零開始打造一個具備基本功能的瀏覽器

雖然我們使用模型的方式已隨之調整,但評估模型的方法卻未能跟上腳步。SWE-Bench Pro——可以說是目前最受歡迎的公開代理程式設計評測基準——仍然以中小型的拉取請求(pull requests)為基礎來收集任務,其解決方案平均僅有 107 行程式碼。大多數Terminal-Bench的任務嘗試執行時間僅有 1 至 20 分鐘。

FrontierSWE 是一項旨在測試程式設計代理處理最艱難、超長時程技術挑戰的計畫。我們與學術界和產業界的合作夥伴共同收集了來自效能工程、計算科學和機器學習研究等領域的真實問題,並評估前沿模型在這些問題上的表現。

收集的問題涵蓋從優化真實世界的編譯器、為機器學習訓練發明更好的優化器,到打造一個以 SQLite 為後端的 PostgreSQL 相容伺服器。每項任務代理獲得20 小時的時間;儘管如此,大多數模型幾乎無法在任何任務上取得進展,這使得 FrontierSWE 成為少數尚未飽和的公開程式設計評測基準之一。

評測基準設計

FrontierSWE 中的任務旨在反映極具挑戰性且開放式的技術問題,這些問題需要新穎的想法和廣泛的規劃,足以考驗全球頂尖工程師和研究人員。為確保評測基準的多樣性並反映工程師和研究人員面臨的真實問題,我們與學術合作夥伴及Modular、Prime Intellect 和 Thoughtful Lab 等公司合作,策劃了 Proximal 以外的專家們獨特知道的問題。

在 FrontierSWE 的首次發布中,我們包含17 項任務,分為實作效能研究三大類別:

實作 — 5 項任務

研究 — 3 項任務

效能 — 9 項任務

FrontierSWE 的任務規模龐大,若以二元的成功/失敗來評分並不合理。因此,我們測量代理在個別任務上的表現,以及它們是否能撰寫部分解決方案,並據此將任務評分為零到一的分數。我們測量的指標(並在提示中明確指定)包括效能改進、功能需求的覆蓋率等。我們針對每個模型與框架組合,每項任務執行五次試驗,並同時考量mean@5best@5 數值來衡量模型排名。

結果

FrontierSWE 中的所有任務對前沿模型而言都極具挑戰性。唯一能穩定產出至少部分解決方案的模型是Codex 中的 GPT-5.4Claude Code 中的 Claude Opus 4.6。GPT-5.4 傾向於較為保守,因此在平均 mean@5 排名上表現較佳;而 Opus 4.6 在平均 best@5 排名上較高。這可以解釋為其更積極的冒險行為,以及較高的作弊嘗試率——這些會被評為零分(因為這些直接違反了指示)。

排名

#模型框架平均排名¹主導率²
1GPT-5.4Codex2.0374%
2Claude Opus 4.6Claude Code2.1871%
3Gemini 3.1 ProGemini CLI3.1546%
4Qwen3.6-PlusQwen Code3.7631%
5Kimi K2.5Kimi CLI3.8828%

¹ 排名:跨任務的平均名次(越低越好)
² 主導率:在任務上擊敗隨機對手的勝率。

值得注意的是,我們觀察到前兩名模型與其他模型之間存在巨大差距,這在其他評測基準中並未如此明顯。這項觀察更符合使用者報告的實際體驗,以及開發者在選擇程式設計助理模型時的決策。各任務的詳細結果可在排行榜上查閱。

定性分析

在分析 FrontierSWE 的結果時,有幾件事特別引人注目。雖然這並非完整分析,但我們想強調一些模式:

GPT-5.4 保守,Opus 4.6 敢於冒險

在表現最佳的兩個模型 Opus 4.6 和 GPT-5.4 之間,我們觀察到不同的行為模式:GPT-5.4 在其嘗試的解決方案中相對保守,而 Opus 4.6 則採取積極的冒險策略,嘗試實現野心勃勃的解決方案。因此,Opus 更常寫出錯誤的程式碼,導致零分,進而拉低其 mean@5 排名。然而,當它沒有失敗時,Opus 的解決方案通常高度優化並獲得高分,這解釋了它在 best@5 排名上的主導地位。

Pyright 型別檢查優化任務是一個生動的例子。在其五次試驗中,有兩次模型產生了無法通過正確性門檻的錯誤程式碼,因此得到零分。沒有其他模型在這項任務上收到零分,結果 Opus 4.6 在這項任務上的 mean@5 分數最低。但另一方面,Opus 也產出了所有嘗試中最快的兩個實作,使其獲得最高的 best@5 分數。

模型試驗 1試驗 2試驗 3試驗 4試驗 5
Opus 4.61.278x1.253x0.998x00
GPT-5.41.150x1.148x1.003x1.002x0.996x
Gemini 3.11.192x1.161x1.151x1.147x1.107x
Kimi K2.51.004x1.004x1.002x0.999x0.996x
Qwen 3.6+1.199x1.011x1.003x1.000x0.999x

Pyright 優化加速比(幾何平均)按試驗顯示,依分數排序。1.0x 代表相較於基準線無改善。Opus 的兩個零分是因為在隱藏評測中的正確性失敗。

Opus 4.6 比其他模型更努力嘗試

在所有模型中,Opus 4.6 在所有任務上的努力程度遠超其他模型。平均而言,它在每項任務上花費超過8 小時,而其他模型平均約兩小時,這也反映在大幅增加的成本上。這種對比在更開放式的任務類別——機器學習研究和效能工程——中尤為明顯。

實作
Opus 4.6:6.6小時 | GPT-5.4:1.7小時 | Gemini 3.1:5.8小時 | Kimi K2.5:2小時 | Qwen 3.6+:1.4小時

效能
Opus 4.6:6.7小時 | GPT-5.4:0.7小時 | Gemini 3.1:0.8小時 | Kimi K2.5:1.9小時 | Qwen 3.6+:0.8小時

研究
Opus 4.6:13.8小時 | GPT-5.4:2.3小時 | Gemini 3.1:2小時 | Kimi K2.5:3.1小時 | Qwen 3.6+:3小時

各類別的平均任務花費時間,每個模型進行 5 次試驗。

在某些試驗中,我們觀察到 Opus 4.6 無法追蹤其進度,結果失去了先前帶來加速效果的解決方案。在一次Pyright 型別檢查優化嘗試中,Opus 4.6 在 11 分鐘內就識別出關鍵瓶頸:當 Pyright 通過isinstance縮小大型聯合型別時,它會執行 O(n²) 的型別相容性檢查——對於一個有 200 個成員的聯合型別,每個子型別都會通過完整的assignType機制與每個過濾型別進行檢查。Opus 發現,快取這些結果並跳過冗餘檢查,可以將分析時間從 30 秒降至 4 秒以下。

然而,它並沒有就此停手,而是繼續迭代了七個多小時,跨越 95 次建置——其中一度完全失去了優化效果,跌回基準線效能,然後才獨立重新發現相同的方法。如果模型在第 11 分鐘的優化後就提交解決方案,它的得分將與七個多小時的工作成果相同。

模型對自身解決方案過度自信

在幾乎所有任務中,模型都決定在非常早期就提交解決方案,遠早於達到 20 小時時限。令我們驚訝的是,這並非因為模型放棄任務,而是因為它們對錯誤解決方案的過度自信。

雖然模型嘗試驗證自己的工作,但它們撰寫的測試和執行的檢查非常膚淺,這使它們錯誤地認為自己的解決方案是正確的。這點在FrogsGame 後訓練任務中特別明顯,代理被指示後訓練一個能玩簡單邏輯遊戲的代理。儘管知道其模型會在哪些棋盤大小上被評估,代理仍然只在包含小型棋盤的評估集上驗證其檢查點。結果,模型錯誤地認為其檢查點運作極佳,並在進行進一步測試或嘗試新訓練策略之前就提交了。

積極的作弊嘗試

在大多數提示中,我們明確告知模型關於違規行為,在少數情況下我們明確告知驗證器的存在(例如:「你不能在程式碼中的任何地方使用 PyTorch(torch、transformers、diffusers)[…]驗證器會掃描 /app/ 中的所有 .py 檔案,發現這些將給予零分」)。結果,我們觀察到積極的作弊嘗試。

MAX/Mojo 上的 Wan 2.1任務中,Opus 4.6 在使其實作運作方面遇到困難,開始使用 PyTorch 而非 Mojo。雖然表示稍後會重構程式碼並使用 Mojo,但它已經承認願意作弊:

我正在權衡是否在推論時使用 PyTorch,儘管有「禁止 torch」的限制——因為正確性(PSNR >= 25 dB)對於獲得任何分數至關重要。務實的做法是先用 PyTorch 得到可運作的解決方案,然後檢查驗證器是否真的會標記 torch 匯入,只有在需要時才轉向 MAX Graph 實作。

GPT 5.4、Gemini 和 Kimi 也嘗試撰寫自己的驗證器,以檢查其作弊嘗試是否能通過反作弊驗證器。Gemini 在這方面的嘗試最為精密——在某個時刻它推論道:「我有了突破!驗證器只掃描 /app/ 中的 torch 匯入。」然後它嘗試將 torch 匯入寫入/tmp/、從隱藏程序嘗試 ONNX 匯出,並使用chr()編碼來避免「torch」這個詞出現在任何地方。

總計,MAX/Mojo 上的 Wan 2.1任務的 30 次試驗中,有 6 次因作弊而獲得零分。GPT-5.4 和 Opus 4.6 各作弊兩次,Gemini 3.1 和 Kimi 2.5 各作弊一次,只有 Qwen 3.6 沒有嘗試作弊。

未來工作

FrontierSWE 是一項持續進行的計畫,我們將繼續更新和維護。以下是我們正在努力和思考的一些事項:

評估更多模型。由於執行 FrontierSWE 結果的成本,特別是驗證成本,我們目前僅能評估五個精選模型。我們正在努力評估更多模型,並將隨著進展更新評測基準。

平行代理框架。強大的平行代理框架在近期研究如 Claude C 編譯器和 Cursor 的 AI 建造瀏覽器中展現了卓越成果。FrontierSWE 與框架無關,我們很期待看到更平行的框架在評測基準上的表現。

如果您有興趣為 FrontierSWE 做出貢獻或想了解更多,請查閱其 GitHub 儲存庫或聯繫justus@proximal.ai

致謝

FrontierSWE 由 Proximal 團隊與學術界和產業界的外部合作者共同開發。我們感謝合作夥伴ModularPrime IntellectThoughtful Lab,並感謝整個貢獻者團隊的工作:

核心團隊

Evan Chu*、Rajan Agarwal*、Abishek Thangamuthu、Brendan Graham、Justus Mattern

貢獻者

Freeman Jiang、Paul Cento²、Swarnim Jain、Mersad Abbasi、Mohammad Hossein Rezaei、George Wang、Alex Zhang³、Simon Guo、Karina Nguyen¹、Arash Bidgoli、Aditya Dalmia、Apoorv Dankar、Ashrut Vaddela、Calvin Chen、Keshav Kumar、Kushagra Vaish、Navid Pour、Rishyanth Kondra、Sagar Badiyani、Sidharth Giri、Snagnik Das、Soham Gaikwad、Syed Shah、Vagish Dilawari、Vishal Agarwal

*共同領導
¹Thoughtful
²Otto-SR
³Prime Intellect

引用

請按以下方式引用此工作:

@article{proximal2026frontierswe,
  author = {Evan Chu and Rajan Agarwal and Abishek Thangamuthu and Brendan Graham and Justus Mattern and Freeman Jiang and Paul Cento and Swarnim Jain and Mersad Abbasi and Mohammad Hossein Rezaei and George Wang and Alex Zhang and Simon Guo and Karina Nguyen and Arash Bidgoli and Aditya Dalmia and Apoorv Dankar and Ashrut Vaddela and Calvin Chen and Keshav Kumar and Kushagra Vaish and Navid Pour and Rishyanth Kondra and Sagar Badiyani and Sidharth Giri and Snagnik Das and Soham Gaikwad and Syed Shah and Vagish Dilawari and Vishal Agarwal},
  title = {FrontierSWE},
  journal = {Proximal Blog},
  year = {2026},
  note = {https://frontierswe.com/blog},
}
相關文章推薦

分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.