效能飆升 42%!人大與字節開源 10 萬級 SWE 資料集 Scale-SWE

大家好,我是 PaperAgent,不是 Agent!

近期,大規模且具備高品質的軟體工程(SWE)資料集——Scale-SWE 正式對外開源。該專案透過首創的「沙盒多智慧體」(Sandboxed Multi-Agent)工作流程,成功從海量 GitHub 儲存庫中挖掘並構建了達到 100k 級別的真實 SWE 任務資料。

Scale-SWE 架構示意圖

基於該資料集蒸餾後微調的 Qwen3-30A3B-Instruct 模型,在 SWE-bench-Verified 測試中斬獲 64% 的高分。這有力印證了同等規模的開源學術模型完全具備挑戰 GLM-4.7-Flash 等前沿工業級模型的實力。相關評測基準詳見:Agent 搜尋哪家強?人大高瓴&快手聯合發布全新評測基準 GISA

模型效能對比圖
論文題目:《Immersion in the GitHub Universe: Scaling Coding Agents to Mastery》
論文連結:https://arxiv.org/abs/2602.09892
程式碼倉庫:https://github.com/AweAI-Team/ScaleSWE
開源資料:https://huggingface.co/collections/AweAI-Team/scale-swe
Scaffold 位址:https://github.com/AweAI-Team/AweAgent/tree/main/recipes/scale_swe

核心優勢:為何「真實」SWE 資料至關重要?

當前,為了追求資料的規模化(Scaling),業界經常依賴自動化流程生成合成資料(例如 SWE-smith 和 SWE-Mirror)。儘管這種方式能夠基於少量儲存庫迅速產出數以萬計的資料,但分析指出,合成資料往往存在類型分佈極度失衡的問題

資料對比表明,與真實工程場景相比,合成資料集(如 SWE-smith)的任務絕大多數局限於簡單的邏輯錯誤(Logic Error)。反观 Scale-SWE 等真實資料集,其任務類別分佈更加全面均衡,能夠更精準地映射出軟體工程領域所面臨的實際挑戰。

合成資料與真實資料分佈對比圖

技術攻堅:破解真實資料 Scaling 的三大壁壘

以往,在構建真實 SWE 資料集時,通常會遇到環境配置極度複雜、單元測試缺失以及問題描述(Problem Statement)容易產生資料洩漏等三大難關。為此,Scale-SWE 創新性地引入了一套運行於沙盒環境下的多智慧體協作機制:

1. 動態環境建構智慧體 (Environment Builder Agent, EBA)

傳統的環境配置往往依賴靜態規則(如直接執行 pip install -e .),難以應對 GitHub 上千差萬別的真實儲存庫。EBA 能夠在一個隔離的沙盒中自主探索程式碼庫結構,主動讀取 README.mdpyproject.toml 等配置文件。在初步配置後,它會自動執行測試腳本,並根據真實的報錯反饋不斷迭代修正,最終實現複雜環境配置的全面自動化。

2. 單元測試生成智慧體 (Unit-test Creator Agent, UCA)

許多高品質的 Pull Request (PR) 往往缺少開發者附帶的單元測試,這導致大量珍貴的程式碼記錄在過去的工作中被直接遺棄。UCA 能夠直接根據 PR 的程式碼變更(Diff),自動編寫包含 Fail-to-Pass (F2P) 和 Pass-to-Pass (P2P) 的測試用例。透過在不同 commit 間切換運行這些測試,UCA 能夠嚴格驗證 F2P 用例的有效性,從而變廢為寶。

3. 防洩漏問題描述智慧體 (Problem Statement Writer Agent, PSWA)

由於部分 PR 缺乏關聯的 Issue,如果直接利用大模型根據 PR 生成問題描述,極容易洩露「Bug 所在位置」或「具體解決方案」。相關消融實驗證實,問題描述的品質對 SFT(監督微調)後模型的表現有著近 10% 的巨大影響。為了在保證描述完整性的同時防止答案洩漏,該系統調用了指令遵循能力極強的 Gemini 3 Pro 模型,並輔以嚴格的 Prompt 設計,以確保生成的內容在語義上與 F2P 測試保持一致,且不帶入任何可能作弊的線索。

防洩漏機制流程圖

(註:相關蒸餾資料統計顯示,在使用 Scale-SWE 的資料進行任務時,DeepSeek v3.2 需要消耗更多的對話輪次和 Token 數。這從側面證實了生成的問題描述並沒有發生答案洩漏,依然保持了充分的挑戰難度。)

評測表現:規模與品質的雙重驗證

為了檢驗 Scale-SWE 的實際效用,專案組使用 DeepSeek v3.2 開展了資料蒸餾,成功獲取了 71k 條有效軌跡,並将其用於對 Qwen3-30A3B-Instruct 的監督微調。

資料蒸餾流程圖

實驗評測結果呈現出以下亮點:

  1. 基線大幅提升:與同等參數規模的基座模型(Qwen3-Coder-30A3B)以及工業級大模型(GLM-4.7-Flash-30A3B)相比,基於 Scale-SWE 訓練的模型性能實現了顯著的飛躍。
  2. 跨級別超越:其測試表現甚至超越了 KAT-Dev-32B 以及採用 SWE-Lego-32B 等其他資料集訓練的模型。
各模型效能對比長條圖

此外,橫向對比結果顯示,在一致的蒸餾流程下,儘管合成資料 SWE-smith 在數量上遠超 SWE-Gym,但兩者的最終效果卻相差無幾。相反,Scale-SWE 憑藉其龐大且真實的高品質資料規模,展現出了斷層式的領先優勢。

Scale-SWE 的發布,旨在為軟體工程(SWE)方向的 AI 研究奠定更為堅實的資料基礎設施。透過提供開箱即用的海量真實資料和蒸餾軌跡,該開源專案有望大幅降低該領域的研究門檻。歡迎廣大研究者與開發者前往其 GitHub 倉庫或 Hugging Face 頁面獲取詳情並投入使用。

延伸閱讀


分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.