效能飆升 42%！人大與字節開源 10 萬級 SWE 資料集 Scale-SWE

大家好，我是 PaperAgent，不是 Agent！

近期，大規模且具備高品質的軟體工程（SWE）資料集——Scale-SWE 正式對外開源。該專案透過首創的「沙盒多智慧體」（Sandboxed Multi-Agent）工作流程，成功從海量 GitHub 儲存庫中挖掘並構建了達到 100k 級別的真實 SWE 任務資料。

基於該資料集蒸餾後微調的 Qwen3-30A3B-Instruct 模型，在 SWE-bench-Verified 測試中斬獲 64% 的高分。這有力印證了同等規模的開源學術模型完全具備挑戰 GLM-4.7-Flash 等前沿工業級模型的實力。相關評測基準詳見：Agent 搜尋哪家強？人大高瓴&快手聯合發布全新評測基準 GISA

論文題目：《Immersion in the GitHub Universe: Scaling Coding Agents to Mastery》
論文連結：https://arxiv.org/abs/2602.09892
程式碼倉庫：https://github.com/AweAI-Team/ScaleSWE
開源資料：https://huggingface.co/collections/AweAI-Team/scale-swe
Scaffold 位址：https://github.com/AweAI-Team/AweAgent/tree/main/recipes/scale_swe

核心優勢：為何「真實」SWE 資料至關重要？

當前，為了追求資料的規模化（Scaling），業界經常依賴自動化流程生成合成資料（例如 SWE-smith 和 SWE-Mirror）。儘管這種方式能夠基於少量儲存庫迅速產出數以萬計的資料，但分析指出，合成資料往往存在類型分佈極度失衡的問題。

資料對比表明，與真實工程場景相比，合成資料集（如 SWE-smith）的任務絕大多數局限於簡單的邏輯錯誤（Logic Error）。反观 Scale-SWE 等真實資料集，其任務類別分佈更加全面均衡，能夠更精準地映射出軟體工程領域所面臨的實際挑戰。

技術攻堅：破解真實資料 Scaling 的三大壁壘

以往，在構建真實 SWE 資料集時，通常會遇到環境配置極度複雜、單元測試缺失以及問題描述（Problem Statement）容易產生資料洩漏等三大難關。為此，Scale-SWE 創新性地引入了一套運行於沙盒環境下的多智慧體協作機制：

1. 動態環境建構智慧體 (Environment Builder Agent, EBA)

傳統的環境配置往往依賴靜態規則（如直接執行 pip install -e .），難以應對 GitHub 上千差萬別的真實儲存庫。EBA 能夠在一個隔離的沙盒中自主探索程式碼庫結構，主動讀取 README.md 或 pyproject.toml 等配置文件。在初步配置後，它會自動執行測試腳本，並根據真實的報錯反饋不斷迭代修正，最終實現複雜環境配置的全面自動化。

2. 單元測試生成智慧體 (Unit-test Creator Agent, UCA)

許多高品質的 Pull Request (PR) 往往缺少開發者附帶的單元測試，這導致大量珍貴的程式碼記錄在過去的工作中被直接遺棄。UCA 能夠直接根據 PR 的程式碼變更（Diff），自動編寫包含 Fail-to-Pass (F2P) 和 Pass-to-Pass (P2P) 的測試用例。透過在不同 commit 間切換運行這些測試，UCA 能夠嚴格驗證 F2P 用例的有效性，從而變廢為寶。

3. 防洩漏問題描述智慧體 (Problem Statement Writer Agent, PSWA)

由於部分 PR 缺乏關聯的 Issue，如果直接利用大模型根據 PR 生成問題描述，極容易洩露「Bug 所在位置」或「具體解決方案」。相關消融實驗證實，問題描述的品質對 SFT（監督微調）後模型的表現有著近 10% 的巨大影響。為了在保證描述完整性的同時防止答案洩漏，該系統調用了指令遵循能力極強的 Gemini 3 Pro 模型，並輔以嚴格的 Prompt 設計，以確保生成的內容在語義上與 F2P 測試保持一致，且不帶入任何可能作弊的線索。

（註：相關蒸餾資料統計顯示，在使用 Scale-SWE 的資料進行任務時，DeepSeek v3.2 需要消耗更多的對話輪次和 Token 數。這從側面證實了生成的問題描述並沒有發生答案洩漏，依然保持了充分的挑戰難度。）

評測表現：規模與品質的雙重驗證

為了檢驗 Scale-SWE 的實際效用，專案組使用 DeepSeek v3.2 開展了資料蒸餾，成功獲取了 71k 條有效軌跡，並将其用於對 Qwen3-30A3B-Instruct 的監督微調。

實驗評測結果呈現出以下亮點：

基線大幅提升：與同等參數規模的基座模型（Qwen3-Coder-30A3B）以及工業級大模型（GLM-4.7-Flash-30A3B）相比，基於 Scale-SWE 訓練的模型性能實現了顯著的飛躍。
跨級別超越：其測試表現甚至超越了 KAT-Dev-32B 以及採用 SWE-Lego-32B 等其他資料集訓練的模型。

此外，橫向對比結果顯示，在一致的蒸餾流程下，儘管合成資料 SWE-smith 在數量上遠超 SWE-Gym，但兩者的最終效果卻相差無幾。相反，Scale-SWE 憑藉其龐大且真實的高品質資料規模，展現出了斷層式的領先優勢。

Scale-SWE 的發布，旨在為軟體工程（SWE）方向的 AI 研究奠定更為堅實的資料基礎設施。透過提供開箱即用的海量真實資料和蒸餾軌跡，該開源專案有望大幅降低該領域的研究門檻。歡迎廣大研究者與開發者前往其 GitHub 倉庫或 Hugging Face 頁面獲取詳情並投入使用。