パフォーマンスが 42% 向上！中国人民大学と ByteDance が 10 万件規模の SWE データセット「Scale-SWE」をオープンソース化

こんにちは、PaperAgent です。Agent ではありませんよ！

このほど、大規模かつ高品質なソフトウェアエンジニアリング（SWE）データセットである「Scale-SWE」が正式にオープンソースとして公開されました。本プロジェクトは、独自に考案した「サンドボックス型マルチエージェント」ワークフローを採用し、膨大な GitHub リポジトリ群から発掘・構築された10 万件規模の実際の SWE タスクデータを生成することに成功しました。

本データセットを用いて蒸留およびファインチューニングを施した「Qwen3-30A3B-Instruct」モデルは、SWE-bench-Verified テストにおいて 64% という高得点を記録しました。これは、同規模のオープンソース学術モデルでさえも、GLM-4.7-Flash などの最先端な産業用モデルに匹敵する実力を備えていることを如実に証明するものです。

論文タイトル：『Immersion in the GitHub Universe: Scaling Coding Agents to Mastery』
論文リンク：https://arxiv.org/abs/2602.09892
コードリポジトリ：https://github.com/AweAI-Team/ScaleSWE
公開データ：https://huggingface.co/collections/AweAI-Team/scale-swe
Scaffold アドレス：https://github.com/AweAI-Team/AweAgent/tree/main/recipes/scale_swe

中核的優位性：なぜ「本物」の SWE データが重要なのか？

現在、データの規模拡大（スケーリング）を追求する業界では、自動化プロセスによる合成データの生成（SWE-smith や SWE-Mirror など）に依存する傾向がよく見られます。この手法であれば少数のリポジトリから瞬く間に数万件規模のデータを生成できますが、分析によると、合成データにはタイプ分布に極端な偏りがあるという問題が指摘されています。

データ比較により、実際のエンジニアリング現場と比較して、SWE-smith などの合成データセットのタスクは単純な論理エラー（Logic Error）に限定されるケースが大半であることが明らかになりました。対照的に Scale-SWE などの本物のデータセットでは、タスクカテゴリの分布がより包括的で均衡が取れており、ソフトウェアエンジニアリング領域が直面する実際の課題をより正確に反映させることができます。

技術的攻勢：本物データの規模拡大を阻む 3 大障壁の打破

従来、本物の SWE データセットを構築する際には、環境構成の極めて複雑さ、単体テストの欠如、問題記述（Problem Statement）におけるデータリークのリスクという 3 つの難関が存在しました。これに対し Scale-SWE は、サンドボックス環境下で動作するマルチエージェント連携メカニズムを画期的に導入しました。

1. 動的環境構築エージェント（Environment Builder Agent, EBA）

従来の環境構成は静的なルール（例：pip install -e .の実行など）に依存することが多く、GitHub 上に無数に存在する多様なリポジトリには対応しきれませんでした。EBA は隔離されたサンドボックス内でコードベースの構造を自律的に探索し、README.mdやpyproject.tomlといった設定ファイルを能動的に読み取ります。初期設定の後、自動的にテストスクリプトを実行し、実際のエラーフィードバックに基づいて修正を繰り返すことで、複雑な環境構成の完全自動化を実現します。

2. 単体テスト生成エージェント（Unit-test Creator Agent, UCA）

高品質なプルリクエスト（PR）の多くには、開発者による単体テストが添付されていないことが多く、その結果、貴重なコード記録の多くが過去の資産として見過ごされてきました。UCA は PR のコード変更（Diff）のみに基づき、Fail-to-Pass（F2P：失敗から成功へ）および Pass-to-Pass（P2P：成功から成功へ）のテストケースを自動的に作成します。異なるコミット間でこれらのテストを切り替えて実行することで、UCA は F2P テストケースの有効性を厳密に検証し、廃棄されていたデータを宝に変えることを可能にします。

3. 情報漏洩防止型問題記述エージェント（Problem Statement Writer Agent, PSWA）

一部の PR には関連する Issue が存在しないため、大規模言語モデルを用いて PR から直接問題記述を生成しようとすると、「バグの場所」や「具体的な解決策」が漏洩するリスクが極めて高くなります。関連するアブレーション実験により、問題記述の品質が SFT（教師ありファインチューニング）後のモデルのパフォーマンスに約 10% という多大な影響を与えることが実証されています。記述の完全性を保ちつつ正解の漏洩を防ぐため、本システムは指示への追従性が極めて高いGemini 3 Proモデルを呼び出し、厳格なプロンプト設計を施すことで、生成されるコンテンツが F2P テストと意味的に一貫し、不正の手がかりを一切含まないことを保証しています。

（注：関連する蒸留データの統計によると、Scale-SWE のデータを使用してタスクを実行する際、DeepSeek v3.2 はより多くの対話ターンとトークン数を消費することが示されています。これは、生成された問題記述において正解の漏洩が発生しておらず、十分な挑戦的難易度が維持されていることを間接的に証明するものです。）

評価結果：規模と品質の二重の検証

Scale-SWE の実効性を検証するため、プロジェクトチームは DeepSeek v3.2 を使用してデータ蒸留を実施し、71,000 件の有効な軌跡データを正常に取得。これを Qwen3-30A3B-Instruct の教師ありファインチューニングに活用しました。

実験による評価結果からは、以下のハイライトが浮かび上がりました。

ベースラインの大幅向上：同規模のパラメータ数を持つ基盤モデル（Qwen3-Coder-30A3B）や産業用大規模モデル（GLM-4.7-Flash-30A3B）と比較し、Scale-SWE で訓練されたモデルは性能において顕著な飛躍を遂げました。
階級を超えた超越：そのテスト性能は、KAT-Dev-32B や SWE-Lego-32B など、他のデータセットで訓練されたモデルさえも凌駕する結果となりました。

さらに、横断的な比較結果によれば、同一の蒸留プロセスの下では、合成データである SWE-smith は SWE-Gym を数量面で大きく上回るものの、最終的な効果においては両者に大差が見られませんでした。対照的に Scale-SWE は、膨大かつ本物の高品質データという規模を武器に、他を圧倒するリーディングアドバンテージを示しました。

Scale-SWE の公開は、ソフトウェアエンジニアリング（SWE）分野における AI 研究のため、より強固なデータインフラ基盤を築くことを目的としています。すぐに使用可能な膨大な実際データと蒸留軌跡を提供する本オープンソースプロジェクトは、この分野の研究参入障壁を大幅に下げることが期待されています。研究者および開発者の皆様には、詳細の確認と導入のため、GitHub リポジトリまたは Hugging Face ページへのアクセスを心よりお勧めいたします。