オープンソースフレームワークがコードAIにGitHubから学習!バグ修正率が69.8%に急上昇、性能が記録を更新

MemGovernチーム 投稿 量子位 | 公众号 QbitAI

人間のプログラマーが難しいバグに直面した場合、通常はインターネットで先輩の経験を検索します。

現在のAIはインターネット検索機能を備えつつありますが、ネットワーク経験からバグ修正能力をうまく学ぶことはできません。

AIに人間のプログラマーの作業フローを学ばせることで、バグ修正能力を向上させるのに役立つかもしれません。この考えに基づいて、MemGovernというプロジェクトチームが試みたところ、最近良好な成果が得られました。

自動化ソフトウェア工学(SWE)の分野では、大規模言語モデル駆動のコードエージェント(Code Agents)がプログラミングパラダイムに変革をもたらしましたが、現在、一般的に「閉じた世界」という認知的限界に直面しています。既存のエージェントは、ゼロからバグを修正しようとしたり、リポジトリ内の局所的なコンテキストに依存したりする傾向があり、GitHubなどのプラットフォームに蓄積された膨大な人間の歴史的経験を無視しています。

実際、人間のエンジニアは複雑な問題を解決する際、オープンソースコミュニティを検索し、類似した問題の歴史的解決策を参考にします。

しかし、エージェントにこれらの「開かれた世界」の経験を直接利用させることは非常に挑戦的です。なぜなら、実際のIssueやPull Request(PR)データには、構造化されていない社交的なノイズ、あいまいな説明、断片化された情報が溢れているからです。

この障壁を突破するため、最先端のオープンソース学術コミュニティであるQuantaAlphaは、中国科学院大学(UCAS)、新加坡国立大学(NUS)、北京大学(PKU)、华东师范大学(ECNU)などのチームと連携し、MemGovernフレームワークを提案しました。

このフレームワークは、単純な検索拡張(RAG)のアプローチを採用せず、完全な「経験精錬」メカニズムを提案しています。これは、雑多なGitHubデータをエージェントに友好的な構造化された記憶に変換し、Deep Researchの思想を組み合わせて「経験的記憶検索」戦略を考案し、歴史的経験から再利用可能な修正ロジックを抽出する閉ループを実現しました。

画像

画像

核心的な課題:膨大なデータ=利用可能な知識ではない

既存のCode Agent(SWE-Agentなど)は、複雑なバグを処理する際、歴史的な記憶が欠如しているため、「どうすればいいかわからない」状況に陥りがちです。GitHubは巨大な宝庫ですが、IssueやPRをAIに直接投げかけると効果がよくないのは、以下の理由によります:

1.ノイズが非常に大きい:元の議論には、「感謝」「マージリクエスト」など無関係な社交用語が溢れています。2.非構造化:異なるプロジェクトのログ、エラー情報、修正ロジックが混在しており、統一されたフォーマットがありません。3.検索が困難:単純な意味一致は表面的なキーワードに惑わされやすく、深層的な修正ロジックに到達できません。

MemGovernの登場は、これらの「生データ」をAIが実際に使える「経験カード」に変えるためのものです。

経験精錬メカニズム(Experience Refinement Mechanism)

MemGovernは、元のGitHub IssueやPRをエージェントに直接渡すのではなく、階層的な選択と内容浄化のパイプラインを構築しました。

  • 階層的選択(Hierarchical Selection):まず、Star数とメンテナンス活発度(Issue/PR頻度)を総合的に考慮して、高品質なリポジトリソースを絞り込みます。次に、インスタンスレベルで厳格なクリーニングを行い、完全な証拠チェーン(問題-コード-検証)を含む「閉ループ」の修正記録のみを保持します。

  • 標準化経験カード(Experience Card):これはMemGovernの独創的な設計です。元の記録は標準化された経験カードに再構成され、各カードは明示的に2つの層に分解されます:

    • 索引層(Index Layer):標準化された問題要約と重要な診断シグナル(異常タイプ、エラーシグネチャなど)を含み、症状に基づく効率的な検索に使用されます。
    • 解決層(Resolution Layer):根本原因分析(Root Cause)、修正戦略(Fix Strategy)、パッチ要約(Patch Digest)、検証方法(Verification)をカプセル化しています。

この構造化された設計は、検索シグナルと推論ロジックの混同を効果的に解決し、知識の可用性を大幅に向上させました。現在、チームは135,000件の高信頼性経験カードからなる知識ベースを正常に構築しています。

画像

エージェント型経験検索(Agentic Experience Search):人間のようにドキュメントを「検索-閲覧」する

従来のRAG(検索拡張生成)は、一度に検索結果をモデルに押し込むことが多く、コンテキストが長くなり、ノイズに満ちてしまいます。MemGovernは、より人間の直感に合ったSearch-then-Browse(先に検索してから閲覧する)モードを採用しています:

  • Searching(検索)
    エージェントはまず、現在のバグの症状(エラースタックなど)に基づいて索引層で広範囲に検索し、関連する可能性のある候補ケースを迅速に特定します。
  • Browsing(閲覧)
    エージェントは自主的に最も有望なケースを選択し、詳細な「解決策層」を確認します。このメカニズムにより、エージェントは修正ロジックを深く理解し、無関係な干渉を除外できます。
  • 移行と適用
    エージェントは、歴史的ケースから抽象的な修正戦略(「境界チェックの追加」など)を現在のコードベースにマッピングし、知識の移行を実現します。

実験評価:主要なベースラインを全面的に超越

研究チームはSWE-bench Verified上で詳細な評価を行いました。結果は、MemGovernがすべてのテストモデルで有意な向上を達成したことを示しています。

主要な実験結果(Pass@1修正率):

  • Claude-4-Sonnet+MemGovern
    修正率は69.8%に達し、ベースラインのSWE-Agent相比で3.2%向上しました。
  • GPT-4o+MemGovern
    修正率が23.2%から急上昇し、32.6%となり、9.4%の大きな向上を実現しました。
  • DeepSeek-V3+MemGovern
    修正率は65.8%に向上しました。

画像

実験データは、MemGovernの向上が安定しており、モデルに依存しないことを明確に示しています。基礎能力が弱いモデルに対して、MemGovernが提供する外部経験は、より顕著な性能向上をもたらします。

消去実験による検証:

画像

  • 記憶規模の影響
    経験カードの数を10%から100%に増やすにつれて、エージェントの修正率は単調に上昇し、大規模な経験記憶の有効性が証明されました。
  • 精錬の重要性
    元のIssue/PRデータ(Raw Experience)を直接使用する場合と比較して、「精錬」された経験カードはより安定し、高い性能向上をもたらし、構造化されたガバナンスの必要性を証明しました。

ケース分析:経験が結果をどう変えるか?

Djangoフレームワークの実際のバグ(order byによるクラッシュ)において、MemGovernの価値を明確に見ることができます。

画像

画像

従来のエージェント(経験なし):

経験のないエージェントは、エラーの表象しか見ることができません。

それは「防御的プログラミング」の戦略を採用し、エラーを回避するために単純にタイプチェックを追加しました。しかし、これは実際には関数のAPI仕様に違反しています。それは、期待される処理結果ではなく、誤った元のオブジェクトを返しました。

この「耳を塞ぐ」ような修正は、一時的に実行時のエラーを消去しましたが、データタイプの不一致により、下流のコア機能が無効になり、最終的にテストケースを通過できませんでした。

MemGovernエージェント:

エージェントは、類似した歴史的経的経験を検索しました。

経験カードの「修正戦略」には明確に記載されていました。「オブジェクトを単に回避するのではなく、明示的なタイプチェックを行い、フィールド名を抽出する必要があります」。

この指針に基づいて、エージェントは完璧な修正コードを作成し、クラッシュを修正し、元の機能を保持しました。

経験の再構築

MemGovernの提案は、性能指標の突破だけでなく、AIエージェントが大量の非構造化された人間のデバッグ経験を有効に利用する方法を明確に示した点がより重要です。

それは、GitHub上の雑多な元のIssueとPRを、経験加工後、検索可能、検証可能、移行可能な「経験記憶」として見なすことができ、ノイズに満ちた「干渉データ」ではないことを証明しました。これは、エージェントの閉じた世界の制限を打破し、複雑な現実世界のバグを解決する強力なパラダイムです。

将来、MemGovernが開拓した経験再構築パラダイムの可能性は、コード分野に限定されません。

非構造化された人間の専門経験を機械可読な記憶に変換するこの方法は、極めて普遍性と拡張価値を持っています。これは、歴史的ケースと専門家経験に高度に依存する法律相談、医療診断などの垂直分野に、標準化されたテンプレートを提供します。

MemGovernの理念がコードリポジトリを出て、「過去を参考にして」より多くの複雑な知的タスクを完了し、分野横断的で汎用的なエージェント記憶インフラの構築の基盤を築くことを期待しています。

論文タイトル:

MemGovern: Enhancing Code Agents through Learning from Governed Human Experiences論文リンク:

https://arxiv.org/abs/2601.06789オープンソースコード:

https://github.com/QuantaAlpha/MemGovern

QuantaAlphaについて

QuantaAlphaは2025年4月に設立され、清華大学、北京大学、中国科学院、CMU、香港科技大学などの有名大学の教授、博士研究員、博士、修士で構成されています。私たちの使命は、知能の「量子」を探求し、エージェント研究の「アルファ」の先端をリードすることです。CodeAgentから自己進化知能、金融および分野横断専門エージェントまで、AIの境界を再構築することに尽力しています。

2026年、私たちはCodeAgent(実世界タスクのエンドツーエンド自律実行)、DeepResearch、AgenticReasoning/Agentic RL、自己進化と協調学習などの方向で、高品質な研究成果を継続的に発表します。私たちの方向性に関心のある学生の参加を歓迎します!

チームホームページ:

https://quantaalpha.github.io/

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

我们正在招聘一名眼疾手快、关注AI的学术编辑实习生🎓

感兴趣的小伙伴欢迎关注 👉 了解详情

画像

🌟 点亮星标 🌟

科技前沿进展每日见


分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.