大規模言語モデルに「継続的に新知識を注入」する北航 CASE フレームワーク：1000 回の編集で記憶喪失を起こさず、追加パラメータは 1MB 未満丨 WWW'26

「スターバックスの CEO が交代した」「最新の研究成果が発表された」……。

大規模言語モデル（LLM）が継続的に新しい知識を吸収する必要がある際、何度か更新を繰り返すと、往々にして以下の 2 つのジレンマに陥ります。

パラメータの更新が衝突して以前の知識を忘却してしまうか、忘却を避けるために大量のパラメータを追加してしまい、計算リソースを大量に消費してしまうかのいずれかです。

北京航空航天大学（北航）のチームが最新に提案したCASE フレームワークは、この問題に対する一つの解決策を示しています。各編集に「スコア」を付け、衝突する知識は分離して保存し、衝突しないものは共有空間に格納します。同時に、現在の知識に対して最も感度の高い「重要なニューロン」のみを調整し、無関係なパラメータが干渉されるのを防ぎます。

この手法は、大規模言語モデルの「生涯モデル編集（Lifelong Model Editing）」という任務の中核的な痛みを効果的に解決するものです。本研究成果は論文『CASE: Conflict-assessed Knowledge-sensitive Neuron Tuning for Lifelong Model Editing』としてまとめられ、国際的なトップカンファレンスであるWWW 2026（The ACM Web Conference 2026）に採択されました。

概念図

実験の結果、LLM に対して 1000 回の連続した知識編集を行った後、CASE は既存の最良手法と比較して平均精度が約 10% 向上し、かつパラメータ効率も維持したままであることが示されました。追加されるパラメータ量は 1MB 未満に留まっています。

生涯編集の「ジレンマ」：なぜ既存手法は複数回の更新後に忘却を頻発させるのか？

大規模モデルにおける「知識の陳腐化」や「事実の幻覚（ハルシネーション）」はもはや目新しい話ではありません。しかし、「生涯モデル編集」の目標はさらに苛酷です。LLM が人間のように新しいことを継続的に学んだり、新しい知識に修正を加えたりしつつ、過去に編集した知識を失わず、無関係な能力にも干渉しないようにすることを目指します。

既存の主要な手法は、未だかつて以下の 2 つの難題から抜け出せていません。

「盲目的なパラメータの追加」：事前学習済みの知識を十分に保持するため、既存の大規模モデル編集手法は通常、追加パラメータという形で知識の更新を行っています。しかし、複数バッチにわたる生涯編集のプロセスにおいて、既存手法は固定されたバッチ数に応じて際限なくパラメータ部分空間を新規追加し、計算リソースを大量に浪費するか、あるいはこれらの更新がモデルに衝突を引き起こすかどうかを顧みずに大量の知識を同一空間に詰め込み、「破滅的忘却」を招いています。

「無差別なパラメータの調整」：各バッチにおける特定の知識更新時、既存手法は知識に関連するパラメータを「レイヤー単位（layer wise）」で特定するに留まり、そのレイヤーに属するすべてのニューロンを知識の違いに関わらず均一に更新してしまいます。これにより、本来重点的に調整されるべき「重要なニューロン」の勾配が分散してしまい、逆に異なる知識が局所的な無関係ニューロン上で勾配の衝突を徐々に蓄積させることになり、編集回数を重ねるほど忘却が深刻化するという結果を招いています。CASE チームは、上記問題の根源は、既存手法が異なる知識間の「編集の衝突」を定量化できていないこと、つまり 2 回の知識更新が矛盾していないかを明確に計算できず、どのニューロンを調整すべきかを正確に見極めていない点にあると指摘しています。

問題の模式図

中核的な突破：「衝突の定量化」＋「感度に基づく最適化」の 2 大モジュールによる打開策

フレームワーク全体図

CASE フレームワークの鍵は、生涯編集に「衝突評価を行う脳」と「精密な調整ツール」を追加し、2 つの中核コンポーネントが連携してグローバルおよびローカルの衝突を解決することです。

1. CAA モジュール：編集の衝突に「スコア」を付け、パラメータ空間を適切に割り当てる

Conflict-Assessed Editing Allocation（CAA）モジュールの中核は「衝突の定量化と需要に応じた割り当て」です。編集対象となる新しい知識ごとに、マルチタスク学習の勾配理論を参考にし、勾配の方向性を用いて知識がモデルをどの方向に更新しようとするかを表現します。まず、新しい知識が既存のパラメータ部分空間と矛盾するかどうかを計算し、その後に空間を共有するか、新規に空間を作成するかを決定します。

具体的にはどう行うのでしょうか。チームは 2 つの重要な指標を設計しました。これらはそれぞれ、新しい知識 (x_t, y_t) と、既存のパラメータ部分空間が、元のモデルに対してそれぞれどの方向に更新されようとしているかを測定するものです。

パラメータ部分空間の更新方向（Eⁱ_t-1）：既存の i 番目の部分空間が、t-1 回までの編集を経た後に初期重みからどの程度乖離しているかを測定し、その空間が既に「記憶」している知識を反映します。部分空間パラメータ行列 ΔWⁱ_t-1 とモデル初期部分空間 ΔW⁰₀ との差異を計算することで得られます。

数式：更新方向の計算

編集勾配（G_t）：新しい知識 (x_t, y_t) がモデルの初期部分空間に対して持つ損失勾配行列を計算するもので、新しい知識がモデルをどの方向・どの程度の幅で更新しようとするかを表します。

数式：編集勾配の計算

さらにコサイン類似度を用いて、

数式：コサイン類似度

「編集の衝突」にスコアを付け、以下のルールに従って部分空間を割り当てます。

数式：衝突スコア数式：空間割り当ての条件分岐

cⁱ_t ≥ 0 の場合：新しい知識は部分空間内の既存知識と両立可能であるため、その空間を共有し、部分空間の断片化を回避します。
cⁱ_t ＜ 0 の場合：両者に衝突があるため、新しい部分空間を作成して分離し、「既存の知識が上書きされる」のを防ぎます。

この設計により、「盲目的な空間の分割」という問題を根本から解決しました。衝突する知識が一緒に圧し込まれることもなく、部分空間の数が制御不能になることもないため、推論時のルーティングの難易度も大幅に低下します。

2. KNT 戦略：「重要なニューロン」のみを調整し、局所的な衝突を解消

Knowledge-sensitive Neuron Tuning（KNT）戦略は「精密な調整」に焦点を当てています。部分空間のパラメータを全量更新するのではなく、現在の知識に対して最も「感度が高い」ニューロンのみを見つけ出し、知識の位置特定を「レイヤー単位」からさらに細分化して「ニューロン単位」にまで落とし込むことで、無関係なパラメータの更新に起因するパラメータ空間の不安定さを回避します。

チームはフィッシャー情報行列（FIM）を用いてニューロンの「感度」を測定します。フィッシャー値が高いほど、そのニューロンの微小な変化がモデルの予測に与える影響が大きく、現在の知識における「重要なノード」であることを示します。効率性を考慮し、対角近似 FIM（計算量を大幅に削減）を使用し、さらに勾配分布のエントロピーを通じて動的に閾値を設定して「感度ニューロンマスク M_t」を生成し、感度の高いニューロンのみに更新を行わせます。

数式：感度ニューロンの選択

さらに KNT では、知識活性化正則化も追加されています。過去の知識の活性化値を定量化して保存し（float32 から int8 へ変換し、保存量を 75% 削減）、更新時には KL ダイバージェンスを用いて新しい活性化値と過去の活性化値との差異を制約することで、調整後にも「過去の知識が逸脱しない」ように保証しています。

概念図：知識活性化正則化

ファインチューニングがモデルの「認知を再構築」するものであるとすれば、KNT は重要なニューロンに対する「精密な調律」と言えるでしょう。問題を正しく修正しつつ、全体のリズムを乱すことがありません。

実験：1000 回の編集後も精度で 10% リード、複数モデルとの互換性も実証

CASE の効果を検証するため、チームは 2 つの中核タスクで比較実験を実施しました。ベースラインモデルには LLaMA2-7B、Qwen2.5-7B、LLaMA3-8B-Instruct を使用し、比較対象には GRACE、WISE、MEMIT などの主要な生涯編集フレームワークを含めました。

実験結果の要約表

1. 質問応答タスク（ZsRE データセット）：1000 回の編集でも「脱落」せず

エンティティ間の関係性を連続的に更新する必要がある ZsRE 生涯知識編集タスクにおいて：

100 回の編集時、CASE は LLaMA2-7B 上での編集精度が次善の手法より 5 ポイント高く、局所性（無関係な知識の保持率）は 100% に達しました。
1000 回の編集後、既存手法の多くは精度が大幅に低下しました（例：WISE は精度が 90% から 77% へ低下）が、CASE は 95% の精度を維持しました。これは次善の手法より 10% 高く、100 回編集時からの低下はわずか 3% のみで、ほぼ「1000 回編集しても記憶喪失を起こさない」状態を達成しています。

特筆すべきは、GRACE は高い精度を維持できるものの、汎化性が極めて低く（わずか 26%）、エンティティ間の関係性を丸暗記することしかできない点です。一方、CASE の汎化性は 82% に達し、未見の類似問題にも対応可能です。

2. 幻覚修正（SelfCheckGPT データセット）：Perplexity が 60% 低下

モデルの「デタラメな発言（幻覚）」を修正するタスクにおいて、CASE はさらに際立った成果を示しました。

LLaMA2-7B 上では、1000 回の編集後、CASE の Perplexity（テキストの事実的一貫性を測る指標。低いほど良い）は 3.12 から 1.22 へ低下し、次善の手法より 60% も低くなりました。

Qwen2.5-7B 上では、他の手法は衝突の蓄積により Perplexity が急上昇しましたが、CASE は低 Perplexity を安定的に維持できた唯一の手法でした。

3. 効率性の優位性：パラメータが少なく、推論も高速

CASE のパラメータ効率は同種の手法を遥かに凌駕しています。追加パラメータは 1MB 未満（WISE では 86MB が必要）であり、推論時の 1 イテレーションあたりの所要時間はわずか 10.72 秒で、編集していないモデルとほぼ差異がありません。これは、実際のシナリオへ容易にデプロイ可能であることを意味します。

効率比較グラフ

分析実験：様々な設定下における CASE の安定性

チームは様々なパラメータ設定下における CASE の安定性をテストしました。全体的に見て、CASE は異なるハイパーパラメータの値の範囲内で安定した編集性能を維持しており、複雑なパラメータ調整を行わずともシーンのニーズに適応可能です。

ハイパーパラメータ感度分析

以下の実験サンプルの一部からも、CASE が失敗するケースは極めて限定的な特定の状況下でのみであることが分かります。

成功・失敗サンプル例

追加サンプル

大規模モデルが金融、医療、法律などの分野で実用化されるにつれ、「知識の継続的な更新」は必須のニーズとなっています。例えば、医療ガイドラインの更新、法律条文の改正、企業情報の変更などは、モデルが専門知識を失うことなく、即座に追随することが求められます。

これまで、こうしたニーズには「フルファインチューニング（コストが高く、期間も長い）」に頼るか、「RAG＋プロンプト（効果が不安定）」に頼るしかありませんでした。しかし CASE は、生涯モデル編集技術を突破することで、将来的により優れた解決策を提供する可能性があります。

モデルの再学習が不要で、「衝突の定量化による割り当て＋感度ニューロンの調整」により軽量な更新を実現。
数千回レベルの連続編集に対応可能で、長期的に稼働する大規模モデルに最適。
主要なオープンソース LLM（LLaMA、Qwen など）と互換性があり、移行コストが低い。

チームは、今後は CASE のマルチモーダルモデルや非構造化データの編集への応用をさらに探求し、大規模モデルの「生涯学習」能力をより多くのシーンで発揮できるようにすると述べています。

— 以上 —

現在、当チームでは AI に関心があり、俊敏に動ける学術編集インターンを募集しています。

興味のある方は、詳細をこちらからご確認ください。

QR コード

🌟 スターを付けて最新情報をチェック 🌟
最先端のテクノロジー動向を毎日お届けします。