あなたはこうした状況に遭遇したことがあるかもしれない。あるモデルは本来、単一のタスクのみを実行する際には優れたパフォーマンスを発揮するのに、新しいタスクを追加し続けると、逆に性能が低下し始めるのだ。完全に機能しなくなるわけではないが、不安定になり、一部の能力が低下したり、結果に揺らぎが生じたりする。問題の核心は「モデルにその能力がない」ことではなく、「元々持っていた能力が、後から追加されたタスクによって一部『押し出されてしまった』」ことにある。
その背後には、これまであまり明確に語られることのなかった根本的な問題が存在する。モデルの能力とは、個別独立して積み上げられるものではなく、内部の表現空間という共通のリソースを共有しているのだ。端的に言えば、すべてのタスクが「同じ場所」を情報保存のために利用しているのである。
タスクが増加すると、それらは並列に存在するのではなく、その限られた空間内で最も重要な位置を巡って競合を起こす。より多くを占有できたタスクは安定し、押し出されたタスクは性能を低下させる。これが、マルチタスクの統合が「多ければ多いほど強力になる」のではなく、「多ければ多いほど混沌とする」理由だ。
現実世界において、この問題は極めて普遍的だ。例えば、継続的にイテレーションを繰り返すシステムでは、新機能を追加するたびに「できることが一つ増えただけ」に見えるが、実際には内部の表現空間を再配分しているに過ぎない。適切なメカニズムがなければ、新しい能力が既存の能力を損ない、システムは自然に拡張されるのではなく、絶え間ない修正を要する状態に陥ってしまう。
こうした背景のもと、東南大学の耿新(ゲン・シン)氏率いるチームは、論文『Model Merging in the Essential Subspace(本質的部分空間におけるモデルマージ)』を発表した。彼らはより複雑なパラメータ融合を試みるのではなく、「モデル内の重要な情報は一体どこに存在するのか」という、より本質的な問いかけからアプローチした。
近年、耿新チームが提唱する「学習遺伝子(Learngene)」の思想、すなわち「複数のタスク間で中核となる重要なモデルパラメータを共有する」という考え方は、この問題に対する新たな解決策を提供している。研究チームは、モデルの有効な能力はすべてのパラメータに均一に分布しているのではなく、ごく少数の重要な方向性に集中しており、これらこそがタスクのパフォーマンスを決定づける真の要因であることを発見した。
このように理解すれば、問題は明確になる。マルチタスク融合の失敗は、パラメータの結合が不十分だったからではなく、これらの重要な方向性が重複し、衝突を起こしたことに起因する。そこで本研究では、2 つのステップを踏む。1 つ目は、異なるタスクの重要方向を可能な限り分離し、相互の圧迫を防ぐこと。2 つ目は、より重要な情報は保持し、重要度の低い部分は抑制することだ。これにより、異なるタスクが 1 つのモデル内で安定して共存することが可能となる。
この視点に立てば、本研究が変えたのは単なる手法そのものではなく、「問題への向き合い方」であると言える。モデルマージを単なるパラメータ操作から、情報がどのように配分され、いかに共存するかという問題へと昇華させ、マルチタスクシステムを単なる能力の積み上げから、互いに干渉することなく真に能力を「成長」させる存在へと変える可能性を秘めている。
論文リンク:https://arxiv.org/pdf/2602.20208
モデル融合失敗の根源は部分空間の衝突
実験結果から、研究チームが真に示したかったのは、特定の設定下で偶然性能が向上したことではない。マルチタスク融合の難易度が上昇するにつれても、「ESM(Essential Subspace Merging:本質的部分空間マージ)」がより安定したパフォーマンスを維持し続けるという点だ。
既存の従来手法は、タスクが増加するにつれて顕著な性能の滑落を示す傾向がある。タスクが増えれば増えるほど相互干渉は強まり、最終的に融合効果は急速に低下する。対照的に、ESM のパフォーマンスは極めて安定している。他のベースライン手法で 8% から 9% に達する性能劣化が見られる状況下でも、ESM による劣化幅は明らかに小さく、ベースラインと比較して全体の劣化率を約 20% も低減することに成功した。これは、ESM がマルチタスクの増加に伴う相互干渉に対してより強固に耐え、各タスク本来の有効な知識をより多く保持できることを意味している。
モデル規模との関係で見れば、さらに興味深い知見が得られる。より大規模なモデルでは、どの手法でも概ね 90% 以上のスコアを達成可能だが、ESM による既存の強力な手法からの改善幅は 0.3 から 0.5 程度に縮小する。
これは ESM の効果が弱まったわけではなく、むしろ大規模モデル自体が元来持つ表現容量の大きさと、より自然な部分空間分離能力を示唆している。つまり ESM の真価とは、限られたモデル容量においてこそ重要となる、人為的かつ明確な部分空間の非結合(デカップリング)メカニズムを構築する点にあるのだ。
さらに研究では、重要な上下限の基準も示されている。未微調整モデルの性能は約 50% から 65%、単一タスクで微調整された専門家モデルは 90% 以上であるのに対し、ESM は 81% から 91% を達成した。
これは、ESM が単にベースラインをわずかに上回るだけでなく、マルチタスク融合における理想の上限に著しく近づいていることを意味する。換言すれば、ESM は「複数のタスクを統合した後でも、可能な限り単一タスク時の効果を維持する」という目標に極めて近い地点に到達しているのである。
なぜこれほど性能が向上するのかを解明するため、研究者らは分解実験も実施した。分解方法を従来の SVD(特異値分解)から ESD(Essential Subspace Decomposition)に変更するだけで、性能は 89.0 から 90.9 へと 1.9 ポイント向上した。これは、問題の鍵がまず「部分空間の選択」にあることを示している。
さらに「Polarized Scaling(偏極化スケーリング)」を追加すると、性能は 90.9 から 91.8 へとさらに 0.9 ポイント向上した。これは、ESD が主に「情報の欠落」を解決し、Polarized Scaling が主に「情報の競合」を解決していることを示唆する。つまり、本手法全体の有効性は、「どの情報を保持するか」と「いかにしてそれらの情報を共存させるか」という 2 つの中核課題を同時に処理している点にある。
内部メカニズムをさらに詳しく見ると、ESD はより少ない成分しか保持しない場合でも、より多くの有効な情報を残すことができることが判明した。一方、従来の SVD は同程度の効果を得るためにより多くの次元を保持する必要がある。これは、ESD がより集中し効率的な情報表現を見出していることを示しており、真に重要なタスク知識は全方向に均一に分布しているのではなく、機能性がより高い少数の方向性に集中していることを裏付けている。
また、成分をわずか 5% しか保持しない場合でも、ESD によって得られた融合モデルは、元の専門家モデルとより高い特徴の一貫性を保つことも明らかになった。これは、ESD が保持しているのが表面的なパラメータ構造ではなく、タスクのセマンティクスやモデルの挙動そのものにより近い本質的な要素であることを示している。
データ依存性に関しても、研究チームは強力な証拠を提示している。通常のサンプリングデータ、単一カテゴリのみを含むバイアスのかかったデータ、完全に無関係な外部の分布データなど、いずれを使用しても結果に顕著な差は見られなかった。
さらに、サンプル数が 1 つの時点で既にベースラインを凌駕し、4 つで最適値に近づき、32 まで増やすとほぼ収束することがわかった。これは、タスクの部分空間それ自体が低次元構造であり、その推定に膨大なデータを必要とせず、モデル内部に既に安定したタスク応答パターンが符号化されていることを示唆している。
最後に、Polarized Scaling については、強い信号のみを拡大しても、弱いノイズのみを抑制しても性能は向上するが、両者を組み合わせることで最も効果が高まることが示された。これは、マルチタスク融合の本質が単なるパラメータの平均化ではなく、信号の選別と再重み付けのプロセスであることを意味している。
モデル内部での知識境界の再構築
実験において、研究チームは「いかなる組み合わせが『無損融合(ロスレス・マージ)』に最も近いか」を検証するため、3 つの中核変数を体系的に制御した。
1 つ目の変数は「部分空間の構築方法」であり、パラメータ空間に基づく SVD と、出力空間に基づく ESD とを比較した。これが本研究における最も中核的な対比点である。
2 つ目の変数は「融合方法」で、単純な連結と直交化処理とを比較した。前者は直接的なアプローチだが、後者は異なるタスクの表現間の相関を除去しようとする試みだ。3 つ目の変数は「重み配分」であり、重み付けしない融合とノルム(Norm)に基づくスケーリングとを比較した。ここでの核心的な問いは、「異なるタスクの情報を統合する際、等しく扱うべきか否か」である。
データ設計においても、研究チームは極めて意図的な選択を行っている。Cars(車両)、SUN397(シーン)、SST2(感情分析)、MNIST(数字)など、画像、テキスト、数値といった性質の異なる多様なタスクを網羅した。これは単にタスクの多様性を追求したわけではなく、タスク間の差異と衝突を意図的に増幅させるためだ。これほど異質性の高い条件下でも手法が有効であることが証明されて初めて、単に類似タスク上での局所的な改善ではなく、真に「干渉」という問題が解決されたと主張できるからである。
加えて、代理データ(プロキシデータ)の作成にあたり、研究者らはあえてデータ規模を極小に抑えた。各タスクにつき、ラベルなしのサンプルを 32 個のみを使用したのである。この設計は計算コストの削減だけが目的ではない。部分空間がモデルの内在的構造に由来するものか、それとも単なる統計的結果に過ぎないのかを検証するためだ。その後の実験結果は、抽出されたものがモデル内部に既に形成されているタスク構造により近いことを裏付けた。
また、融合プロセスにおいて各タスクが公平な表現容量を持てるよう、研究チームはランク割り当て戦略も設計した。各タスクに割り当てられる次元数を「k = 全次元数 / タスク数」となるように制約したのである。これは本質的にリソースの公平な配分を行うものであり、この制約がなければ、強力なタスクがより多くの表現空間を占有し、弱いタスクが埋もれてしまうのを防ぐためだ。
融合段階に入ると、単純な連結には 2 つの直接的な問題があることが判明した。1 つ目は、異なるタスクの部分空間が重なり合う可能性、2 つ目は、その重なりが情報衝突を引き起こす点だ。そこで、直交化ステップを追加した。その本質的な役割は、異なるタスクの部分空間を強制的に可能な限り独立させることであり、このプロセスは思想的に PCA によるホワイトニングや信号の非相関化に近い。
最後に重み調整では、研究チームは「高いノルムはより重要なパラメータの変化に対応し、低いノルムはノイズに近い」という実験的発見に基づき、「scaling ∝ (norm / average)^2」という規則を設計した。さらにこのスケーリングを 3 つのレベル、すなわち「特定のタスクが埋没するのを防ぐタスクレベル」「より重要な特徴方向を際立たせる次元レベル」「残差構造による干渉を減らすレイヤーレベル」で実施するようにした。
限られた空間におけるマルチタスク共存メカニズム
総じて、本研究の価値は、単により強力なモデル融合手法を提案した点に留まらない。モデル融合を「パラメータの連結」から「知識構造の再編成」という次元へと押し上げた点にある。これまでの多くの手法は「複数のモデルを融合できるかは、パラメータをいかにうまく平均化できるかにかかっている」と暗黙のうちに想定していた。しかし、本研究は「真に保持されるべきは、モデルが入力を処理する際に依存する重要な機能的な方向性(機能方向)である」ことを明らかにした。
つまり、研究者らはモデル融合の問題を再定義したのである。焦点はもはやパラメータそのものではなく、モデルの能力が表現空間内でいかに存在し、いかに共存するかという点に移ったのだ。
さらに本研究は、マルチタスク干渉についてもより明確な説明を与えている。従来、「タスクが増えると互いに足を引っ張り合う」という現象は知られていたが、それは単に「衝突」という現象面の記述に留まっていた。研究チームは、干渉が主に 2 つの原因から生じると指摘した。1 つ目は、異なるタスクが類似した表現方向を奪い合うこと。2 つ目は、融合時に強い情報と弱い情報が競合し、重要な知識がノイズに飲み込まれてしまうことだ。
ESD の意義は、異なるタスクの中核方向を可能な限り分離することにある。一方、PS(Polarized Scaling)の意義は、より重要な信号を増幅し、重要度の低い部分を抑制することにある。つまり、本研究が真に成し遂げたのは、干渉の発生源とその解決経路を一つの完全な説明として結びつけたことだ。
より深いレベルで見れば、本研究の結果はディープモデル内部の極めて重要な性質を浮き彫りにしている。タスク知識は高次元のパラメータ内に存在するものの、パフォーマンスを決定づける変化は往々にして少数の方向性に集中しており、しかもこの構造は具体的なデータに対して感度が低いという性質だ。
これは、大規模モデル内部が無秩序なのではなく、抽出・圧縮・再結合が可能な低次元構造が存在することを意味している。この発見の意義は極めて大きい。なぜなら、将来的なモデルの改善には、必ずしもより膨大なデータやより長い訓練時間が必要とは限らず、モデル内部に既に存在する知識の組織構造を理解することによっても能力を向上できる可能性があるからだ。
この研究が一般の人々に与える影響もまた、現実的だ。AI システムが再訓練を繰り返すことなく、複数の能力を 1 つのモデルに統合し、かつ新機能を追加しても既存の能力を損なうことなく、より安定して動作する未来を示唆している。
一般ユーザーにとって、AI ツールは互いに分断された多数の小道具の集まりではなく、能力が完備された万能のアシスタントにより近い存在となるだろう。企業やプラットフォームにとっても、デプロイコストや計算リソースの消費を削減できる可能性があり、それはより安価なサービス、より高速な応答、そしてより多くのデバイス上でローカルに動作するインテリジェント機能として還元されるはずだ。
したがって、本研究の真に重要な点は、単に結果の数値を押し上げただけではない。モデル融合が、経験的なパラメータ処理から、知識構造の理解と再編成へと移行しうることを証明した点にある。これは学術的なモデル内部メカニズムの理解を深めるだけでなく、一般の人々が将来 AI を利用する方法にも影響を与えるだろう。
ESM を生み出した研究者たち
本論文の筆頭著者(コレスポンデンスオーサー)である耿新(ゲン・シン)氏は、東南大学首席教授、同大学研究生院常務副院長、そして新世代人工知能技術・交叉応用教育部重点実験室主任を務める。
耿氏は 2001 年および 2004 年に南京大学で学士号および修士号を取得。2008 年にオーストラリアのディーキン大学で博士号を取得した後、長年東南大学で教育・研究活動に従事し、パターン学習・マイニング研究所(PALM)を設立した。
学術的成果においては、機械学習、大規模モデル、パターン認識、コンピュータビジョンなどの分野を専門とし、主要な国際ジャーナルやカンファレンスで 230 本以上の論文を発表。国家傑出青年科学基金、国家優秀青年科学基金、国家自然科学二等賞、教育部自然科学一等賞、国家級教学成果一等賞・二等賞、科学探索賞、呉文俊人工知能自然科学一等賞など数々の栄誉に輝いている。また、複数の国際会議でのプログラム委員長や分野議長、主要学術誌の編集委員も務めている。
研究活動では、モデル内の知識表現と再編成に焦点を当てており、初期の代表的な業績は「ラベル分布学習」にある。これは従来の単一ラベル学習や多ラベル学習の問題を、より細粒度な表現を持つラベル分布学習へと発展させたものだ。その後は研究の重心をエッジ向け大規模モデルや「学習遺伝子(Learngene)」などの方向へ拡大し、基盤モデルから継承可能かつ再利用可能な中核能力を抽出し、多様なタスクやハードウェア条件に向けた効率的なデプロイを実現する探求を続けている。
参考リンク:https://palm.seu.edu.cn/xgeng/
もう一人のコレスポンデンスオーサーである祁磊(チ・レイ)氏は、東南大学計算機科学工程学院准教授(副研究員)であり、修士課程指導教員を務める。南京師範大学で学士号、南京理工大学で修士号を取得後、2020 年に南京大学で博士号を取得。在学中はオーストラリアのウーロンゴン大学へ研究訪問を行っている。
学術的成果としては、ACM/IEEE 誌や CCF-A 系カンファレンスで 60 本以上の論文を発表し、Google スカラーでの被引用数は 5300 回を超える。複数の国家級・省部級科研プロジェクトを主宰し、国家博士後研究員資助計画、江蘇省卓越博士後、東南大学紫金学者などの人材計画に選出。CCF 産学連携基金優秀プロジェクト事例賞や江蘇省人工知能学会優秀博士論文賞などの受賞歴もある。
研究分野は主にコンピュータビジョンとパターン認識であり、近年は異常検知、セマンティックセグメンテーション、ドメイン一般化、そして視覚言語モデル(VLM)などの分野に注力している。