近年、ビジョン・言語モデル(Vision-Language Models, VLMs)はマルチモーダルな理解と推論タスクにおいて飛躍的な進歩を遂げてきました。数学的推論、科学的質問応答から、複雑な視覚的理解やクロスモーダル推論に至るまで、主流のモデルは通常、規模の拡大や層の深層化を通じて全体的な能力を向上させています。「この発展経路において、ほぼデフォルトで受け入れられている前提は1つあります:モデル内のすべての層には意味があり、それらが共同でモデルの能力に不可欠な構成要素を形成している、というものです。」
しかし、具体的な下流タスクの実践において、この仮定が常に成立するかどうかは、体系的に検証されていません。ハルビン工業大学(深セン)の「楊朔教授のチーム」は、ある種の下流タスクにおいて、モデルが示す失敗パターンは能力不足というよりも、むしろ内部計算パスによる制約や干渉を受けているように見えることに注目しました。この観察から、一見単純ですが極めて困難な疑問が生まれます:「事前学習済みのビジョン・言語モデルにおいて、特定のタスクに対して正の役割を果たしておらず、むしろ体系的にモデルのパフォーマンスを抑制している層が存在するのではないか?」
この問題を中心に、「哈工深(ハルビン工大深セン)の楊朔チーム」はビジョン・言語モデルにおける反直感的な現象である「タスク干渉層(Task-Interfering Layers)」を発見し、これに基づきTaLoを提案しました。TaLoとは、トレーニング不要の推論時層介入メソッドであり、特定のタスクにおけるモデルの潜在能力を解放するためのものです。
論文:https://arxiv.org/abs/2602.00500
コード:https://mikuz12.github.io/Do_All_Individual_Layers_Help
著者:Zhiming Liu, Yujie Wei, Lei Feng, Xiu Su, Xiaobo Xia, Weili Guan, Zeke Xie, Shuo Yang
所属機関:ハルビン工業大学(深セン)、ハルビン工業大学、東南大学、中南大学、シンガポール国立大学、香港科技大学(広州)
一、背景と出発点
主流のビジョン・言語モデルの設計において、異なる下流タスクは通常、同じ固定された階層計算構造を共有しており、推論時にはデフォルトですべてのTransformer層を完全に実行します。この統一された計算パスは工学的に簡潔で効率的ですが、モデルがタスクの違いに基づいて中間計算プロセスを対象的に調整できないことを意味します。
既存の研究から見ると、モデルの階層構造に関する分析は「層の重要性」や「層ごとの劣化感受性」に集中する傾向があり、その結論は層の削除に伴う全体的なパフォーマンスが単調に低下する傾向を示すことが多いです。しかし、このような分析は、より細粒度の問題にはほとんど注目していません:「特定のタスク条件下で、ある種の中間層がタスクの目標と一致しない情報ルーティングを導入し、最終的な意思決定に影響を与える可能性があるかどうか」
この動機に基づき、「ハルビン工大深センの楊朔教授チーム」は、層ごとの介入の観点からモデル内部の情報ルーティングパスを調査し、異なるタスクが中間層計算に実際にどのように依存しているかを特徴づけ、その後の構造化分析や推論時の調整のための根拠を提供しようと試みました。
「図1」異なるビジョン・言語モデルにおいて、特定のモデル層に介入した後の複数のタスク指標におけるパフォーマンス比較。各サブグラフはそれぞれQwen2-VL-2B、LLaVA-NEXT-8B、InternVL-40Bに対応しており、異なる色は異なる層への介入結果を示し、点線は元のモデルを示します。異なるモデルにおいて、適切な層を選択して介入することで、複数のタスクにおいてベースラインを同時に上回ることができることが観察され、この現象がモデル間で一貫性があることを示しています。
二、タスク干渉層現象の発見
特定の層が特定のタスクに与える影響を定量化するために、著者は層ごとの介入(layer intervention)という実験パラダイムを採用しました:各層に個別に介入を施し、介入前後のタスクパフォーマンスの変化を比較します。ある層に介入を施した後にパフォーマンスが上昇した場合、その層はそのタスクにおいて「干渉効果」を示していることを意味します。
実装において、論文は主に「LLM幹部におけるself-attentionサブモジュール」に介入を重点的に行い、残差接続を保持してモデル全体の崩壊を防ぎます。代表的な2つの介入形式は以下の通りです:
「Parameter Zeroing」:層のattentionパラメータをゼロにし、注意パスを事実上無効化する(ただし残差パスは保持する)。
「Uniform Scaling」:注意操作を入力特徴のグローバル平均に退化させる(論文ではこれをzeroingと相互に検証する別の介入方法として使用)。
複数のモデルとベンチマークにおいて、研究者は「ある層をスキップした後」に多くのタスクで顕著な利益が得られることを観察しました。これは、このような層が「無貢献」であるのではなく、特定のタスクにおいてモデルの潜在パフォーマンスを「能動的に制限」していることを示しています。著者はこれを「Task-Interfering Layers(タスク干渉層)」と名付けました。
実験結果によると、この現象は偶然によるものではありません。LLaVA、Qwen-VL、InternVLなど、異なる規模やアーキテクチャのモデルにおいて、「特定の層をスキップ」した後に多くのタスクでパフォーマンスが大幅に向上しました。
LLaVA-Next-8Bを例にとると、30以上のタスクに対して層ごとに介入を行った結果、「半数以上」のタスクで、少なくとも1つの層に介入が行われた際に、パフォーマンスの向上幅が5%を超えました。これは、事前学習プロセスで形成された階層表現が、必ずしもすべての下流タスクに一貫して適合しているわけではないことを示しています。著者は、特定のタスクにおいてパフォーマンスを抑制するこのような層を「タスク干渉層(Task-Interfering Layers)」と呼んでいます。
「図2」LLaVA-NEXTモデルにおいて、異なる層に介入を順次適用した後の、タスクカテゴリ別の事前学習ベースラインに対するパフォーマンス変化のヒートマップ。横軸は介入された層番号、縦軸はタスクカテゴリを表し、色はパフォーマンス変化の大きさを表します。異なるタスクが層に対して明らかに異なる感受性を示しており、多くのタスクにおいて、その介入が著しいパフォーマンス向上をもたらす少数の層が存在することが観察され、モデルにタスク関連の干渉層が存在することをさらに裏付けています。
三、タスクと層の間の構造化された関係
タスク干渉層の現象が普遍的に存在することを確認した後、研究の焦点はさらに本質的な問いへと移ります:これらの干渉層はランダムに現れるものなのか、それともタスク自体の能力要件と内在的な関連があるのか?このために、研究チームは「タスク-層相互作用ベクトル(Task-Layer Interaction Vector)」という表現方法を提案し、異なるタスクがモデルの各層に対して持つ感受性を体系的に特徴づけました。タスク干渉層が広く存在することを確認した後、論文はさらに問いかけます:この干渉はランダムなノイズなのか、それともタスク能力構造に関連しているのか?このために、著者は「Task-Layer Interaction Vector(タスク-層相互作用ベクトル)」を提案し、「タスクが各層に対して持つ感受性」を「計算可能で比較可能なベクトル」に変換しました。
L層を持つモデルについて、タスクTを与え、その相互作用ベクトルv_Tを定義します:ここでi次元はi層に介入した後のパフォーマンス変化として定義されます:
直感的に理解すると、v_T[i] > 0の場合、介入後の正解率が上昇したことを意味し、その層はタスクに対して「干渉」を示します。v_T[i] < 0の場合、その層はタスクに対して正の寄与をします。
この表現ができれば、タスク間の相互作用ベクトルの相関性を使って「能力が近いタスクは類似した層感受性パターンを示すか」を特徴づけます。タスクT_a, T_bについて、研究者は相関係数corr(v_a, v_b)を計算し、距離dist(v_a, v_b)に基づいてクラスタリングと可視化を行います。
研究チームは6つの包括的なデータセット、100以上のタスクでクラスタリング実験を行い、その結果、数学的推論、科学的推論、知覚関連タスクなどが自然と異なるクラスタを形成することがわかりました。これは「干渉層の現象がタスク能力要件と構造的な対応関係を持っている」ことを示しています。つまり、モデル能力の要件が近いタスクは、「類似した」Task-Layer Interaction Vectorを持っており、この干渉層の現象は偶然の変動によるものではありません。
さらに、著者はSilhouette Score指標を通じてクラスタリングの安定性と信頼性を検証し、その結果、Score > 0.6であり、p < 0.05であることを示し、このクラスタリング結果が良好な信頼性を持っていることを示しました(具体的なクラスタリング結果については論文の付録またはプロジェクトのホームページを参照してください)。
「図3」Task-Layer Interaction Vectorに基づくクラスタリング結果の可視化図
さらに、「介入の実装の詳細による見かけの現象」を排除するために、論文ではzeroingとuniform scalingという2種類の介入が大量のtask-layerペアで一貫性を持っているかどうかも比較しました。その結果、顕著な正の相関が示され、タスク干渉層がモデル内部の安定した属性である可能性が高く、特定の介入方法に特有の産物ではないことが示されました。
「図4」異なる介入方法の相関図
四、TaLo:推論時のタスク適応メカニズム
上記の発見に基づき、研究チームはさらに「TaLo」(Ta sk-Adaptive L ayer Kno ckout)を提案しました。これは推論段階で動作するタスク適応メソッドであり、タスク干渉層の現象に対する「操作化された検証」です。もしあるタスクが特定の層に足を引っ張られているのであれば、推論時にその層を自動的に見つけてスキップすれば、安定した利益がもたらされるはずです。TaLoの設計はトレーニング不要(training-free)とプラグアンドプレイ(plug-and-play)を強調しており、鍵となる点はパラメータ更新を行わないこと、追加モジュールを導入しないことです。
「Taloメソッドには3つの大きなステップが含まれます:」
- まず、L層モデルMを与え、対象となるタスクTから小規模なprobingセットDをサンプリングし、オリジナルモデルでベースラインスコアbを取得します。
- 次に、層ごとに介入を適用し(論文では主にzeroingを使用し、M_{l}^{zero}と記述します)、介入モデルを取得し、その層がもたらすゲインを計算します。
- 最後に、最大の正のゲインをもたらす層l^*をそのタスクの干渉層の候補として選択します。
明らかな正のピーク(閾値未満)がない場合、TaLoは元のモデルを変更せずに保持します。l^*が見つかった場合、TaLoはそのタスクの後続の推論においてその層を固定的にスキップし、独立したテストサンプルで最終的なパフォーマンスを報告します。
前述の通り、タスク-層感受性パターンは構造的であり、移動可能であることが証明されているため、少量のprobingサンプルを使用して干渉層を特定することは、多くの場合、同じタスクの後続のサンプルにおいて持続的な利益をもたらします。
五、実験検証とパフォーマンス
研究チームは、3つの主流VLMアーキテクチャ(LLaVA、Qwen-VL、InternVL)で包括的な評価を行い、「回答正解率」を主要指標として使用しました。5つの異なる分野のベンチマークデータセットと異なるfew-shot設定で評価を行った結果、「TaLoは大多数のタスクにおいて安定し一貫したパフォーマンス向上をもたらす」ことが示されました。
LLaVAモデルにおいて、10-shot、15-shot、20-shotのいずれの設定でも、TaLoはMMStar、MMBench、MMMU、ScienceQA、SEEDBenchなどの複数のベンチマークで正の利益を上げ、平均パフォーマンス向上は異なるショット数下で安定して維持されました。同様の傾向はQwen-VLモデルでも見られました。タスクによって層介入への感受性に差はあるものの、TaLoは依然として多数のベンチマークで正のゲインを上げ、ScienceQA Mapsタスクでは最大「16.6%」のパフォーマンス向上を実現しました。
この結果は、特定の層を適切にバイパスすることが、複雑な推論シーンにおけるモデルの内部干渉を効果的に緩和できることを示しています。より大規模なInternVLモデルにおいても、TaLoは良好な汎化能力を示しました。複数の推論・理解タスクにおいて、TaLoは異なるfew-shot条件下でオリジナルモデルを継続的に上回り、平均パフォーマンスも向上しており、その手法が特定のモデル規模やアーキテクチャに依存していないことを示しています。
注目すべきは、上記のパフォーマンス利益はすべて「推論段階での構造的介入のみ」から得られており、パラメータ更新、追加トレーニング、外部監視信号は一切導入されていないことです。これは、TaLoが軽量、安定、かつ再利用可能な推論時適応メカニズムを提供し、モデルパラメータを変更せずに特定のタスクにおける潜在能力を解放できることを意味します。
「LLaVAとQwen-VLの複数データセットにおける異なるタスクでのパフォーマンス:」
「InternVLモデルの複数データセットにおける異なるタスクでのパフォーマンス:」
「異なる手法との比較実験:」さらなる比較によると、少样本設定下において、TaLoは効率と効果の両面で一般的なパラメータ効率の高いファインチューニング手法を上回りました。この結果は、ある種のタスクシーンにおいて、単純かつ正確な構造的調整は、複雑なパラメータ学習よりも効果的である可能性があることを示しています。
特筆すべき点:TaLoは順伝播のみを必要とします。一方、より大きなモデルの場合、PEFTは多くの順伝播と逆伝播のステップを必要とし、大規模なリソース需要につながります。40Bモデルの場合、推論には約50GBのVRAMしか必要ありませんが、LoRAファインチューニング手法はバッチサイズが4であってもVRAM使用量が80GBに達します。
「アブレーション実験1: 異なる介入方法がTaLoのパフォーマンスに与える影響」研究チームは、3つのよくある層介入方法(パラメータ直接ゼロ化、均一スケーリング、平均置換)を採用しました。実験の結果、ゼロ化と均一スケーリングは類似した効果をもたらしましたが、パラメータゼロ化は各タスクでより良い平均パフォーマンスを得ました。一方、平均置換の効果は劣り、この介入方法を採用すると場合によっては対応するTask-Interfering layerが見つからないことさえありました。
「アブレーション実験2: 多層探索を行うTaLoメソッド」単層介入に基づくTaLoメソッドを補足するために、著者は多層TaLo介入について研究しました。各タスクについて、まず標準的なTaLoプロセスを使用して最適な単層を特定します。次に、その層に介入し、LLM幹部内の他の各層に対して2番目のゼロ化介入を反復的に適用し、他のすべてのコンポーネントを変更せずに、それによって生じるパフォーマンス変化を測定します。
これにより各タスクについて完全なペアワイズ介入マトリックスが生成され、そこから最も良好なパフォーマンスを示す2層の組み合わせを選択します。計算コストはモデルの深さの2乗で増加するため、探索を2層の組み合わせに制限し、高次の相互作用に対する処理可能なプロキシとしました。結果として、2番目の介入を追加しても利益は非常に限定的であり、消費されるリソースが大幅に増加するだけであったため、著者は単層介入の設計手法を維持しました。
「分析実験1: TaLoの層選択の堅牢性」
TaLoがprobing段階で選択した「タスク干渉層」は、単なる少量のサンプルや評価ノイズによって偶然引き起こされた結果なのかという疑問は当然あります。TaLoメソッドの層選択の堅牢性を検証するために、著者はブートストラップサンプリングによってprobingセットに対して繰り返し実験を行いました。その結果、選択された干渉層は高度に集中しており、層選択結果はサンプルの摂動によって大きく変動しないことがわかりました。さらに、論文ではベンチマーク間の移転検証も示しています。MMBenchの論理推論タスクで選択された干渉層をMMStarの数学タスクに直接適用しても正のゲインがもたらされますが、知覚タスクのために選択された層は数学的推論のパフォーマンスを安定的に低下させます。このようなタスク間、ベンチマーク間の一貫性は、TaLoが特定のベンチマークに対して偶然最適な層を特定しているのではなく、タスク条件に関連し、安定した能力を持つ干渉層を特定しており、それによって統計的意味と実際の応用におけるTaLoの層選択プロセスの堅牢性が支持されることを示しています。
「分析実験2: 定性的ケーススタディ」
全体的なパフォーマンスと統計的な安定性の検証に加え、研究者はさらに具体的なケースを通じてTaLoの振る舞いについて定性的な分析を行いました。層介入を行わない場合、モデルは一見合理的だが実際には誤った回答を与えることがあります。そのエラーの原因は基本的な算術や常識の欠如ではなく、中間推論パスに無関係または競合する情報が導入され、最終的な判断が正しい結論から逸脱してしまうことです。TaLoを適用すると、モデルは同じ入力下で、タスクに関連する主要な情報により安定的に集中し、標準的な解法と一致する結果を出力できるようになります。このような改善は、より「複雑な」推論プロセスから来るものではなく、むしろその逆です:特定のタスク下での干渉層を抑制することで、モデルの中間推論ステップはより簡潔で一貫性のあるものになり、人間が問題を解く際の論理的順序により合致するようになります。これらのケースは直感的に、TaLoが「新しい知識を注入している」のではなく、推論段階でモデル内部の時宜を得ない情報ルーティングを効果的に回避することによって、推論結果の信頼性と一貫性を向上させていることを示しています。
六、示唆と意義
TaLoの研究成果は、注目に値する事実を明らかにしました:「大規模事前学習モデルの内部には、タスク間の表現の競合が不可避的に存在します。ある種の層は全体の事前学習目標下では合理的な妥協案ですが、具体的な下流タスクにおいてはパフォーマンスのボトルネックになる可能性があります」。推論段階でこれらの層に対して対象的な抑制を行うことで、モデルはむしろタスクが真に必要とする能力に集中できるようになります。
より広範な観点から見ると、この作業は実用的な推論時適応メソッドを提案しただけでなく、ビジョン・言語モデルの内部機能組織を理解するための新しい視点も提供します。それは、大模型の時代において、パフォーマンスの向上は常に「より多くのパラメータ」や「より深い構造」に依存するわけではなく、時には適切な単純化が、むしろモデルの隠された潜在能力を解放できることを示唆しています。