WWW'26 | タスク横断型適応的マルチエージェント協働の新パラダイム

こんにちは、PaperAgentです。Agentそのものではありません！

大規模言語モデルを活用したマルチエージェントシステム（MAS）は、複雑なタスクを解決するための重要なパラダイムになりつつあります。異なるエージェントが異なる役割を担い、協働することで、数学的推論、コード生成、知識QA、さらにはWebサービスにおける複雑なユーザーリクエストを処理します。

コード生成Claud Codeの異なるエージェントアーキテクチャ

しかし、常に重要な問題が存在します。それは、エージェント同士はどのように協働すべきか？誰が最初に発言するのか？誰が誰に情報を伝達するのか？どの専門家が参加する必要があるのか？これらの問題は、MASの協働トポロジーを決定し、システムのパフォーマンス、効率、堅牢性に直接影響を与えます。

既存の自動トポロジー設計手法は、特定のタスクに対して協働構造を学習できますが、そのほとんどは依然として「1モデル1データセット（one-for-one）」のパラダイムに従っています。つまり、タスクドメインごとに個別のトポロジー設計モデルを学習させます。現実のシナリオにおけるドメイン横断的で予測不可能なユーザーリクエストに直面すると、このアプローチはメンテナンスコストが高いだけでなく、異なるタスク間で共有される協働知識を再利用することも困難です。

one-for-oneとone-for-allの比較図

最近、グリフィス大学と西北農林科技大学の研究チームがOFA-MASを発表し、マルチエージェントトポロジー設計を「one-for-one」から「one-for-all」へと推し進めました。これは、単一の汎用トポロジー設計モデルを学習させるだけで、異なるドメインの自然言語タスクに対して適切なマルチエージェント協働グラフを自動生成できるというものです。

論文情報：

OFA-MAS: One-for-All Multi-Agent System Topology Design based on Mixture-of-Experts Graph Generative Models

著者：Shiyuan Li, Yixin Liu, Yu Zheng, Mei Li, Quoc Viet Hung Nguyen, Shirui Pan

論文URL： https://dl.acm.org/doi/abs/10.1145/3774904.3792537

コードURL： https://github.com/Shiy-Li/OFA-MAS

one-for-oneからone-for-allへ：マルチエージェントトポロジー設計の新パラダイム

異なるタスクに対するマルチエージェント協働トポロジーの例

マルチエージェントシステムの能力は、個々のエージェントの能力だけでなく、それらの間の通信構造にも依存します。適切なトポロジーは、適切なタイミングで適切な専門家を推論に参加させることができますが、不適切なトポロジーは情報の冗長性、誤った伝播、または非効率的な協働を引き起こす可能性があります。

初期の手法は、多くの場合、Chain、Tree、Debateといった固定トポロジーなどの人手による設計構造に依存していました。これらの構造はシンプルで直感的ですが、異なるタスクに適応させることは困難です。最近のグラフ学習手法は、トポロジーの自動設計をさらに試みています。例えば、AgentDropoutは動的プルーニングによって事前定義グラフを最適化し、G-Designerはタスク関連の対話構造を学習し、ARG-Designerは自己回帰方式でマルチエージェント協働トポロジーを生成します。

しかし、これらの手法も依然として「one-for-one」です。MMLU、GSM8K、HumanEvalといった単一タスクドメインで専用モデルを個別に学習させます。このようなパラダイムは、実運用において以下の3つの問題に直面します。

ドメインの仮定が現実離れしている：one-for-oneパラダイムは、タスクドメインが単一で既知であると仮定しますが、実際のリクエストは多くの場合ドメインを跨ぎ、予測不可能です。システムがユーザーに事前のドメイン分類を要求することはできず、実際の応用を大幅に制限します。
拡張とメンテナンスのコストが高い：新しいドメインを追加するたびに、データの再収集、モデルの再学習、パラメータ調整が必要になる可能性があります。
ドメイン横断的な共有知識を無視する：数学的推論、コードデバッグ、知識QAでは、「分析者 → チェッカー → 解決者」のような類似した協働パターンが共有される可能性があります。

OFA-MASの目標は、まさに汎用的なトポロジー設計器を学習させ、マルチドメインタスクから再利用可能な協働法則を学習させ、推論時に任意の入力クエリに対して適切なMASトポロジーを生成できるようにすることです。

OFA-MASはどのようにドメイン横断的協働トポロジーを生成するのか？

OFA-MASの全体アーキテクチャ図

OFA-MASは、MASトポロジー設計を条件付きグラフ生成問題としてモデル化します。ユーザークエリと汎用ロールプールが与えられると、モデルは協働グラフを直接生成します。ノードはエージェントの役割、エッジは情報フローを表します。

OFA-MASは、自己回帰グラフ生成を基本フレームワークとして採用します。

次のエージェントロールの選択：現在のタスクと既に生成された部分グラフに基づいて、次にどのタイプの専門家を追加する必要があるかを決定します。
通信接続の予測：新しく追加されたエージェントが、既存のどのエージェントから情報を受信すべきかを決定します。
トポロジーの段階的拡張：「ロール選択—エッジ接続」のプロセスを繰り返し、完全な協働グラフが生成されるまで継続します。

この自己回帰方式は、one-for-allシナリオに自然に適しています。異なるタスクが、固定テンプレートに依存することなく、異なる規模、異なるロールの組み合わせ、異なる通信方式のトポロジーを生成できます。

タスク認識型グラフ状態エンコーディング：トポロジー生成に真に「タスクを理解」させる

自己回帰生成だけでは不十分です。one-for-allモデルにとって、同じ部分グラフでも、異なるタスク下では全く異なる次の意思決定を意味する可能性があります。例えば、コード生成タスクではReviewerとDebuggerが必要になるかもしれませんが、数学の問題ではSolverとVerifierがより必要とされます。

このため、OFA-MASはTask-Aware Graph State Encoder (TAGSE)を設計しました。その核となる思想は、現在の部分グラフをエンコードする際に、タスクの意味情報を継続的に注入し、グラフ内の各ノード表現がクエリの制御を受けるようにすることです。

具体的には、TAGSEは事前学習済みの文ベクトルモデルを使用してタスククエリとロール記述をエンコードし、コンテキストゲーティングメカニズムを通じて現在のタスクに無関係な情報フローをフィルタリングします。これにより、モデルはメッセージパッシングを行う際に、すべての隣接情報を機械的に集約するのではなく、タスクの要求に応じて真に有用な構造情報を選択します。

この設計により、OFA-MASはタスク特異性を保持しながら、統一モデル内で複数のタスクタイプを処理することが可能になります。

MoEグラフ生成モジュール：異なるタスクに対して異なる「設計専門家」を活性化

MoEグラフ生成モジュールの詳細図

ドメイン横断的なMASトポロジーには、単一の最適な設計戦略は存在しません。数学的推論は段階的な求解と検証を好むかもしれませんし、コード生成は実装、レビュー、デバッグを必要とするかもしれませんし、知識QAは情報検索と統合により依存するかもしれません。

そのため、OFA-MASはMixture-of-Experts (MoE)生成モジュールを導入しています。モデル内部には複数のエキスパートネットワークが含まれており、ゲーティングネットワークがタスクの意味情報に基づいて、現在のトポロジー生成にどのエキスパートが参加するかを動的に決定します。

各生成ステップにおいて、MoEモジュールはそれぞれ以下に使用されます。

ノード生成：次に追加すべきエージェントロールを予測します。
エッジ生成：新しいエージェントと既存のエージェント間の情報接続を予測します。

このメカニズムにより、OFA-MASは単一の汎用モデル内で複数の協働戦略を学習できます。異なるタスクは異なるエキスパートの組み合わせを活性化でき、これによりドメイン横断的な共有とドメイン特化を両立します。

3段階の学習：構造文法からタスクアライメント、そして実検証へ

3段階の学習戦略の図

one-for-allトポロジー設計モデルを学習させることは容易ではありません。なぜなら、高品質な「タスク—最適トポロジー」の教師データは非常に高価だからです。OFA-MASは、易から難へと進む3段階の学習戦略によってこの問題を解決します。

無条件グラフ事前学習：まず、Chain、Star、FullConnectedといった古典的なトポロジーを使用して、モデルに協働グラフの基本的な「文法」を学習させます。
LLM駆動の条件付き事前学習：大規模言語モデルを「代理システム設計者」として活用し、「タスククエリ—MAS設定」の大規模データを低コストで生成し、モデルにタスクの意味情報とトポロジー構造間の対応関係を学習させます。
教師あり生成ファインチューニング：最後に、実際のベンチマークでMAS実行により検証された少量の高品質トポロジーを使用してファインチューニングを行い、モデルを実際のタスクパフォーマンスに対してより敏感にします。

このカリキュラム学習方式を通じて、OFA-MASはまず一般的なグラフ構造を習得し、次にドメイン横断的なタスクアライメントを学習し、最終的に実際の実行結果を用いて生成品質を較正します。

実験結果：単一モデルで6つの主要ベンチマークを安定的にリード

実験は、MMLU、GSM8K、AQuA、MultiArith、SVAMP、HumanEvalの6つの代表的なベンチマークをカバーし、さらにGAIAで未見ドメインに対するOOD汎化能力をテストしました。

比較手法には、単一エージェントのCoTおよびSelf-Consistency、固定MASトポロジー、Debateシステム、そしてAgentPrune、AgentDropout、G-Designer、EIB-LEARNERといったone-for-oneのグラフ学習トポロジー設計手法が含まれます。

1）全体性能：one-for-allモデルが専用のone-for-one手法を凌駕

下図に示すように、OFA-MASは6つのベンチマークで最優平均パフォーマンスを達成し、93.02%の平均成功率に達し、すべての比較手法を上回りました。

さらに注目すべきは、最初の2段階の事前学習のみを使用し、実際のベンチマークでのファインチューニングを行わなかった場合でも、OFA-MASは92.15%の平均パフォーマンスを達成し、最強のベースラインであるEIB-LEARNERを上回ったことです。これは、LLM駆動の合成データと汎用構造の事前学習だけでも、強力なドメイン横断的トポロジー設計能力を提供できることを示しています。

主要ベンチマークでのパフォーマンス比較表

2）OOD汎化：未見のGAIAタスクでも優位性を維持

モデルが真にドメイン横断的な汎化能力を持つかどうかを検証するため、論文では学習時に未見のGAIAベンチマークでテストを行いました。

注意すべき点は、現在の評価設定では、すべての手法がツール呼び出しなどの外部ツール機能を使用しておらず、同一の基盤モデルと同一の「ツールなし」条件下で、異なるMASトポロジーのパフォーマンスのみを比較していることです。これは現在のMASトポロジー生成研究の標準設定と一致しており、トポロジー設計自体がもたらす利点をより直接的に測定できます。

結果は、OFA-MASがGAIAで最高の平均精度を達成し、Level-1タスクで際立ったパフォーマンスを示したことを示しています。対照的に、one-for-one学習型手法はOODシナリオで明らかに劣化し、単純なChainトポロジーにも劣る場合がありました。これは、OFA-MASが学習したのが特定のタスクドメインの局所的な法則ではなく、より汎用的な協働構造知識であることを示しています。

GAIAベンチマークでのOOD汎化パフォーマンス比較

3）アブレーション実験：TAGSE、MoE、学習課程はいずれも不可欠

アブレーション実験では、TAGSEの置き換え、MoEの除去、3段階の学習のいずれかの段階の除去が、いずれもパフォーマンスの低下につながることを示しました。これは、OFA-MASの主要な設計が単純な積み重ねではなく、one-for-allトポロジー生成を共に支えていることを検証しています。

中でも、タスク認識エンコーディングはモデルがクエリに応じてグラフ状態表現を調整することを可能にし、MoEモジュールはタスク横断的な専門化された生成能力を提供し、無条件事前学習、LLM合成データによる事前学習、実データによるファインチューニングは、それぞれ構造的事前知識、タスクトポロジーアライメント、経験的パフォーマンス較正を担っています。

アブレーション実験の結果

4）堅牢性、事例研究、MoE可視化：結果からメカニズム検証へ

(a) 悪意のあるエージェントをシミュレートした堅牢性テストでは、OFA-MASのパフォーマンス低下は約2.2%にとどまり、他の手法よりも明らかに優れていました。これは、OFA-MASが生成する協働構造が単一のキーノードに過度に依存しないことを示しており、信頼できないエージェントが存在しうる実際の導入環境により適しています。

(b)-(c) 事例分析も、OFA-MASがタスクに応じて適切なロールを動的に選択できることを示しています。HumanEvalではコード開発向けの逐次レビュー構造を生成し、GSM8Kでは数学的求解、プログラム補助、チェックのロールを組み合わせ、汎用ロールプールから柔軟にチームを編成する能力を示しました。

(d) MoEの可視化は、モデル内部のエキスパート分化現象をさらに示しています。同じドメインのタスクは類似したエキスパートの組み合わせを安定的に活性化する一方、異なるドメインでは明らかに異なるエキスパートの好みを示します。例えば、HumanEvalはコード生成関連のエキスパートをより好む傾向があり、GSM8KやMultiArithは数学的推論関連のエキスパートをより多く活性化します。

堅牢性テスト、事例研究、MoE可視化の図

5）効率性分析：より高い精度と制御可能なトークンコスト

パフォーマンス上の優位性に加え、OFA-MASは精度と計算オーバーヘッドの間で優れたバランスを実現しています。トークン消費量の比較は、MMLUとGSM8Kにおいて、OFA-MASが非常に競争力のある推論コストでより高い精度を達成できることを示しています。

これは、OFA-MASが単に協働規模を拡大することでパフォーマンスと引き換えにしているのではなく、より適切な情報フロー構造を生成することができ、推論コストを制御しながらマルチエージェント協働の効果を向上させていることを示しています。

精度とトークンコストの比較図