論文サーベイ | マルチエージェント大規模言語モデルによる知識グラフ自動拡充 (NeurIPS 2025)

知識グラフは多くの領域で構造化された知識と推論に不可欠ですが、科学文献の爆発的な増加に伴い、手動による構築と更新は容易ではなくなっています。従来の自然言語処理手法は、専門用語や複雑な意味関係の理解に限界があり、一方、既存の大規模言語モデル（LLM）は優れたテキスト理解能力を持つものの、知識グラフ構築において幻覚、スキーマの不一致、高い計算コストといった問題にしばしば直面します。そこで本論文では、マルチエージェント大規模言語モデルに基づく自動知識グラフ拡充フレームワーク「KARMA（Knowledge-graph Augmentation with Reasoning Multi-Agent systems）」を提案します。これは、協調的かつモジュール化されたエージェントシステムを通じて、効率的で正確、かつスケーラブルな知識抽出と統合を実現することを目的としています。

本論文の主な貢献は以下の通りです：

KARMAマルチエージェントフレームワークの提案：マルチエージェントLLMシステムを知識グラフ拡充タスクに体系的に適用した初の試みであり、文書解析、実体発見、関係抽出、スキーマアライメント、競合解消のために9つの専門エージェントが連携することで、知識抽出の正確性と一貫性を大幅に向上させます。
エージェント間検証と反復最適化メカニズムの設計：エージェント間の相互検証（関係抽出とスキーマアラインメントの相互チェックなど）や、議論に基づく競合解消戦略を通じて、LLMの幻覚問題を効果的に緩和し、抽出結果の信頼性を高めます。
ドメイン適応とモジュール拡張の実現：異なる科学分野に適応するための動的なプロンプト戦略の調整をサポートし、モジュール設計により、新しい実体型や関係の組み込み、LLMモデルの更新が容易で、優れた拡張性と適応性を備えています。
実験による検証とオープンソース実装：ゲノミクス、プロテオミクス、メタボロミクスの3つの生物医学分野における1200件のPubMed文献に対する体系的な実験の結果、KARMAは最大38,230の新規実体を特定し、LLM検証に基づく正解率は83.1%に達し、競合エッジを18.6%削減しました。単一エージェントのベースラインモデルを大幅に上回る性能を示しています。

3.1 問題定義の概要

既存の知識グラフ G と、非構造化された科学文献のセット D が与えられたとき、各文献 d から新しい知識トリプルのセット T を自動的に抽出し、それを G に統合することで、拡張された知識グラフ G' を生成することを目的とします。

3.2 エージェントの中核的手法とパイプライン

KARMAは、9つのエージェントによるパイプライン連携を通じてこのタスクを遂行します。各エージェントは特定のサブタスクに最適化されており、そのフローは図1に示されます。

図1 KARMA全体フロー図

1. 文書前処理エージェント

取り込みエージェント (IA)：

入力：生の文書（PDF/HTML）。
主な操作：LLM（GLM-4など）を用いて文書構造を解析し、normalize(p_i) 処理によりOCRエラーや書式の不整合を処理すると同時に、メタデータ metadata(p_i) （タイトル、著者、ジャーナル、日付）を抽出します。
出力：後続のエージェントが処理するための、正規化されたテキストとメタデータ。

読解エージェント (RA)：

主な操作：文書を論理的なパラグラフ p_j に分割します。各パラグラフ p_j について、その関連性スコア score(p_j) を計算します。これはLLMが、パラグラフの内容と既存の知識グラフ G 内の実体との関連度に基づいて評価します。
フィルタリング：ノイズを削減するため、score(p_j) < threshold となるパラグラフは破棄します（threshold はドメイン固有の閾値）。

要約エージェント (SA)：

目的：計算オーバーヘッドを削減し、下流の抽出タスクに高いシグナル対ノイズ比の入力を提供します。
主な操作：保持された各パラグラフ p_j に対して、濃縮された要約 s_j を生成します。プロンプトでは、重要な実体、関係、ドメイン用語を保持するようLLMに要求します。

2. 知識抽出エージェント

実体抽出エージェント (EEA)：

主な操作：要約 s_j に対してLLM駆動の固有表現認識（NER）を実行し、候補実体セット E_cand を生成します。ドメインオントロジー（UMLS、MeSHなど）を用いてフィルタリングと正規化を行い、表層形（例：「アセチルサリチル酸」）を正規形（例：「アスピリン」）にマッピングします。
実体リンキング：各新規実体 e_new について、埋め込み空間での距離を最小化することで、知識グラフ内の既存ノード e_existing にリンクします。一致しない実体は、候補となる新規ノード E_new として扱われます。

関係抽出エージェント (REA)：

主な操作：要約 s_j 内の各実体ペア (e_i, e_j) に対して、LLM分類器を使用して関係 r の確率分布 P(r|e_i, e_j) を予測します。
トリプル生成：確率が閾値 theta を超える関係を選択し、候補トリプルセット T_cand を形成します。マルチラベル予測、すなわち一対の実体間に複数の関係が存在する可能性もサポートします。

3. 知識融合エージェント

スキーマアライメントエージェント (SAA)：

タスク：EEAとREAが特定した新しい実体/関係タイプを、知識グラフの既存スキーマと整合させます。
主な操作：新しい実体 e について、SAAはそれを事前定義されたタイプ type（Drug、Disease など）に分類します。同様に、新しい関係タイプについても、最も近い既存の関係を探します。

競合解消エージェント (CRA)：

タスク：候補トリプル T_cand と、知識グラフ内の既存トリプル G_existing との論理的矛盾を検出します。
主な操作：矛盾検出時には、LLMに基づく議論メカニズムを起動します。結果が Contradict である場合、そのトリプルは破棄されるか、専門家によるレビューに送られます。

評価エージェント (EA)：

タスク：競合検出を通過した各候補トリプル t について、グローバル品質スコアを計算し、最終的な統合の可否を決定します。
主な操作：複数のエージェントからの検証シグナルを集約し、以下の3つの次元でスコアを計算します：信頼度、明確さ、関連性。
統合の判断：平均スコアが閾値 tau を超えた場合、そのトリプルが統合されます。

4.1 実験設定

1. データセット

PubMedから収集した1,200件の科学文献で、以下の3つの分野をカバーします：

ゲノミクス：720件、遺伝子多型や調節エレメントなどに焦点
プロテオミクス：360件、タンパク質構造や相互作用ネットワークに焦点
メタボロミクス：120件、代謝経路や代謝物分析に焦点

2. ベースラインモデル

単一エージェントベースライン：単一のLLMを使用して、すべてのトリプルを直接抽出します
複数モデル比較：KARMAをGLM-4、GPT-4o、DeepSeek-v3でそれぞれ実装し、比較します

3. 評価指標

指標カテゴリ	具体的な指標	説明
コア指標	平均信頼度 (Average Confidence)	新たに追加されたトリプルの平均信頼度スコア
	平均明確さ (Average Clarity)	関係記述の明確さの度合い
	平均関連性 (Average Relevance)	対象分野のテーマとの関連性
グラフ統計指標	カバレッジ向上度 (Coverage Gain)	新規に追加された実体の数
	連結性向上度 (Connectivity Gain)	ノード次数の純増加数
品質指標	競合比率 (Conflict Ratio)	矛盾のために削除されたエッジの割合
	LLM正解率 (LLM-based Correctness)	独立したLLMによる検証での正解率
	QA一貫性 (Question-Answer Coherence)	知識グラフ質問応答の精度
	人手評価スコア (Human Evaluation Score)	専門家が評価した品質スコア

4.2 主な結果

1. 全体的な性能比較

ゲノミクス分野において、KARMA (DeepSeek-v3) は720件の文献から 58,412個の候補トリプル を抽出し、競合解消と品質評価を経て、最終的に 42,187個の高品質トリプル を統合しました。このうち、38,230個のトリプルは少なくとも1つの新規実体を含んでおり、グラフのカバレッジを大幅に拡大しました。

各モデルの異なる分野におけるパフォーマンスは表1の通りです：

表 1 KARMAクロスドメイン性能比較表

主な発見は以下の通りです：

KARMAはすべての指標において、単一エージェントのベースラインを大きく上回りました。
DeepSeek-v3は、カバレッジ向上度において最高のパフォーマンスを示しました（ゲノミクス分野で38,230の新規実体）。
GPT-4oは、LLM正解率でリードしました（ゲノミクス分野で88.0%）。
マルチエージェントの連携により、競合エッジが18.6%減少しました。

2. 分野特異性の分析

ゲノミクス：データ規模が最大であり、DeepSeek-v3が最良の再現率と精度のバランスを示しました。
プロテオミクス：各モデルのパフォーマンスは比較的均衡していましたが、GLM-4はQA一貫性でリードしました。
メタボロミクス：データが疎であるにもかかわらず、KARMAは代謝経路の関係を効果的に抽出することができました。

4.3 アブレーション実験

各エージェントの貢献を検証するため、体系的なアブレーションスタディを実施しました：

表2 アブレーション実験結果

主な結論：

要約エージェントの除去：ノイズが増加し、正解率が22.9%低下しました。
競合解消の除去：論理的一貫性が低下し、QA一貫性が4.9%低下しました。
評価エージェントの除去：低品質なエッジが統合され、全体的な品質が著しく低下しました。

KARMAは、知識抽出タスクを複数の専門エージェントに分解する革新的なマルチエージェントLLMフレームワークであり、科学文献に対する効率的、正確、かつ説明可能な知識グラフ拡充を実現します。このフレームワークは、抽出の品質と一貫性を向上させるだけでなく、優れた分野適応性と拡張性を備えています。実験により、複数の生物医学分野において既存の手法よりも優れていることが証明され、自動化された知識グラフ構築と更新のための強力なツールを提供します。将来的には、クロスドメイン汎化、リアルタイム更新メカニズム、より多様な知識表現形式へのさらなる探求が可能です。