論文淺嚐 | 利用多智能體大型語言模型實現知識圖譜自動化擴充（NeurIPS 2025）

知識圖譜在眾多領域中對於結構化知識和推理至關重要，但隨著科學文獻的爆炸性增長，手動構建與更新知識圖譜已難以擴展。傳統自然語言處理方法在理解領域術語和複雜語義關係方面存在侷限，而現有的大型語言模型雖具備強大的文本理解能力，但在構建知識圖譜時常面臨幻覺、模式不一致與計算成本過高等問題。為此，本文提出 KARMA（Knowledge-graph Augmentation with Reasoning Multi-Agent systems），一個基於多智能體大型語言模型的自動化知識圖譜增強框架，旨在透過協同式、模組化的智能體系統實現高效、準確、可擴展的知識抽取與整合。

本文的主要貢獻包括：

提出KARMA多智能體框架：首次將多智能體LLM系統系統化應用於知識圖譜增強任務，透過九個專業化智能體協作完成文檔解析、實體發現、關係提取、模式對齊與衝突消解，顯著提升知識抽取的準確性與一致性。
設計跨智能體驗證與迭代優化機制：透過智能體間的交叉驗證（如關係提取與模式對齊的互檢）與基於辯論的衝突消解策略，有效緩解LLM的幻覺問題，提升抽取結果的可信度。
實現領域自適應與模組化擴展：支援動態調整提示策略以適配不同科學領域，模組化設計便於融入新實體類型、關係或更新LLM模型，具有良好的可擴展性與適應性。
實驗驗證與開源實現：在三個生物醫學領域（基因組學、蛋白質體學、代謝體學）的1200篇PubMed文獻上進行系統性實驗，結果表明KARMA能識別多達38,230個新實體，LLM驗證正確率達83.1%，衝突邊減少18.6%，效能顯著優於單智能體基線模型。

3.1 整體問題定義

給定一個現有知識圖譜 G 和一組非結構化科學文獻 D，目標是自動從每篇文獻 d 中提取一組新的知識三元組，並將其融合到 G 中，生成一個增強的知識圖譜 G'。

3.2 智能體核心方法與流程

KARMA透過九個智能體的管線式協作完成此任務，每個智能體都針對特定子任務進行了優化，其流程如圖1所示。

圖 1 KARMA 整體流程圖

1. 文檔預處理智能體

攝入智能體（IA）：

輸入：原始文檔（PDF/HTML）。
核心操作：使用LLM（如GLM-4）解析文檔結構，執行 normalize(p_i) 處理OCR錯誤和格式不一致問題，同時提取元數據 metadata(p_i)（標題、作者、期刊、日期）。
輸出：標準化文本及元數據，供下游智能體處理。

閱讀智能體（RA）：

核心操作：將文檔分割為邏輯段落 S。為每個段落 s 計算相關性分數 rel(s)：其中LLM根據段落內容與當前知識圖譜 G 中實體的關聯度進行評分。
過濾：丟棄 rel(s) < θ 的段落（ θ 為領域特定閾值），以減少雜訊。

摘要智能體（SA）：

目的：減少計算開銷，為下游提取任務提供高信噪比輸入。
核心操作：對每個保留段落 s'，生成濃縮摘要 abs：提示 prompt 要求LLM保留關鍵實體、關係和領域術語。

2. 知識提取智能體

實體提取智能體（EEA）：

核心操作：在摘要 abs 上執行LLM驅動的命名實體識別（NER），生成候選實體集合 E_cand：其中 norm 表示使用領域本體（如UMLS、MeSH）進行過濾和規範化，將表面形式（如“acetylsalicylic acid”）映射為規範實體（如“Aspirin”）。
實體鏈接：對於每個新實體 e，通過最小化嵌入空間距離，將其鏈接到知識圖譜中的現有節點 v：不匹配的實體則作為候選新節點 v_new。

關係提取智能體（REA）：

核心操作：對於摘要 abs 中的每個實體對 (e_i, e_j)，使用LLM分類器預測其關係 r 的概率分佈。
三元組生成：選取概率超過閾值 τ 的關係，形成候選三元組集合 T_cand。支援多標籤預測，即一對實體間可能存有多種關係。

3. 知識融合智能體

模式對齊智能體（SAA）：

任務：將EEA和REA識別出的新實體/關係類型與知識圖譜現有模式對齊。
核心操作：對於新實體 e_new，SAA將其分類到預定義類型 type（如 Drug, Disease）：類似地，為新關係類型尋找最接近的現有關係。

衝突消解智能體（CRA）：

任務：檢測候選三元組 t_cand 與知識圖譜中現有三元組 t_exist 的邏輯衝突。
核心操作：定義衝突函數 conflict(t_cand, G)，當檢測到矛盾時，啟動基於LLM的辯論機制：若結果為 Contradict，則丟棄該三元組或提交專家審核。

評估智能體（EA）：

任務：為每個通過衝突檢測的候選三元組 t_cand 計算全局品質分數，決定是否最終整合。
核心操作：聚合來自多個智能體的驗證信號，計算三個維度的分數：置信度、清晰度、相關性。
整合決策：若平均分超過閾值 δ，則整合該三元組。

4.1 實驗設置

1. 資料集

從PubMed收集1,200篇科學文獻，涵蓋三個領域：

基因組學：720篇，關注基因變異、調控元件等
蛋白質體學：360篇，關注蛋白質結構、交互作用網絡
代謝體學：120篇，關注代謝路徑、代謝物分析

2. 基線模型

單智能體基線：使用單一LLM直接提取所有三元組
多模型對比：分別在GLM-4、GPT-4o、DeepSeek-v3上實現KARMA

3. 評估指標

指標類別	具體指標	說明
核心指標	平均置信度	新增三元組的平均置信度得分
	平均清晰度	關係表述的明確程度
	平均相關性	與領域主題的相關性
圖統計指標	覆蓋率增益	新增實體數量
	連通性增益	節點度數的淨增長
品質指標	衝突比率	因矛盾被移除的邊比例
	LLM正確率	獨立LLM驗證的正確率
	QA一致性	知識圖譜問答的準確率
	人工評分	專家評估的品質得分

4.2 主要結果

1. 總體效能對比

在基因組學領域，KARMA (DeepSeek-v3) 從720篇文獻中提取了 58,412個候選三元組，經過衝突消解和品質評估後，最終整合了 42,187個高品質三元組。其中，38,230個三元組包含至少一個新實體，顯著擴展了圖譜的覆蓋範圍。

各模型在不同領域上的表現如表1所示：

表 1 KARMA跨領域效能對比表

關鍵發現如下：

KARMA在所有指標上顯著優於單智能體基線
DeepSeek-v3在覆蓋率增益上表現最佳（基因組學38,230個新實體）
GPT-4o在LLM正確率上領先（基因組學88.0%）
多智能體協作將衝突邊減少18.6%

2. 領域特異性分析

基因組學：數據規模最大，DeepSeek-v3展現出最佳召回率與準確率平衡
蛋白質體學：各模型表現相對均衡，GLM-4在QA一致性上領先
代謝體學：數據稀疏，但KARMA仍能有效挖掘代謝路徑關係

4.3 消融實驗

為驗證各智能體的貢獻，本文進行系統消融研究：

表2 消融實驗結果

關鍵結論：

移除摘要智能體：雜訊增加，準確率下降22.9%
移除衝突消解：邏輯一致性降低，QA一致性下降4.9%
移除評估智能體：低品質邊整合，整體品質顯著下降

KARMA是一個創新的多智能體LLM框架，透過分解知識抽取任務為多個專業化智能體，實現了對科學文獻的高效、準確、可解釋的知識圖譜增強。該框架不僅提升了抽取品質與一致性，還具備良好的領域適應性與可擴展性。實驗證明其在多個生物醫學領域中均優於現有方法，為自動化知識圖譜構建與更新提供了有力工具。未來可進一步探索跨領域泛化、實時更新機制與更多樣化的知識表示形式。

筆記整理：汪研，東南大學碩士研究生，研究方向為自然語言處理
論文連結：KARMA: Leveraging Multi-Agent LLMs for Automated Knowledge Graph Enrichment
發表會議：NeurIPS 2025