Agentic RAG到底值不值？四大維度實測給你答案！

想像一下，你問ChatGPT一個問題，它不僅要從自己的「大腦」裡找答案，還要翻遍外部知識庫，然後再給你回覆。這就是RAG（檢索增強生成）系統做的事情。但問題來了：是讓系統按照固定流程一步步走，還是讓AI自己當「專案經理」，自主決定每一步該幹什麼？

這篇論文就是要回答這個問題。研究團隊把RAG系統分成了兩大陣營：

Enhanced RAG（增強型RAG）：就像一條精心設計的流水線，有專門的「查詢改寫工」、「文件排序工」等模組，各司其職
Agentic RAG（智能體RAG）：讓大語言模型當總指揮，它自己決定要不要檢索、要不要改寫查詢，完全自主控制

目前業界對這兩種方案各有追捧，但到底哪個更好用？在什麼場景下該選哪個？成本和性能怎麼平衡？這些問題都沒有明確答案。於是研究團隊決定做一次「華山論劍」式的全面對比。

他們的核心貢獻有兩點：第一，從四個關鍵維度評估了兩種系統的實際表現；第二，詳細分析了成本和計算時間的差異，給實際應用提供了非常實用的參考。

相關工作：RAG技術的演進脈絡

RAG這個概念最早由Lewis等人在2020年提出，最初的設計非常簡單：收到查詢→檢索相關文件→把文件和查詢一起餵給模型→生成答案。但這種「裸RAG」（論文裡叫Naïve RAG）問題多多：有時候明明不需要檢索也要檢索一遍，浪費資源；有時候檢索到的文件品質不高，都是些不相關的內容；用戶問題和知識庫文件的表述方式差異太大，匹配效果差。

於是Enhanced RAG應運而生，研究者們開始往這條流水線上加各種「增強模組」：

查詢改寫模組（比如HyDE技術，把問題改寫成假想的答案段落，再去匹配）
語義路由模組（判斷這個問題到底需不需要檢索）
重排序模組（把檢索到的文件按相關性重新排序）

與此同時，隨著GPT-4這類模型的推理能力暴漲，Agentic RAG開始冒頭。這種方案的核心思想是：既然模型都這麼聰明了，為什麼不讓它自己決定工作流程？於是各種Agent框架像雨後春筍般出現：LangGraph、LlamaIndex、CrewAI等等。

但有意思的是，儘管這兩條技術路線都很火，學術界竟然還沒有人做過系統性的對比實驗。Neha和Bhati在2025年提出了一些理論上的區分，但沒有真刀真槍地測試。這篇論文就是要填補這個空白。

核心方法：四大維度的「拳拳到肉」對比

研究團隊選了四個關鍵維度來PK這兩種系統，每個維度都對應Naïve RAG的一個痛點：

1. 用戶意圖處理：該不該檢索的判斷力

問題情境：用戶問「今天天氣怎麼樣」，系統不應該去知識庫裡翻文件；但問「公司Q3銷售報告的關鍵數據是什麼」，就必須檢索。這個判斷能力很重要。

Enhanced的做法：用semantic-router框架，提前準備一堆「有效問題」和「無效問題」的例子，新問題來了就跟這些例子比相似度，判斷屬於哪一類。

Agentic的做法：讓GPT-4o自己決定，它可以选择「調用RAG工具」或者「直接回答」。

測試方法：在FIQA（金融問答）、FEVER（事實驗證）、CQADupStack（論壇問答）三個資料集上各準備500個有效查詢和500個無效查詢，看誰判斷得準。

2. 查詢改寫：讓問題和文件「說同一種語言」

問題情境：用戶問「自由職業的稅務影響是什麼？」，知識庫裡的文件可能寫的是「自由職業者需要繳納以下稅種……」，表述方式不一樣，直接匹配效果差。

Enhanced的做法：強制執行HyDE改寫——把問題改寫成一段假想的答案，比如「自由職業需要繳納特定稅種……」，然後用這段文本去匹配知識庫。

Agentic的做法：提示詞裡告訴Agent可以改寫查詢，但Agent自己決定要不要改、怎麼改。

評估指標：用NDCG@10（歸一化折損累積增益）來衡量檢索品質，這是資訊檢索領域的黃金標準。

其中：

是第個文件的相關性標籤。

3. 文件列表優化：檢索完還能再精選

問題情境：第一次檢索可能拿到20個文件，但其中有些不太相關，需要進一步篩選。

Enhanced的做法：用基於ELECTRA的重排序模型，把20個文件重新排序，選出最相關的10個。

Agentic的做法：Agent可以多次調用檢索工具，每次都能調整查詢策略，自己迭代優化。

4. 底層模型影響：換個「大腦」性能差多少

實驗設計：用Qwen3系列的四個模型（0.6B、4B、8B、32B參數）分別測試，看模型大小對兩種系統的影響是否一致。

評估方式：用Selene-70B作為「AI裁判」，評價生成答案的品質。這個模型在LLM-as-a-Judge競技場排名很高，而且在金融問答任務上跟人類評價高度一致。

實驗效果：誰更強？要看具體場景

用戶意圖處理：Enhanced在複雜場景更穩

結果很有意思：在FIQA（金融）和CQADupStack（英語語法）這種領域邊界清晰的場景，Agentic RAG表現更好，F1分數分別達到98.8和99.8。但在FEVER（事實驗證）這種開放域任務上，Agentic的召回率只有49.3%，比Enhanced低了35個百分點！

原因很明確：當任務邊界模糊時，Agent經常「過度熱情」，本不該檢索的也去檢索了。而Enhanced的基於示例的路由系統，在這種情況下反而更穩定。

查詢改寫：Agent的靈活性勝出

在所有資料集上，Agentic RAG的檢索品質平均高出Enhanced RAG 2.8個NDCG@10點。特別是在NQ（自然問題）資料集上，Agentic達到51.7，比Enhanced的43.9高了近8個點。

這說明什麼？Agent能根據具體問題靈活決定改寫策略，而Enhanced是「一刀切」的強制改寫，有時候反而畫蛇添足。

文件優化：Enhanced的重排序完勝

這個結果出人意料：Enhanced RAG透過重排序模組，在FIQA上從45.0提升到51.0（提升6個點），在CQADupStack上從46.0提升到48.0。

但Agentic RAG呢？即使允許它多次調用檢索工具，性能反而比基線還差（FIQA降到43.4，CQADupStack降到44.4）。看來Agent雖然能自主決策，但在「精挑細選文件」這件事上，還是不如專門訓練的重排序模型靠譜。

模型大小影響：兩者表現趨同

無論Enhanced還是Agentic，隨著底層模型從0.6B增大到32B，性能都穩步提升，而且提升曲線幾乎一致。這說明模型能力的影響是跨系統的，選哪種架構和選多大的模型可以獨立考慮。

成本分析：Agentic的「奢侈稅」不容忽視

這部分數據可能是最讓實際應用者關注的：

Token消耗對比（FIQA資料集）：

Agentic比Enhanced多消耗2.7倍的輸入token
輸出token多1.7倍
整體耗時增加1.5倍

在CQADupStack資料集上差距更大：

輸入token多3.9倍
輸出token多2.0倍

換算成真金白銀：如果你用OpenAI的API，Agentic RAG的成本可能是Enhanced的3-4倍。對於大規模應用，這不是小數目。

為什麼會這樣？因為Agentic需要不斷「思考」——每一步都要推理要不要調用工具、怎麼調用，這些中間步驟都要消耗token。而Enhanced是固定流程，該幹啥幹啥，不用額外「思考」。

從分佈圖可以看出，Agentic的token消耗和耗時都有明顯的「長尾」現象——有些查詢特別費勁，Agent要反覆調用工具好幾次。

論文總結：沒有銀彈，只有權衡

這篇論文最大的價值在於：打破了「新技術一定更好」的神話。

主要發現可以總結為：

窄領域任務選Agentic，開放域任務選Enhanced：在金融、語法這種邊界清晰的場景，Agent的理解力能發揮優勢；但在FEVER這種「什麼都能問」的場景，基於規則的路由反而更可靠。
查詢改寫環節Agentic占優：靈活的改寫策略確實能提升檢索品質，平均提升2.8個NDCG點，這個優勢是實打實的。
文件精選必須上重排序：Agent多次檢索的策略沒有Enhanced的專用重排序模型好用，這可能是Agentic架構的最大短板。論文建議：為什麼不在Agentic裡也加個重排序工具？
成本差異不可忽視：3-4倍的成本增加對很多應用來說是難以承受的。除非你對性能有極致要求，否則優化好的Enhanced RAG可能更實惠。
模型大小影響兩者一致：這意味著你可以先選架構，再根據預算選模型，兩個決策相對獨立。

實用建議：

如果你是企業開發者，在小規模、預算有限的場景下，Enhanced RAG可能是更明智的選擇——性能夠用，成本可控。

如果你追求極致的用戶體驗，或者應用場景特別複雜多變，那Agentic RAG的靈活性值得你為之付費。

但最理想的方案可能是「混合架構」：用Enhanced的重排序模組 + Agentic的靈活決策，取兩者之長。研究團隊也坦言，他們的Agentic實現只用了一個工具（RAG），如果給Agent配置更豐富的工具箱，結果可能完全不同。

這場對決沒有絕對的贏家，但給了我們一個清晰的參考系：選RAG系統，要看場景、看預算、看需求，盲目追新不如理性權衡。

添加微信，備註」LLM「進入大模型技術交流群

如果你覺得這篇文章對你有幫助，別忘了點個讚、送個喜歡

>/ 作者：ChallengeHub小編

>/ 作者：歡迎轉載，標註來源即可