別讓「反幻覺」扼殺AI創造力，最新實證研究來了！

大數據文摘受權轉載自學術頭條

整理：瀟瀟

大語言模型（LL）普遍存在幻覺問題，即生成與客觀事實不符的內容。針對這一問題，已有多种抑制幻覺的技術被提出。

在科研活動中，創造力是提出科學假設與構建科學構想的關鍵要素。隨著 LLM 日益深入科研輔助工作中，這種依賴非常規聯想的創造性思維在表現形式上往往與模型幻覺相似。

然而，抑制幻覺的技術是否會削弱模型的創造力，業內仍缺乏系統性認知。

基於此，南洋理工大學研究團隊運用兩個創造力測評基準，對抑制幻覺方法與模型創造力之間的關係進行了研究，為科學應用場景中如何選擇合適的抑制幻覺技術提供了重要參考。

論文連結：https://arxiv.org/pdf/2512.11509

他們選取了兩個創造力測評基準。

在兩個基準測試上，他們對三種抑制幻覺技術進行系統評估，包括：驗證鏈（CoVe）、對比層解碼（DoLa）和檢索增強生成（RAG）。

圖｜實驗框架示意圖

CoVe 提升發散性創造力

實驗結果顯示，CoVe 能顯著提升大模型的發散性創造力，也就是讓模型在思考問題時產生更多新穎、多樣的答案。

在不同模型與基準上的實驗中，CoVe 整體表現穩定，尤其在某些小模型上提升更為明顯。

這說明，CoVe 透過引入「驗證—質詢」式的解碼過程，引導模型探索更多潛在推理路徑，而不是沿著單一方向快速得出結論。

CoVe 的效果不僅體現在性能指標上，也體現出類人的發散思維訓練的價值，透過持續發問與多方向思考，有助於打破思維定勢，刺激「頭腦風暴式」的創意思考。

圖｜解碼方法對發散性創造力的影響（NeoCoder）

另一方面，RAG 對模型的發散性創造力基本沒有實質影響。無論是在不同模型規模還是不同基準上，RAG 的結果都僅呈現出輕微且隨機的波動，整體圍繞基線上上下浮動。

但研究團隊也解釋了潛在可能，如果檢索系統能提供模型訓練之外的策略或新鮮知識，RAG 可能在創造性上發揮積極作用。例如，高品質檢索內容可幫助模型提升事實性判斷，這一能力與創造力趨同，同時還可能透過引入新視角來激發新思路，提高發散性創造力。

圖｜解碼方法對發散創造力的影響（CS4）

與上述兩種技術相反，DoLa 會系統性降低模型的發散性創造力。在兩個基準上，基於 DoLa 的大多數模型的表現均略低於基線，這表明，創造力下降來自 DoLa 本身，而非模型結構差異。

研究團隊推測，DoLa 削弱了負責創造力的層級結構。DoLa 的機制是透過將早期層預測從後期層預測中相減以提升事實性，如果早期層包含更多探索性與發散性特徵，那麼在進行對比運算時，就可能抹除創造生成所需的資訊。

進一步實驗顯示，透過在解碼時增強與創造力相關的層級、抑制負相關層級，可以在不損害趨同創造力的前提下提升發散性創造力。這說明兩類創造力可能是可分離的，未來可針對性地提升發散性創造潛力。

圖｜透過增強與創造力正相關的層級並抑制與創造力負相關的層級來提升發散創造力

局限性

當然，這項研究也存在一定的局限性。

第一，創造力評估具有局限性。實驗只能間接衡量科學假設生成能力，並不等同真實科研中的創造力表現，所以結果的外推性有限。

第二，CoVe 機制解釋不足。雖然 CoVe 能提升發散創造力，但沒做消融實驗，也沒有揭示具體機制，因此無法確定其發揮作用的因果路徑。

第三，RAG 結論不夠穩固。關於 RAG 對創造力影響弱的解釋，缺乏對檢索品質和不同檢索策略的測量，因此結論需要更系統驗證。

隨著 LLM 變得越來越聰明，釋放在科學發現方面的潛力變得越來越重要。展望未來，研究人員希望 LLM 不僅是被動的工具，更能成為科研工作中的積極協作者。

GPU 訓練特惠！

H100/H200 GPU 算力按秒計費，平均節省開支 30% 以上！

掃碼了解詳情☝

點「讚」的人都變好看了哦！