大数据文摘 学術ヘッドライン授权转载
整理:潇潇
大規模言語モデル(LLM)には、客観的な事実と一致しない内容を生成する「ハルシネーション(幻覚)」問題が普遍存在しています。この問題に対応するため、ハルシネーションを抑制する様々な技術が提案されています。
科学研究活動では、創造性は科学的仮説を提起し、科学的概念を構築するための重要な要素です。LLMが科学研究補助にますます深く関わる中で、この非常識な連想に依存する創造的思考は、その表現形式においてモデルのハルシネーションと類似していることが多いです。
しかし、ハルシネーション抑制技術がモデルの創造性を損なうかどうかについて、業界にはまだ体系的な認識が不足しています。
これを受けて、南洋理工大学の研究チームは、2つの創造性評価ベンチマークを活用し、ハルシネーション抑制方法とモデルの創造性との関係を研究しました。これにより、科学的応用場面における適切なハルシネーション抑制技術の選択に重要な参考を提供しています。
論文リンク:https://arxiv.org/pdf/2512.11509
彼らは2つの創造性評価ベンチマークを選択しました。
NeoCoder:制約条件を段階的に増加させるプログラミングタスクを通じてモデルの創造性を評価します。その高度に規則化されたタスク環境は、固定された自然法則の制約下で行う科学実験に例えることができます。
CS4:オープンエンドのストーリー生成に焦点を当て、拡散性の連想や想像能力をより重視し、科学的仮説生成に必要な創造的思考プロセスに近づけています。
両ベンチマークで、彼らは3つのハルシネーション抑制技術を体系的に評価しました。これには、検証連鎖(CoVe)、対比層デコーディング(DoLa)、検索拡張生成(RAG)が含まれます。
図:実験フレームワーク模式図
CoVeは拡散性創造性を向上させる
実験結果は、CoVeが大規模モデルの拡散性創造性を显著に向上させることを示しています。つまり、モデルが問題を考える際に、より新しい、多様な答えを生み出すことを意味します。
異なるモデルとベンチマークにわたる実験で、CoVeは全体的に安定した性能を示し、特にいくつかの小規模なモデルでは向上がより顕著でした。
これは、CoVeが「検証-質問」型のデコードプロセスを導入することで、単一の方向に迅速に結論を出すのではなく、潜在的な推論経路をより多く探索するようモデルを誘導していることを示しています。
CoVeの効果は、性能指標に現れるだけでなく、人間のような拡散的思考の訓練の価値も体現しています。持続的な質問と多方向からの思考は、思考の定型を破り、「ブレインストーミング」スタイルの創造的思考を刺激するのに役立ちます。
図:デコード方法が拡散性創造性に与える影響(NeoCoder)
RAGは拡散性創造性に与える影響が限定的
一方、RAGはモデルの拡散性創造性に本質的な影響を几乎没有します。モデルの規模やベンチマークが異なっても、RAGの結果は僅かなランダムな変動を示すだけで、基準線を上下に浮动するにとどまります。
ただし、研究チームは潜在的な可能性も説明しています。検索システムがモデルの訓練範囲外の戦略や新しい知識を提供できる場合、RAGは創造性において積極的な役割を果たす可能性があります。例えば、高品質な検索内容はモデルの事実判断能力を向上させるのに役立ち、この能力は創造性と一致しています。また、新しい視点を導入することで新たな着想を刺激し、拡散性創造性を高める可能性もあります。
図:デコード方法が拡散創造性に与える影響(CS4)
DoLaは拡散性創造性を抑制する
上記の2つの技術とは対照的に、DoLaはモデルの拡散性創造性を体系的に低下させます。両ベンチマークで、DoLaを基盤とするモデルの殆どが基準線を下回る傾向を示し、創造性の低下がDoLa自体によるものであり、モデル構造の差異ではないことを示しています。
研究チームは、DoLaが創造性を担う層構造を弱めると推測しています。DoLaのメカニズムは、事実性を向上させるために後期層の予測から前期層の予測を減算することです。前期層に更多の探索的で拡散的な特徴が含まれている場合、対比演算を行う際に創造的生成に必要な情報が消去される可能性があります。
进一步の実験では、デコード時に創造性と正の相関を持つ層を強化し、負の相関を持つ層を抑制することで、収束性創造性を損なわずに拡散性創造性を向上できることが示されました。これは、2つのタイプの創造性が分離可能であることを示唆しており、将来、拡散性創造性を対象的に向上させることができることを意味します。
図:創造性と正の相関を持つ層を強化し、負の相関を持つ層を抑制することで拡散創造性を向上させる
限界
もちろん、この研究にも一定の限界があります。
第一に、創造性評価には限界があります。実験は科学的仮説生成能力を間接的に測定するだけで、現実の科学研究における創造性の表現と同等ではなく、結果の外挿性は限られています。
第二に、CoVeのメカニズム解明が不足しています。CoVeが拡散的創造性を向上させることは明らかですが、消去実験(ablation study)が行われておらず、具体的なメカニズムも明らかにされていないため、その因果関係の経路を特定できません。
第三に、RAGの結論は十分に確固たるものではありません。RAGの創造性への影響が弱いという説明に対して、検索品質や異なる検索戦略の測定が欠如しているため、結論はより体系的な検証を必要とします。
LLMがますます賢くなるにつれ、科学的発見におけるそれらの潜在能力を解き放つことが重要になっています。展望として、研究者はLLMが受動的なツールであるだけでなく、科学研究の積極的な協力者となることを望んでいます。