開源上新｜大型語言模型還在「金魚記憶」？全新基準 RHELM 測出「真實長期記憶」天花板

（本文閱讀時間：13 分鐘）

我們已經習慣讓大型語言模型回答問題、生成代碼、撰寫報告，但當它真正要成為一名「貼身的個人助理」時，最難的反而是一件最樸素的事——記得住。

它需要記得住你三個月前提過的過敏藥物，記得住你上週才搬家到新的城市，記得住你昨天交給它的那份長達 30 頁的專案報告……

為了攻克這一難題，來自微軟亞洲研究院、微軟 AI 與中國人民大學的研究團隊提出了RHELM（Realistic, Heterogeneous, and Evolving Long-term Memory），一個專為評測大型語言模型「真實、異質、動態長期記憶能力」而設計的全新基準。不同於以往靜態、拼湊的測試集，RHELM 首次透過模擬長達一年的動態虛擬人生軌跡，為大型語言模型構築了一個高度還原現實世界的「記憶考場」。目前，該研究的論文與資料已全部開源。

相關連結已整理於文末，歡迎點擊了解更多技術細節。

為何既有的「記憶評測」不夠用？

過去幾年，業界雖然已經出現了 LongMemEval、LoCoMo、PerLTQA、PersonaMem 等多個長期記憶基準，但這些傳統基準普遍存在「三大結構性缺陷」：

首先是語義不連貫，人設過於「扁平」。為了人為拉長上下文，許多基準往往會將彼此無關的對話片段強行拼湊在一起。這種「長對話」在語義上是斷裂的，其背後的用戶畫像也只是幾個靜態標籤，無法體現「一個人會隨著時間慢慢改變」的基本事實。

其次是資訊來源單一，只有對話。在真實場景中，AI 助手面對的不只有聊天記錄，還有郵件、日報、專案文件、個人日記等結構各異的文本。這些「非對話」材料的資訊密度更高，也更貼近真實工作流，然而絕大多數現有基準依然停留在「純聊天」的設定裡。

最後是評測題目過於「老實」。現有的評測題目大多是「大海撈針」式的事實抽取，只要模型能把答案從歷史記錄裡找出來就算過關。但真實用戶往往會提出與自身狀態相矛盾的請求，比如腿傷未癒卻在詢問週末的騎行路線，或者剛搬了家還在問舊房子附近的餐廳。一個真正「有記憶」的助手，應當能夠主動識別這種隱含的衝突，而不是機械地照辦。

RHELM：從人出發，構造一年的軌跡

為了同時解決上述這三個問題，RHELM 應運而生。RHELM 的核心思路可以概括為：先造人，再造生活，最後才造對話和文件。整個資料建構流程圍繞三大支柱展開：

用戶畫像：研究員們為每個虛擬用戶定義了包含身份（identity）、性格（personality）、特質（traits）、人際關係（relationships）、隨身物品（belongings）以及當前狀態（current status）在內的 6 個維度。這些維度涵蓋了「從內在心理到外部現實、從不可變特徵到瞬時狀態」的完整光譜，並以嚴格的 JSON Schema 存儲，確保演化過程結構化且可驗證。

LOOP 模組：該模組透過「計畫-推演-演化-修剪」（pLan-rOllout-evOlve-Prune）四步循環，動態模擬了一名用戶長達一年的真實生活軌跡。
異質外部來源：在生活軌跡的每個關鍵節點，研究員們借助 Deep Research 方法同步生成了與之匹配的郵件、個人日誌和專業報告，以確保對話與文件「時間上對得齊、內容上對得上」。

最終，RHELM 包含 10 位畫像各異的虛擬用戶、11,764 輪對話、2,180 份外部材料。單個用戶的上下文長度可達 500K–1M tokens，並配套了 1,305 道高難度問答題，覆蓋 7 大類、27 項精心定義的複雜「記憶」特徵。

圖 1：RHELM 基準建構流程。

關鍵引擎：LOOP 模組如何「養成」一個「有血有肉」的虛擬人

LOOP 是 RHELM 最具特色的設計。它精妙地把「生成長期對話」的任務，轉化為「模擬一個人的真實生活」：

計畫（pLan）：系統會基於用戶畫像生成日程，包含短期安排（如社交、日常、興趣）和長期規劃（如職業進展、人生節點、重要轉變）。
推演（rOllout）：針對計畫中的每一件事，系統會按機率 p 推演出正向或負向的結果。例如一次騎行計畫可能順利完成，也可能因摔傷中斷，而這個「摔傷」會真實地影響後續幾週的活動安排。
演化（evOlve）：根據當天的推演結果，系統會透過 JSON Schema 的函數呼叫動態更新用戶畫像。研究員們將其拆分為事實演化（關係、物品等客觀屬性）與狀態演化（偏好、習慣等內在變化）兩條並行通道，以保證外部與內在的同步更新。
修剪（Prune）：系統會定期對畫像進行「再校準」，主動剔除過期實體，從而避免長程演化中出現語義漂移和誤差累積。每完成一次修剪，新的 LOOP 週期將重新開始。

圖 2：RHELM 基準建構演算法流程。

正是這種由機率與事件驅動的軌跡設計，讓 RHELM 的資料呈現出真實生活的偶發性與長尾性，而這恰恰是當前模型最難處理的部分。在 LOOP 的每一步之上，RHELM 還疊加了一層異質外部來源生成，把日常事件轉化為正式風格的報告、私人風格的日記、結構化的郵件，並借助 Deep Research Agent 進一步充實細節，讓每份文件都擁有「足以亂真」的複雜度。

七大題型 × 27 項特徵：把「記憶能力」拆到超細顆粒度

RHELM 將對「記憶」的考核拆解成了 7 類問題，覆蓋「純對話」和「異質來源」兩個層面。對話類包含事實型（fact）、時序型（temporal）、幻覺型（hallucination）、聚合型（aggregation）、誤導型（misleading）五種題型；異質來源類則包含純外部來源問答（external source）與跨源混合問答（mixed）兩種題型。

圖 3：RHELM 流程挑戰性問題分類（附件和電子郵件均對應外部來源類型）。

為了嚴格測試模型，每道題都被強制綁定了至少一項挑戰性特徵（共 27 項），包含跨日聚合、跨源對齊、模糊指代、隱含狀態約束等。這種細顆粒度的標籤體系，使得後續分析可以精確定位「模型在哪一類細節上摔了跤」。

其中最具創新性的是記憶條件下的誤導查詢（Memory-Conditioned Misleading Queries）。研究員們會刻意挑選用戶生活中的關鍵轉折事件（如慢性傷病、搬遷、轉行），並基於此設計與用戶當前狀態相衝突的「陷阱式請求」。例如，用戶上個月剛因膝傷被醫生建議停止跑步，本月卻向 AI 助手詢問「週末有哪些適合長跑的路線」。一個真正具備「長期記憶」的 AI 助手，不該簡單照辦，而應主動回溯歷史、識別衝突、禮貌指出問題，並給出符合當前約束的替代方案。這是過去的基準幾乎從未觸及的考察維度，也是 RHELM 想真正推動業界去解決的核心痛點。

三類記憶範式的全面對比與深層診斷

研究員們在 RHELM 上系統地評測了目前市面上的三類主流長文本與記憶方案：

全上下文模型：GPT-4.1-mini、Gemini-2.5-Flash-Lite、Qwen2.5-14B-Instruct-1M，這些模型均原生支援百萬級上下文。
RAG 檢索增強：以 bge-large-en-v1.5 + FAISS 為基礎，測試了 top-k 取 5/20/50 的表現；並測試了 GPT-4.1、Gemini-2.5-Pro、Claude Opus 4.5 作為生成器的版本，以及 BM25 + dense 的混合檢索。
記憶框架：以 MemGPT、Mem0、MemU 為代表的記憶系統，統一以 GPT-4.1-mini 作為骨幹模型。

然而，最終的評測結果給整個行業潑了一盆冷水，也診斷出了當前大型語言模型「長期記憶」的底層瓶頸。

行業現狀：整體分數偏低，多源混合成為普遍重災區

實測數據顯示，大型語言模型的整體分數普遍偏低。表現最強的 Claude Opus 4.5 在引入外部來源後的平均分僅為 38.1，沒有外部來源時也只有 36.2。這表明大型語言模型距離「可靠的個人記憶助手」還有很長一段路要走。

令人意外的是，加入外部來源並不總是利好。一旦把郵件、日誌、報告等異質材料塞進上下文，RAG 在標準題型上的得分反而出現下滑（例如 RAG@k=50 的得分從 59.9 跌到 54.6）。這說明現有檢索機制還沒有學會跨模態地融合記憶。因此，跨源混合題型成為普遍重災區。無論哪種範式，在需要「對話 + 外部來源」協同推理的題目上，大型語言模型的得分都跌落得最為慘烈。

同時，幻覺與誤導型題目無情暴露短板。對幾乎所有方法而言，誤導型題型的準確率甚至不足 5%；而且 RAG 檢索到的證據越多，幻覺型題型的得分反而越低（從 13.2 降至 11.2）。

相比之下，強推理模型展現出明顯優勢。Claude Opus 4.5 和 Gemini-2.5-Pro 在幻覺與誤導維度上的表現顯著好於其他模型。這說明高階的推理能力可以幫助模型更好地識別並抵禦「看似合理」的虛假前提。

表 1：RHELM 效能評估結果。兩個評估設定（含/不含外部資料來源）並排展示。評估指標從概念上分為對話歷史 QA（FC：事實，TP：時間，AG：聚合，HL：幻覺，MI：誤導），外部來源 QA（EX：附件和電子郵件），以及混合上下文 QA（MX：混合）。總體最佳得分用粗體標出，次佳得分用下劃線標出。

問題出在哪？檢索召回的天花板

為了進一步定位技術瓶頸，研究員們比較了 bge-large-en-v1.5、bge-m3、all-MiniLM-L6-v2 以及 OpenAI 系列 embedding 在不同 top-k 下的召回率。

得出的結論相當不樂觀：即便把檢索預算放寬到 k=50，召回到的證據依然有限，遠不足以支撐大型語言模型進行精確作答。也就是說，在 RHELM 這種長程、異質、動態的語料下，單純透過「堆向量檢索」的傳統方法已經無法滿足真實記憶助手的需求。這一發現把矛頭直接指向了記憶系統的底層架構設計，而不僅僅是「換個更強的 embedding 模型」那麼簡單。

圖 4：不同候選數量下不同 embedding 模型的召回率比較。

最難的 10 項特徵：模型究竟卡在了哪一步？

研究員們進一步抽取出「表現最差的 10 項挑戰特徵」進行了精細分析。結果指向兩個明確的「重災區」：

一個是跨源資訊聚合（Cross-source Aggregation）。這主要集中在跨源混合問答與聚合型問題中，模型常常混淆資訊來源，或無法有效解決相互矛盾的歷史片段。另一個是真實情境推理（Real-world Contextual Reasoning）。這多集中在誤導型與幻覺行題目裡，模型容易虛構不存在的事實，或在推理時完全忽略了用戶當前的真實狀態。

圖 5：RHELM 中 10 個表現最差的挑戰性特徵分析。模型在涉及跨源聚合和現實世界情境推理的特徵上表現出顯著的不良效能。

一句話總結：今天的記憶增強模型在「能不能記住」方面表現得不算太差，但在「記住後能不能正確地用」這件事上，仍然有明顯的天花板。

把「記憶」重新對齊到真實世界

縱觀全篇，RHELM 的推出為整個行業帶來了深刻的啟示。作為首個將對話流與異質外部來源進行深度耦合的長期記憶基準，RHELM 不僅讓評測場景真正貼近了「個人助理」的真實日常，還透過 27 項可細顆粒度歸因的挑戰性特徵，為後續的研究工作提供了清晰的能力維度抓手。更重要的是，利用覆蓋全上下文、RAG、記憶框架三類範式的系統性評測，它明確指出了當前 SOTA 模型在跨源聚合與真實情境推理上的關鍵短板。

研究員們表示，RHELM 目前也存在一定的局限性。例如當前基準仍以文本類外部來源為主，尚未覆蓋影片、音訊、工具呼叫等複雜多模態；同時由於畫像種子來自 PersonaHub 的精英子集，資料集在職業與教育背景上可能存在一定的偏態。但正是這些未竟之功，為開源社群留下了清晰的延展空間。

如果說「上下文窗口」解決的是大型語言模型「看得有多遠」，那麼「長期記憶」決定的就是大型語言模型「懂你有多深」。RHELM 把「長期記憶」這件事拆得夠細、做得夠真——它既是一面照出行業現狀的鏡子，也是一張指引未來的路線圖。

接下來值得期待的，絕不僅僅是更長的上下文或更強的檢索演算法，而是真正能像人一樣，去主動累積、演化、修剪並智能調用「記憶」的下一代 AI 助理。

Beyond Static Dialogues: Benchmarking Realistic, Heterogeneous, and Evolving Long-Term Memory

論文連結：

https://arxiv.org/abs/2605.31086

專案網址：

https://microsoft.github.io/RHELM/

評測代碼：

https://github.com/microsoft/RHELM

評測專案：

https://huggingface.co/datasets/microsoft/RHELM

開源上新｜大型語言模型還在「金魚記憶」？全新基準 RHELM 測出「真實長期記憶」天花板

相關文章推薦

分享網址