オープンソース新着 | 大規模言語モデルはまだ「金魚の記憶」なのか？新基準RHELMが「真の長期記憶」の天井を測定

（本記事の読了時間：13分）

私たちはすでに、大規模言語モデル（LLM）に質問への回答、コード生成、レポート作成を任せることに慣れています。しかし、それが真に「専属のパーソナルアシスタント」になるとき、最も難しいのは、最も素朴なこと——「覚えておく」ことです。

3ヶ月前に伝えたアレルギー薬を覚えていてほしい。先週引っ越した新しい街を覚えていてほしい。昨日渡した30ページにも及ぶプロジェクト報告書を覚えていてほしい……。

この難問に挑むため、マイクロソフトアジア研究院、マイクロソフトAI、中国人民大学の研究チームがRHELM（Realistic, Heterogeneous, and Evolving Long-term Memory）を提案しました。これは、大規模言語モデルの「真実的、異質、動的な長期記憶能力」を評価するために設計されたまったく新しいベンチマークです。従来の静的で寄せ集めのテストセットとは異なり、RHELMは1年間にわたる動的な仮想人生軌道をシミュレートすることで、現実世界を高度に再現した「記憶の試験場」を初めて構築しました。現在、この研究の論文とデータはすべてオープンソース化されています。

関連リンクは文末にまとめています。技術詳細を知りたい方はぜひクリックしてご覧ください。

RHELMベンチマークの概要図

なぜ既存の「記憶評価」では不十分なのか？

過去数年間、業界にはLongMemEval、LoCoMo、PerLTQA、PersonaMemなど複数の長期記憶ベンチマークが登場しましたが、これら従来のベンチマークには共通して「3つの構造的欠陥」が存在します：

第一は意味的な非連続性、ペルソナが「平坦」すぎること。文脈を人為的に長くするため、多くのベンチマークでは無関係な会話断片を強引に繋ぎ合わせています。この「長い会話」は意味的に断裂しており、背後のユーザー像もわずかな静的タグにすぎません。「人間は時間とともに徐々に変化する」という基本事実を反映できていません。

第二は情報源が単一、会話のみであること。現実のシナリオでは、AIアシスタントが直面するのはチャット履歴だけでなく、メール、日次報告、プロジェクト文書、個人の日記など、構造が異なる多様なテキストです。これら「非会話」素材の情報密度はより高く、実際のワークフローに即しています。しかし、大多数の既存ベンチマークはいまだに「純粋なチャット」という設定に留まっています。

第三は評価問題が「正直」すぎること。既存の評価問題の多くは「干し草の山から針を探す」式の事実抽出であり、モデルが履歴記録から答えを見つけられれば合格です。しかし現実のユーザーは、自身の状態と矛盾するリクエストをしばしば出します。例えば、足の怪我が治っていないのに週末のサイクリングルートを尋ねたり、引っ越したばかりなのに旧宅近くのレストランを尋ねたり。真に「記憶を持つ」アシスタントなら、こうした隠れた矛盾を主体的に特定すべきであり、機械的に指示通り実行すべきではありません。

既存ベンチマークの3つの構造的欠陥

RHELM：人間から出発し、1年の軌跡を構築

上記3つの問題を同時に解決するため、RHELMが誕生しました。RHELMの核心的思路は次のように要約できます：まず「人」を作り、次に「生活」を作り、最後に「会話と文書」を作る。データ構築プロセス全体は3つの柱を中心に展開されます：

ユーザー像：研究者たちは各仮想ユーザーに、アイデンティティ（identity）、性格（personality）、特質（traits）、対人関係（relationships）、所有物（belongings）、現在の状態（current status）という6つの次元を定義しました。これらは「内面心理から外部現実、不変的特徴から瞬時の状態」までの完全なスペクトルをカバーし、厳格なJSON Schemaで格納されることで、進化プロセスが構造化かつ検証可能になっています。

LOOPモジュール：「計画-推演-演化-剪定」（pLan-rOllout-evOlve-Prune）の4ステップ循環により、あるユーザーの1年間にわたる真実の生活軌跡を動的にシミュレートします。

異質な外部情報源：生活軌跡の各重要節点で、研究者たちはDeep Research手法を用いて、それに対応するメール、個人日誌、専門レポートを同期生成しました。これにより会話と文書が「時間軸で合致し、内容で整合する」ことを保証しています。

最終的にRHELMは、個性の異なる10人の仮想ユーザー、11,764ターンの会話、2,180件の外部素材を含みます。単一ユーザーの文脈長は500K〜1Mトークンに達し、7大カテゴリ・27項目にわたって精緻に定義された複雑な「記憶」特性をカバーする1,305問の高難度QAが付属します。

図1：RHELM基準構築フロー

図1：RHELMベンチマーク構築フロー。

核心エンジン：LOOPモジュールが「血の通った」仮想人間を「育成」する仕組み

LOOPはRHELMで最も特徴的な設計です。それは「長期会話生成」というタスクを、「一人の人間の真実の生活をシミュレートする」ことに巧みに転換させました：

計画（pLan）：システムはユーザー像に基づき日程を生成します。短期的な予定（社交、日常、趣味）と長期的な計画（キャリア進展、人生の節目、重要な転機）の両方を含みます。

推演（rOllout）：計画内の各イベントについて、システムは確率pに基づき正の結果か負の結果かを推演します。例えばサイクリング計画なら順調に完了することもあれば、転倒して怪我をして中断することもあります。この「怪我」はその後数週間の活動予定に実質的な影響を与えます。

演化（evOlve）：その日の推演結果に基づき、システムはJSON Schemaの関数呼び出しを通じてユーザー像を動的に更新します。研究者たちはこれを事実演化（関係、物品などの客観的属性）と状態演化（嗜好、習慣などの内面的変化）という2つの並行チャネルに分割し、外部と内面の同期更新を保証しています。

剪定（Prune）：システムは定期的にユーザー像を「再校正」し、期限切れのエンティティを主動的に除外することで、長期演化における意味的ドリフトと誤差蓄積を防ぎます。剪定が完了するたびに、新たなLOOPサイクルが始まります。

図2：RHELM基準構築アルゴリズムフロー

図2：RHELMベンチマーク構築アルゴリズムフロー。

まさにこの、確率とイベント駆動による軌跡設計により、RHELMのデータは真実の生活の偶発性と長尾性を呈するようになりました。これがまさに現在のモデルが最も苦手とする部分です。LOOPの各ステップの上に、RHELMはさらに異質外部情報源生成という層を重ね、日常イベントを正式なスタイルのレポート、私的なスタイルの日記、構造化されたメールへと変換し、Deep Research Agentで詳細をさらに充実させることで、各文書が「本物と見紛うばかりの」複雑さを持つようにしています。

7大問題類型 × 27項目特性：「記憶能力」を極微粒度まで分解

RHELMは「記憶」への検定を7種類の問題に分解し、「純会話」と「異質情報源」の2層面をカバーしています。会話類には事実型（fact）、時系列型（temporal）、幻覚型（hallucination）、集約型（aggregation）、誤導型（misleading）の5種が含まれ、異質情報源類には純外部情報源QA（external source）とクロスソース混合QA（mixed）の2種が含まれます。

図3：RHELMフロー挑戦的問題分類（添付ファイルとメールはいずれも外部情報源タイプに対応）

図3：RHELMフロー挑戦的問題分類（添付ファイルとメールはいずれも外部情報源タイプに対応）。

モデルを厳密にテストするため、各問題には少なくとも1項目の挑戦的特性（計27項目）が強制的に紐付けられています。クロスデイ集約、クロスソース整合、曖昧指示、暗黙の状態制約などが含まれます。この微粒度のタグ体系により、後続分析で「モデルがどの類のディテールでつまずいたか」を精密に特定できます。

中でも最も革新的なのは記憶条件下の誤導クエリ（Memory-Conditioned Misleading Queries）です。研究者たちはユーザー生活の重要な転換イベント（慢性的な怪我、引っ越し、転職など）を意図的に選び、ユーザーの現在の状態と衝突する「罠リクエスト」を設計します。例えば、ユーザーが先月膝の怪我で医師からランニング中止を勧められたばかりなのに、今月AIアシスタントに「週末に長距離走に適したルートは？」と尋ねるといった具合です。真に「長期記憶」を備えたAIアシスタントなら、単純に指示通り実行するのではなく、主体的に履歴を遡り、矛盾を特定し、礼儀正しく問題を指摘し、現在の制約に合致する代替案を提示すべきです。これは従来のベンチマークがほぼ触れてこなかった検定次元であり、RHELMが業界に真に解決を促したい核心的痛点なのです。

図4：記憶条件下の誤導クエリ例

3類の記憶パラダイムの全面比較と深層診断

研究者たちはRHELM上で、現在市場にある3類の主流長文脈・記憶ソリューションを体系的に評価しました：

全文脈モデル：GPT-4.1-mini、Gemini-2.5-Flash-Lite、Qwen2.5-14B-Instruct-1M。これらはすべてネイティブに百万級文脈をサポートします。
RAG検索拡張：bge-large-en-v1.5 + FAISSをベースに、top-kを5/20/50でテスト。また、生成器としてGPT-4.1、Gemini-2.5-Pro、Claude Opus 4.5を用いた版と、BM25 + denseのハイブリッド検索もテストしました。
記憶フレームワーク：MemGPT、Mem0、MemUを代表とする記憶システム。統一してGPT-4.1-miniをバックボーンモデルとして使用。

しかし、最終的な評価結果は業界全体に冷や水を浴びせ、現在の大規模言語モデル「長期記憶」のボトルネックを診断するものとなりました。

業界現状：総合スコアが総じて低く、多情報源混合が普遍的な重灾区に

実測データによれば、大規模言語モデルの総合スコアは総じて低い状況です。最も強いClaude Opus 4.5でも、外部情報源導入後の平均スコアはわずか38.1、外部情報源なしでも36.2にとどまります。これは大規模言語モデルが「信頼できる個人記憶アシスタント」になるまで、まだ長い道のりがあることを示しています。

意外なことに、外部情報源を追加しても必ずしもプラスには働かないことが判明しました。メール、日誌、レポートなど異質素材を文脈に入れると、RAGの標準問題タイプでのスコアが逆に低下します（例：RAG@k=50のスコアが59.9から54.6へ低下）。これは既存の検索メカニズムがまだクロスモーダルな記憶融合を学習できていないことを意味します。したがって、クロスソース混合問題タイプが普遍的な重灾区となっています。どのパラダイムでも、「会話＋外部情報源」の協調推論が必要な問題では、大規模言語モデルのスコアが最も惨憺たる落ち込みを見せます。

同時に、幻覚型と誤導型問題が容赦なく弱点を暴く結果となりました。ほぼすべての手法で、誤導型問題の正解率は5%未満です。また、RAGが検索する証拠が多いほど、幻覚型問題のスコアは逆に低下します（13.2から11.2へ）。

対照的に、強推論モデルが明確な優位性を示すことがわかりました。Claude Opus 4.5とGemini-2.5-Proは、幻覚と誤導の次元で他モデルを大きく上回りました。これは高次の推論能力が、モデルが「一見もっともらしい」虚偽前提をよりよく識別・防御するのに役立つことを示唆しています。

表1：RHELM性能評価結果

表1：RHELM性能評価結果。外部データソースあり/なしの2評価設定を並列表示。評価指標は概念的に会話履歴QA（FC：事実、TP：時系列、AG：集約、HL：幻覚、MI：誤導）、外部ソースQA（EX：添付ファイルとメール）、混合文脈QA（MX：混合）に分類。総合最高スコアを太字、次点を下線で表示。

問題の核心はどこに？検索再現率の天井

技術的ボトルネックをさらに特定するため、研究者たちはbge-large-en-v1.5、bge-m3、all-MiniLM-L6-v2、OpenAIシリーズのembeddingを、異なるtop-k条件下で再現率の観点から比較しました。

得られた結論は決して楽観的ではありません。検索予算をk=50まで緩和しても、再現される証拠は依然として限定的で、大規模言語モデルが精密に回答するには程遠いものです。つまり、RHELMのような長期・異質・動的なコーパスにおいて、単純に「ベクトル検索を積み上げる」伝統的手法では、真実の記憶アシスタントのニーズを満たせなくなっているのです。この発見は、矛先を「より強力なembeddingモデルに替えるだけ」というレベルではなく、記憶システムの基盤アーキテクチャ設計そのものへと向けています。

図4：異なる候補数下での異なるembeddingモデルの再現率比較

図4：異なる候補数下での異なるembeddingモデルの再現率比較。

最も難しい10項目の特性：モデルは一体どのステップで躓いているのか？

研究者たちはさらに、「最も成績の悪い10項目の挑戦的特性」を抽出し、精緻な分析を行いました。結果は2つの明確な「重灾区」を指し示しています：

一つはクロスソース情報集約（Cross-source Aggregation）です。これは主にクロスソース混合QAと集約型問題に集中しており、モデルはしばしば情報源を混同し、または相互に矛盾する履歴断片を効果的に解決できません。もう一つは真実情況下の推論（Real-world Contextual Reasoning）です。これは主に誤導型と幻覚型問題に集中しており、モデルは存在しない事実を捏造したり、推論時にユーザーの現在の真実の状態を完全に無視したりしがちです。

図5：RHELM中10個表現最差的挑戦性特征分析

図5：RHELMにおける最も成績の悪い10項目の挑戦的特性分析。モデルはクロスソース集約と現実世界情況推論を伴う特性で顕著な不良性能を示す。

一言でまとめれば：今日の記憶拡張モデルは「覚えられるか」という点ではそれほど悪くないが、「覚えた後、正しく使えるか」という点では、依然として明確な天井があるということです。

記憶を現実世界へ再調整

「記憶」を真実世界へ再調整する

全体を俯瞰すると、RHELMの登場は業界全体に深い示唆を与えます。会話フローと異質外部情報源を深度結合させた最初の長期記憶ベンチマークとして、RHELMは評価シナリオを真に「パーソナルアシスタント」の現実的な日常へと接近させただけでなく、27項目の微粒度で帰属可能な挑戦的特性を通じて、後続研究に明確な能力次元の手がかりを提供しました。さらに重要なのは、全文脈、RAG、記憶フレームワークという3パラダイムを網羅した体系的評価により、現在のSOTAモデルがクロスソース集約と真実情況推論において抱える关键的短板を明確に指摘した点です。

研究者たちも、RHELMには現時点で一定の限界があることを認めています。例えば、現在のベンチマークはテキスト系の外部情報源が主で、動画、音声、ツール呼び出しなどの複雑なマルチモーダルは未カバーです。また、ユーザー像のシードがPersonaHubのエリートサブセット由来であるため、データセットは職業・教育背景において一定のバイアスを持つ可能性があります。しかし、これら未完の課題こそが、オープンソースコミュニティへ明確な拡張余地を残しているのです。

「文脈ウィンドウ」が解決するのが大規模言語モデルの「どこまで見えるか」だとしたら、「長期記憶」が決めるのは「どれだけあなたを理解できるか」です。RHELMは「長期記憶」という課題を十分に細かく分解し、十分に真実らしく実装しました——それは業界現状を映す鏡であると同時に、未来を指し示すロードマップでもあります。

今後期待されるのは、単に文脈がより長くなることや検索アルゴリズムがより強くなることだけではなく、人間のように、記憶を主体的に蓄積・演化・剪定し、知的に呼び出せる次世代AIアシスタントの登場です。

Beyond Static Dialogues: Benchmarking Realistic, Heterogeneous, and Evolving Long-Term Memory

論文リンク：

https://arxiv.org/abs/2605.31086

プロジェクトページ：

https://microsoft.github.io/RHELM/

評価コード：

https://github.com/microsoft/RHELM

評価データセット：

https://huggingface.co/datasets/microsoft/RHELM

#大規模言語モデル #評価ベンチマーク #benchmark #長期記憶 #記憶評価

あなたはこちらも興味があるかもしれません：