一夜之間，AI 終於擁有「永久記憶」！最難考試 99% 刷爆 SOTA，全網直呼瘋狂

新智元報導

編輯：桃子好困

【新智元導讀】AI 終於有了「永久記憶」！今天，超級記憶系統 ASMR 重磅登場，在業界公認最難 AI 記憶考試中，刷爆 SOTA 拿下 99% 成績。全網直呼太瘋狂。

AI 記憶難題，已徹底被解決？

今天，一個 Supermemory 團隊爆火出圈，向全世界扔出了一顆核彈——

超級記憶系統「ASMR」問世，把 AI 記憶界最難考試 LongMemEval，刷到了 99% 準確率。

全球數十億 Agent 都需要記憶，而如今，AI「健忘症」幾乎被攻克了。

是的，你沒有聽錯！

ASMR 以近乎無敵的姿態刷爆 SOTA，一時間登上了今天 X 的熱榜。

它拋棄了傳統的「向量資料庫」，拋棄了嵌入（embedding）模式，完全在記憶體中運行。

這一次，ASMR 全程採用「多 Agent 並行推理」的流水線，具體分工如下：

3 個「觀察者 Agent」並行讀取原始數據，提取個人資訊、偏好、時間軸等六大維度資訊；

當用戶提問時，再派出 3 個「搜尋 Agent」進行主動推理檢索。

如今，全網被「太瘋狂了」刷屏了。

上下滑動查看

值得一提的是，ASMR 將於 4 月初開源全部程式碼，AI 記憶的「大航海時代」正式開啟！

一夜之間，AI 有了「永久記憶」

首先，還是要 mark 下這篇部落格第一句話——

AI Agent 的記憶問題現在可能已經完全解決了。

幾個月前，Supermemory 祭出首份研究報告，便在 LongMemEval-s 測試中拿下了 85% 的成績。

這一分數，早就領先於當時所有公開的記憶系統。

而今天，超級記憶系統「ASMR」（智能體搜尋與記憶檢索）的出世，再一次刷新了紀錄。

它的技術實現，非常簡單。

不需要向量資料庫、嵌入（embeddings），直接完全在記憶體中運行。

這意味著，它可以被內嵌到其他系統中，甚至是機器人等硬體中。

那麼，ASMR 具體是如何被打造出來的？

ASMR：多 Agent 並行幹活

要知道，LongMemEval 是目前公開可見的、最嚴苛的長期記憶基準測試之一。

很多基準測試只考量短上下文中的簡單檢索，但 LongMemEval 不同，它旨在模擬真實生產環境中的各種混亂情況：

在超 11.5 萬智元（Token）的對話歷史、相互矛盾的資訊、跨越多個會話的零散事件，還需進行時間推理的複雜問題。

大多數記憶系統表現不佳，問題往往出在「檢索」上，而不是推理上。

即便召回率很高，如果檢索過程中伴隨著大量噪音，LLM 同樣很難利用這些資訊。

首要難題在於，如何只將正確的資訊放入上下文窗口；更困難的是——如何判斷檢索到的事實已經過時，並已经被更新的版本所取代。

不僅如此，標準的向量搜尋在多數情況下都很好用。

但在處理資訊密度高、跨越多會話的時序數據細節時，它就力不從心了。語義相似度匹配無法可靠地區分某個事實是「舊資訊」還是「新修正」。

為了應對 LongMemEval 的複雜性，必須從頭開始重新構思資訊攝取與檢索管道，用主動的 Agent 推理來取代向量數學計算。

由此，團隊跳出了傳統 RAG 框架，構建了一個「多 Agent 協同編排」的管道。

3+3 Agent，各有分工

就像 ASMR 一樣，這項技術簡單直白，且讓人極度舒適。

觀察者 Agent：並行攝取

首先，部署一個由 3 個並行讀取器——觀察者 Agent，組成的智能體編排器。

它們背後由 Gemini 2.0 Flash 加持，不用針對用戶對話進行分塊和嵌入就能執行任務。

這些 Agent 會並發地閱讀原始會話，比如，Agent 1 負責會話 1、3、5；Agent 2 負責 2、4、6。

觀察者 Agent 目標是圍繞「六個維度」進行定向的知識提取：個人資訊、偏好、事件、時序數據、資訊更新、助手資訊。

然後，這些結構化的發現會被「原生存儲」，並映射回它們的源會話中。

搜尋 Agent：主動檢索

當接收到問題時，ASMR 不會去查詢向量資料庫。

通過部署的 3 個並行的「搜尋 Agent」，這些 AI 會主動閱讀並推理已存儲的發現，每個 Agent 都有專屬的側重點：

Agent 1：搜尋直接事實和明確陳述；

Agent 2：尋找相關的上下文、社交線索和暗示；

Agent 3：重建時間軸和關係圖譜。

編排器會匯總所有三個「搜尋 Agent」的發現，並提取原文會話的逐字片段來進行細節驗證。

這種機制使得系統能夠基於真實的認知理解來進行智能檢索，而不僅僅是依賴關鍵詞或數學上的相似度。

一旦上下文整合完成，單一的提示詞無法應對 LongMemEval 中種類繁多的問題。

有些問題需要推斷細節，而有些則要求給出極其具體的答案。

接下來，Supermemory 嘗試了兩種截然不同的 AI Agent 回答工作流。

8 變體集群（98.6% 準確率）

將檢索到的上下文路由給並行運行的 8 個高度專業化的提示詞變體。

比如，精準計數器、時間專家、Context Deep Dive 等，每個變體都會獨立評估上下文並生成答案。

如果這 8 條截然不同的推理路徑中，有任何一條成功得出了正確答案（Ground Truth），該問題就會被標記為正確。

這種並行的多重判斷方法，讓 ASMR 達到了驚人的 98.60% 整體準確率，完美覆蓋了盲區。

12 變體決策森林（97.2% 準確率）

為了測試一個旨在產出單一、權威答案，而依賴多次獨立嘗試的系統，團隊又將 ASMR 擴展為了一個包含 12 個變體的決策森林。

在這裡，12 個高度專業化的 AI Agent（由 GPT-4o-mini 驅動）獨立回答提示詞。

並且，還引入了一個「聚合大模型」作為最終的裁判。

聚合器通過多數投票、領域信任度和衝突解決機制來綜合這 12 個答案。

這種單一的共識模型，同樣取得了高達 97.2% 的驚人準確率。

需要說明的是，ASMR 目前還沒有用在 Supermemory 的核心生產環境中。

這次實驗不僅刷新了數據，更驗證了幾個關鍵觀點：

Agent 檢索優於向量搜尋：主動搜尋消除了語義相似度陷阱，解決了時序變化導致的資訊失效問題。
並行處理是效率核心：將負載分配給多個專用 Agent，顯著提升了提取的速度與顆粒度。
專業化分工勝過通用模型：專用專家（如細節提取器）的表現遠超單一的全能提示詞。

Supermemory 才是真正的野心

但如果你以為 ASMR 只是一個刷榜實驗，那就太小看這個團隊了。

ASMR 背後，是一個叫 Supermemory 的完整記憶引擎——一套面向所有 AI 應用的記憶與上下文基礎設施。

Your AI forgets everything between conversations. Supermemory fixes that.

你的 AI 在對話之間什麼都記不住，Supermemory 來修。

GitHub 地址：https://github.com/supermemoryai/supermemory

記憶≠RAG，這是兩件事

前面說的 ASMR，解決的是「怎麼從海量對話裡精準找到正確資訊」。

但 Supermemory 要解決的問題更大：讓 AI 真正擁有記憶，而不只是檢索。

區別在於，RAG 不認人，今天給張三返回的結果和明天給李四的一模一樣；而 Supermemory 會從對話中主動提取事實，追蹤變化，處理矛盾，甚至自動遺忘。

舉個例子，你上個月跟 AI 說「我住在北京」，這個月又說「我剛搬到上海」。RAG 會把兩條資訊都丟給大模型，讓它自己猜。Supermemory 知道後者覆蓋了前者，只返回「上海」。

更狠的是「自動遺忘」機制。你說「我明天有個考試」，等日期過了，這條記憶自動失效。臨時事實不會變成永久噪音。

Supermemory 預設把 RAG 和記憶合并在同一次查詢裡跑，知識庫檢索和個性化上下文一次返回。

50 毫秒，一個 API 呼叫搞定用戶畫像

記憶之外，Supermemory 把用戶畫像也一併接管了。

傳統方案裡，你想讓 AI「認識」一個用戶，需要自己搭建用戶畫像系統，手動維護標籤、偏好、歷史行為。Supermemory 把這件事全自動化了。

它会把用户信息拆成两层：

靜態事實（「資深工程師」「用 Vim」「偏好暗色模式」）
動態上下文（「正在做認證模組遷移」「在 debug 限流問題」）。

一次 API 呼叫，延遲約 50 毫秒，你的 Agent 就知道對面坐的是誰。

把這個畫像注入 system prompt，Agent 瞬間從「陌生人模式」切換到「老朋友模式」。

「全家桶式」的連接能力

記憶光靠對話還不夠，Supermemory 還接通了一整套外部數據源。

Google Drive、Gmail、Notion、OneDrive、GitHub，全部通過即時 Webhook 自動同步。

文件上傳後自動處理，PDF 解析、圖片 OCR、影片轉錄、程式碼 AST 級分塊。傳上去就能搜，零配置。

對開發者來說，集成成本被壓到了最低。

npm 裝一個包，幾行程式碼就能給自己的 Agent 加上完整的記憶能力。Vercel AI SDK、LangChain、LangGraph、OpenAI Agents SDK、Mastra，主流 AI 開發框架全部有現成的封裝。

內建 Claude Code、OpenCode、OpenClaw 外掛程式

甚至不寫程式碼也行。

Supermemory 提供了 MCP 伺服器，一行命令安裝，Claude Desktop、Cursor、Windsurf、VS Code 直接用。

記憶這場仗，才剛剛開始

從實驗到產品，Supermemory 團隊做的事情其實可以用一句話概括：把 AI 的「工作記憶」從一個附加功能，變成一層基礎設施。

過去幾年，大模型的競爭集中在參數規模、推理速度、上下文窗口長度。

但一個 128K 上下文窗口再大，對話結束就清空，下次見面還是陌生人。

記憶才是讓 AI 從「工具」變成「搭檔」的最後一塊拼圖。

當每一個 Agent 都能記住你是誰、你在做什麼、你上次说到哪裡，人機交互的體驗會出現一次靜悄悄的質變。

不是 AI 變聰明了，而是它終於不再失憶了。

參考資料：

https://x.com/DhravyaShah/status/2035517012647272689?s=20