大家有沒有發現一個問題,AI 用久了,經常會記不住很多東西。
比如,上下文一長就漏訊息,跨對話就失憶,精心設計的多輪對話邏輯,在第 8 輪開始胡說八道。
這是因為,目前底層模型的記憶能力,上限就到這了。
當前最強的大型語言模型,有效上下文也就在 1M token 左右。而據研究人員估算,人類一生能儲存並呼叫的資訊,大約在 2-3 億 token 這個量級,這之間,整整差了兩個數量級。
業界嘗試過兩條路:拉長 context window(運算成本呈二次方增長,已經到了極限),外掛 RAG(檢索和生成割裂,精度有上限)。
兩條路,現在也都走到了瓶頸。
正當大家思考下一步該如何突破時,EverMind 團隊在 GitHub 悄然開源了一個 MSA(Memory Sparse Attention) 專案。
它提供了與以往完全不同的思路,不拉長上下文,不外掛檢索,而是把記憶直接嵌入注意力機制本身。
專案在 GitHub 開源後沒多久,便引起了諸多開發者關注,短短幾天內,暴漲了 2600+ Star。
GitHub:https://github.com/EverMind-AI/MSA
一句話理解 MSA
對比以往的 RAG,MSA 有著完全不同的記憶機制。
傳統 RAG 是給模型配了一個外接硬碟,需要的時候自己去查。MSA 不一樣,它是給模型裝了一個原生記憶晶片,讓記憶成為模型自身能力的一部分。
這意味著尋找和呼叫不再是兩個獨立步驟,而是整合在同一個神經網路裡,端對端完成。
模型自己學會了什麼該記、怎麼找、怎麼用。沒有人工規則介入,無需管線拼接適配。
而且,MSA 是即插即用的,開發者只需替換標準 Transformer 的 Self-Attention 層就行,不需要改變模型整體架構。
關於相關技術細節,團隊已經寫了一篇非常完整的解讀文章,這裡便不再贅述。
這幾個關鍵核心細節如下:
用壓縮把 1 億 token 的儲存降到可接受範圍;
GPU 放路由索引、CPU 放內容詳情,讓總容量取決於記憶體而非顯存;
稀疏路由把複雜度從 O(L²) 降到 O(L);
每篇文件位置編碼獨立編號,訓練 64K 就能外插到 100M。
效果有多強?
說再多架構設計,最終也不如看數據來得直觀。
MSA 基於 Qwen3-4B 建構,經過 159B token 持續預訓練,有以下幾項核心特性:
不僅記得多,還記得準。
從處理 1 萬多 token 到 1 億 token,跨越了近四個數量級,然而 MSA 的回答品質,卻僅僅只下降了不到 9%。
打個比方:別人讀完一本書就開始忘前面的內容,MSA 讀完 100 本類似《紅樓夢》的著作,還能準確告訴你第 3 本第 47 回裡的細節。
小模型打贏大模型。
在 9 項標準問答測試中,MSA 用一個 40 億參數的模型,平均得分就超過傳統 RAG 方案 16%。
更誇張的是,當對手換成業界頂級檢索器 + 2350 億參數大型語言模型組成的豪華陣容時,MSA 依然在多項測試中勝出。
參數量差了將近 60 倍,效果反而更好。從這也不難看出,在 AI 記憶這件事上,架構選對遠比模型堆大更重要。
硬體門檻極低。
專案可直接跑在一台配備兩張 A800 顯卡的機器上,不需要叢集,不需要特殊硬體。
也就是說,從現在開始,中小團隊甚至個人開發者也有機會用上億級 token 的長期記憶能力。
團隊背景與研發歷程
MSA 來自 EverMind(盛大旗下),團隊之前做過 GAIA 榜單 SOTA 的多 Agent 框架 Omne,以及開源記憶平台 EverOS。
在把 Omne 落地到真實業務時,他們發現,Agent 的記憶缺失,不是在框架層面就能解決的問題,而必須從模型底層入手。
從立項到論文完成,歷時九個多月,總的來說,其過程並不順利。
第一版模型,在一些團隊認為應該很簡單的任務上表現不佳,一度讓人懷疑方向本身是否就是錯的。
隨後的轉折點,主要來自團隊的一個關鍵洞察:模型在「找資料」和「寫答案」時,需要的資訊是不一樣的。
找資料需要的是宏觀判斷:這堆文件哪部分內容,跟我的問題有關?
寫答案則需要微觀細節:具體哪句話,解答了我的問題?
早期版本是讓同一套機制同時幹這兩件事,結果兩頭都做不好。
把這兩個職能拆開,各自用專門的模組來處理,再搭配更適合的訓練策略,效能反而出現了質的飛躍。
論文裡也坦誠提到了目前的限制:在需要多份文件複雜關聯,進行深度推理的場景中,純內在記憶方案仍面臨挑戰。
這種對技術邊界的坦誠與敬畏,反而讓人對團隊的判斷力,以及專案的長期發展更有信心。
結語
如果後續 EverMind 的技術理論可以真正落地,那麼 AI 產業之前面臨的諸多問題,或許能得到妥善解決。
從真正實現長記憶的那一刻起,AI 助手才算開始真正認識你。
它會記得你三個月前提過的飲食偏好,記得你上週討論的專案進展,記得你孩子的性格和你對週末出行的喜好。
不用你每次重複告訴它,而是它自己就記得。
如果方向成熟,這種具備終身記憶的 AI 夥伴,將不再是科幻概念。
不僅如此,長期記憶能力打開的產品想像空間也非常大。
真正個人化的 AI 教育、能追蹤患者完整病史的醫療助理、能記住十年專案累積的企業知識庫。
這些今天因為模型記不住而做不好的產品形態,都可能因為記憶層的突破而變成現實。
最後,MSA 這個方向,還自然引出了一個很有想像力的可能性:記憶即服務。
記憶層可以作為獨立的、可插拔的模組與各種大型語言模型自由組合。
這意味著使用者的記憶資產,不再被鎖定在任何單一模型或廠商中。
也就是說,模型可以隨時更換,但記憶會永遠跟著你走。
我覺得,這或許也將成為 AI 產業下一個重要的基礎建設方向。
目前,該論文已發布,相關程式碼也已開源,後續還將會有模型開源。
對這項前瞻技術有興趣的朋友,不妨去 GitHub 點個 Star,關注最新開源進展。
今天的分享到此結束,感謝大家抽空閱讀,我們下期再見,Respect!