AIを多用していると、一つの問題に気づきませんか。多くのことを忘れてしまうのです。
例えば、コンテキストが長くなると情報が抜け落ち、会話をまたぐと記憶が消え、慎重に設計したマルチターン会話のロジックも、8ラウンド目あたりからデタラメを言い始めます。
これは、現在の基盤モデルの記憶能力の上限が、そこまでだからです。
現在最高峰の大規模モデルでも、有効なコンテキストは1Mトークン程度です。しかし、研究者の推算では、人間が一生の間に保存し呼び出せる情報量は、およそ2〜3億トークンという規模に達します。その間には、実に2桁の開きがあります。
業界ではこれまで2つのアプローチが試されてきました。コンテキストウィンドウを拡大する方法(計算コストが2次関数的に増加し、限界がある)と、RAGを外付けする方法(検索と生成が分断され、精度に上限がある)です。
どちらの道も、今は瓶颈に突き当たっています。
そんな中、次のブレイクスルーをどう突破するか皆が頭を悩ませている時、EverMindチームがGitHubで静かにMSA(Memory Sparse Attention)プロジェクトをオープンソース化しました。
これは従来とは全く異なるアプローチを提供します。コンテキストを拡張せず、外部検索もせず、記憶をアテンション機構そのものに直接埋め込むのです。
プロジェクトはGitHubでオープンソース化されて間もなく、多くの開発者の注目を集め、わずか数日で2600以上のスターを獲得し急増しました。
GitHub:https://github.com/EverMind-AI/MSA
MSAを一言で理解する
従来のRAGと比べ、MSAは全く異なる記憶メカニズムを持っています。
従来のRAGは、モデルに外付けハードディスクを提供し、必要な時に自分で検索させるようなものでした。対してMSAは、モデルにネイティブなメモリチップを埋め込み、記憶をモデル自身の能力の一部として統合します。
これは、検索と呼び出しがもはや独立した2つのステップではなく、同一のニューラルネットワーク内でエンドツーエンドで完了することを意味します。
モデルは何を記憶すべきか、どう探すか、どう使うかを自ら学習します。手作業によるルールの介入も、パイプラインの継ぎ足しも不要です。
しかも、MSAはプラグアンドプレイで、開発者は標準的なTransformerのSelf-Attention層を置き換えるだけでよく、モデル全体のアーキテクチャを変更する必要はありません。
関連する技術的な詳細については、チームが非常に詳細な解説記事を公開しているため、ここでは割愛します。
主要なポイントは以下の通りです:
圧縮により1億トークンの保存を許容範囲まで削減。
GPUにルーティングインデックス、CPUに内容詳細を配置し、総容量をVRAMではなくメモリ依存に。
疎なルーティングにより計算量をO(L²)からO(L)に削減。
各ドキュメントの位置エンコーディングを独立して採番し、64Kの学習で100Mまで外挿可能に。
その効果はどれほど凄いのか?
アーキテクチャの設計をいくら語っても、最終的にはデータを見るのが一番分かりやすいでしょう。
MSAはQwen3-4Bをベースに構築され、159Bトークンの継続的事前学習を経て、以下の核心的な特徴を持っています:
多くを記憶するだけでなく、正確に記憶する。
1万トークン強から1億トークンまで、4桁近くの規模を跨越しましたが、MSAの回答品質の低下はわずか9%未満にとどまっています。
例えるなら、他は1冊の本を読み終えると冒頭を忘れ始めますが、MSAは「紅楼夢」級の著作を100冊読んでも、3冊目の47回の細部まで正確に答えられるのです。
小規模モデルが大規模モデルに勝利。
9つの標準的な質問応答テストにおいて、MSAは40億パラメータのモデルで、従来のRAG方式を平均16%上回るスコアを記録しました。
さらに驚くべきことに、対戦相手が業界トップクラスの検索器+2350億パラメータの大規模モデルという豪華な布陣であっても、MSAは多くのテストで勝利を収めました。
パラメータ数で約60倍の差がありながら、効果は逆に上回っています。これからも分かるように、AIの「記憶」においては、モデルを大きくするよりも、適切なアーキテクチャを選ぶ方が遥かに重要なのです。
ハードウェアのハードルが極めて低い。
このプロジェクトは、A800 GPUを2枚搭載した1台のマシンで直接動作可能で、クラスターも特殊なハードウェアも不要です。
つまり、これからは中小チームや個人開発者でも、億レベルのトークンに対応する長期記憶能力を利用できるようになるのです。
チームの背景と開発経緯
MSAはEverMind(盛旗下)から生まれました。同チームは以前、GAIAランキングでSOTAを達成したマルチエージェントフレームワーク「Omne」や、オープンソースの記憶プラットフォーム「EverOS」を開発しています。
Omneを実際の業務に展開する際、エージェントの記憶欠落はフレームワークレベルでは解決できない問題であり、モデルの底層から取り組む必要があることに気づきました。
プロジェクトの立ち上げから論文完成まで9ヶ月以上を要し、その道のりは決して平坦ではありませんでした。
最初のバージョンのモデルは、チームが「簡単なはず」と考えていたタスクで性能が振るわず、方向性そのものが間違っているのではないかと疑われたこともありました。
その後の転機は、チームの重要な洞察から生まれました。モデルは「資料を探す」時と「答えを書く」時で、必要とする情報が異なるのです。
資料を探すにはマクロな判断が必要です。このドキュメント群のどの部分が、私の質問に関連しているのか?
答えを書くにはミクロな詳細が必要です。具体的にどの一文が、私の質問に答えているのか?
初期バージョンでは、この2つを同じメカニズムで行おうとしたため、どちらも満足に機能しませんでした。
この2つの機能を分離し、それぞれ専用のモジュールで処理させ、より適切な学習戦略を組み合わせることで、性能に質的な飛躍が生まれました。
論文では現在の限界についても率直に言及されています。複数のドキュメントの複雑な関連付けが必要で、深い推論を行う場面では、純粋な内部記憶のアプローチは依然として課題に直面しています。
技術的な境界に対するこのような率直さと畏敬の念は、チームの判断力とプロジェクトの長期的な発展に対する信頼を逆に高めてくれます。
最後に
EverMindの技術理論が今後、真に実用化されれば、AI業界が直面してきた多くの問題が適切に解決される可能性があります。
真に長期記憶が実現された瞬間から、AIアシスタントは初めてあなたを「知る」ことになります。
3ヶ月前に話した食事の好み、先週議論したプロジェクトの進捗、お子さんの性格や週末の外出の好みなどを記憶しています。
毎回繰り返し伝える必要はなく、AI自身が覚えているのです。
もしこの方向性が成熟すれば、終身記憶を持つAIパートナーは、もはやSFの概念ではなくなります。
それだけでなく、長期記憶能力が開く製品の想像空間も非常に広いです。
真にパーソナライズされたAI教育、患者の完全な病歴を追跡できる医療アシスタント、10年間のプロジェクトの蓄積を記憶できる企業のナレッジベース。
今日、モデルが記憶できないためにうまく機能しなかったこれらの製品形態も、記憶層のブレイクスルーによって現実のものとなるでしょう。
最後に、MSAという方向性は、非常に想像力を掻き立てられる可能性を自然と導き出します。「記憶即サービス(Memory as a Service)」です。
記憶層は、独立した着脱可能なモジュールとして、様々な大規模モデルと自由に組み合わせることができます。
これは、ユーザーの記憶資産が、特定のモデルやベンダーにロックインされなくなることを意味します。
つまり、モデルはいつでも入れ替えられますが、記憶は永远にあなたと共にあるのです。
これは、おそらくAI業界の次なる重要なインフラの方向性になるでしょう。
現在、論文は公開されており、関連コードもオープンソース化されています。今後、モデルも公開される予定です。
この最先端技術に興味のある方は、GitHubでスターを付けて、最新のオープンソースの進展をフォローしてみてはいかがでしょうか。
本日の共有は以上です。お読みいただきありがとうございました。また次回お会いしましょう。Respect!