真の外部ツール！MITの新研究：アーキテクチャを変更せずに、大規模モデルが千万級のコンコンテキストを解き放つ

大規模モデルが、自身のコンコンテキストウィンドウより2桁長い超長文を簡単に処理できるようにする！

MIT CSAILの研究チームは、コンコンテキスト劣化問題を解決するための新しい長文処理方法として、再帰言語モデルRLMを提案した。

モデルのアーキテクチャを変更せず、モジュール設計をアップグレードすることなく、GPT-5やQwen-3といったトップモデルの推論層に千万級トークンの超長文処理能力を実現する。

核心的なアイデアは、プロンプトを直接大規模モデルのコンコンテキストウィンドウに詰め込むのではなく、対話可能なPython環境に「外部委託」し、モデルが自動プログラミングと再帰呼び出しを通じてタスクを分解し、必要に応じて処理させるというものだ。

え？大規模モデルのコンテキスト読み取りでも再帰操作ができるのか？

コンコンテキストウィンドウが不足しても、推論可能

まず、コンコンテキスト劣化という痛い問題を説明しよう。

大規模モデルがどれだけ大きなコンコンテキストウィンドウを宣伝しても、超長文を処理する際には、テキストが長くなるほどモデルが早期の情報を記憶するのが曖昧になり、推論性能が直線的に低下する問題に直面する。

これは、百万字の小説を読むのと同じで、後半まで読むと、早就忘了前半段の重要なプロットを忘れてしまう。

現在主流の解決策には、コンコンテキスト圧縮、検索拡張生成RAG、またはモデルのアーキテクチャレベルでの最適化がある。

例えば、GPT-5.2-Codexは、ウィンドウ内ネイティブのコンコンテキスト圧縮技術を採用しており、数週間にわたる大規模コードリポジトリの支援タスクで完全なコンコンテキスト情報を維持している。

また、GPTシリーズ、Claude、Qwenなどのエンタープライズ版がネイティブにRAG機能を統合していることも業界の共通認識だ。

アーキテクチャレベルの最適化の例としては、コミュニティで一般的に推測されているGemini 3のリングアテンションなどがある。

現在のRLMは、これらのモデル上で直接「硬い」方法とは異なり、コンコンテキスト処理を「外部委託」する。

RLMはモデルに、対話可能なPythonプログラミング環境REPLを構築する。

コンテキスト処理を開始する前に、まずPython REPL対話型プログラミング環境を起動し、超長プロンプトを文字列変数として環境に保存する。

次に、モデルはプログラマーのようにコードを記述し、テキスト変数をキーワード抽出、局所探査、論理分割などの操作を行い、「コード記述-結果観察」の対話ループを通じて無効な情報の摂取を減らす。

その後、モデルは複雑なタスクをいくつかのサブタスクに分解し、自身または軽量化されたサブモデルを再帰的に呼び出して分割されたテキスト断片を処理し、すべてのサブタスクの出力を新しい変数としてREPL環境に戻す。

最後に、メインモデルはコードを記述してすべてのサブタスク結果変数を読み取り、統合し、論理的な接続または意味処理を行い、最終出力を形成する。

全程をモデルが自主的に決定し、必要に応じた処理を実現し、入力テキスト長とモデルのコンコンテキストウィンドウの結合を完全に解消する。

実験结果显示、RLMは有効処理規模が千万級トークンを突破し、GPT-5などの最先端モデルのネイティブコンコンテキストウィンドウを2桁上回っている。

複雑な長文タスクでは、RLMの優位性も比較的顕著だ。ペア情報の集積を要求し、複雑さが二次方的に増加するOOLONG-Pairsタスクに直面した場合、基本GPT-5とQwen3-CoderのF1スコアは0.1%未満だった。

RLM方案を採用した後、両モデルはそれぞれ58.00%と23.11%のF1スコアを取得した。

600万から1100万トークン規模のBrowseComp-Plus（1K）多文書推論タスクでは、RLM（GPT-5）の正解率が91.33%に達し、他の長文処理方案を大幅に上回った。

線形スキャンを要求し、ほぼすべての情報を処理する必要があるOOLONGタスクでも、RLMは二桁の性能向上を実現した。

呼び出しコストから見ると、50パーセンタイルという指標では、RLMのコストは他の長文処理方案と同水準、あるいはそれ以下だ。

これは、大多数の通常タスクシシナリオでは、RLMのコストパフォーマンスが非常に優れていることを示している。

しかし、95パーセンタイルなどの高パーセンタイル区間になると、RLMのコストは明らかに急増する。

主な理由は、RLMの推論プロセスが動的であり、タスクの複雑さに応じて自主的にコード記述、テキスト分割、再帰呼び出しの回数を決定するため、追加のステップがAPI呼び出し回数を増やすからだ。

最後に少し重点を絞ると、RLMはモデルアーキテクチャに触れない汎用推論戦略であり、理論的にはどのモデルでも直接導入できる。

論文アドレス：https://arxiv.org/abs/2512.24601参考リンク：https://x.com/MatthewBerman/status/2012701592756383893