魚羊 発 自 凹非寺
量子位 | 公衆号 QbitAI
ByteDance Seedの最新研究により、大規模モデルが「その場でパラメータを変更」できるようになった。
モデル構造を変更する必要も、再学習する必要もなく、しかも高速に動作する。
具体的にはこういうことだ。エージェント時代において、モデルが直面するタスクはますます複雑化し、コンテキストも長くなっていることは周知の事実である。
大規模モデルが作業をしながら学習し、新たな情報に適応し続け、超長文コンテキストの中で徐々に破綻しないようにすることは、AI業界における研究の大きな焦点となっている。
テスト時学習(TTT)は、モデルが推論時に一部のパラメータを更新できるようにするが、実際の応用においては、依然として課題が複雑だ。
第一に、アーキテクチャの非互換性。既存のTTTは新たなネットワーク層を導入する必要があり、場合によってはアテンション機構そのものを置き換える必要があるため、ゼロからの事前学習が必須となる。
第二に、計算効率の低さ。既存のTTTはトークンごとの逐次更新を採用しており、GPU/TPUの並列計算能力を十分に活用できない。
さらに、最適化目標の不一致という問題もある。既存のTTTの多くは再構成目標を採用しており、モデルに現在の単語を記憶させるだけであり、次の単語を予測するようには設計されていない。つまり、言語モデルの核心である「次のトークンを予測する」というタスクと不一致なのだ。
これらの問題に対し、ByteDance Seedと北京大学の研究チームはある妙案を思いついた。
新たな層を追加せず、アーキテクチャも変更せず、Transformerに元々存在するMLPモジュールを、大規模モデルの「一時的な小脳」として直接活用するのだ。
In-Place TTT(原地テスト時学習)と名付けられたこの手法により、TTTはプラグアンドプレイなモジュールとして、既存の事前学習済み大規模モデルにシームレスに統合できるようになった。
実験により、Qwen3-4B、Llama3.1-8B、Qwen3-14BがIn-Place TTTを導入した後、いずれもその場で性能が向上し、特に長文タスクにおいて顕著な改善が見られたことが証明された。
本論文はICLR 2026 Oralに採択された。
大規模モデルが推論時に「その場でパラメータを変更」
早速、論文の詳細内容を見ていこう。
In-Place TTTが解決すべき核心的な課題は、モデルのアーキテクチャを大規模に変更することなく、大規模モデルが推論・質問回答を行う際に、密かに自己を更新し、現在のコンテキストに適応できるようにすることだ。
プラグアンドプレイを実現するため、ByteDance Seedと北京大学の研究者たちは主に3つの点で革新を行った。
原地アーキテクチャ設計
In-Place TTTにおいて、研究者たちはTransformerの至る所に存在するMLP(多層パーセプトロン)を巧みに再利用した。
彼らはMLPの最後の投影行列Wdownを高速重みとして扱い、推論時にその場で更新を行う。
こうすることで、高速重みを処理するための専用層を新たに導入する必要がなくなる。すでに学習済みの大規模モデルもそのまま活用でき、再学習の必要はない。
言語モデルに適合した最適化目標
従来のTTTはモデルに「現在のトークンを記憶させる」だけであり、前述の通り、これは言語モデルの最適化目標と一致していない。
そこでIn-Place TTTは、自己回帰言語モデル専用の最適化目標を設計した。
1次元畳み込み(Conv1D)と投影行列を導入することで、TTTの目標値に将来のトークンの情報を含め、「次のトークンを予測する」というタスクと明示的に整合させる。
研究者たちはさらに、この手法により高速重みが将来の予測に有用な情報を圧縮するよう促進され、モデルのコンテキスト内学習能力を効果的に向上させることを分析・証明した。
高効率なブロック単位更新メカニズム
In-Place TTTはMLPを改良するものであり、元来のアテンション層は保持するため、ブロック単位の更新が可能となり、トークンごとの処理が不要になる。
コンテキスト並列技術と組み合わせることで、In-Placeはより高いスループットと計算効率を実現し、より長いコンテキストをサポートできる。
実験の結果、In-Place TTTは既存モデル(Qwen3-4Bなど)の128K、さらには256Kの長文コンテキストタスクにおける性能を大幅に向上させることが示された。
ゼロからの学習比較においても、他のTTT手法より優れていることが判明した。
研究チーム
In-Place TTTの論文の筆頭著者は冯古豪(Feng Guhao)と罗胜杰(Luo Shengjie)である。
冯古豪は現在、北京大学に在学中であり、ByteDance Seedのインターン生だ。
罗胜杰も北京大学を卒業しており、王立威教授と本論文の通信作者である贺笛(He Di)教授の指導を受けた。
本論文のもう一人の通信作者は、ByteDance SeedのWenhao Huangである。
論文アドレス:https://arxiv.org/abs/2604.06169v1
— 完 —