字節跳動 Seed 團隊最新研究成果,讓大型語言模型具備了「原地修改參數」的能力。
這項技術既無需更動模型架構,也不需要重新訓練,執行速度更是飛快。
具體情況是這樣的。隨著智慧代理(Agent)時代的來臨,眾所皆知,模型所面臨的任務日趨複雜,上下文(Context)也越來越長。
如何讓大型模型在執行任務的同時進行學習,不斷適應新資訊,避免在超長上下文中逐漸失效,已成為人工智慧領域的研究重點。
「測試時訓練」(Test-Time Training, TTT)技術原本旨在讓模型於推論階段更新部分參數,但在實際應用中仍面臨諸多挑戰:
首先,架構不相容。現有的 TTT 方法需要引入全新的網路層,甚至替換注意力機制,導致必須從頭開始進行預訓練。
其次,計算效率低落。現行 TTT 採用逐個 Token 的順序更新方式,無法充分利用 GPU/TPU 的平行運算能力。
此外,還存在優化目標不一致的問題。現有 TTT 多採用重建目標(reconstruction),僅讓模型記住當前的詞彙,而非專為「預測下一個詞」所設計。換言之,這與語言模型核心的「預測下一個 Token」任務並不匹配。
針對上述痛點,來自字節 Seed 與北京大學的研究團隊提出了一项巧妙解方:
不新增任何層級,也不更動既有架構,直接將 Transformer 中既有的 MLP(多層感知機)模組,轉化為大型模型的「臨時小腦」。
這項名為In-Place TTT(原地測試時訓練)的方案,讓 TTT 能作為即插即用的模組,無縫整合至現有的預訓練大型模型中。
實驗證明,Qwen3-4B、Llama3.1-8B、Qwen3-14B 等模型在裝備 In-Place TTT 後,效能皆獲得原地提升,尤其在長文本任務上的進步更為顯著。
這篇論文已獲 ICLR 2026 會議錄取為口頭報告(Oral)。
讓大型模型在推論時「原地改參數」
話不多說,讓我們深入探討這篇論文的詳細內容。
In-Place TTT 的核心目標,是在不干擾模型架構的前提下,讓大型模型於推論或回答問題時,能悄悄進行自我更新,以適配當前的上下文。
為實現即插即用,字節 Seed 與北大的研究人員主要提出了三項創新:
原地架構設計
在 In-Place TTT 中,研究人員巧妙地複用了 Transformer 中無處不在的 MLP(多層感知機)。
他們將 MLP 的最後一個投影矩陣 Wdown 作為快速權重(fast weights),於推論時進行原地更新。
此舉無需引入新的專用層來處理快速權重,既有的預訓練大型模型也可直接套用,無須重新訓練。
與語言模型對齊的優化目標
先前的 TTT 方法僅讓模型「記住當前 Token」,如前所述,這與語言模型的優化目標並不一致。
為此,In-Place TTT 專門針對自回歸語言模型設計了優化目標:
透過引入一維卷積(Conv1D)與投影矩陣,使 TTT 的目標值能涵蓋未來 Token 的資訊,從而顯式地與「預測下一個 Token」的任務對齊。
研究人員分析並證明,此做法能促使快速權重壓縮對未來預測有用的資訊,進而有效提升模型的上下文學習能力。
高效的區塊級更新機制
In-Place TTT 是針對 MLP 進行改造,同時保留原有的注意力層,這使得該方法能實現分塊更新,無須再逐個 Token 處理。
結合上下文平行技術,In-Place 能實現更高的吞吐量與計算效率,支援更長的上下文。
實驗表明,In-Place TTT 能大幅提升現有模型(如 Qwen3-4B)在 128K 甚至 256K 長上下文任務中的表現。
在從頭訓練的對比實驗中,其成效也優於其他 TTT 方法。
研究團隊
In-Place TTT 論文的第一作者為馮古豪與羅勝傑。
馮古豪目前就讀於北京大學,同時也是字節 Seed 的實習生。
羅勝傑同樣畢業於北京大學,師從王立威教授及本文通訊作者賀笛教授。
本文另一位通訊作者為字節 Seed 的 Wenhao Huang。
論文連結:https://arxiv.org/abs/2604.06169v1
— 完 —
🔹 誰將代表 2026 年的人工智慧趨勢?
龍蝦(Llama)系列模型爆紅,帶動了一波智慧代理(Agent)與衍生產品的浪潮。但真正值得長期關注的 AI 公司與產品,或許不止於此。
如果您正投身其中,或親眼見證這些變化,歡迎踴躍申報。
讓更多人看見您的成果。
👉 https://wj.qq.com/s2/25829730/09xz/