大型語言模型也能「原地」調參了！字節 Seed 與北大聯合發表新論文：推論時無需新增層或重新訓練

字節跳動 Seed 團隊最新研究成果，讓大型語言模型具備了「原地修改參數」的能力。

這項技術既無需更動模型架構，也不需要重新訓練，執行速度更是飛快。

具體情況是這樣的。隨著智慧代理（Agent）時代的來臨，眾所皆知，模型所面臨的任務日趨複雜，上下文（Context）也越來越長。

如何讓大型模型在執行任務的同時進行學習，不斷適應新資訊，避免在超長上下文中逐漸失效，已成為人工智慧領域的研究重點。

「測試時訓練」（Test-Time Training, TTT）技術原本旨在讓模型於推論階段更新部分參數，但在實際應用中仍面臨諸多挑戰：

首先，架構不相容。現有的 TTT 方法需要引入全新的網路層，甚至替換注意力機制，導致必須從頭開始進行預訓練。

其次，計算效率低落。現行 TTT 採用逐個 Token 的順序更新方式，無法充分利用 GPU/TPU 的平行運算能力。

此外，還存在優化目標不一致的問題。現有 TTT 多採用重建目標（reconstruction），僅讓模型記住當前的詞彙，而非專為「預測下一個詞」所設計。換言之，這與語言模型核心的「預測下一個 Token」任務並不匹配。

針對上述痛點，來自字節 Seed 與北京大學的研究團隊提出了一项巧妙解方：

不新增任何層級，也不更動既有架構，直接將 Transformer 中既有的 MLP（多層感知機）模組，轉化為大型模型的「臨時小腦」。

這項名為In-Place TTT（原地測試時訓練）的方案，讓 TTT 能作為即插即用的模組，無縫整合至現有的預訓練大型模型中。

實驗證明，Qwen3-4B、Llama3.1-8B、Qwen3-14B 等模型在裝備 In-Place TTT 後，效能皆獲得原地提升，尤其在長文本任務上的進步更為顯著。

不同模型在長上下文任務中的效能提升比較圖 In-Place TTT 架構與傳統方法對比圖

這篇論文已獲 ICLR 2026 會議錄取為口頭報告（Oral）。

讓大型模型在推論時「原地改參數」

話不多說，讓我們深入探討這篇論文的詳細內容。

In-Place TTT 的核心目標，是在不干擾模型架構的前提下，讓大型模型於推論或回答問題時，能悄悄進行自我更新，以適配當前的上下文。

為實現即插即用，字節 Seed 與北大的研究人員主要提出了三項創新：

原地架構設計

在 In-Place TTT 中，研究人員巧妙地複用了 Transformer 中無處不在的 MLP（多層感知機）。

他們將 MLP 的最後一個投影矩陣 W_down 作為快速權重（fast weights），於推論時進行原地更新。

此舉無需引入新的專用層來處理快速權重，既有的預訓練大型模型也可直接套用，無須重新訓練。

與語言模型對齊的優化目標

先前的 TTT 方法僅讓模型「記住當前 Token」，如前所述，這與語言模型的優化目標並不一致。

為此，In-Place TTT 專門針對自回歸語言模型設計了優化目標：

透過引入一維卷積（Conv1D）與投影矩陣，使 TTT 的目標值能涵蓋未來 Token 的資訊，從而顯式地與「預測下一個 Token」的任務對齊。

研究人員分析並證明，此做法能促使快速權重壓縮對未來預測有用的資訊，進而有效提升模型的上下文學習能力。

高效的區塊級更新機制

In-Place TTT 是針對 MLP 進行改造，同時保留原有的注意力層，這使得該方法能實現分塊更新，無須再逐個 Token 處理。

結合上下文平行技術，In-Place 能實現更高的吞吐量與計算效率，支援更長的上下文。

實驗表明，In-Place TTT 能大幅提升現有模型（如 Qwen3-4B）在 128K 甚至 256K 長上下文任務中的表現。

在從頭訓練的對比實驗中，其成效也優於其他 TTT 方法。

研究團隊

In-Place TTT 論文的第一作者為馮古豪與羅勝傑。

馮古豪目前就讀於北京大學，同時也是字節 Seed 的實習生。

羅勝傑同樣畢業於北京大學，師從王立威教授及本文通訊作者賀笛教授。

本文另一位通訊作者為字節 Seed 的 Wenhao Huang。

論文連結：https://arxiv.org/abs/2604.06169v1

— 完 —

🔹 誰將代表 2026 年的人工智慧趨勢？

龍蝦（Llama）系列模型爆紅，帶動了一波智慧代理（Agent）與衍生產品的浪潮。但真正值得長期關注的 AI 公司與產品，或許不止於此。

如果您正投身其中，或親眼見證這些變化，歡迎踴躍申報。

讓更多人看見您的成果。

👉 https://wj.qq.com/s2/25829730/09xz/

2026 AI 趨勢申報活動海報