大型語言模型也能「原地」調參了!字節 Seed 與北大聯合發表新論文:推論時無需新增層或重新訓練

字節跳動 Seed 團隊最新研究成果,讓大型語言模型具備了「原地修改參數」的能力。

這項技術既無需更動模型架構,也不需要重新訓練,執行速度更是飛快。

字節 Seed 與北大研究團隊讓大模型實現原地改參數示意圖

具體情況是這樣的。隨著智慧代理(Agent)時代的來臨,眾所皆知,模型所面臨的任務日趨複雜,上下文(Context)也越來越長。

如何讓大型模型在執行任務的同時進行學習,不斷適應新資訊,避免在超長上下文中逐漸失效,已成為人工智慧領域的研究重點。

「測試時訓練」(Test-Time Training, TTT)技術原本旨在讓模型於推論階段更新部分參數,但在實際應用中仍面臨諸多挑戰:

首先,架構不相容。現有的 TTT 方法需要引入全新的網路層,甚至替換注意力機制,導致必須從頭開始進行預訓練。

其次,計算效率低落。現行 TTT 採用逐個 Token 的順序更新方式,無法充分利用 GPU/TPU 的平行運算能力。

此外,還存在優化目標不一致的問題。現有 TTT 多採用重建目標(reconstruction),僅讓模型記住當前的詞彙,而非專為「預測下一個詞」所設計。換言之,這與語言模型核心的「預測下一個 Token」任務並不匹配。

針對上述痛點,來自字節 Seed 與北京大學的研究團隊提出了一项巧妙解方:

不新增任何層級,也不更動既有架構,直接將 Transformer 中既有的 MLP(多層感知機)模組,轉化為大型模型的「臨時小腦」。

這項名為In-Place TTT(原地測試時訓練)的方案,讓 TTT 能作為即插即用的模組,無縫整合至現有的預訓練大型模型中。

實驗證明,Qwen3-4B、Llama3.1-8B、Qwen3-14B 等模型在裝備 In-Place TTT 後,效能皆獲得原地提升,尤其在長文本任務上的進步更為顯著。

不同模型在長上下文任務中的效能提升比較圖In-Place TTT 架構與傳統方法對比圖

這篇論文已獲 ICLR 2026 會議錄取為口頭報告(Oral)。

讓大型模型在推論時「原地改參數」

話不多說,讓我們深入探討這篇論文的詳細內容。

In-Place TTT 的核心目標,是在不干擾模型架構的前提下,讓大型模型於推論或回答問題時,能悄悄進行自我更新,以適配當前的上下文。

為實現即插即用,字節 Seed 與北大的研究人員主要提出了三項創新:

原地架構設計

在 In-Place TTT 中,研究人員巧妙地複用了 Transformer 中無處不在的 MLP(多層感知機)

他們將 MLP 的最後一個投影矩陣 Wdown 作為快速權重(fast weights),於推論時進行原地更新。

此舉無需引入新的專用層來處理快速權重,既有的預訓練大型模型也可直接套用,無須重新訓練。

In-Place TTT 利用既有 MLP 進行參數更新之架構圖

與語言模型對齊的優化目標

先前的 TTT 方法僅讓模型「記住當前 Token」,如前所述,這與語言模型的優化目標並不一致。

為此,In-Place TTT 專門針對自回歸語言模型設計了優化目標:

透過引入一維卷積(Conv1D)與投影矩陣,使 TTT 的目標值能涵蓋未來 Token 的資訊,從而顯式地與「預測下一個 Token」的任務對齊。

研究人員分析並證明,此做法能促使快速權重壓縮對未來預測有用的資訊,進而有效提升模型的上下文學習能力。

高效的區塊級更新機制

In-Place TTT 是針對 MLP 進行改造,同時保留原有的注意力層,這使得該方法能實現分塊更新,無須再逐個 Token 處理。

結合上下文平行技術,In-Place 能實現更高的吞吐量與計算效率,支援更長的上下文。

區塊級更新機制提升運算效率示意圖

實驗表明,In-Place TTT 能大幅提升現有模型(如 Qwen3-4B)在 128K 甚至 256K 長上下文任務中的表現。

在從頭訓練的對比實驗中,其成效也優於其他 TTT 方法。

In-Place TTT 與其他方法於長文本任務之效能比較圖

研究團隊

In-Place TTT 論文的第一作者為馮古豪與羅勝傑。

馮古豪目前就讀於北京大學,同時也是字節 Seed 的實習生。

羅勝傑同樣畢業於北京大學,師從王立威教授及本文通訊作者賀笛教授。

本文另一位通訊作者為字節 Seed 的 Wenhao Huang。

論文連結:https://arxiv.org/abs/2604.06169v1

🔹 誰將代表 2026 年的人工智慧趨勢?

龍蝦(Llama)系列模型爆紅,帶動了一波智慧代理(Agent)與衍生產品的浪潮。但真正值得長期關注的 AI 公司與產品,或許不止於此。

如果您正投身其中,或親眼見證這些變化,歡迎踴躍申報。

讓更多人看見您的成果。

👉 https://wj.qq.com/s2/25829730/09xz/

2026 AI 趨勢申報活動海報

相關文章推薦

分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.