騰訊混元團隊剛剛發布了混元無相架構(HY-WU),讓大模型學會在推理時即時生成專屬參數,實現秒級換腦。
這是一種嶄新的功能性記憶範式,能夠讓大模型在面對新任務時不遺失原有能力。
透過即時生成個性化參數,徹底打破了傳統靜態權重的局限。
模型記憶需要動態生成
大模型在持續進化的路上始終面臨一個棘手的麻煩:學了新知識就會遺忘老本行。這種現象在學術界被稱為「災難性遺忘」。
想像一位頂級大廚花費數年精通了中式爆炒。當他開始專項刻苦練習法式甜點烘焙後,回到中餐廚房卻發現自己連最基本的火候都掌握不準了。大模型的參數空間就像大廚的肌肉記憶。
傳統的微調技術或者 PEFT(參數高效微調)試圖在同一個大腦區域裡強行塞入所有新技能。這種覆蓋式的反覆擦寫極易導致新舊知識的梯度衝突。
不僅是遺忘,模型還要面對個性化的權衡難題。不同用戶和不同領域的需求千差萬別。大型語言模型在強化了嚴密的編程邏輯後,往往在發散性思維或特定風格的生成上表現出顧此失彼的窘境。
在圖像編輯領域,這種翹翹板效應同樣明顯。增強去噪能力往往會損害模型對藝術風格的保留。面對千人千面的個性化需求,強行用一個共享參數去擬合所有分佈,最終只能得到各方妥協的平庸結果。
目前的各種主流解法都觸碰到了靜態權重範式的天花板。LoRA 降低了訓練成本,但推理時所有樣本依然共用同一組固定的參數更新,一刀切的模式在處理高度異構的任務時無能為力。
RAG(檢索增強生成)透過外部儲存為模型注入背景資訊。這僅僅改變了模型讀到的內容。當任務的核心在於處理規則而非補充事實時,僅僅增加上下文無法從根本上改變模型的內部運算邏輯。
為每個任務訓練獨立的 LoRA 適配器看似能避免衝突,但這會帶來呈指數級爆炸的儲存開銷。
MoE(混合專家模型)透過路由機制調用不同的專家網絡,這依舊是在有限的參數空間內做存量博弈。
面對這些痛點,騰訊混元團隊找准了核心症結。
適配問題的核心不在於優化算法本身,而在於記憶接口的底層設計。他們提出了 HY-WU(混元無相)範式。
HY-WU 引入了功能性記憶的全新概念。該範式不再追求尋找一個通用的固定參數點,它轉而學習一個強大的參數生成器。
整個適配過程變成了一個根據輸入條件即時合成特定算子權重的流水線。
模型能夠根據不同的具體實例在權重空間內進行動態路由。
這徹底避免了在共享參數上的反覆擦寫與互相干擾。
圖像編輯驗證範式躍升
團隊選擇文本引導的圖像編輯作為首個壓力測試場。
圖像編輯天然地暴露了靜態權重的各種局限性。不同的編輯指令在參數空間裡往往代表著完全互斥的變換方向。
修復老照片需要極致的去噪與色彩還原。給新照片做舊則需要添加噪點與褪色濾鏡。用同一個靜態適配器強行學習這兩個任務,模型會陷入兩頭不到岸的尷尬境地。
同樣的風格化指令在不同畫面上的表現也截然不同。把一隻貓變成賽博龐克風格與把一幅山水畫變成賽博龐克風格,底層需要執行的像素變換邏輯存在巨大差異。對樣本極度敏感是圖像編輯的一大特徵。
HY-WU 拋棄了存數據的老路,走向了存算子映射的新世界。功能性記憶不再是一個固定的知識點。它演變成了一種動態的條件映射機制。
框架內置了一個基於 Transformer 架構的參數生成器。這個生成器不記憶固定的權重數值。它專門學習如何針對特定實例捏造出最合適的算子權重。
模型首先敏銳地感知當前輸入圖片和編輯指令。它將這些資訊融合成混合條件特徵。生成器根據這些特徵在推理的瞬間即時計算出一組專屬的 LoRA 參數。
這個驚人的定制過程在百億參數的基座模型上僅需幾秒鐘即可完成。剛出爐的個性化參數被立即掛載到凍結的基座模型中。一次精準且毫無歷史包袱的編輯變換就此完成。
以往的參數生成工作大多需要收集海量的模型檢查點來輔助訓練。HY-WU 採取了極其優雅的端到端訓練模式。它完全擺脫了對歷史快照的依賴。
針對十億級別的海量參數生成需求,研究團隊設計了分解自注意力機制。這項精妙的設計大幅優化了計算效率。模型的计算複雜度得到了有效控制。
在功能性記憶的視角下,適配的目標升級為學習一個從條件到參數更新的映射網絡。團隊將其定義為「條件更新族」。
這種方式誘導出了一個結構化的參數流形。生成的參數在權重空間中呈現出極具美感的語義結構。功能相似的編輯操作如動物形變或風格遷移會自動聚集在鄰近的區域。
這種權重空間的幾何一致性印證了功能性記憶的成功。系統在面對衝突目標時可以透過路由到更新族的不同區域來化解干涉。它再也不需要委曲求全地進行性能妥協。
整個系統的工程部署也展現出了極高的靈活性。
它不需要在部署時儲存成百上千的 LoRA 權重供隨時加載。
分離掛載的功能性記憶既保證了個性化,又實現了極致的儲存輕量化。
評測數據印證技術實力
研究人員將這項技術應用於一個原生多模態基座模型 HY-Image-3.0-Instruct。該模型擁有 800 億參數的龐大體量。其中激活參數達到了 130 億。
為了支撐複雜的圖像編輯,團隊引入了一個擁有 81.1 億參數的 Transformer 參數生成器。
該網絡能為所有線性模塊生成 7.2 億參數的 16 秩 LoRA 權重。這賦予了模型極高的靈活性與準確度。
HY-WU 在社交遊戲和廣告等眾多實際場景中大放異彩。在個性化的換裝試穿和換臉場景中,它展現出了驚人的特徵一致性。
HY-WU 與 Seedream 4.5、GPT Image 1.5、Nano Banana 2 的對比。在換裝、試穿和換臉的個性化場景中,HY-WU 均表現出更強的特徵一致性,充分展現了其適配能力,為用戶提供了更多想像空間。
研究團隊建構了一個極其嚴苛的評測體系。該測試涵蓋了單圖和多圖編輯兩大賽道。它包含 346 組單圖和 64 組多圖編輯對。
測試涉及 60 個細分編輯子任務並支援中英雙語指令。評測對象集結了目前市面上最強的一線模型陣營。OpenAI 的 GPT-Image-1.5 和 Google 的 Nano Banana Pro 均在列。
在代表用戶真實感知的人類評價中,HY-WU 的表現令人矚目。數據顯示它顯著優於所有主流開源模型。它的感官質量僅略遜於頂級閉源模型 Nano Banana。
自動化榜單的成績同樣印證了它的硬核實力。在 GEdit-Bench 中文測試中,它在語義一致性整體評分和感知質量三大維度上均斬獲開源模型第一。
它的六項核心指標甚至超越了閉源模型 Seedream 4.5 和 Nano-Banana-Pro。
在 ImgEdit-Bench 的 9 項細分編輯任務中,它在開源模型中奪得了 5 項第一和 1 項第二。
它的總分在所有公開模型中排名第二。與閉源霸主 GPT Image 1.5 的差距微乎其微,僅有 0.11 分。
HY-WU 不僅適用於原生多模態模型,在傳統的 MMDiT(多模態擴散 Transformer)架構上同樣能帶來顯著的性能躍升。它完美遵循了規模法則的增長邏輯。
隨著參數生成器深度的增加,模型性能持續攀升。透過擴大 LoRA 的秩,將生成參數規模從 1.2 億擴展至 4.7 億,模型表現呈現出清晰的正相關增長態勢。
智能架構走向功能模組化
混元團隊的探索絕不僅僅停留在圖像編輯領域。他們描繪了一幅以功能性神經記憶為核心的未來 AI 宏偉藍圖。大模型架構範式正迎來深刻的變革。
檢索記憶負責儲存事實知識。功能性記憶負責儲存變換邏輯。兩者在運作機制上形成了完美的互補關係。
需要事實細節和具體樣例時調用檢索記憶。需要複雜的變換規則和精準的過程控制時激活功能性記憶。這為算子的靈活應變提供了堅實的底層支援。
長遠來看,功能性記憶將徹底解決線上持續學習的難題。系統在處理源源不斷的新任務時,可以將新技能安全地寫入更新家族的空白區域。舊有的能力矩陣不會受到任何不可逆的破壞。
一味地堆砌主幹網絡參數並不是通向通用人工智慧的唯一路徑。將主幹模型與功能性記憶模塊聯合擴大規模,比單純擴展單體模型具備更高的計算與資料效率。
功能性記憶分配的是條件算子容量。罕見或極易產生衝突的行為不再需要被強行固化在共享權重中。模型的衝突魯棒性及個性化能力將得到質的飛躍。
這種範式在跨模態領域具有廣闊的通用潛力。視頻模型在處理時間注意力層時常面臨巨大的平衡壓力。引入功能性記憶可以讓模型為特定動作序列生成動態算子偏移。
視覺問答和多模態互動任務需要處理高度異構的輸入訊號。功能性記憶能夠根據輸入模態的特定比例,即時且精準地調節跨模態融合層的參數權重。
在漫長的長序列生成或複雜的智能體互動中,保持身份的一致性是一個世界級難題。功能性記憶可以被用來專門儲存身份算子。
當系統識別到特定實體時,生成器會即時合成一套專屬的參數約束網絡。角色的面部細節和材質紋理將在跨場景的長時跨度生成中始終保持穩定。這徹底杜絕了特徵漂移的隱患。
將計算壓力從靜態權重轉移到動態參數生成對硬體推理側提出了新的挑戰。動態生成的參數極易導致顯存訪問模式的碎片化。
開發針對動態 LoRA 權重設計的定製化算子融合技術顯得尤為關鍵。這能大幅減少參數切換帶來的時間開銷。與高性能推理引擎的深度結合將進一步優化協作效率。
降低參數生成的延遲與功耗是這項技術落地的最終關卡。當千人千面的個性化即時適配能夠在手機等端側設備上流暢運行時,智能計算才算真正融入日常。
把模型參數從靜態束縛中完全釋放出來,或許將是通往更強智能的必經之路。
參考資料: