騰訊混元チームは直近、混元無相アーキテクチャ(HY-WU)を発表し、大規模モデルが推論時にリアルタイムで専用パラメータを生成して秒単位で「脳を交換」することを可能にしました。
これは、大規模モデルが新しいタスクに直面しても既存の能力を失わないようにする、全く新しい機能的記憶パラダイムです。
リアルタイムでパーソナライズされたパラメータを生成することで、従来の静的重みの限界を完全に打破しました。
モデルの記憶は動的に生成される必要がある
大規模モデルの継続的な進化の道には、常に厄介な問題が立ちはだかっています。新しい知識を学べば、古い本業を忘れてしまいます。この現象は学術界で「破滅的忘却」と呼ばれています。
想像してみてください。何年もかけて中華料理の爆炒を極めたトップシェフが、フランス菓子の焼き方を専門的に猛練習し始めたところ、中華料理の厨房に戻ると、最も基本的な火加減さえも正確に制御できなくなっていました。大規模モデルのパラメータ空間は、シェフの筋肉の記憶のようなものです。
従来のファインチューニング技術やPEFT(パラメータ効率型ファインチューニング)は、同じ脳領域にすべての新しいスキルを無理やり詰め込もうとします。この上書き式の反復的な消去と書き込みは、新旧の知識の勾配衝突を极易く引き起こします。
忘却だけでなく、モデルはパーソナライズのトレードオフという難題にも直面します。異なるユーザーや異なる分野のニーズは千差万別です。大規模言語モデルが厳密なプログラミング論理を強化すると、発散的思考や特定のスタイルの生成において、片方を犠牲にして他方を優先する窮地に陥りがちです。
画像編集の分野でも、このシーソー効果は同様に顕著です。ノイズ除去能力を強化すると、モデルの芸術的スタイルの保持が損なわれる傾向があります。千人千面というパーソナライズのニーズに直面し、一つの共有パラメータですべての分布を無理やり適合させようとすれば、最終的に得られるのは各方の妥協による平凡な結果に過ぎません。
現在、各種主流の解決策はすべて静的重みパラダイムの天井に触れています。LoRAはトレーニングコストを下げましたが、推論時にはすべてのサンプルが依然として同一の固定されたパラメータ更新を共有しており、一刀切りのモードでは高度に異質なタスクを処理する能力がありません。
RAG(検索拡張生成)は外部ストレージを通じてモデルに背景情報を注入します。これは単にモデルが読む内容を変えただけです。タスクの核心が事実の補充ではなく規則の処理にある場合、コンテキストを増やすだけではモデルの内部演算ロジックを根本的に変えることはできません。
各タスクごとに独立したLoRAアダプターをトレーニングすることは、衝突を回避できるように見えます。しかし、これによりストレージコストは指数関数的に爆発します。
MoE(混合専門家モデル)はルーティングメカニズムを通じて異なる専門家ネットワークを呼び出しますが、これも依然として限られたパラメータ空間内での既存リソースの取り合いに過ぎません。
これらの痛点对し、騰訊混元チームは核心の問題点を正確に特定しました。
適合問題の核心は、最適化アルゴリズムそのものではなく、記憶インターフェースの基盤設計にあります。彼らはHY-WU(混元無相)パラダイムを提案しました。
HY-WUは機能的記憶という全く新しい概念を導入しました。このパラダイムは、汎用的な固定パラメータ点を見つけることを追求するのではなく、強力なパラメータ生成器を学習することに転換します。
適合プロセス全体が、入力条件に基づいてリアルタイムで特定の演算子重みを合成するパイプラインへと変わりました。
モデルは、異なる具体的なインスタンスに応じて、重み空間内で動的にルーティングを行うことができます。
これにより、共有パラメータ上での反復的な消去と相互干渉が完全に回避されました。
画像編集によるパラダイムの飛躍を検証
チームは、テキストガイド付きの画像編集を最初のストレステストフィールドとして選びました。
画像編集は、静的重みのさまざまな限界を自然に露呈させます。異なる編集指示は、パラメータ空間において通常、完全に互斥的な変換方向を表します。
古い写真の修復には、極致のノイズ除去と色彩復元が必要です。新しい写真を古く見せるためには、ノイズや退色フィルターを追加する必要があります。一つの静的アダプターでこの二つのタスクを無理やり学習させると、モデルは両方に及ばないという窮地に陥ります。
同様に、スタイル化指示も異なる画像上で全く異なる表現を示します。猫をサイバーパンクスタイルに変えることと、山水画をサイバーパンクスタイルに変えることでは、実行する必要があるピクセル変換ロジックに巨大な差異があります。サンプルに対して極めて敏感であることは、画像編集の大きな特徴の一つです。
HY-WUはデータを保存する古い道を見捨て、演算子マッピングを保存する新世界へと進みました。機能的記憶はもはや固定的な知識ポイントではありません。それは動的な条件マッピングメカニズムへと進化しました。
フレームワークには、Transformerアーキテクチャに基づいたパラメータ生成器が内蔵されています。この生成器は固定された重み数値を記憶しません。特定のインスタンスに対して最も適切な演算子重みを捏造する方法を専門に学習します。
モデルはまず、現在の入力画像と編集指示を鋭敏に感知します。これらの情報を混合条件特徴として融合させます。生成器は、これらの特徴に基づいて推論の瞬間にリアルタイムで、専用の一組のLoRAパラメータを計算します。
この驚くべきカスタマイズプロセスは、数百億パラメータの基盤モデル上でも、わずか数秒で完了します。出来立てのパーソナライズされたパラメータは、直ちに凍結された基盤モデルにマウントされます。これにより、正確で歴史的な荷物のない編集変換が一度で完了します。
従来のパラメータ生成の作業のほとんどは、トレーニングを補助するために海量のモデルチェックポイントを収集する必要がありました。HY-WUは非常にエレガントなエンドツーエンドトレーニングモードを採用しました。これは過去のスナップショットへの依存を完全に脱却しています。
十億レベルの海量パラメータ生成ニーズに対応するため、研究チームは分解自己注意メカニズムを設計しました。この巧妙な設計は計算効率を大幅に最適化しました。モデルの計算複雑性は効果的に制御されました。
機能的記憶の視点において、適合の目標は、条件からパラメータ更新へのマッピングネットワークを学習することへとアップグレードされました。チームはこれを「条件更新族」と定義しました。
この方法は、構造化されたパラメータ多様体を誘導しました。生成されたパラメータは、重み空間において極めて美的な意味構造を示します。動物の変形やスタイル転送など、機能類似の編集操作は、自動的に近隣領域に集まります。
この重み空間の幾何学的な一貫性は、機能的記憶の成功を裏付けています。システムは、競合する目標に直面した際、更新族の異なる領域へルーティングすることで干渉を化解できます。もはや性能妥協のために委屈して我慢する必要はありません。
システム全体のエンジニアリング展開も、極めて高い柔軟性を示しました。
展開時にいつでもロードできるように、数百のLoRA重みを保存する必要はありません。
分離マウントされた機能的記憶は、パーソナライズを保証すると同時に、極致のストレージ軽量化を実現しました。
評価データが技術力を裏付ける
研究者たちは、この技術をネイティブなマルチモーダル基盤モデル「HY-Image-3.0-Instruct」に適用しました。このモデルは800億パラメータという巨大な体量を持っています。そのうちアクティブパラメータは130億に達します。
複雑な画像編集を支えるために、チームは81.1億パラメータを持つTransformerパラメータ生成器を導入しました。
このネットワークは、すべての線形モジュールに対して、16ランクのLoRA重み(7.2億パラメータ)を生成できます。これにより、モデルは極めて高い柔軟性と精度を備えるようになりました。
HY-WUは、ソーシャルゲームや広告など、多くの実際のシーンで輝きを放っています。パーソナライズされた着せ替え試着や顔交換のシーンでは、驚異的な特徴の一貫性を示しました。
HY-WUとSeedream 4.5、GPT Image 1.5、Nano Banana 2との比較。着せ替え、試着、顔交換のパーソナライズされたシーンにおいて、HY-WUはすべてより強い特徴の一貫性を示し、その適合能力を十分に発揮し、ユーザーに多くの想像の余地を提供しました。
研究チームは、極めて厳格な評価体系を構築しました。このテストは、単一画像編集と複数画像編集の2つの主要なトラックを網羅しています。346組の単一画像と64組の複数画像編集ペアが含まれています。
テストは60の細分化された編集サブタスクを含み、中英両言語の指示をサポートしています。評価対象には、現在市場で最強の第一線のモデル陣営が集結しています。OpenAIのGPT-Image-1.5やGoogleのNano Banana Proも含まれています。
ユーザーの真の知覚を表す人間評価において、HY-WUのパフォーマンスは注目に値します。データによると、それはすべての主流オープンソースモデルを著しく凌駕しています。その感覚品質は、トップクラスのクローズドソースモデルであるNano Bananaにわずかに劣るのみです。
自動化ランキングの結果も、そのハードコアな実力を裏付けています。GEdit-Benchの中文テストにおいて、意味的一貫性の総合スコア、感知品質の3つの主要な次元で、すべてオープンソースモデルの第一位を獲得しました。
その6つの主要指標は、クローズドソースモデルであるSeedream 4.5やNano-Banana-Proさえも凌駕しています。
ImgEdit-Benchの9つの細分化された編集タスクにおいて、オープンソースモデルの中で5つの第一位と1つの第二位を獲得しました。
その総合スコアは、すべての公開モデルの中で第二位です。クローズドソースの覇者であるGPT Image 1.5との差は微々たるもので、わずか0.11点です。
HY-WUはネイティブなマルチモーダルモデルにだけでなく、従来のMMDiT(マルチモーダル拡散Transformer)アーキテクチャにおいても、著しい性能の飛躍をもたらすことができます。それは規模の法則の成長ロジックを完璧に遵守しています。
パラメータ生成器の深さが増すにつれて、モデルのパフォーマンスは継続的に上昇します。LoRAのランクを拡大し、生成パラメータの規模を1.2億から4.7億に拡張すると、モデルのパフォーマンスは明確な正の相関成長の傾向を示します。
インテリジェントアーキテクチャの機能モジュール化へ
混元チームの探求は、画像編集の分野に留まりません。彼らは、機能的ニューラル記憶を中核とする未来のAIの壮大な青写真を描いています。大規模モデルのアーキテクチャパラダイムは、深遠な変革を迎えようとしています。
検索記憶は事実知識の保存を担当し、機能的記憶は変換ロジックの保存を担当します。両者は運用メカニズムにおいて完璧な補完関係を形成しています。
事実の詳細や具体的なサンプルが必要な場合は、検索記憶を呼び出します。複雑な変換ルールや正確なプロセス制御が必要な場合は、機能的記憶を活性化します。これは、演算子の柔軟な対応に堅固な基盤サポートを提供します。
長期的に見て、機能的記憶は、オンライン継続学習の難問を完全に解決します。システムが絶え間なく新しいタスクを処理する際、新しいスキルを安全に更新族の空白領域に書き込むことができます。既存の能力マトリックスは、いかなる不可逆的な破壊も受けません。
主幹ネットワークのパラメータをむやみに積み重ねることが、汎用人工知能への唯一の道ではありません。主幹モデルと機能的記憶モジュールを連携させて規模を拡大することは、単一のモデルを単純に拡張するよりも、はるかに高い計算効率とデータ効率を備えています。
機能的記憶は、条件演算子の容量を割り当てます。稀な、または衝突を起こしやすい行動は、もはや共有重みに無理やり固定される必要はありません。モデルの衝突に対する頑健性とパーソナライズ能力は、質的な飛躍を遂げます。
このパラダイムは、クロスモーダル分野において広範な汎用可能性を持っています。ビデオモデルは、時間的注意層を処理する際に、しばしば巨大なバランスのプレッシャーに直面します。機能的記憶を導入することで、モデルは特定の動作シーケンスに対して動的な演算子オフセットを生成することができます。
視覚的質問応答やマルチモーダルインタラクションタスクは、高度に異質な入力信号を処理する必要があります。機能的記憶は、入力モーダルの特定のプロポーションに応じて、クロスモーダル融合層のパラメータ重みをリアルタイムかつ正確に調整できます。
長い長系列生成や複雑なエージェントインタラクションにおいて、アイデンティティの一貫性を維持することは、世界的な難問です。機能的記憶は、アイデンティティ演算子を保存するために特別に使用できます。
システムが特定のエンティティを認識すると、生成器は即座に専用のパラメータ制約ネットワークを合成します。キャラクターの顔の詳細や素材のテクスチャは、クロスシーケンスの長時間にわたる生成において、常に安定して維持されます。これにより、特徴のドリフトという隐患が完全に排除されます。
静的重みから動的パラメータ生成へと計算圧力を移行させることは、ハードウェア推論側に新たな課題を提起します。動的に生成されたパラメータは、极易くメモリアクセスパターンの断片化を引き起こします。
動的LoRA重み用に設計されたカスタマイズされた演算子融合技術の開発が、特に重要となります。これにより、パラメータ切り替えによる時間コストを大幅に削減できます。高性能推論エンジンとの深い結合は、協働効率をさらに最適化します。
パラメータ生成の遅延と消費電力を低下させることは、この技術の実用化における最終関門です。千人千面のパーソナライズされたリアルタイム適合が、スマートフォンなどのエッジデバイス上でスムーズに実行可能になったとき、インテリジェント計算は初めて真に日常生活に溶け込むことになります。
モデルのパラメータを静的な束縛から完全に解放することは、より強力な知能への不可欠な道となるかもしれません。
参考文献: