コインを採掘するように活性化関数を採掘?DeepMindが「計算力マイニング場」を構築し、次世代ReLUを総当たり検索

图片

編集|Panda

長い間、ニューラルネットワークの活性化関数はAIエンジンの点火プラグのような存在でした。初期のSigmoid、Tanhから、後に業界を支配したReLU、そして近年のGELUやSwishに至るまで、活性化関数の進化は常にモデル性能の向上とともにありました。しかし、最適な活性化関数の探索は長らく人間の直感や限られた検索空間に依存していました。

現在、Google DeepMindがこのルールを変えようとしています。

発表されたばかりの重要な論文「Finding Generalizable Activation Functions」において、DeepMindチームは、AlphaEvolveを用いて無限のPython関数空間で「マイニング(採掘)」を行い、全く新しい活性化関数を発見した方法を示しました。

图片

これはニューラルアーキテクチャ検索(NAS)の勝利であり、方法論の革新でもあります。DeepMindは巨大なImageNetで直接検索するのではなく、「マイクロラボ」を構築し、合成データを用いて分布外汎化(OOD Generalization)能力を专门に最適化しました。

結果は驚くべきものでした。機械はGELUを再発見しただけでなく、GELUSineやGELU-Sinc-Perturbationなど、周期的な摂動項を持つ奇妙な関数のシリーズも発掘しました。これらの関数は、アルゴリズム推論タスク(CLRS-30など)においてReLUやGELUを超える卓越した汎化能力を示し、同時に標準的な視覚タスクでも強力な競争力を維持しました。

以下で詳しく見ていきましょう。

手動パラメータ調整に別れを

AlphaEvolveと無限検索空間

従来のニューラルアーキテクチャ検索(NAS)は、しばしば事前定義された検索空間に制限されていました。例えば、「加減乗除、単項関数」の組み合わせの中でのみ探すなどです。この方法はSwishを発見しましたが、探索の境界を制限していました。

DeepMindの今回の核となる武器はAlphaEvolveです。これはLLM駆動の進化的コーディングシステムです。そのワークフローは単純なパラメータ調整ではなく、コードを直接記述・修正することです。

图片

LLMベースの変異演算子

AlphaEvolveはGeminiなどの最先端LLMを「変異演算子」として活用します。これは、検索空間が離散的な数学的記号の組み合わせではなく、可能なすべてのPython関数であることを意味します。一定の計算予算(FLOPs)内で実行でき、入出力テンソル形状が一致すれば、任意のPythonコードが潜在的な活性化関数となります。

進化サイクル

システム全体の動作フローは以下の通りです:

  1. 初期化:標準的なReLU関数から開始。

  2. LLM提案:LLMが現在の最良の関数コードに基づいて、新しい関数バリアントを記述。注目すべきは、LLMが人間のプログラマーのようにコードコメントにその関数を設計した「理論的根拠」を記述することです。

  3. マイクロ評価:新しい関数が小型の多層パーセプトロン(MLP)に組み込まれ、特定の合成データセットでトレーニングされます。

  4. 適応度計算:ここでの鍵は、モデルがトレーニングセットで良いパフォーマンスを上げるだけでなく、適応度関数が分布外(OOD)テストデータの検証損失であるため、モデルは学習したことを応用する能力を身につける必要があります。

  5. 反復:最もパフォーマンスの良い関数がデータベースに保存され、次の進化ラウンドの種となります。

このアプローチにより、AlphaEvolveはLLMに含まれるプログラミング知識と数学的直感を活用し、意味のある関数を生成する傾向があり、検索効率が大幅に向上します。

マイクロラボ

合成データで汎化問題に取り組む

大規模データセット(ImageNetなど)での高コストな検索を避けるため、DeepMindは「マイクロラボ(Small-Scale Lab)」戦略を採用しました。

图片

研究チームは一連のシンプルな合成回帰タスクを設計しました。これらのタスクは、モデルがデータ構造を捉える能力をテストするために特化しており、暗記ではありません。データセットには以下が含まれます:

  • ランダム多項式(Polynomials):外挿能力をテスト。

  • 球面調和関数(Spherical Harmonics):周期構造の符号化能力をテスト。

  • ファインマン記号回帰データセット(Feynman Symbolic Regression):物理方程式へのフィッティング能力をテスト。

重要な設定はトレーニングセットとテストセットの分布シフトです。例えば、モデルは(0, 0.5)の区間でトレーニングされますが、(0.5, 1)の区間でテストされる必要があります。

研究結果、ある活性化関数がこの厳しい「マイクロラボ」で生き残ることができれば、より本質的な帰納バイアス(Inductive Bias)を捉え、現実世界の複雑なタスクでも優れたパフォーマンスを発揮することがわかりました。

発掘された宝物

GELUSineから「乱流」関数まで

AlphaEvolveの複数ラウンドの反復を経て、システムは独自の特性を持つ複数の活性化関数を「発掘」しました。一部は既存関数の改良であり、一部は奇妙で、ある種の「物理的直感」さえ持っています。

图片

图片

スター選手:GELUSineとGELU-Sinc-Perturbation

图片

最も興奮する発見は、最もパフォーマンスの良い関数がしばしば共通の公式に従うことです:

图片

つまり、標準的な活性化関数(GELUなど)に周期的な摂動項を加えたものです。

GELUSine:

图片、LLMは生成されたコードコメントで、この正弦項が周期的な「揺れ」を導入し、最適化プロセスが損失地形を探索し、局所最小値から脱出するのに役立つと説明しています。

GELU-Sinc-Perturbation:

图片

この関数はGELUの漸近挙動を保持しながら、Sinc関数を通じて原点付近に制御された非線形複雑性を導入しています。

複雑な試み:GMTU

AlphaEvolveはGMTU(Gaussian-Modulated Tangent Unit)という関数も発見しました。これはTanh、ガウス減衰、線形リーク項を組み合わせており、形状は変調された信号波のように見えます。合成データでは良好なパフォーマンスを示しましたが、公式が比較的複雑で、計算コストがやや高いです。

失敗の教訓:乱流活性化関数(Turbulent)

検索過程で、AlphaEvolveは一時的にTurbulent Activationと呼ばれる非常に高性能な関数を発見しました。

この関数は非常に「賢く」、入力テンソルのバッチ統計情報(平均や分散など)を利用して活性化形状を動的に調整します。マイクロラボの合成データでは、すべての競合相手を圧倒し、テスト損失は極めて低かったです。

しかし、この賢さは過学習であることが判明しました。ImageNetやCIFAR-10などの実際のタスクに転送すると、Turbulent関数のパフォーマンスは急落しました。特定のデータセットのバッチ統計特徴に過度に依存し、ポイントワイズ活性化関数の汎用性を失ったからです。これは古典的な「ラボでは高得点だが実力がない」ケースであり、ポイントワイズ活性化関数の堅牢性を逆に証明しています。

実世界の大試験

OOD汎化の勝利

これらの「マイクロラボ」で発掘された関数が本当に有用かどうかを検証するため、DeepMindはそれらを標準的なResNet-50、VGG、グラフニューラルネットワーク(GCN)に組み込み、CIFAR-10、ImageNet、CLRS-30、ogbg-molhivデータセットでテストしました。

テスト結果はいくつかの重要な事実を明らかにしました:

  1. OODタスクの王者:CLRS-30(アルゴリズム推論ベンチマーク、小規模データでトレーニングし大規模問題に汎化することを強調)で、新しく発見されたGELU-Sinc-Perturbationは0.887という高得点を達成し、ReLU(0.862)やGELU(0.874)を大幅に上回りました。これはDeepMindの核心仮説を検証しています:合成OODデータで最適化された関数は、強い汎化能力を必要とするアルゴリズムタスクに確実に転送できます。

  2. 視覚タスクでも遅れを取らない:ImageNetでは、これらの新しい関数は小規模データ向けに最適化されていますが、GELUSineとGELU-Sinc-Perturbationは依然としてGELUと同等、あるいはわずかに優れた精度(Top-1精度約74.5%)を達成し、ReLU(73.5%)を大きく上回りました。

  3. 周期性の魔法:なぜ活性化関数にsin(x)やsinc(x)のような周期項を加えると効果があるのか?DeepMindの研究者は、標準的な活性化関数(ReLUなど)はトレーニング領域外ではしばしば線形であり、データの複雑な構造を捉えるのが難しいと考えています。一方、周期関数はモデルがトレーニング領域内である種の周波数情報を「保存」し、外挿時に周期構造を通じてその情報を「検索」することを可能にします。LLMがコードコメントで述べたように、これは「暗黙的な周波数分析」です。

以下の表は、主要な関数の異なるタスクでのパフォーマンスをまとめたものです:

图片

深い考察

AIがAIを設計する未来

DeepMindのこの研究は、いくつかの有用な活性化関数を提供しただけでなく、AI支援研究に対する深い考察も引き起こしました。

コード即ち検索空間

AlphaEvolveは、LLMにPythonコードを直接記述させることを検索空間とすることが、事前定義された数学演算子よりも柔軟で強力であることを証明しました。LLM自带のプログラミング規範と論理能力により、生成される関数の多くは可読性と実行可能性を持ち、「設計思想」の説明さえ提供できます。

フィッティングから汎化へ

長い間、活性化関数の設計は主に勾配の流れを最適化するためのものでした(例:ReLUが勾配消失を解決)。しかし、この研究は活性化関数の形状がモデルの帰納バイアスに直接影響することを示しています。周期構造を導入することで、私たちは実際にニューラルネットワークに「この世界の多くの法則は循環的であって、単に線形ではない」と伝えています。

「小データ」の大いなる知恵

万亿パラメータとPB級データでトレーニングされた大規模モデルを追求する時代において、DeepMindは逆行し、わずか数百のサンプルからなる合成データ「マイクロラボ」を通じて、汎用的なアーキテクチャコンポーネントを発掘しました。これは、「汎化」の本質を正確に定義できれば(OOD分割など)、小データでも大きな知恵を引き出せることを示しています。

結び

この論文の成果はかなり驚くべきものと言わざるを得ません。

DeepMindのこの研究は、ニューラルネットワークの最も基本的なコンポーネントレベルにおいて、依然として広大な未踏の地が存在することを私たちに伝えています。

未来のAIモデルにおいて、その一行一行のコード、一つ一つの演算子は、おそらくAI自身によって書かれることになるでしょう。そして私たちがすべきことは、AlphaEvolveのように、彼らのために適切な「進化ラボ」を構築することかもしれません。

もしあなたが複雑なグラフ構造を処理したり、強い論理推論を必要とするモデルをトレーニングしているなら、nn.ReLUをnn.GELU(x) * (1 + 0.5 * sinc(x))に置き換えてみてください。予期せぬ驚きがあるかもしれません。

© THE END


分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.