像挖礦一樣挖掘激勵函數？DeepMind打造「算力礦場」，暴力搜出下一代ReLU

編輯｜Panda

一直以來，神經網路的激勵函數就像是 AI 引擎中的火星塞。從早期的 Sigmoid、Tanh，到後來統治業界的 ReLU，再到近幾年的 GELU 和 Swish，每一次激勵函數的演進都伴隨著模型效能的提升。但長期以來，尋找最佳激勵函數往往依賴於人類直覺或有限的搜尋空間。

現在，Google DeepMind 正在改變這項規則。

在一篇剛剛發布的重磅論文《Finding Generalizable Activation Functions》中，DeepMind 團隊展示了他們如何利用 AlphaEvolve 在無限的 Python 函數空間中「挖掘」出了全新的激勵函數。

論文標題：Mining Generalizable Activation Functions
論文地址：https://arxiv.org/abs/2602.05688

這是一次神經架構搜尋（NAS）的勝利，更是一次方法論的革新。DeepMind 並沒有在龐大的 ImageNet 上直接搜尋，而是建構了一個「微型實驗室」，利用合成資料專門針對分佈外泛化（OOD Generalization）能力進行最佳化。

結果令人震驚：機器不僅重新發現了 GELU，還挖掘出了一系列帶有週期性擾動項的奇異函數，例如 GELUSine 和 GELU-Sinc-Perturbation。這些函數在演算法推理任務（如 CLRS-30）上展現出了超越 ReLU 和 GELU 的卓越泛化能力，同時在標準視覺任務上保持了強大的競爭力。

下面來具體看看。

告別手動調參

AlphaEvolve 與無限搜尋空間

傳統的神經架構搜尋（NAS）往往受限於預先定義的搜尋空間，例如只能在「加、減、乘、除、一元函數」的組合中尋找。這種方法雖然曾發現了 Swish，但它限制了探索的邊界。

DeepMind 這次的核心武器是 AlphaEvolve。這是一個由 LLM 驅動的演化編碼系統。它的工作流程並非簡單的參數調整，而是直接編寫和修改程式碼。

基於 LLM 的變異算子

AlphaEvolve 利用 Gemini 等前沿 LLM 作為「變異算子」。這意味著搜尋空間不再是離散的數學符號組合，而是所有可能的 Python 函數。只要能在一定的運算預算內執行，且輸入輸出張量形狀一致，任何 Python 程式碼都是潛在的激勵函數。

演化循環

整個系統的運作流程如下：

初始化：從標準的 ReLU 函數開始。
LLM 提案：LLM 根據當前最好的函數程式碼，編寫新的函數變體。值得注意的是，LLM 還會像人類程式設計師一樣，在程式碼註解中寫下它設計該函數的「理論依據」。
微型評估：新函數被植入到一個小型的多層感知機（MLP）中，在特定的合成資料集上進行訓練。
適應度計算：這裡的關鍵在於，模型不僅要在訓練集上表現好，更由於適應度函數是分佈外（OOD）測試資料的驗證損失，模型必須學會舉一反三。
迭代：表現最好的函數被保留到資料庫中，作為下一輪演化的種子。

這種方法讓 AlphaEvolve 能夠利用 LLM 中蘊含的程式設計知識和數學直覺，傾向於生成有意義的函數，從而極大提高了搜尋效率。

微型實驗室

用合成資料攻克泛化難題

為了避免在大型資料集（如 ImageNet）上進行昂貴的搜尋，DeepMind 採用了一種「微型實驗室」策略。

他們設計了一系列簡單的合成回歸任務，這些任務專門用來測試模型捕捉資料結構的能力，而非死記硬背。資料集包括：

隨機多項式：測試外推能力。
球諧函數：測試週期性結構的編碼能力。
費曼符號回歸資料集：測試對物理方程式的擬合能力。

關鍵的設定在於訓練集和測試集的分佈偏移。例如，模型可能在 (0, 0.5) 的區間內訓練，但必須在 (0.5,1) 的區間內進行測試。

研究人員發現，如果一個激勵函數能在這個殘酷的「微型實驗室」中生存下來，它往往能捕捉到更本質的歸納偏置，從而在真實世界的複雜任務中也表現出色。

挖掘出的寶藏

從 GELUSine 到「湍流」函數

經過 AlphaEvolve 的多輪迭代，系統「挖掘」出了多個具有獨特性的激勵函數。有些是對現有函數的改良，有些則不僅奇異，甚至帶有某種「物理直覺」。

明星選手：GELUSine 與 GELU-Sinc-Perturbation

最令人興奮的發現是，表現最好的函數往往遵循一個通用的公式：

即一個標準的激勵函數（如 GELU）加上一個週期性的擾動項。

GELUSine：

，LLM 在生成的程式碼註解中解釋道，這個正弦項引入了週期性的「擺動」，有助於最佳化過程探索損失函數地景，逃離局部極小值。

GELU-Sinc-Perturbation：

這個函數不僅保留了 GELU 的漸近行為，還透過 Sinc 函數在原點附近引入了受控的非線性複雜性。

複雜的嘗試：GMTU

AlphaEvolve 還發現了一種名為 GMTU (Gaussian-Modulated Tangent Unit) 的函數。它結合了 Tanh、高斯衰減和線性洩漏項，形狀看起來像是一個經過調變的訊號波。雖然它在合成資料上表現不錯，但公式較為複雜，運算成本相對較高。

失敗的教訓：湍流激勵函數

在搜尋過程中，AlphaEvolve 一度發現了一種效能極高的函數，稱為 Turbulent Activation。

這個函數非常「聰明」，它利用了輸入張量的 Batch 統計資訊（如平均值和變異數）來動態調整激勵形狀。在微型實驗室的合成資料中，它的表現碾壓了所有對手，測試損失極低。

然而，這種聰明被證明是一種過度擬合。當遷移到 ImageNet 或 CIFAR-10 等真實任務時，Turbulent 函數的表現一落千丈。因為它過度依賴於特定資料集的 Batch 統計特徵，失去了逐點激勵函數的通用性。這是一個經典的「實驗室高分低能」案例，也反向證明了逐點激勵函數的穩健性。

真實世界的大考

OOD 泛化的勝利

為了驗證這些在「微型實驗室」裡挖掘出來的函數是否真的有用，DeepMind 將它們植入到標準的 ResNet-50、VGG 和圖神經網路（GCN）中，在 CIFAR-10、ImageNet、CLRS-30 和 ogbg-molhiv 資料集上進行了測試。

測試結果揭示了幾個關鍵事實：

OOD 任務的王者：在 CLRS-30（演算法推理基準，強調用小規模資料訓練並泛化到更大規模的問題）上，新發現的 GELU-Sinc-Perturbation 取得了 0.887 的高分，顯著優於 ReLU (0.862) 和 GELU (0.874)。這驗證了 DeepMind 的核心假設：在合成 OOD 資料上最佳化的函數，確實能遷移到需要強泛化能力的演算法任務上。
視覺任務不掉隊：在 ImageNet 上，儘管這些新函數是針對小規模資料最佳化的，但 GELUSine 和 GELU-Sinc-Perturbation 依然達到了與 GELU 持平甚至略優的準確率（Top-1 Accuracy 約 74.5%），遠超 ReLU (73.5%)。
週期性的魔力：為什麼在激勵函數中加入 sin(x) 或 sinc(x) 這種週期項會有效？DeepMind 的研究人員認為，標準的激勵函數（如 ReLU）在訓練域之外往往是線性的，很難捕捉資料的複雜結構。而週期性函數允許模型在訓練域內「儲存」某種頻率資訊，並在外推時透過週期性結構「檢索」這些資訊。正如 LLM 在程式碼註解中所說，這是一種「隱式的頻率分析」。

下表總結了關鍵函數在不同任務上的表現：

深度思考

AI 設計 AI 的未來

DeepMind 的這項研究不僅貢獻了幾個好用的激勵函數，更引發了對 AI 輔助科研的深層思考。

程式碼即搜尋空間

AlphaEvolve 證明了，讓 LLM 直接編寫 Python 程式碼作為搜尋空間，比預先定義數學算子更加靈活和強大。LLM 自帶的程式設計規範和邏輯能力，使得它生成的函數大多具有可讀性和可執行性，甚至還能提供「設計思路」的解釋。

從擬合到泛化

長久以來，激勵函數的設計大多是為了最佳化梯度的流動（如 ReLU 解決梯度消失）。但這項研究表明，激勵函數的形狀直接影響模型的歸納偏置。透過引入週期性結構，我們實際上是在告訴神經網路：「這個世界很多規律是循環往復的，不僅僅是線性的。」

「小資料」的大智慧

在一個追求兆參數和由 PB 級資料訓練的大模型時代，DeepMind 反其道而行之，透過僅有幾百個樣本的合成資料「微型實驗室」，挖掘出了通用的架構元件。這表明，如果我們能精確定義「泛化」的本質（如透過 OOD 切分），小資料依然能撬動大智慧。

結語

不得不說，這篇論文的成果還是相當驚人的。

DeepMind 的這項工作告訴我們，在神經網路最基礎的元件層面，依然存在著廣闘的未至之境。

未來的 AI 模型，其每一行程式碼、每一個算子，或許都將由 AI 自己來書寫。而對於我們要做的，可能就是像 AlphaEvolve 這樣，為它們搭建一個合適的「演化實驗室」。

如果你正在訓練處理複雜圖結構或需要強邏輯推理的模型，不妨試著將你的 nn.ReLU 替換為 nn.GELU(x) * (1 + 0.5 * sinc(x))，或許會有意想不到的驚喜。

像挖礦一樣挖掘激勵函數？DeepMind打造「算力礦場」，暴力搜出下一代ReLU

相關文章推薦

分享網址