像挖礦一樣挖掘激勵函數?DeepMind打造「算力礦場」,暴力搜出下一代ReLU

圖片
編輯|Panda

一直以來,神經網路的激勵函數就像是 AI 引擎中的火星塞。從早期的 Sigmoid、Tanh,到後來統治業界的 ReLU,再到近幾年的 GELU 和 Swish,每一次激勵函數的演進都伴隨著模型效能的提升。但長期以來,尋找最佳激勵函數往往依賴於人類直覺或有限的搜尋空間。

現在,Google DeepMind 正在改變這項規則。

在一篇剛剛發布的重磅論文《Finding Generalizable Activation Functions》中,DeepMind 團隊展示了他們如何利用 AlphaEvolve 在無限的 Python 函數空間中「挖掘」出了全新的激勵函數

圖片

這是一次神經架構搜尋(NAS)的勝利,更是一次方法論的革新。DeepMind 並沒有在龐大的 ImageNet 上直接搜尋,而是建構了一個「微型實驗室」,利用合成資料專門針對分佈外泛化(OOD Generalization)能力進行最佳化。

結果令人震驚:機器不僅重新發現了 GELU,還挖掘出了一系列帶有週期性擾動項的奇異函數,例如 GELUSine 和 GELU-Sinc-Perturbation。這些函數在演算法推理任務(如 CLRS-30)上展現出了超越 ReLU 和 GELU 的卓越泛化能力,同時在標準視覺任務上保持了強大的競爭力。

下面來具體看看。

告別手動調參

AlphaEvolve 與無限搜尋空間

傳統的神經架構搜尋(NAS)往往受限於預先定義的搜尋空間,例如只能在「加、減、乘、除、一元函數」的組合中尋找。這種方法雖然曾發現了 Swish,但它限制了探索的邊界。

DeepMind 這次的核心武器是 AlphaEvolve。這是一個由 LLM 驅動的演化編碼系統。它的工作流程並非簡單的參數調整,而是直接編寫和修改程式碼。

圖片

基於 LLM 的變異算子

AlphaEvolve 利用 Gemini 等前沿 LLM 作為「變異算子」。這意味著搜尋空間不再是離散的數學符號組合,而是所有可能的 Python 函數。只要能在一定的運算預算內執行,且輸入輸出張量形狀一致,任何 Python 程式碼都是潛在的激勵函數。

演化循環

整個系統的運作流程如下:

  1. 初始化:從標準的 ReLU 函數開始。

  2. LLM 提案:LLM 根據當前最好的函數程式碼,編寫新的函數變體。值得注意的是,LLM 還會像人類程式設計師一樣,在程式碼註解中寫下它設計該函數的「理論依據」。

  3. 微型評估:新函數被植入到一個小型的多層感知機(MLP)中,在特定的合成資料集上進行訓練。

  4. 適應度計算:這裡的關鍵在於,模型不僅要在訓練集上表現好,更由於適應度函數是分佈外(OOD)測試資料的驗證損失,模型必須學會舉一反三。

  5. 迭代:表現最好的函數被保留到資料庫中,作為下一輪演化的種子。

這種方法讓 AlphaEvolve 能夠利用 LLM 中蘊含的程式設計知識和數學直覺,傾向於生成有意義的函數,從而極大提高了搜尋效率。

微型實驗室

用合成資料攻克泛化難題

為了避免在大型資料集(如 ImageNet)上進行昂貴的搜尋,DeepMind 採用了一種「微型實驗室」策略。

圖片

他們設計了一系列簡單的合成回歸任務,這些任務專門用來測試模型捕捉資料結構的能力,而非死記硬背。資料集包括:

  • 隨機多項式:測試外推能力。

  • 球諧函數:測試週期性結構的編碼能力。

  • 費曼符號回歸資料集:測試對物理方程式的擬合能力。

關鍵的設定在於訓練集和測試集的分佈偏移。例如,模型可能在 (0, 0.5) 的區間內訓練,但必須在 (0.5,1) 的區間內進行測試。

研究人員發現,如果一個激勵函數能在這個殘酷的「微型實驗室」中生存下來,它往往能捕捉到更本質的歸納偏置,從而在真實世界的複雜任務中也表現出色。

挖掘出的寶藏

從 GELUSine 到「湍流」函數

經過 AlphaEvolve 的多輪迭代,系統「挖掘」出了多個具有獨特性的激勵函數。有些是對現有函數的改良,有些則不僅奇異,甚至帶有某種「物理直覺」。

圖片
圖片

明星選手:GELUSine 與 GELU-Sinc-Perturbation

圖片

最令人興奮的發現是,表現最好的函數往往遵循一個通用的公式:

圖片

一個標準的激勵函數(如 GELU)加上一個週期性的擾動項

GELUSine:

圖片,LLM 在生成的程式碼註解中解釋道,這個正弦項引入了週期性的「擺動」,有助於最佳化過程探索損失函數地景,逃離局部極小值。

GELU-Sinc-Perturbation:

圖片

這個函數不僅保留了 GELU 的漸近行為,還透過 Sinc 函數在原點附近引入了受控的非線性複雜性。

複雜的嘗試:GMTU

AlphaEvolve 還發現了一種名為 GMTU (Gaussian-Modulated Tangent Unit) 的函數。它結合了 Tanh、高斯衰減和線性洩漏項,形狀看起來像是一個經過調變的訊號波。雖然它在合成資料上表現不錯,但公式較為複雜,運算成本相對較高。

失敗的教訓:湍流激勵函數

在搜尋過程中,AlphaEvolve 一度發現了一種效能極高的函數,稱為 Turbulent Activation。

這個函數非常「聰明」,它利用了輸入張量的 Batch 統計資訊(如平均值和變異數)來動態調整激勵形狀。在微型實驗室的合成資料中,它的表現碾壓了所有對手,測試損失極低。

然而,這種聰明被證明是一種過度擬合。當遷移到 ImageNet 或 CIFAR-10 等真實任務時,Turbulent 函數的表現一落千丈。因為它過度依賴於特定資料集的 Batch 統計特徵,失去了逐點激勵函數的通用性。這是一個經典的「實驗室高分低能」案例,也反向證明了逐點激勵函數的穩健性。

真實世界的大考

OOD 泛化的勝利

為了驗證這些在「微型實驗室」裡挖掘出來的函數是否真的有用,DeepMind 將它們植入到標準的 ResNet-50、VGG 和圖神經網路(GCN)中,在 CIFAR-10、ImageNet、CLRS-30 和 ogbg-molhiv 資料集上進行了測試。

測試結果揭示了幾個關鍵事實:

  1. OOD 任務的王者:在 CLRS-30(演算法推理基準,強調用小規模資料訓練並泛化到更大規模的問題)上,新發現的 GELU-Sinc-Perturbation 取得了 0.887 的高分,顯著優於 ReLU (0.862) 和 GELU (0.874)。這驗證了 DeepMind 的核心假設:在合成 OOD 資料上最佳化的函數,確實能遷移到需要強泛化能力的演算法任務上。

  2. 視覺任務不掉隊:在 ImageNet 上,儘管這些新函數是針對小規模資料最佳化的,但 GELUSine 和 GELU-Sinc-Perturbation 依然達到了與 GELU 持平甚至略優的準確率(Top-1 Accuracy 約 74.5%),遠超 ReLU (73.5%)。

  3. 週期性的魔力:為什麼在激勵函數中加入 sin(x) 或 sinc(x) 這種週期項會有效?DeepMind 的研究人員認為,標準的激勵函數(如 ReLU)在訓練域之外往往是線性的,很難捕捉資料的複雜結構。而週期性函數允許模型在訓練域內「儲存」某種頻率資訊,並在外推時透過週期性結構「檢索」這些資訊。正如 LLM 在程式碼註解中所說,這是一種「隱式的頻率分析」。

下表總結了關鍵函數在不同任務上的表現:

圖片

深度思考

AI 設計 AI 的未來

DeepMind 的這項研究不僅貢獻了幾個好用的激勵函數,更引發了對 AI 輔助科研的深層思考。

程式碼即搜尋空間

AlphaEvolve 證明了,讓 LLM 直接編寫 Python 程式碼作為搜尋空間,比預先定義數學算子更加靈活和強大。LLM 自帶的程式設計規範和邏輯能力,使得它生成的函數大多具有可讀性和可執行性,甚至還能提供「設計思路」的解釋。

從擬合到泛化

長久以來,激勵函數的設計大多是為了最佳化梯度的流動(如 ReLU 解決梯度消失)。但這項研究表明,激勵函數的形狀直接影響模型的歸納偏置。透過引入週期性結構,我們實際上是在告訴神經網路:「這個世界很多規律是循環往復的,不僅僅是線性的。」

「小資料」的大智慧

在一個追求兆參數和由 PB 級資料訓練的大模型時代,DeepMind 反其道而行之,透過僅有幾百個樣本的合成資料「微型實驗室」,挖掘出了通用的架構元件。這表明,如果我們能精確定義「泛化」的本質(如透過 OOD 切分),小資料依然能撬動大智慧。

結語

不得不說,這篇論文的成果還是相當驚人的。

DeepMind 的這項工作告訴我們,在神經網路最基礎的元件層面,依然存在著廣闘的未至之境。

未來的 AI 模型,其每一行程式碼、每一個算子,或許都將由 AI 自己來書寫。而對於我們要做的,可能就是像 AlphaEvolve 這樣,為它們搭建一個合適的「演化實驗室」。

如果你正在訓練處理複雜圖結構或需要強邏輯推理的模型,不妨試著將你的 nn.ReLU 替換為 nn.GELU(x) * (1 + 0.5 * sinc(x)),或許會有意想不到的驚喜。


分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.