ASI-Evolve：AI 加速 AI

摘要

AI 能否加速自身的發展？雖然近期的智慧代理系統（agentic systems）在範疇明確且能快速獲得回饋的任務上表現出色，但它們能否處理推動 AI 進展的昂貴、長週期且弱監督的研究循環，仍然是個未知數。我們提出 ASI-Evolve，一個專為「AI 研發 AI」設計的智慧代理框架，透過「學習—設計—實驗—分析」的循環來閉合這個研究迴路。ASI-Evolve 在標準演化代理的基礎上增加了兩個關鍵組件：一個認知庫，將累積的人類先驗知識注入每一輪探索；以及一個專門的分析器，將複雜的實驗結果轉化為可供未來迭代使用的見解。據我們所知，ASI-Evolve 是第一個在 AI 發展的三大核心組成——資料、架構和學習演算法——展現 AI 驅動發現的統一框架。在神經網路架構設計方面，它發現了105 個超越 SOTA 的線性注意力架構，最佳模型的表現比 DeltaNet 高出 +0.97 分，幾乎是近期人類設計改良成果的 3 倍。在預訓練資料策展方面，演化出的流程將平均基準測試表現提升了 +3.96 分，在 MMLU 上更超過 18 分。在強化學習演算法設計方面，發現的演算法在 AMC32 上比 GRPO 高出最多 +12.5 分，在 AIME24 上高出 +11.67 分，在 OlympiadBench 上高出 +5.04 分。我們進一步提供初步證據，顯示這種「AI 研發 AI」的範式可以透過在數學和生物醫學領域的實驗，超越 AI 技術堆疊進行轉移。綜合這些結果顯示，ASI-Evolve 代表了實現 AI 加速 AI 發展基礎階段的重要一步，為閉環式 AI 研究的可行性提供了早期證據。ASI-Evolve 已在 https://github.com/GAIR-NLP/ASI-Evolve 完全開源。

ASI-Evolve 架構示意圖

一、簡介

1.1 研究背景：AI 能否自我加速？

人工智慧（AI）的進步依賴於許多相互作用的因素，其中資料、模型架構和學習演算法是三大核心研究組成。每個方向的進展都依賴於假設生成、實作、實驗和分析的反覆循環。然而，在實務上，這些循環受到人類瓶頸的多重限制：人類能夠同時探索的假設空間非常有限，實驗工作流程需要大量的手動努力和頻繁介入，而且跨迭代累積的見解往往依賴於個人經驗和直覺，使得知識難以系統性地保存和轉移。這些限制從根本上制約了 AI 發展的速度和規模，引發了一個核心問題：AI 能否加速自身的發展？

1.2 從專用系統到智慧代理系統

近年 AI 能力的進展使這個可能性越來越可行。AI 在科學發現中的角色已經迅速演變：從解決離散、明確定義問題的專用系統（如 AlphaFold、GraphCast、GNoME），到支援更廣泛科學工作流程的大型語言模型（LLM）和智慧代理系統。

諸如 SciMaster 這樣的系統專注於回答已有答案的科學問題；ML-Master 和 MLEvolve 處理固定評估標準下的有限最佳化問題；AI Scientist 自動化研究出版流程，而非處理開放式的前沿研究。AlphaEvolve 雖然在自主科學最佳化上邁出重要一步，但推動 AI 進步的研究循環——改善架構、資料管線或訓練演算法——仍然難以自動化：這通常需要修改大型程式庫、執行昂貴的實驗、解釋多維度的結果，並在多輪迭代中保持連貫的探索。現有框架尚未展現 AI 能在此範疇內以統一方式有效運作。

1.3 ASI-Evolve 框架的核心設計

為了填補這個空白，我們提出 ASI-Evolve，一個專為「AI 研發 AI」設計的智慧代理框架。ASI-Evolve 的設計靈感來自標準科學流程：研究者收集大量背景文獻、提出有根據的假設、執行實驗，並透過系統性分析提煉見解。

基於此工作流程，ASI-Evolve 透過「學習—設計—實驗—分析」的循環，閉合了先驗知識、假設生成、實驗執行和迭代改良之間的迴路。兩個組件是此設計的核心：

（1）認知庫：這是一個結構化的知識庫，從一開始就將累積的人類研究文獻注入每一輪探索，讓系統能夠建立在領域知識之上，而不是從頭開始搜尋。

（2）分析器：這是一個專門的模組，將複雜多維度的實驗結果轉化為結構化、可操作的見解，並寫回經驗資料庫供未來迭代使用。

這兩個組件協同運作，讓系統能夠在回饋昂貴、間接、雜訊多且難以解讀的長週期 AI 研究任務上持續改良。

1.4 三大核心突破

使用 ASI-Evolve，我們展示了 AI 可以加速自身發展堆疊的多個部分。據我們所知，這是首次統一展示 AI 驅動的發現涵蓋 AI 發展的三大核心組成：資料、架構和學習演算法。

（1）模型架構設計：ASI-Evolve 自主生成了 1,350 個候選架構，在 1,773 輪探索中發現了 105 個超越人類設計的 DeltaNet 的架構；其最佳模型的增益達到 +0.97 分，幾乎是近期手動 SOTA 進展的 3 倍。

（2）資料策展：演化出的策略產生了更乾淨的訓練資料集，將平均基準測試表現提升了 3.96 分，在 MMLU 等知識密集型基準測試上，提升更超過 18 分。

（3）訓練演算法：在強化學習演算法設計方面，框架推導出具有數學創新原則的最佳化機制，在 AMC32 上比競爭對手 GRPO 基線高出最多 +12.5 分。

1.5 應用於更廣泛的科學領域

我們進一步驗證 ASI-Evolve 在藥物—標靶相互作用預測上的有效性，這是一個與 AI 發展截然不同的生物醫學領域。演化出的架構在冷啟動泛化情境下，AUROC 提升了 6.94 分。這些結果提供了初步證據，顯示 ASI-Evolve 所實現的「AI 研發 AI」範式可以超越 AI 任務，推廣至更廣泛的科學應用。

二、研究任務的複雜度分類

2.1 科學任務長度框架

為了系統性地定位現有工作與 ASI-Evolve 的關係，我們引入科學任務長度作為分析框架，從三個維度來描述自主科學研究任務的內在挑戰：

（1）執行成本：衡量每次試驗所需的計算資源和工程複雜度，包括修改大型相互依賴程式庫的負擔和消耗的 GPU 時數。

（2）搜尋空間複雜度：捕捉系統必須導航的解決方案空間的複雜性，包括任務目標的開放性、候選解決方案邊界是否預先定義，以及有意義的探索方向必須被發現而非被給定的程度。

（3）回饋複雜度：衡量從實驗結果中提取可操作見解的難度，反映系統必須綜合多維度訊號（如損失動態、基準分佈和效率軌跡）的程度，而不僅僅是對一個純量分數做出反應。

我們將任務複雜度表徵為 L_task = ⟨C_exec, S_space, D_feedback⟩，並使用這個視角來審視現有工作。

2.2 不同層次的科學自動化

科學問答：這類工作幾乎不涉及實驗執行，任務簡化為根據直接評估標準回答科學問題，不需要解讀複雜的回饋訊號或反覆改良。L_task 的三個維度都維持在低水準。

結構化任務執行：超越純粹推理，這類系統在明確定義的目標下引入真正的實驗執行，如 MLE-bench、SWE-bench 等。任務遵循既定模式且有明確的成功標準，C_exec 仍然適中，S_space 和 D_feedback 也保持有限。

輕量級科學發現：更進一步，演化搜尋框架實現了真正的開放式發現。AlphaEvolve 在 56 年來首次改良了 Strassen 的矩陣乘法演算法，FunSearch 發現了超越人類設計解決方案的組合最佳化演算法。在 L_task 框架中，S_space 和 C_exec 都被提升，因為目標是開放式的且需要反覆評估。然而，每次試驗的規模仍然較小，回饋直接，D_feedback 保持在低水準。

大規模科學探索：在 L_task 光譜的高端，任務將三個維度都推到更高的水準。神經架構設計、預訓練資料策展和訓練演算法設計是 AI 進步的基礎，代表 ASI-Evolve 鎖定的三個核心組成。驗證單一候選方案需要完整的模型訓練，消耗數十到數百個 GPU 小時，探索空間廣泛且開放，實驗回饋跨越多個基準測試、損失動態和效率指標。

2.3 ASI-Evolve 的獨特定位

這些特性對任何試圖自動化此類研究的系統提出了獨特的要求。每次實驗試驗都成本高昂，迭代機會有限，系統不能盲目探索。因此，認知庫必須從一開始就納入先驗領域知識，引導探索朝向有希望的方向。同時，豐富的實驗回饋需要專門的解讀：來自基準測試和訓練動態的原始訊號必須被轉化為可操作的見解，這促使了結構化分析器的設計。

這些組件反映了 ASI-Evolve 與現有演化框架的關鍵區別：現有工作演化候選解決方案，而 ASI-Evolve 演化認知本身。累積的經驗和提煉的見解被持續儲存和檢索，以指導未來的探索，確保系統不僅在解決方案品質上成長，也在推理下一步搜尋方向的能力上成長。

三、ASI-Evolve 框架詳解

3.1 整體流程概述

ASI-Evolve 被實作為一個端對端的實驗演化流程。每次迭代經歷四個階段：（i）從認知庫和資料庫學習相關知識和歷史經驗；（ii）設計下一個候選程式；（iii）執行實驗以獲得評估訊號；（iv）分析結果並轉化為可重複使用、人類可讀的經驗教訓。

我們將每次演化回合視為在程式空間（實作解決方案的程式碼產物）上的搜尋。系統維護兩個元件：（1）過往節點的資料庫（包含動機、程式碼、結果、分析、分數和元資料），以及（2）認知儲存庫（由嵌入索引的任務相關文字項目）。

3.2 四大核心模組

3.2.1 研究員

研究員根據任務描述、取樣的背景節點和檢索到的認知項目生成下一個候選程式。每回合開始時，它從資料庫中取樣 n 個節點，然後透過語意搜尋檢索一小組認知項目。在此背景下，研究員使用 LLM 產生完整的程式和自然語言動機，這些一起儲存為新節點供後續回合使用。系統也支援可選的差分編輯模式，對父程式提出局部修改。

3.2.2 工程師

工程師在實際實驗環境中執行候選程式，產生用於演化的量化評估訊號。給定生成的程式，它呼叫使用者指定的評估程序，端對端運行實驗並返回結構化指標，包括作為適應度訊號的主要純量分數。

為了更好地處理長週期任務，工程師支援透過可設定的執行時間限制和輕量快速測試進行早期拒絕，在昂貴的運行之前過濾有缺陷的候選方案。

3.2.3 分析器

分析器處理原始分數與豐富輔助訊號之間的不對稱性。雖然用於選擇的主要回饋是純量分數，但同一次運行也產生大量輔助訊號——多個指標、特徵重要性、訓練日誌和執行軌跡——這些對診斷有用，但過於冗長，無法直接輸入後續回合。

分析器接收當前程式和完整的實驗輸出（包括原始日誌和詳細指標），將其轉化為簡潔、以決策為導向的報告。這份報告被持久化在資料庫中，用於後續回合的檢索。

3.2.4 認知庫

對於長週期研究任務，從頭開始探索提供更大的假設空間，但會產生大量的資源和時間成本。因此，我們引入認知庫，編碼人類先驗知識——任務相關的經驗法則、已知陷阱和來自領域文獻的設計原則——讓系統能夠朝向有希望的方向迭代，而不是重新發現已有文獻記載的失敗模式。

每回合中，系統以取樣節點的資訊作為查詢，透過嵌入語意搜尋檢索一小組相似的認知條目，將這些條目注入研究員的背景中以指導假設生成。

3.2.5 資料庫

資料庫是系統的持久記憶體：儲存每次演化回合的結果，並提供作為研究員背景的取樣節點。認知庫提供快速啟動的先驗知識，而資料庫中的歷史節點傳達任務特定資訊，隨著演化進展成為主導資訊來源，支援超越初始爬升的持續改良。

每個演化步驟產生一個節點，儲存：（i）研究員動機，（ii）生成的程式，（iii）評估腳本的結構化結果，（iv）分析報告，以及（v）執行時間和成功標誌等輔助元資料。

四、主要任務與成果

4.1 場景一：模型架構設計

任務定義

模型架構是 AI 系統的基礎組成，決定了建模複雜模式的能力、計算效率和泛化能力。在本任務中，我們專注於透過線性注意力機制設計高效的序列模型。標準 Transformer 注意力的二次複雜度（O(N²)）促使了大量次二次替代方案的研究——包括 DeltaNet、Gated DeltaNet、Mamba 和 RWKV——透過分解注意力計算或維護壓縮記憶狀態來實現 O(N) 複雜度。

以 DeltaNet 為基線，任務要求 AI 系統設計具有次二次複雜度的新注意力層，採用分塊計算模式以實現高效並行訓練，並產生整合到現有大型程式庫中的完整可執行實作。

方法與成果

我們用約 150 篇關於線性注意力、狀態空間模型和高效 Transformer 的論文中提取的條目初始化認知庫。資料庫使用定期更新的候選池，保留得分最高的 50 個節點。

為了提高運行效率和約束滿足，我們引入三個機制：靜態檢查代理在訓練前攔截每個生成的設計；除錯代理透過檢查錯誤軌跡處理運行時實作錯誤；新穎性檢查透過動機相似度過濾重複提案。

在 1,773 輪探索中，105 個架構在驗證階段超越了 DeltaNet 基線。我們選擇了 5 個代表性架構進行大規模驗證。我們的最佳模型幾乎達到當前人類設計 SOTA（Mamba2 比 DeltaNet 高出 +0.34 分）增益的3 倍。

架構設計洞察

分析前 5 名架構揭示了一致的主題：超越固定分配方案，轉向根據輸入內容動態調整計算預算的適應性多尺度路由。

PathGateFusionNet：引入分層路由，第一階段閘門在局部和情境處理之間分配預算，第二階段將情境預算分配給短程、長程和 delta 規則更新路徑。
ContentSharpRouter：實作具有可學習溫度參數的內容感知路由，防止過早承諾於單一路徑。
FusionGatedFIRNet：用獨立的 sigmoid 閘門取代 softmax 路由，允許同時啟動局部和全局路徑。
HierGateNet：採用兩階段閘門，動態可學習的底值確保關鍵路徑（特別是用於長程推理的 delta 路徑）永不完全崩塌。
AdaMultiPathGateNet：透過統一的 BalancedSparseGate 實現標記級控制，結合全局、每頭和每標記的邏輯與熵懲罰，防止模式崩塌。

4.2 場景二：預訓練資料策展

任務定義

在本任務中，Evolve 系統必須設計特定類別的策展策略以改善預訓練資料品質。策略設計本質上很困難：策略空間龐大且離散，包含選擇哪些操作、如何指定決策標準以及優先處理哪些品質問題，且沒有從設計選擇到有效性的明確對應。

方法與成果

我們將 ASI-Evolve 框架應用於預訓練資料策展任務。認知庫透過檢查每個類別的取樣資料初始化，儲存識別出的品質問題（如 HTML 產物、不完整片段、格式不一致和領域特定雜訊模式）。

系統成功為 Nemotron-CC 的所有選定類別設計了有效策略，涵蓋 672B token。應用最佳化策略產生 Nemotron-CC_ASI+（504B token）。訓練 3B 參數模型後，Nemotron-CC_ASI+ 達到 44.13 的平均分數，比原始資料高出 3.96 分。在知識密集型任務上的增益尤為顯著：MMLU +18.64 分，CSQA +18.80 分，MedQA +13.48 分。

策略設計特徵

分析發現的策略設計特徵顯示，所有類別的系統都收斂於清潔導向的方法，結合針對性雜訊移除（HTML 產物、重複、PII）、格式正規化和領域感知保留規則。有效策略展現一致的設計模式：具可衡量閾值的具體標準、針對性刪除特定元素，以及防止過度激進過濾的明確保留規則。

4.3 場景三：強化學習演算法設計

任務定義

在本階段，我們任務 Evolve 系統設計一個新的強化學習（RL）演算法用於大型語言模型（LLM）訓練。以群體相對政策最佳化（GRPO）為基線，目標是重新設計序列間的優勢分配機制和後續的梯度計算。

方法與成果

我們用 GRPO 之後發表的 10 篇高品質論文初始化認知庫，涵蓋變異數縮減技術和 KL 懲罰修改。這些條目為系統提供了對當前研究前沿的初步理解。

在 300 輪演化中，系統訓練並評估了多種政策梯度修改，產生 10 個在探索階段超越 GRPO 基線的演算法。在數學基準測試上，最佳演化變體在 AMC32 上比 GRPO 高出 +12.5 分（67.5 → 80.0），在 AIME24 上高出 +11.67 分（20.00 → 31.67），在 OlympiadBench 上高出 +5.04 分（45.92 → 50.96）。

演算法創新分析

我們強調兩個具代表性且表現優異的演算法：

演算法 A（成對非對稱最佳化）：引入比較優勢估計，不用群體平均值，而是透過計算一個回答與群體中所有其他樣本的 tanh 正規化成對獎勵差的平均值來計算優勢。它還採用非對稱裁剪機制，根據優勢符號動態調整 PPO 裁剪視窗，並實作高影響梯度 dropout，隨機遮蔽最具影響力標記的梯度，防止過擬合於特定關鍵字。

演算法 B（預算約束動態半徑）：採用百分位正規化計算優勢。其核心創新是全局更新預算：演算法動態為每個標記分配與其優勢幅度成反比的信任更新半徑，並嚴格執行指數界限，數學上保證總政策更新幅度保持在預定義預算內。

五、實證分析

5.1 在圓形填充任務上的基準測試

任務簡介

我們使用 AlphaEvolve 的圓形填充任務作為受控評估平台。問題要求將 26 個圓放置在 1×1 的正方形內，以最大化其半徑總和。這是一個經典的組合最佳化問題，驗證成本低，但仍需要非平凡的演算法設計和反覆改良。

關鍵結果一覽

ASI-Evolve 在僅 17 步內就達到 2.63597——在所有比較系統中最快——並達到 2.635983 的最佳分數，與其他框架報告的最佳結果相當。

5.2 比較實驗

框架比較

使用 Qwen3-32B 作為基礎模型，我們在一致的提示設置下比較 ASI-Evolve 與 OpenEvolve 和 GEPA。三個框架展現明顯不同的演化動態：

OpenEvolve：在整個運行過程中持續演化，但在獨立運行間表現出高變異性，整體改良有限。
GEPA：達到競爭性分數，收斂到約 2.630 的範圍。
ASI-Evolve：以明顯高於兩個基線的分數脫離冷啟動階段，是唯一可靠達到 SOTA 水準的框架。

取樣演算法比較

資料庫取樣演算法決定每回合如何選擇父節點。我們比較了三種策略：

MAP-Elites：維護按行為特徵分區的品質—多樣性存檔，主動保留多樣生態位。
UCB1：將每個節點視為老虎機臂，根據結合估計值和探索獎勵的上置信界限選擇。
隨機：從資料庫均勻隨機選擇父節點。

結合 UCB1 與 GPT-5-mini，系統在僅 17 步內就發現了達到 SOTA 水準（2.63597）的圓形填充解決方案。

5.3 消融研究

消融設計

我們設計以下受控實驗來系統性評估 ASI-Evolve 框架的關鍵組件：

完整方法：ASI-Evolve 配備分析器、認知庫和完整的四階段循環。
無分析器：移除分析器模組，原始評估分數和執行日誌直接儲存到資料庫。
無認知：移除認知庫，系統完全依賴自我驅動的試誤學習。

移除分析器的影響

即使沒有分析器，「無分析器」變體在早期階段仍以相對較高的分數開始。我們將此歸因於認知庫：來自文獻的領域先驗從一開始就引導研究員朝向有希望的方向。然而，儘管起點較高，該變體隨後進入漫長的平台期，進一步迭代只產生邊際增益。

移除認知的影響

「無認知」變體表現出更明顯的冷啟動成本：早期改良較慢且較不穩定。累積足夠有效經驗後，曲線顯示出明顯跳躍，然後逐漸進入高分、高效的探索區域。這符合認知的預期角色：它不改變框架的核心學習機制，但提供更好的先驗以減少無效探索。

5.4 驗證現實世界適用性：藥物—標靶相互作用發現

任務定義

我們將 ASI-Evolve 應用於藥物—標靶相互作用（DTI）預測，這是 AI 驅動藥物發現的核心問題。有效的 DTI 模型必須同時捕捉藥物分子和蛋白質標靶的模態特定表示及其複雜的交互模式。架構設計空間龐大且離散，理論指導有限。

方法與成果

認知庫從約 80 篇關於圖神經網路、注意力機制和 DTI 建模的論文初始化。在 100 多輪演化中，評估了 100 多個候選架構。

我們發現的最佳架構在大多數評估設置上對 DrugBAN 基線實現了一致的改良。在 BindingDB 開發集上，我們觀察到 AUROC 實質提升 +1.91 分（0.9415 → 0.9606），F1 提升 +2.95 分。

泛化分析：在模型必須泛化到完全未見藥物或蛋白質的冷啟動情境中，結果顯示實質的泛化改良：未見藥物 AUROC +6.94 分，未見蛋白質 +3.56 分，雙重冷啟動設置 +4.36 分。這些改良顯著超越分佈內增益，表明演化出的架構學習了更穩健、可轉移的分子交互表示。

架構創新分析

最佳發現的架構對 DrugBAN 引入了三項關鍵創新：

Sinkhorn 注意力：用基於最優傳輸的 Sinkhorn 迭代取代標準雙線性注意力，強制雙重隨機約束。
領域特定邊緣化：對分子子結構和蛋白質域進行專門邊緣化，跨不同語義空間聚合交互模式。
Top-k 稀疏閘門：可學習的 top-k 選擇動態聚焦於最相關的交互模式。

六、結論

在本文中，我們提出了 ASI-Evolve，一個智慧代理演化框架，使 AI 能夠執行端對端的自主科學研究。透過與現有演化基線的受控比較和系統性消融研究，我們驗證了框架設計的有效性：配備結構化認知庫和專門分析器，系統實現快速冷啟動並維持持續改良，可靠地達到 SOTA 水準的結果。

我們進一步探索了 AI 能否在科學過程的每個階段加速自身的研究流程。閉合的「學習—設計—實驗—分析」循環實現了高效的自我校正，我們在 AI 發展的三大核心組成——模型架構、訓練資料和訓練演算法——展示了突破，每個都對實作複雜性、迭代成本和間接回饋提出了實質挑戰。超越核心 AI 流程，我們的藥物—標靶相互作用實驗展示了透過 AI 驅動研究發現的模型設計可以有效地部署於現實世界任務。

展望未來，AI 自我加速的範疇超越個別模型，延伸至完整的 AI 發展堆疊——架構、資料、演算法和尚未探索的基礎設施。隨著智慧代理系統承擔更多實作和迭代工作，人類科學家可以從解決方案的執行者轉變為問題的定義者——將他們的專業知識集中在最重要的問題上，將假設空間的廣泛搜尋留給 AI。我們預期這個範式不僅會推動個別模型的自我改良，更將推動整個 AI 領域的自我演化。

ASI-Evolve 已在 https://github.com/GAIR-NLP/ASI-Evolve 完全開源。

ASI-Evolve：AI 加速 AI

ASI-Evolve：AI 加速 AI

摘要

一、簡介

1.1 研究背景：AI 能否自我加速？

1.2 從專用系統到智慧代理系統

1.3 ASI-Evolve 框架的核心設計

1.4 三大核心突破

1.5 應用於更廣泛的科學領域

二、研究任務的複雜度分類

2.1 科學任務長度框架

2.2 不同層次的科學自動化

2.3 ASI-Evolve 的獨特定位

三、ASI-Evolve 框架詳解

3.1 整體流程概述

3.2 四大核心模組

3.2.1 研究員

3.2.2 工程師

3.2.3 分析器

3.2.4 認知庫

3.2.5 資料庫

四、主要任務與成果

4.1 場景一：模型架構設計

任務定義

方法與成果

架構設計洞察

4.2 場景二：預訓練資料策展

任務定義

方法與成果

策略設計特徵

4.3 場景三：強化學習演算法設計

任務定義

方法與成果

演算法創新分析

五、實證分析

5.1 在圓形填充任務上的基準測試

任務簡介

關鍵結果一覽

5.2 比較實驗

框架比較

取樣演算法比較

5.3 消融研究

消融設計

移除分析器的影響

移除認知的影響

5.4 驗證現實世界適用性：藥物—標靶相互作用發現

任務定義

方法與成果

架構創新分析

六、結論

相關文章推薦

分享網址