自進化Agent新突破！Meta推出Dr.Zero：自發湧現複雜推理、搜尋能力

自進化智慧體（Agent）又迎新進展。

近日，Meta 超級智慧實驗室與伊利諾伊大學厄巴納-香檳分校（UIUC）聯合提出了 Dr. Zero 框架，使 Agent 能在零訓練資料條件下實現高效自我進化。

據介紹，該框架解決了多輪搜尋 Agent 在無資料自我進化中面臨的「問題多樣性受限」、「多步推理與工具使用仍需大量計算資源」等難題。

研究團隊創新性地提出了「跳步分組相對策略優化」（HRPO）方法，透過聚類結構相似的問題來構建魯棒的群組級基準，在保證訓練有效性的同時，避免了自我進化過程中昂貴的嵌套採樣需求。

實驗顯示，該框架在複雜問答任務中，無需人工標註資料，性能即超越全監督基線高達 14.1%，證明了搜尋增強模型在高級推理任務中的強大潛力。

同時，在沒有任何人類標註資料的情況下，透過合理的架構設計與獎勵機制，智慧體完全能夠自發湧現出複雜的推理與搜尋能力。這為未來解決資料稀缺環境下的模型訓練問題提供了新的思路。

AI自我進化的資料稀缺難題

訓練一個強大的模型，通常需要海量且高品質的人工標註資料。尤其是在涉及複雜推理、多步搜尋的任務中，獲取精準的標註資料不僅耗時，而且成本極其高昂。雖然「自適應語言智慧體」的概念被提出已久，旨在讓模型透過迭代學習來提升性能，但現有的主流方法仍難以實現真正的自我進化。它們仍然嚴重依賴人類精心編寫的大量問題或標籤作為提示來驅動探索。這種對人工干預的依賴，限制了 AI 探索未知邊界的能力。

為突破這一局限，學界開始探索無資料自我進化，即讓模型自主生成問題並求解，從而構建合成訓練資料。然而，要從實驗室走向真實應用，也面臨著巨大的挑戰。

理想的自我進化框架，能讓 AI 在沒有任何標註資料集的情況下，透過提議者-解決者協同進化（proposer-solver co-evolution）實現性能的螺旋式上升。

圖 | 自適應訓練框架（Huang 等，2025a），透過最小化監督迭代訓練提議者和解決者。

目前的自我進化研究大多集中在數學、程式設計等定義明確、規則封閉的特定領域。在這些領域，即使資料多樣性有限，模型也能取得不錯進展。

然而，一旦進入開放領域，情況就變得完全不同。模型傾向於生成簡單的單跳問題，缺乏挑戰性。進行多步推理和使用搜尋工具需要巨大的計算資源，如果讓模型透過大量的盲目試錯來優化，計算開銷將成為不可承受之重。

因此，如何讓 AI 在複雜的開放世界中，既不依賴人工資料，又能高效地進行高品質的自我進化，正是 Dr.Zero 試圖解決的核心難題。

Dr.Zero：「零資料」自我進化學習系統

Dr.Zero 不僅僅是一個模型，更是一個能夠自我完善的學習系統，其核心設計主要包含三個方面。

1.提議者-解決者協同進化

框架內包含兩個核心角色——提議者（proposer）和解決者（solver）。兩者均由大型語言模型擔任，並在訓練過程中協同進化。

圖｜Dr. Zero 自我進化回饋循環。在解決者回饋的引導下，提議者合成可驗證且具有挑戰性的查詢，不斷增強解決者的搜尋與推理能力。

提議者的任務不僅僅是生成問題，更是利用外部搜尋引擎，主動探索開放領域資訊，生成多樣化且結構複雜的題目。更關鍵的是，隨著訓練的進行，提議者根據獎勵優化自身策略，生成更複雜、更具挑戰性但可驗證的新問題。

解決者的任務則是嘗試利用外部搜尋引擎獲取資訊，並回答這些問題。它基於提議者生成的合成問題進行訓練，不斷優化自己的推理邏輯和搜尋工具使用能力。隨著解決者水平的提升，它會反過來倒逼提議者尋找更刁鑽的角度生成新問題。

圖 | Dr. Zero 中提議者與解決者迭代獎勵動態的演變過程。基線獎勵值隨迭代不斷下降，這反映了模型間的協同進化：當某一模型性能提升時，會自然降低另一模型的初始獎勵閾值，從而透過強化學習機制推動其持續自我優化。

2.跳步分組相對策略優化

在讓 AI 自我進化時，最大的阻礙往往是算力。傳統的強化學習方法（如 GRPO）為準確評估一個問題的好壞，需要進行「嵌套採樣」——即針對同一個提示生成多個問題，HRPO 巧妙地解決了這個問題。

傳統方法計算量大，且在面對結構多樣的開放問題時，全域基準評估不穩定。HRPO 將結構相似的問題（例如按推理步驟的「跳數」複雜度）進行聚類，構建組級基準。這意味著模型不再需要對每個提示都生成許多重複問題來測試，只需每個提示生成單個問題，透過與同組內其他問題的表現進行對比，就能獲得穩健的評估結果。這直接避免了昂貴的嵌套採樣，在保證訓練效果的同時，大幅降低了計算成本。

3.難度引導獎勵機制

如何讓提出者生成高品質的難題？Dr.Zero 採用了一套精細的難度引導獎勵機制。

獎勵機制設計激勵提出者生成複雜、多跳、有難度但可透過搜尋引擎驗證的查詢，而不僅僅是簡單的單跳問題。它不僅鼓勵問題具有挑戰性，同時必須確保問題的答案可以透過搜尋引擎返回的資訊進行客觀驗證，避免生成無法評估的開放或主觀問題。

Dr.Zero 作為一個可擴展且高效的框架，透過無資料自進化迭代提升提議者和求解者。在每次迭代中，提議者會生成一批具有異構跳轉結構的問答對。利用求解者回饋，提議者透過 HRPO 優化生成可驗證、多樣化且具有挑戰性的查詢。與此同時，求解者透過 GRPO 利用生成的資料來提升搜尋和推理能力。這種交替優化循環形成了共生回饋機制：隨著求解者能力提升，簡單查詢的回報逐漸遞減，迫使提議者探索更複雜的推理路徑以最大化收益。

無資料進化，擊敗有資料監督

為全面評估 Dr.Zero 的搜尋與推理能力，實驗涵蓋了開放域問答中的多種場景，構建了覆蓋廣泛的基準測試體系。

其中包含單跳任務，如 NQ (Natural Questions)、TriviaQA 等，主要測試模型基於單一事實的精準檢索與回答能力；以及多跳複雜任務：如 HotpotQA、MuSiQue、2WikiMQA 等，要求模型進行多輪搜尋、資訊綜合與連貫推理，對智慧體的交互與深層理解能力提出極高挑戰。

圖 | 接受不同生成問題分佈訓練的 Dr. Zero 性能表現。

基於以上評估，研究團隊得出了以下幾個結論：

1.性能媲美甚至超越監督基線

Dr. Zero 經過多輪自我進化後，在多個開放領域問答基準上的表現，與使用人工標註資料訓練的全監督搜尋智慧體基線（如 Search-R1）相當或更優。例如，在部分任務上實現了最高 14.1% 的性能提升。實驗結果證明了無資料進化所達到的性能水平是可靠且魯棒的。

2.遠超其他無資料基線

與現有無資料方法（如自問式語言模型 SQLM 和自進化推理模型 R-Zero）相比，Dr. Zero 在所有任務中均表現最佳，性能平均分別超越 SQLM 和 R-Zero 達 39.9% 和 27.3% 。這尤其體現在複雜多跳任務上，Dr. Zero 透過其難度引導獎勵生成的問題，使性能較優化後的 R-Zero* 平均提升 83.3% ，凸顯了其在促進複雜推理能力方面的獨特優勢。

3.規模效應顯著，驗證框架可擴展性

研究團隊還觀察到了明確的模型規模效應。7B 參數規模的模型在如 2WikiMQA 等複雜的多跳推理資料集上表現尤為突出，實現了顯著的相對提升（7.67%）。這表明，Dr. Zero 框架具有良好的可擴展性，更大規模的模型能更有效地利用該自進化機制，處理更複雜、交織度更高的搜尋與推理任務。

作者：王躍然

如需轉載或投稿，請直接在本文章評論區內留言。