讓 AI 自己「煉數據」！DataChef 開源：用強化學習自動生成 LLM 數據配方

在大模型時代邁入 Scaling Law 深水區的當下，數據品質已成為決定模型能力上限的關鍵。然而，當前的「數據工程」仍高度依賴人工經驗：「該選哪些數據？比例如何配置？是否需要重寫？如何過濾與驗證？」

近日，上海人工智慧實驗室聯合復旦大學正式推出並開源了 DataChef，這是一個專為大模型適配任務（LLM Adaptation）設計的數據配方（Data Recipe）生成模型。DataChef 首次將端到端的數據配方生成建模為一個全域決策問題，並透過線上強化學習（Online RL）形成自動優化閉環。只需輸入目標任務，AI 就能自動生成完整且可執行的數據處理代碼與數據配方。

實驗顯示，在 6 項未見過的測試任務（物理、數學、程式碼、金融、氣象、中文成語）中，DataChef-32B 的數據配方生成能力已逼近閉源頂級模型 Gemini-3-Pro。其生成的數據配方不僅超越了 DEITA 等由人類專家設計的 SOTA 篩選演算法，更在部分複雜任務上達到了工業級專家數據配方的水準。

相關代碼、數據與模型現已開源，歡迎體驗探索！

GitHub 連結：https://github.com/yichengchen24/DataChef

HuggingFace 連結：https://huggingface.co/yichengchen24/DataChef-32B

Paper 連結：https://arxiv.org/abs/2602.11089

Demo 連結：https://huggingface.co/spaces/yichengchen24/DataChef

(a) 範式定義：給定一個任務描述（訓練一個 LLM 使其適配到數學領域）、評測標準（AIME'25）以及可用的原始數據集（一個數學相關的 Huggingface 數據集列表），模型輸出數據配方，包括可執行的數據處理管線以及得到的訓練數據，用於將 Base LLM 適配到目標領域。

(b) 主要結果：在 6 個未見過的測試任務（PHYSICS, AIME, LiveCodeBench, ClimaQA, OpenFinData, and CHID）中，DataChef 的數據配方生成能力已逼近閉源頂級模型 Gemini-3-Pro。

核心突破：把「數據煉丹」變成可進化的自動化系統

傳統數據工程面臨三大難題：

重度依賴專家經驗：數據選擇、配比與清洗規則，往往依靠人工反覆試錯（Trial and error）。
效果驗證成本極高：想評估一套數據配方的好壞，通常需要跑完昂貴的模型訓練才能看到結果。
搜尋空間無限爆炸：多數據源 × 多處理算子 × 多任務目標的組合，人工根本無法進行高效遍歷。

針對這些行業瓶頸，DataChef 給出了全新的破局解法。

範式創新：首次定義端到端數據配方生成

DataChef 跳出了傳統的局部啟發式規則，將「數據配方生成」提升為端到端任務。模型只需接收目標基準（Benchmark）與可用數據源作為輸入，就能直接輸出完整的 Python 數據處理流水線代碼，真正實現「所想即所得」。

範式：給定一個任務描述、評測標準、可用的原始數據集，模型輸出數據配方，包括可以執行的數據處理管線以及得到的訓練數據。在訓練過程中，代碼的可執行性和數據的質量作為 Reward。在推理過程中，得到的訓練數據直接用於 LLM 適配。

基礎設施：構建海量多領域數據集

為了支撐這一全新範式，研究團隊構建了龐大的數據基座：覆蓋數學、程式碼、金融、醫學等 19 個核心領域，包含 31 個評測集 以及 257 個源數據集，為開源社群提供了系統化的訓練與評測基礎設施。

數據集概覽：詳細展示領域資訊、benchmark 和具體用途

機制進化：線上強化學習驅動 AI 自我進化

研究團隊引入了 Data Verifier（數據驗證器）機制，它能低成本、即時地預測數據在下游客任務上的表現，並以此作為強化學習的「獎勵（Reward）」信號。這使得模型能在龐大的代碼組合空間中快速探索，徹底解決了傳統方案「訓練回饋週期長、試錯成本昂貴」的致命痛點。

實驗證明，Data Verifier 相比傳統數據評價指標 (IFD, RewardModel, VendiScore)，具備更卓越的相關性與強健性。

數據評價指標相關性分析：相比於 DEITA、RewardModel、IFD、VendiScore 等現有方法，Data Verifier 展現出了更顯著的相關性與強健性。(左) 6 個評測任務上相關性係數箱線圖；(右) 語言與程式碼任務中，各指標得分與下游客實際表現的相關性散點圖。

開源小模型，展現越級戰鬥力

效果接近 Gemini-3-Pro

在多項嚴苛的測試中，僅有 32B 參數的 DataChef 展現出了極強的強健性與有效性，其整體表現已接近閉源頂級模型 Gemini-3-Pro 的水準。具體來說，在 In-domain 與 Out-of-domain 的平均得分上，DataChef-32B 分別斬獲 89.3 和 75.4 高分，超過 1T 參數的開源模型 Kimi-K2-Instruct-0905 (83.7 / 58.2)，比肩 Gemini-3-Pro (91.2 / 76.6)。

在 6 個未見過測試任務上的主實驗結果：無論是在 In-domain 還是 Out-of-domain 任務中，DataChef-32B 均展現出了卓越的數據配方生成能力。其整體表現逼近了閉源頂級模型 Gemini-3-Pro 的水準。

超越人類專家數據配方

DataChef 不再局限於從已有數據中挑選最好的子集，而是透過自動生成任意代碼構建全新的處理邏輯。

超越人工啟發式數據篩選 SOTA： 相比於 SINGLE-SOURCE、IFD、DEITA 等傳統數據選擇方法，DataChef 取得了極具競爭力的表現。
擊敗工業配方： 在極具挑戰性的 AIME'25 和 ClimaQA 評測基準上，DataChef-32B 產出的數據配方，甚至超越了 Qwen 官方後訓練模型所採用的工業級專家配方！

這證明了 AI 完全有能力在大規模代碼空間中，學到更優的數據方案。

真實 Case 還原自動化管線

以 ClimaQA 任務為例，DataChef 能夠精準洞察目標需求，自動生成高效的數據處理管線：

智能數據增強： 自動調用 LLM 進行任務特定格式的樣本合成與增強，定點拔高模型目標能力；
精準特徵提取： 透過自生成關鍵詞邏輯，抽取最匹配、最相關的數據子集，大幅提升數據有效性。

Case Study: DataChef 在 ClimaQA 任務中生成數據處理管線

總結

DataChef 的出現，首次將端到端數據配方生成建模為可優化的全域決策任務。這標誌著大模型數據工程正告別高度依賴人工經驗的「手工作坊」時代，邁向自動化、規模化與智能化的工業化新範式。隨著相關能力的全面開源，DataChef 將為自動化數據工程、LLM 前沿訓練、自動化 AI 研究（Automated AI Research）及自我進化 AI（Self-evolving AI）等領域提供極具價值的新思路與工具支撐。

往期推薦

點擊下方連結，探索書生大模型更多有趣、有用的功能！
https://chat.intern-ai.org.cn/

點擊下方卡片，關注我們，獲取書生大模型最新相關資訊。

歡迎投遞技術稿件：加 WeChat breezy0101