在大模型時代邁入 Scaling Law 深水區的當下,數據品質已成為決定模型能力上限的關鍵。然而,當前的「數據工程」仍高度依賴人工經驗:「該選哪些數據?比例如何配置?是否需要重寫?如何過濾與驗證?」
近日,上海人工智慧實驗室聯合復旦大學正式推出並開源了 DataChef,這是一個專為大模型適配任務(LLM Adaptation)設計的數據配方(Data Recipe)生成模型。DataChef 首次將端到端的數據配方生成建模為一個全域決策問題,並透過線上強化學習(Online RL)形成自動優化閉環。只需輸入目標任務,AI 就能自動生成完整且可執行的數據處理代碼與數據配方。
實驗顯示,在 6 項未見過的測試任務(物理、數學、程式碼、金融、氣象、中文成語)中,DataChef-32B 的數據配方生成能力已逼近閉源頂級模型 Gemini-3-Pro。其生成的數據配方不僅超越了 DEITA 等由人類專家設計的 SOTA 篩選演算法,更在部分複雜任務上達到了工業級專家數據配方的水準。
相關代碼、數據與模型現已開源,歡迎體驗探索!
GitHub 連結:https://github.com/yichengchen24/DataChef
HuggingFace 連結:https://huggingface.co/yichengchen24/DataChef-32B
Paper 連結:https://arxiv.org/abs/2602.11089
Demo 連結:https://huggingface.co/spaces/yichengchen24/DataChef
(a) 範式定義:給定一個任務描述(訓練一個 LLM 使其適配到數學領域)、評測標準(AIME'25)以及可用的原始數據集(一個數學相關的 Huggingface 數據集列表),模型輸出數據配方,包括可執行的數據處理管線以及得到的訓練數據,用於將 Base LLM 適配到目標領域。
(b) 主要結果:在 6 個未見過的測試任務(PHYSICS, AIME, LiveCodeBench, ClimaQA, OpenFinData, and CHID)中,DataChef 的數據配方生成能力已逼近閉源頂級模型 Gemini-3-Pro。
核心突破:把「數據煉丹」變成可進化的自動化系統
傳統數據工程面臨三大難題:
- 重度依賴專家經驗:數據選擇、配比與清洗規則,往往依靠人工反覆試錯(Trial and error)。
- 效果驗證成本極高:想評估一套數據配方的好壞,通常需要跑完昂貴的模型訓練才能看到結果。
- 搜尋空間無限爆炸:多數據源 × 多處理算子 × 多任務目標的組合,人工根本無法進行高效遍歷。
針對這些行業瓶頸,DataChef 給出了全新的破局解法。
範式創新:首次定義端到端數據配方生成
DataChef 跳出了傳統的局部啟發式規則,將「數據配方生成」提升為端到端任務。模型只需接收目標基準(Benchmark)與可用數據源作為輸入,就能直接輸出完整的 Python 數據處理流水線代碼,真正實現「所想即所得」。
範式:給定一個任務描述、評測標準、可用的原始數據集,模型輸出數據配方,包括可以執行的數據處理管線以及得到的訓練數據。在訓練過程中,代碼的可執行性和數據的質量作為 Reward。在推理過程中,得到的訓練數據直接用於 LLM 適配。
基礎設施:構建海量多領域數據集
為了支撐這一全新範式,研究團隊構建了龐大的數據基座:覆蓋數學、程式碼、金融、醫學等 19 個核心領域,包含 31 個評測集 以及 257 個源數據集,為開源社群提供了系統化的訓練與評測基礎設施。
數據集概覽:詳細展示領域資訊、benchmark 和具體用途
機制進化:線上強化學習驅動 AI 自我進化
研究團隊引入了 Data Verifier(數據驗證器)機制,它能低成本、即時地預測數據在下游客任務上的表現,並以此作為強化學習的「獎勵(Reward)」信號。這使得模型能在龐大的代碼組合空間中快速探索,徹底解決了傳統方案「訓練回饋週期長、試錯成本昂貴」的致命痛點。
實驗證明,Data Verifier 相比傳統數據評價指標 (IFD, RewardModel, VendiScore),具備更卓越的相關性與強健性。
數據評價指標相關性分析:相比於 DEITA、RewardModel、IFD、VendiScore 等現有方法,Data Verifier 展現出了更顯著的相關性與強健性。(左) 6 個評測任務上相關性係數箱線圖;(右) 語言與程式碼任務中,各指標得分與下游客實際表現的相關性散點圖。
開源小模型,展現越級戰鬥力
效果接近 Gemini-3-Pro
在多項嚴苛的測試中,僅有 32B 參數的 DataChef 展現出了極強的強健性與有效性,其整體表現已接近閉源頂級模型 Gemini-3-Pro 的水準。具體來說,在 In-domain 與 Out-of-domain 的平均得分上,DataChef-32B 分別斬獲 89.3 和 75.4 高分,超過 1T 參數的開源模型 Kimi-K2-Instruct-0905 (83.7 / 58.2),比肩 Gemini-3-Pro (91.2 / 76.6)。
在 6 個未見過測試任務上的主實驗結果:無論是在 In-domain 還是 Out-of-domain 任務中,DataChef-32B 均展現出了卓越的數據配方生成能力。其整體表現逼近了閉源頂級模型 Gemini-3-Pro 的水準。
超越人類專家數據配方
DataChef 不再局限於從已有數據中挑選最好的子集,而是透過自動生成任意代碼構建全新的處理邏輯。
- 超越人工啟發式數據篩選 SOTA: 相比於 SINGLE-SOURCE、IFD、DEITA 等傳統數據選擇方法,DataChef 取得了極具競爭力的表現。
- 擊敗工業配方: 在極具挑戰性的 AIME'25 和 ClimaQA 評測基準上,DataChef-32B 產出的數據配方,甚至超越了 Qwen 官方後訓練模型所採用的工業級專家配方!
這證明了 AI 完全有能力在大規模代碼空間中,學到更優的數據方案。
真實 Case 還原自動化管線
以 ClimaQA 任務為例,DataChef 能夠精準洞察目標需求,自動生成高效的數據處理管線:
- 智能數據增強: 自動調用 LLM 進行任務特定格式的樣本合成與增強,定點拔高模型目標能力;
- 精準特徵提取: 透過自生成關鍵詞邏輯,抽取最匹配、最相關的數據子集,大幅提升數據有效性。
Case Study: DataChef 在 ClimaQA 任務中生成數據處理管線
總結
DataChef 的出現,首次將端到端數據配方生成建模為可優化的全域決策任務。這標誌著大模型數據工程正告別高度依賴人工經驗的「手工作坊」時代,邁向自動化、規模化與智能化的工業化新範式。隨著相關能力的全面開源,DataChef 將為自動化數據工程、LLM 前沿訓練、自動化 AI 研究(Automated AI Research)及自我進化 AI(Self-evolving AI)等領域提供極具價值的新思路與工具支撐。
往期推薦
- AutoSkill:讓 AI 從「聽令行事」進化為持續成長的數位員工
- 具身強化學習框架 RLightning 發布,一套代碼實現從單機開發到規模化驗證,加速物理智慧演算法迭代
- 從「問題」到「洞察」:AgentPanel 以群智協同開啟 AGI for Science 新範式
點擊下方連結,探索書生大模型更多有趣、有用的功能!
https://chat.intern-ai.org.cn/
點擊下方卡片,關注我們,獲取書生大模型最新相關資訊。
歡迎投遞技術稿件:加 WeChat breezy0101