AI にデータ「錬成」を任せる!DataChef がオープンソースに:強化学習で LLM 用データレシピを自動生成

イメージ画像

大規模言語モデル(LLM)の開発はスケーリング則の深みに達し、もはやデータの質がモデル性能の上限を決定づける時代となっています。しかし、現在の「データエンジニアリング」は依然として人間の専門知識への依存度が極めて高く、「どのデータを選ぶべきか」「比率はどのように配分するか」「書き換えは必要か」「いかにしてフィルタリングし、検証するか」といった問いに対し、手探りの試行錯誤を余儀なくされています。

このたび、上海人工知能実験室と復旦大学は共同で、大規模モデルの適応タスク(LLM Adaptation)に特化したデータレシピ(Data Recipe)生成モデル「DataChef」を正式に発表し、そのソースコードを公開しました。DataChef は、エンドツーエンドのデータレシピ生成を「大域的な意思決定問題」として初めて定式化し、オンライン強化学習(Online RL)によって自動最適化の閉ループを実現しました。ユーザーは目標とするタスクを入力するだけで、AI が実行可能な完全なデータ処理コードとデータレシピを自動生成します。

実験の結果、6 つの未見のテストタスク(物理学、数学、コード、金融、気象、中国語成語)において、DataChef-32B のデータレシピ生成能力は、クローズドソースの最高峰モデルである Gemini-3-Pro に匹敵する水準に達していることが示されました。生成されたデータレシピは、DEITA などの人間が設計した SOTA(最先端)のフィルタリングアルゴリズムを凌駕するだけでなく、一部の複雑なタスクでは産業界の専門家が作成したデータレシピと同等の性能を発揮しました。

関連するコード、データ、モデルは現在オープンソースとして公開されており、皆様のご活用を心よりお待ちしております。

GitHub リンク:https://github.com/yichengchen24/DataChef
HuggingFace リンク:https://huggingface.co/yichengchen24/DataChef-32B
論文リンク:https://arxiv.org/abs/2602.11089
デモリンク:https://huggingface.co/spaces/yichengchen24/DataChef

パラダイム定義と主要結果の図解

(a) パラダイムの定義:タスク記述(数学分野への適応を目的とした LLM の訓練)、評価基準(AIME'25)、利用可能な生データセット(数学関連の HuggingFace データセット群)が与えられたとき、モデルは Base LLM を目標分野に適応させるための、実行可能なデータ処理パイプラインと訓練データを含むデータレシピを出力する。
(b) 主要結果:6 つの未見テストタスク(PHYSICS, AIME, LiveCodeBench, ClimaQA, OpenFinData, CHID)において、DataChef のデータレシピ生成能力はクローズドソースの最高峰モデル Gemini-3-Pro に迫る性能を示した。

中核的ブレークスルー:「データの錬成」を進化可能な自動化システムへ

従来のデータエンジニアリングには、以下の 3 つの重大な課題が存在していました。

  • 専門家への過度な依存: データの選択、比率配分、クリーニングルールは、しばしば人間による反复した試行錯誤(Trial and error)に頼っていました。
  • 効果検証のコストが極めて高い: データレシピの良し悪しを評価するには、通常、高コストなモデル訓練を完了させるまで結果を待つ必要がありました。
  • 探索空間の爆発的増大: 複数のデータソース、多様な処理演算子、そして多岐にわたるタスク目標の組み合わせにより、人間が効率的に総当たり検索を行うことは不可能でした。

これらの業界のボトルネックに対し、DataChef は画期的な解決策を提示します。

パラダイムの革新:エンドツーエンドのデータレシピ生成を初めて定義

DataChef は、従来の局所的なヒューリスティックルールから脱却し、「データレシピ生成」をエンドツーエンドのタスクとして再定義しました。モデルは目標ベンチマークと利用可能なデータソースを入力として受け取るだけで、完全な Python 製データ処理パイプラインのコードを直接出力し、まさに「思考したことが即座に実現する」状態を具現化します。

DataChef のパラダイム図

パラダイム:タスク記述、評価基準、利用可能な生データセットが与えられた際、モデルは実行可能なデータ処理パイプラインと生成された訓練データを含むデータレシピを出力する。訓練プロセスでは、コードの実行可能性とデータの質が報酬(Reward)として機能する。推論プロセスでは、得られた訓練データが直接 LLM の適応に使用される。

インフラ基盤:膨大なマルチドメインデータセットの構築

この新たなパラダイムを支えるため、研究チームは巨大なデータ基盤を構築しました。数学、コード、金融、医療など19 の中核分野をカバーし、31 の評価セットおよび257 のソースデータセットを含んでおり、オープンソースコミュニティに対して体系的な訓練・評価インフラを提供しています。

データセットの概要と詳細

データセットの概要:分野情報、ベンチマーク、具体的な用途を詳細に示す。

メカニズムの進化:オンライン強化学習による AI の自己進化

研究チームはData Verifier(データ検証機能)メカニズムを導入しました。これは、下流タスクにおけるデータのパフォーマンスを低コストかつリアルタイムで予測し、それを強化学習の「報酬(Reward)」信号として利用するものです。これにより、モデルは膨大なコードの組み合わせ空間を迅速に探索可能となり、「訓練からフィードバックまでの期間が長く、試行錯誤のコストが高価である」という従来手法の致命的な欠点を完全に解決しました。

実験により、Data Verifier は IFD、RewardModel、VendiScore といった既存のデータ評価指標と比較して、より優れた相関性と堅牢性を備えていることが証明されました。

データ評価指標の相関性分析

データ評価指標の相関性分析:DEITA、RewardModel、IFD、VendiScore などの既存手法と比較し、Data Verifier は顕著な相関性と堅牢性を示した。(左)6 つの評価タスクにおける相関係数の箱ひげ図。(右)言語およびコードタスクにおける各指標スコアと下流での実際のパフォーマンスとの相関を示す散布図。

オープンソースの小規模モデルが、階級を飛び越える戦闘力を発揮

Gemini-3-Pro に迫る性能

複数の厳格なテストにおいて、わずか 320 億パラメータの DataChef は極めて高い堅牢性と有効性を示し、その全体像はクローズドソースの最高峰モデル Gemini-3-Pro の水準に達しています。具体的には、ドメイン内(In-domain)およびドメイン外(Out-of-domain)の平均スコアにおいて、DataChef-32B はそれぞれ89.3および75.4という高得点を記録。1 兆パラメータを誇るオープンソースモデルの Kimi-K2-Instruct-0905(83.7 / 58.2)を凌駕し、Gemini-3-Pro(91.2 / 76.6)に肩を並べる結果となりました。

6 つの未見テストタスクにおける主要実験結果

6 つの未見テストタスクにおける主要実験結果:ドメイン内、ドメイン外のいずれのタスクにおいても、DataChef-32B は卓越したデータレシピ生成能力を発揮。その総合性能はクローズドソースの最高峰モデル Gemini-3-Pro の水準に迫っている。

人間の専門家が作成したデータレシピを凌駕

DataChef は既存のデータから最良の部分集合を選ぶだけに留まらず、任意のコードを自動生成することで全く新しい処理ロジックを構築します。

  • 人手によるヒューリスティックなデータ選択の SOTA を超越:SINGLE-SOURCE、IFD、DEITA などの伝統的なデータ選択手法と比較し、DataChef は極めて競争力のあるパフォーマンスを達成しました。
  • 産業界のレシピを撃破:極めて挑戦的な AIME'25 および ClimaQA 評価ベンチマークにおいて、DataChef-32B が生成したデータレシピは、Qwen 公式の事後訓練モデルで採用されている産業グレードの専門家レシピすらも上回りました。

これは、AI が大規模なコード空間において、より優れたデータ解決策を学習する能力を完全に有していることを証明するものです。

実際の事例で見る自動化パイプラインの再現

ClimaQA タスクを例にとると、DataChef は目標要件を正確に洞察し、効率的なデータ処理パイプラインを自動生成することが可能です。

  • インテリジェントなデータ拡張:LLM を自動で呼び出し、タスク固有のフォーマットに合わせたサンプルの合成と拡張を行い、モデルの目標能力を重点的に強化します。
  • 精密な特徴抽出:自己生成されたキーワードロジックを通じて、最も適合し、最も関連性の高いデータサブセットを抽出し、データの有効性を飛躍的に向上させます。
ClimaQA におけるデータ処理パイプライン生成事例 1ClimaQA におけるデータ処理パイプライン生成事例 2

ケーススタディ:ClimaQA タスクにおいて DataChef が生成したデータ処理パイプライン。

まとめ

DataChef の登場は、エンドツーエンドのデータレシピ生成を最適化可能な大域的決定タスクとしてモデル化した初めての試みです。これは、大規模モデルのデータエンジニアリングが、人的経験への依存度が極めて高い「手工業的」時代を脱し、自動化、大規模化、インテリジェント化を特徴とする産業的新パラダイムへと移行したことを象徴しています。関連機能の包括的なオープンソース化に伴い、DataChef は自動化データエンジニアリング、LLM の最先端訓練、自動化 AI 研究(Automated AI Research)、自己進化型 AI(Self-evolving AI)などの分野において、極めて価値ある新たな視点とツールサポートを提供するでしょう。


過去の推奨記事

以下のリンクをクリックして、書生大模型(InternLM)のさらに興味深く有用な機能を探求してください。
https://chat.intern-ai.org.cn/

以下のカードをクリックして私たちをフォローし、書生大模型の最新情報を入手しましょう。

技術記事のご投稿も歓迎しております。WeChat ID: breezy0101 までご連絡ください。


分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.