30Bモデルで研究、GPT-5.4を超え、性能が1.7%から33.3%へ向上

UniPat AIは北京大学と連携し、Qwen3-30B-A3B-Thinking-2507を基盤として、最先端科学研究専用のモデルUniScientistを開発しました。

最先端科学研究ベンチマーク（FrontierScience-Research）において33.3%のスコアを達成し、直前にリリースされたトップモデルGPT-5.4（33.0%）を上回りました。

これらすべては、開発チームが深く焦点を当てたデータセットの構築に由来します。

元のQwen3-30B-A3B-Thinking-2507をそのままFrontierScience-Researchで実行した場合、成功率はわずか1.7%でした。

チームは専用に構築したデータセットでファインチューニングを行い、スコアは33.3%に跳ね上がり、31.6ポイントの向上を達成しました。

モデルと人間の専門家が相補的な優位性を実現

高品質な科学データは、常に人工智能の発展を制約する核心的ボトルネックです。

完全に人間が執筆したデータは専門的で严谨ですが、コストが非常に高く、規模化が困難です。純粋にアルゴリズムで合成されたデータは量が多いものの、多くの場合、人間の専門家が持つ独特の判別精度とドメインベースを欠いています。

研究チームは、この両者の間の巧妙な非対称性を敏锐に捉えました。

大言語モデルは極めて広範な学際的知識ストックを持ち、非常に高い効率で膨大なコンテンツを生成できます。

人間の専門家は、是非を判断し論理を検証する点で代替不可能な鋭敏さを持っています。

そのため、まったく新しいデータ生産協業モードが生まれました。言語モデルは疲れを知らないクリエイターとして、单一の学問領域の境界を越えてさまざまな研究構想を提案します。人間の専門家は厳格な査読者として変身し、これらの構想の正確性と合理性を専ら審査します。

この分業協業により、データの質と覆範囲の両方が大幅に向上しました。

研究チームはこれにより、非常に大規模な科研級トレーングコーパスを構築しました。このコーパスは50以上もの広範な科学分野を覆い、4,700以上の実在の研究事例を含んでいます。

各サンプルはドメイン専門家が1〜2時間を投じて精緻にアノテーションを施しました。

データは量子物理学や有機化学などの基礎学科だけでなく、社会文化人類学、計算言語学、さらには地球物理学や免疫学にも広がっています。

この膨大なデータセットは、人類の科学的探求の各主流分支をほぼ完全に包含しています。各分野のデータには、構造化された評価基準が監督信号として備わっています。これらの高品質なデータが、新型科研インテリジェンスの育成に欠かせない貴重な養分となりました。

動的証拠統合で科学研究プロセスを再構成

機械に科学研究を行わせる鍵となるステップは、科学という行為を明確な数学または論理モデルに変換することです。

伝統的なQ&Aシステムは答案の出力のみを担当しますが、真の科研は絶えず試行錯誤と反復を重ねる動的なプロセスです。

研究チームは、オープンエンドな科学研究を「能動的証拠統合とモデルアブダクション」と定義しました。

この枠組み下で、インテリジェントエージェントは研究課題に直面すると、常に進化し続ける証拠庫を維持します。この証拠庫は、探偵が手にする手がかりボードのように、さまざまな既に実証済みの情報がpinされているようなものです。

これらの証拠は大きく2種類に分けられます。

一つは外部文献や権威ある情報源に基づく客観的証拠で、科学者が巨人の肩の上に立って得た先人の知恵に相当します。

もう一つは、記号分析、数値計算、シミュレーション実験を通じて自ら手を動かして得た推导的証拠で、科学者が自ら実験を行う成果を表します。

このプロセスは完全に、インテリジェントエージェントの自律的探求の魅力を示しています。

手元の証拠庫を充実させるために、システムは資源が制限された状況下で、目標を定めて情報を取得し実験を設計する必要があります。新しい中間結果を得るたびに、システムは自身の次の計画を動的に調整します。

全体のメカニズムは、精密なギヤシステムが絶えず稼働する様子のようです。

システムはまず、新たな目標指向証拠を取得し検証し、次に再現可能な推导から新たな結論を導き出します。

システムは既存の科学仮説を更新し、現在のすべての証拠を最もよく説明する理論を見出します。

証拠連鎖が十分に完全かつ安定した時点で、すべての発見が厳密な科学レポートとしてまとめられます。

この複雑な循環に対応するため、システムは一連の強力な能力を備える必要があります。証拠収集時には、事実を正確に検索し真偽を検証できなければなりません。モデル構築時には、演繹推論を活用して仮説を更新し、新たな検証可能な証拠を生成することを学ばなければなりません。

この能力は閉ループです。仮説の更新が毎回、系統的に異なる説明を最も区別する鍵となる情報を探すよう促します。

この種の高品質な研究問題を大量生産するため、チームは漸進的博学合成エンジンを発明しました。このエンジンは、非常に複雑な加工場のように、検証済みの科学結論をオープンエンドな研究課題に拡張する専用の施設です。

この加工プロセスは4つの精緻なステップに分かれています。

検索インテリジェントエージェントは、既存の科学的主張に基づき、膨大な論文や権威あるサイトで反復検索し、証拠プールを継続的に拡張します。

次に、モデルはこれらの素材を使用して首尾一貫した科研背景を構築し、散らばった知識を具体的な科学的情勢に配置します。

その後、モデルはこれらの知識を、複数のサブ問題を含む総合的研究課題に凝縮します。

専門家とアルゴリズムが共同で問題を検証と打磨を行い、真の科学価値を持つことを保証します。

客観的評価システムが研究質を向上

オープンエンドな科学レポートに対して、伝統的な機械評価はしばしば無力です。研究チームは独創的なアプローチを採り、壮大な科学レポートを複数の閉鎖的かつ検証可能な客観的チェックポイントに分解しました。この方法は科研レポートに極めて厳格な健康診断指標をカスタマイズするようなものです。

各評価項目は客観的一致性を満たさなければなりません。同じ科学レポートに対して、同じ基準で繰り返し評価しても、結果は完全に一致しなければなりません。これにより、主観的模糊または極めて不安定な判断条件を効果的に除外できます。

評価基準は強力な区別力を備える必要があります。異なる完成度の研究レポート面對して、これらの基準は明確なスコア差を生み出し、優れた洞察といい加減な無駄話を明確に区別すべきです。

各基準は原子的でなければなりません。それは毎回単一の知識点のみをテストし、決して複数の結論を混ぜて評価してはなりません。

ドメイン専門家は問題解決に必要な核心知識点を抽出し、それらを必須証拠リストとして初期化します。検索インテリジェントエージェントは研究問題に基づきさらにこのリストを拡張します。最終的に形成される基準集合は、核心知識点に対する一連のユニットテストのように、測定困難なオープンエンドタスクを定量化可能なスコアに変えます。

例えば、以下の化学領域の事例：

評価基準は、モデルがある特定の標準答案を暗記しているかどうかをテストするだけではありません。それらが真にテストするのは、文献閲覧から仮説提案、実験設計、感度分析に至る完全な科学循環をモデルが遂行できるかどうかです。

通常の監督微調整に加え、チームはレポート凝集という学習目標を導入しました。

科研課題と複数の異なるインテリジェントエージェントが生成した候補レポートを与え、モデルはその長所を取って短所を捨て、最終的に大成者のアルティメットレポートに融合することを学びます。

トレーニングの参照基準は、スコアベースの拒否サンプリングによって獲得され、预设スコアラインを超えたレポートのみが採用されます。

この凝集能力は、インテリジェントエージェントに研究質を俯瞰し、競合する見解を再考し、証拠を再構成する知恵を与えます。

これはまさに真の科研作業の核心部分であり、科学者たちは毎日複数の情報を総合し、衝突する発見を評価し、最も高質な証拠を一貫した叙事に織り上げています。

コードインタプリタが科学計算を赋能

研究チームはQwen3-30B-A3B-Thinking-2507を基盤モデルとして使用し、NVIDIA H200 GPUクラスタ上で約1200 GPU時間を実行し、UniScientistを生み出しました。

UniScientistは驚くべき128,000トークンのコンテキスト長を拥有し、各タスクにおいて最大100回のツール呼び出しを許可します。

その工具箱は非常に豊富で、ウェブ検索、学術文献検索、ページスクレイピング、そして極めて重要なコードインタプリタを含みます。

コードインタプリタは単なる補助配件ではなく、インテリジェントエージェントが再現可能な計算を行う灵魂枢軸です。

過去の言語モデルは、複雑な科学推論に直面すると、内部のテキストネットワークに依存した曖昧な心理シミュレーションしか行えませんでした。

この純テキストベースの推演は、多くのハードコア科学分野において効率がなく不正確です。純粋なテキストで流体力学の複雑な変化规律を正確に記述することは困難です。

コードインタプリタの追加はゲームのルールを完全に変えました。

それは研究循環を単なる物語りから、テストと改訂が交互に行われる厳密な計算プロセスに変えました。

インテリジェントエージェントの提案する仮説は紙面上に留まらず、一行一行実行可能なコードに変換されます。

これらのコードの実行結果は、競合する科学説明を確認、反駁、またはさらに鋭敏化できます。

科学研究のブレークスルーは、明確な制約条件の下でターゲットされた分析とシミュレーションを実行することに依存することが多くあります。

コードインタプリタはインテリジェントエージェントに真理を自ら検証する能力を与え、人工智能と真の科研操作の距離を本当に縮めました。

専門家チームによる繰り返しの査読を経て、このシステムが合成する多くの研究問題は、成熟プロジェクト責任者レベルの提案質に達しています。

它们不仅方向明确、视角新颖，而且展现出了惊人的专业深度。

モデルが合成する問題は錯綜した混合構造を持ち、後の推演はしばしば前の基盤の上に築かれます。

この一歩一歩着実に進める探索プロセスは、人間の科学者ハードルを解決する思考過程を完全に複製しました。

トップベンチマークで Outstanding科研可能性を示す

研究チームは、5つの極めて代表的な権威あるベンチマークでシステムを厳しく評価しました。

そこにはトレーニングデータに近い専門的先端科学研究テストもあれば、純粋な科学知識ストックを評価する先端科学オリンピックテストもあり、汎用的な研究と情報統合能力を評価する深層研究シリーズベンチマークも含まれています。

この30Bパラメータ規模のモデルは、最先端科学研究ベンチマーク（FrontierScience-Research）で28.3の高得点をマークしました。テスト時スケーリング技術（test-time scaling）を通じて、そのスコアは33.3にまで跳ね上がることもあります。

最先端科学オリンピックテスト（FrontierScience-Olympiad）では、ツールを使用しない場合でも66.0の優秀な成績を収めました。ツールの使用を許可し凝集技術と組み合わせると、スコアは71.0に達し、最もトップのクローズドソース巨大モデルと完全に肩を並べました。

ドメイン外の深層研究ベンチマークテストにおいてさえ、そのパフォーマンスは依然として輝いています。

DeepResearch Benchでは46.0点を獲得し、47.0点のOpenAI Deep Researchと同等のパフォーマンスを示しました。

DeepResearch Bench IIテストでは、48.0点のスコアで、45.4点のOpenAIモデルと44.6点のGeminiモデルを一举に上回りました。

ResearchRubrics評価でも、59.9点の高水準スコアを獲得しました。

すべての外部ツールを剥奪した裸のテスト環境下でも、基礎モデルに比べて質的な飛躍を示しました。

この内部科学研究能力の向上は、漸進的博学合成データの巨大な能力を証明しています。

広範に学際的わたる大規模情報獲得能力は、単一分野専門家の知識广度の局限を完全に打破しました。

現在、このシステムの実践能力は主に再現可能な推論とシミュレーションに基づく計算に限定されています。

まだ、大規模計算クラスタ上でのタスク配分や複雑な実験室操作の調整など、現実世界の物理科研資源を完璧にスケジュールすることはできません。

このスマート脳を現実の実験設備と計算基盤に接続することが、未来の自動化科学発見の核心的方向となるでしょう。

参考文献：

https://unipat.ai/blog/UniScientist

https://github.com/UniPat-AI/UniScientist

https://huggingface.co/UnipatAI/UniScientist-30B-A3B