35Bパラメータで数兆パラメータモデルに匹敵する科学性能、「書生」科学大規模モデルIntern-S2-Previewがオープンソース化

画像

上海人工知能研究所(上海AI研究所)は、初の数兆パラメータ科学大規模モデル「書生」Intern-S1-Proを発表したのに続き、5月15日に新世代大規模モデルのプレビュー版Intern-S2-Previewをオープンソース化しました。これにより、「深く専門化可能な汎用モデル」の能力限界をさらに拡張し、利用ハードルを大幅に引き下げます。その重要なブレークスルーは以下の通りです。

  • より小型のサイズ:35Bパラメータ規模で、複数の中核領域において数兆パラメータモデルに匹敵する能力を実現。
  • 科学能力の向上、構造生成能力のブレークスルー:研究チームはタスクの難易度と多様性を高めることで、複雑な科学タスクにおける小規模パラメータモデルのパフォーマンスを向上させました。例えば、実数予測モジュールを導入することで、オープンソースの汎用大規模モデルとして初めて材料結晶構造の生成能力を実現しました。
  • 科学エージェント能力のリード、実際の科学研究シーンへの貢献:総合科学プログラミングタスクで同規模モデルの中でトップクラスのレベルを達成しただけでなく、科学的発見タスクにおいてClaude-Haiku-4.5やGPT5.4-Nanoなどの主要なクローズドモデルを凌駕しました。

同時に、Intern-S2-Previewは昇騰計算エコシステムとの連携を深化させ、トレーニング、推論、評価などの重要な段階で全プロセス最適化を実現し、科学大規模モデル分野における国産ソフトウェア・ハードウェア連携体系の価値をさらに実証しました。

画像

Intern-S2-Previewと主要モデルの科学タスクおよび汎用タスク評価ベンチマークにおけるスコア比較

タスクスケーリングと強化学習の探求、「汎専融合」の加速

数兆パラメータ規模の科学マルチモーダル大規模モデルを、効率的で使いやすい基盤モデルに凝縮することは、非常に困難な作業です。その実現経路の中核的な考え方は、上海AI研究所が「汎用と専門の融合(汎専融合)」技術路線を持続的に探求したことから生まれています。研究チームは、モデルの能力進化が従来のパラメータ拡張やデータ増量だけに依存するのではなく、タスクの難易度を高め、タスクの多様性を豊かにすることで、持続的にモデル性能の上限を引き上げられる、つまりスケーリング効果が存在することを発見しました。

Intern-S1-Proと比較して、Intern-S2-Previewは専門科学タスクをさらに「全チェーントレーニング」パラダイムへと拡張しました。各専門科学タスクには、事前学習から事後学習に至るまでの高品質なデータとトレーニング戦略が備えられており、安定した効率的なトレーニングインフラに支えられて、マルチタスク融合トレーニングが実現します。このプロセスにおいて、高難易度かつ多様なタスクが大量に統合され融合トレーニングされることで、小規模モデルは多くの科学タスクにおいて数兆パラメータモデルのパフォーマンスレベルに到達できます。ここの鍵は、全チェーンの「汎専融合」メカニズムにあります。単一のトレーニング段階のみを最適化すると、しばしば能力間の「トレードオフ(あちらを立てればこちらが立たず)」が発生しますが、全チェーン融合後には、異なるタスク間で相互に促進し合う相乗効果が形成され、複雑な科学タスクにおけるモデルの全体的な潜在能力がさらに解放されるのです。

この基盤の上に、研究チームは特に強化学習を中心に多角的な探求を行い、Intern-S2-Previewの「汎専融合」加速を実現しました。

  • 生物マルチオミクス理解といった専門科学タスクを完了するために、思考連鎖(Chain-of-Thought)を活用するようモデルを誘導し、思考連鎖の汎化優位性を活かして、35Bの小規模パラメータモデルで数兆パラメータモデルに匹敵する性能を達成しました。
  • 強化学習のトレーニングステップ長を延長し、大学院レベルの専門的な科学推論問題など、より高難易度なタスクと組み合わせることで、小規模モデルは様々な問題で十分に訓練され、最終的には融通無礙に分野横断的な推論能力を獲得します。
  • データ思考密度(IQPT, Intelligence Quality per token)の理念のもと、思考連鎖折りたたみなどの革新的なアルゴリズムを探求し、データ思考密度のレバレッジを構築することでモデル性能の向上を促進します。具体的には、数学推論タスクにおいて、Intern-S2-Previewは思考連鎖の長さを極限まで圧縮しながらも、約300Bパラメータを持つある最新モデルに匹敵する効果を示し、性能と効率の両面でのブレークスルーを達成しました。
画像

科学能力の持続的アップグレード、主要クローズドモデルに比肩

Intern-S2-Previewは、科学研究をエンパワーメントすることを中核目標とし、より複雑な科学シーンに焦点を当てて探求を進めています。例えば、小分子構造空間のモデリング能力です。これは、モデルが分子や結晶といった微細構造を正確に認識するための中核的な基盤であり、構造理解と生成の精度上限を決定づけるだけでなく、複雑な科学研究シーンに適応するための基礎となります。研究チームは、これまでにフーリエ位置エンコーディング(FoPE)の導入や時系列エンコーダの再構築などの革新に加えて、今回さらにこの能力を強化し、実数予測モジュールを導入することで、オープンソースの汎用大規模モデルとして初めて材料結晶構造の生成能力を実現しました。

画像

この能力を正確に検証するため、研究チームはMolecularIQ評価セットを用いた専門テストを実施しました。この評価セットは、分子内部構造の空間モデリングとトポロジー理解能力に重点を置いており、従来の分子式構成だけで完了できるタスクと比較して、挑戦的な難易度が大幅に向上しています。評価結果によると、Intern-S2-PreviewはMolecularIQで57.26点を獲得し、Gemini-3.1-Proの41.33点を上回りました

構造理解が主に科学研究における分析やスクリーニングの段階を支援するものだとすれば、構造生成は科学研究のイノベーションを推進する「創造的タスク」です。材料結晶構造生成の分野はこれまで長らく専門モデルに依存していましたが、Intern-S2-Previewは、オープンソースの汎用大規模モデルにおけるこの分野の空白を埋めただけでなく、思考プロセスを示すことができる初の構造生成モデルでもあります。このタスクでは、材料結晶構造を記述するために数十個の高精度な空間座標を生成する必要があり、GPT-5.5などのクローズドモデルが生成した構造の合格率が約10%であるのに対し、Intern-S2-Previewの合格率は40%超となり、構造生成の品質と可用性を大幅に向上させ、科学研究のイノベーションに効率的な支援を提供します。

これらの革新により、Intern-S2-Previewは拡散モデルに依存することなく、高精度な座標回帰の可能性を保持しており、関連タスクの実装コストを低減するだけでなく、各種の座標回帰を行う科学研究タスクに全く新しい技術ソリューションを提供します。

科学エージェント能力のアップグレード、複雑な研究タスクを効率的に支援

トレーニング段階での体系的なタスク合成手法の導入により、Intern-S2-Previewの汎用エージェント能力はさらに向上しました。研究チームは、オープンソースコミュニティのスキルウェアハウスと実際のツールエコシステムを基盤に、実際のアプリケーションシーンに近い高品質なエージェントトレーニングデータを構築し、複雑なタスクのステップ分解、スキル呼び出し、自律実行能力の強化に重点を置きました。これにより、多ターン対話から複雑なタスク計画、自律的な実装実行に至るまでの能力限界を効果的に拡張しました。

実際のサンドボックス環境における長距離タスク解決シーンにおいて、Intern-S2-PreviewはPinchBenchなどの汎用エージェント評価ベンチマークで、堅牢なタスク理解、ツール呼び出し、マルチステップ意思決定、状態追跡能力を示し、動的環境において継続的にタスク実行を完了し、環境からのフィードバックに基づいて自己修正を行うことができます。同時に、持続的に強化された科学推論能力により、Intern-S2-Previewは科学プログラミングとアルゴリズム解決を対象としたSciCodeベンチマークでも優れた成績を収め、同規模モデルの中でトップクラスに位置し、強力な科学コード生成能力を備えています。これにより、科学計算、アルゴリズム開発、研究用スクリプト作成といった複雑な科学研究タスクを効率的に支援できます。

「アルゴリズム-システム-計算力」の協調進化、トレーニングと推論の効率を向上

研究チームは、モデルのトレーニング、推論展開、自動評価についてシステム最適化を行い、「アルゴリズム-システム-計算力」の協調進化を通じてトレーニングと推論の効率を向上させました。

昇騰A3スーパーノード上において、トレーニングフレームワークに複数のビデオメモリ最適化技術を導入し、マルチモーダル長系列トレーニングの安定性を向上させました。同時に、可変長入力シナリオ向けに計算プロセスを最適化し、データチャンクの事前計画やホスト・デバイス間のデータインタラクション削減などを通じて、全体的な計算効率をさらに高めています。

トレーニングと推論の一体化においては、トレーニングフレームワークXTunerと展開推論フレームワークLMDeployに基づき、マルチトークン予測強化学習をサポートした上で、共有重み計算方式を導入しました。これにより、トレーニングと推論の間の不一致を減らし、生成結果の有効性を高め、より安定したトレーニングとより効率的な推論を実現しています。

マルチモーダル長系列トレーニングにおける視覚モジュールの時間消費割合が高すぎるという問題に対して、チームは異なる系列長下での視覚と言語モジュールの計算力割合をオフラインでシミュレーションすることで、よりバランスの取れたリソース配分を実現し、全体的なトレーニング効率をさらに向上させました。


2023年の書生大規模モデル初公開以来、上海AI研究所は豊富な書生大規模モデルファミリーを段階的に構築してきました。また、トレーニングフレームワークXTuner、展開推論フレームワークLMDeploy、革新的なオープン評価システムOpenCompassインテリジェント文書解析エンジンMinerUを含む、大規模モデルの研究開発と応用のための全チェーンオープンソースツール体系を先駆けて開発し、オープンソース化しました。これにより、数十万人の開発者が参加する活発なオープンソースコミュニティが形成されています。

公開以来、Intern-S1はHuggingFaceのグローバルマルチモーダルランキングで何度も首位を獲得し、累計ダウンロード数は100万回を突破しました。その卓越したクロスモーダル科学理解能力は、科学研究に効率的なツールを提供するだけでなく、オープンソース化によって世界中の研究チームが「AGI for Science」に参入するハードルを下げました。今後も上海AI研究所は、モデル能力の向上と科学研究パラダイムの革新を推進し、グローバルパートナーと共に、より開かれた効率的な科学AIエコシステムを構築していきます。

画像

画像
画像
画像
画像
画像
関連記事

分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.