35B參數科學性能比肩兆級參數模型，「書生」科學大模型Intern-S2-Preview開源

繼率先推出首個https://mp.weixin.qq.com/s?__biz=MzkzNzIyNDg4MQ==&mid=2247563716&idx=1&sn=29307ae11c2bcbaf20ba3e6db8005259&scene=21#wechat_redirect兆級參數科學大模型『書生』Intern-S1-Pro，上海人工智慧實驗室（上海AI實驗室）於5月15日開源了新一代大模型預覽版Intern-S2-Preview，進一步拓展「可深度專業化通用模型」的能力邊界並大幅降低使用門檻。其重要突破包括：

尺寸更小：以35B參數規模，實現在多個核心領域比肩兆級參數模型的能力；

科學能力更強，結構生成能力突破：科研團隊透過提升任務難度及多樣性，增強了小參數模型在複雜科學任務中的表現效果；例如，透過引入實數預測模組，首次在開源通用大模型中實現了材料晶體結構生成能力。

科學智慧體能力領先，可更好地服務真實科研場景：不僅在綜合科學場景程式設計任務中達到同量級領先水準，還在科學發現任務中超越Claude-Haiku-4.5、GPT5.4-Nano等主流閉源模型。

同時，Intern-S2-Preview 深化與昇騰算力生態的協同，在訓練、推理與評測等關鍵環節實現全流程最佳化，進一步驗證國產軟硬體協同體系在科學大模型方向上的價值。

體驗連結：https://chat.intern-ai.org.cn/

GitHub連結：https://github.com/InternLM/Intern-S1

HuggingFace連結：https://huggingface.co/collections/internlm/intern-s2

ModelScope連結：https://modelscope.cn/collections/Shanghai_AI_Laboratory/Intern-S2

Intern-S2-Preview與主流模型在科學任務、通用任務評測基準上的得分情況

探索任務Scaling和強化學習，加速實現「通專融合」

將兆級參數規模的科學多模態大模型濃縮為高效、易用的基座模型，是一項極具挑戰的工作。其實現路徑的核心思路，來自上海AI實驗室對「通專融合」技術路線的持續探索。研究團隊發現，模型能力進化並非僅依賴傳統的參數擴容與資料增量外，透過提升任務難度、豐富任務多樣性，亦可持续拉升模型能力上限，具備Scaling效應。

相較於Intern-S1-Pro，Intern-S2-Preview進一步將專業科學任務擴展為「全鏈路訓練」範式：每一個專業科學任務均配備從預訓練到後訓練的高品質資料與訓練策略，並依託穩定高效的訓練基礎設施，實現多任務融合訓練。在這一過程中，當大量高難度、多樣化任務進行統一融合訓練時，小模型能夠在多項科學任務上達到兆級參數模型的表現水準。這其中的關鍵在於全鏈路的「通專融合」機制：若僅最佳化單一訓練階段，往往會出現能力之間的「此消彼長」；而在全鏈路融合後，不同任務之間反而形成相互促進的協同效應，從而進一步釋放模型在複雜科學任務中的整體潛力。

在此基礎上，團隊重點圍繞強化學習開展多方面探索，賦能Intern-S2-Preview加速實現「通專融合」：

引導模型利用思維鏈來完成生物多組學理解等專業科學任務，依託思維鏈的泛化優勢，實現以35B小參數模型比肩兆級參數模型的性能；

延長強化學習的訓練步長，結合更加高難度（如研究生級別）的學科推理問題和專業科學任務，使得小模型能夠在各類問題上得到充分訓練，最終融會貫通，具備跨域推理能力；

在數據思維密度（IQPT，Intelligence Quality per token）理念指導下，探索思維鏈折疊等創新演算法，透過構建數據思維密度槓桿，撬動模型性能提升。其中，在數學推理任務中，Intern-S2-Preview實現思維鏈長度極致壓縮，但效果比肩參數量近300B的某最新模型，實現性能與效率的雙重突破。

科學能力持續升級，比肩主流閉源模型

Intern-S2-Preview以賦能科學發現為核心目標，聚焦更複雜的科學場景開展探索。以小分子結構空間建模能力為例，其作為模型精準認知分子、晶體等微觀結構的核心支撐，既決定了結構理解與生成的精度上限，也是適配複雜科研場景的基礎。科研團隊在此前引入傅立葉位置編碼（FoPE）、重構時序編碼器等創新的基礎上，進一步強化該能力，並引入實數預測模組，首次在開源通用大模型中實現了材料晶體結構生成能力。

為精準驗證這一能力，團隊選取MolecularIQ評測集開展專項測試——該評測集重點考察模型對分子內部結構的空間建模與拓撲理解能力，相較傳統僅通過分子式構成即可完成的任務，挑戰性顯著提升。評測結果顯示：Intern-S2-Preview在MolecularIQ上取得57.26分，超過Gemini-3.1-Pro的41.33分。

如果說結構理解主要服務於科研中的分析與篩選環節，那麼結構生成則是推動科研創新的「創造性任務」。其中，材料晶體結構生成領域此前長期依賴專業模型，而Intern-S2-Preview不僅填補了開源通用大模型在該領域的空白，也是首個能給出思考過程的結構生成模型。該任務需要模型生成數十個高精度的空間座標以描述材料晶體結構，GPT-5.5等閉源模型生成的結構通過率約為10%，而Intern-S2-Preview的通過率超40%，顯著提升了結構生產品質與可用性，為科研創新提供高效支撐。

透過上述創新，Intern-S2-Preview在無需依賴擴散模型的前提下，仍具備高精度座標回歸的潛力，這不僅降低了相關任務的實現成本，更為各類座標回歸類科研任務提供了全新的技術解決方案。

科學智慧體能力升級，高效支撐複雜科研任務

得益於訓練階段引入系統化任務合成方法，Intern-S2-Preview通用智慧體能力得到進一步提升。團隊依託開源社群技能倉庫與真實工具生態，構建貼近實際應用場景的高品質智慧體訓練資料，重點強化模型對複雜任務的步驟拆解、技能調用與自主執行能力，有效拓寬了從多輪對話到複雜任務規劃、自主落地執行的能力邊界。

在真實沙盒環境長程任務求解場景中，Intern-S2-Preview在PinchBench等通用智慧體評測基準中展現出穩健的任務理解、工具調用、多步決策與狀態追蹤能力，能夠在動態環境中持續完成任務執行，並根據環境回饋進行自我修正。同時，憑藉持續增強的科學推理能力，Intern-S2-Preview在面向科學程式設計與演算法求解的SciCode基準上表現優異，位居同量級模型前列，具備強勁的科學程式碼生成能力，可高效支撐科學計算、演算法開發與科研腳本編寫等複雜科研任務。

「演算法-系統-算力」協同演進，提升訓推效率

科研團隊圍繞模型訓練、推理部署與自動化評測進行了系統最佳化，透過「演算法-系統-算力」協同演進提升訓推效率。

在昇騰A3超節點上，訓練框架引入多項顯存與記憶體最佳化技術，提升多模態長序列訓練穩定性。同時針對變長輸入場景最佳化計算流程，透過提前規劃資料分塊、減少主機與設備間的資料互動等，進一步提升整體計算效率。

在訓推一體化方面，基於訓練框架XTuner與部署推理框架LMDeploy，團隊在支援多token預測強化學習的基礎上，引入共用權重計算方式，減少訓練與推理之間的不一致，同時提升生成結果的有效性，使訓練更穩定、推理更高效。

針對多模態長序列訓練中視覺模組耗時佔比過高的問題，團隊透過離線模擬不同序列長度下視覺與語言模組的算力佔比，實現更均衡的資源分配，從而進一步提升整體訓練效率。

自2023年書生大模型首次發布以來，上海AI實驗室已逐步構建起豐富的書生大模型家族。同時首創並開源了面向大模型研發與應用的全鏈路開源工具體系，包含訓練框架 XTuner、部署推理框架 LMDeploy、創新開放評測體系OpenCompass、智慧文檔解析引擎MinerU，形成覆蓋數十萬開發者參與的活躍開源社群。

自發布以來，Intern-S1多次登頂 HuggingFace 全球多模態榜單，累計下載量超過100萬次。其卓越的跨模態科學理解能力不僅為科研提供了高效工具，也透過開源降低了全球科研團隊邁入AGI for Science的門檻。未來，上海AI實驗室將繼續推動模型能力提升與科研範式創新，與全球合作夥伴共同構建更加開放、高效的科學AI生態。

35B參數科學性能比肩兆級參數模型，「書生」科學大模型Intern-S2-Preview開源

相關文章推薦

分享網址