30B模型投入科研,效能超越GPT-5.4,成績從1.7%提升至33.3%

算泥社區是一個集「AI 大模型開發服務 + 演算法 + 算力」於一體的開源生態社群,歡迎關注!

UniPat AI 聯合北京大學,基於 Qwen3-30B-A3B-Thinking-2507 研發出專注於前沿科學研究的模型 UniScientist。

圖片

在「前沿科學研究」基準測試(FrontierScience-Research)中達到了 33.3% 的分數,超越了剛剛發布的頂級模型 GPT-5.4(33.0%)。

圖片圖片

這一切的關鍵在於研發團隊深度打造了一個專用資料集。

原本的 Qwen3-30B-A3B-Thinking-2507 在直接運行 FrontierScience-Research 時,成功率僅有 1.7%。

圖片

團隊使用專門打造的資料集進行微調後,分數飆升至 33.3%,提升了 31.6%。

模型與人類專家實現優勢互補

高質量的科學資料一直制約著人工智慧發展的核心瓶頸。

完全由人類撰寫的資料雖然專業嚴謹,但成本極高且難以規模化。純粹依靠算法合成的資料雖然數量龐大,卻常常缺乏人類專家特有的辨別精度和領域根基。

研究團隊敏銳地捕捉到了兩者之間奇妙的不對稱性。

大語言模型擁有極其寬廣的跨學科知識儲備,能夠以極高的效率生成海量內容。

人類專家则在判斷是非和驗證邏輯方面具有不可替代的敏銳度。

因此促成了一種全新的資料生產合作模式。語言模型充當不知疲憊的创作者,跨越單一學科的邊界提出各種研究構想。人類專家則化身為嚴苛的審稿人,專門負責審核這些構想的準確性與合理性。

這種分工協作讓資料質量和覆蓋面都得到了極大提升。

研究團隊藉此構建了一個極其龐大的科研級訓練語料庫。這個語料庫涵蓋了 50 多個廣闊的科學領域,包含 4700 多個真實的研究實例。

每個樣本都靠領域專家投入 1 到 2 個小時進行精細標註打磨。

資料不僅覆蓋了量子物理和有機化學等基礎學科,還延伸到了社會文化人類學、計算語言學甚至地球物理學和免疫學。

圖片

這個龐大的資料集幾乎囊括了人類科學探索的各個主流分支。每一個領域的資料都配備了結構化的評分標準作為監督信號。這些高質量的資料成為了哺育新型科研智能體的寶貴養料。

動態證據整合重塑科學研究過程

要讓機器做科學研究,最關鍵的一步是把做科學這件事轉化為清晰的數學或邏輯模型。

傳統的問答系統只負責輸出答案,而真實的科研是一個不斷試錯和迭代的動態過程。

研究團隊將開放的科學研究定義為主動證據整合與模型溯因。

在這個框架下,智能體面對一個研究任務時,會始終維護一個不斷進化的證據庫。這個證據庫就像是偵探手中的線索板,上面釘滿了各種已經被證實的資訊。

這些證據分為兩大類。

一類是基於外部文獻和權威來源的客觀證據,相當於科學家站在巨人的肩膀上獲取的前人智慧。

另一类是通過符號分析、數值計算和模擬實驗親手得出的推導性證據,代表了科學家自己動手做實驗的成果。

這個過程完全展現了智能體自主探索的魅力。

為了完善手頭的證據庫,系統必須在資源受限的情況下,有目標地去獲取資訊和設計實驗。每當得到一個新的中間結果,系統就會動態調整自己的下一步計劃。

整個運作機制就像一個精密的齒輪系統在不斷運轉。

系統首先獲取並驗證新的目標導向證據,接著通過可覆現的推導得出新結論。

系統會對現有的科學假設進行更新,找出最能解釋當前所有證據的理論。

當證據鏈條足夠完整且穩定時,所有的發現就會被匯總成一份嚴謹的科學報告。

為了應對這種複雜的循環,系統必須具備一套硬核的本領。在收集證據時,它得能精準檢索事實並驗證真偽。在構建模型時,它得學會利用演繹推理更新假設,並生成新的可驗證證據。

這種能力是閉環的,每一次假設的更新都會促使系統去尋找那些最能區分不同解釋的關鍵資訊。

圖片

為了大批量製造這種高質量的研究問題,團隊發明了漸進式博學合成引擎。這個引擎就像一個極其複雜的加工廠,專門把經過驗證的科學結論擴展成開放式的研究課題。

整個加工過程分為四個精細的步驟。

圖片

搜索智能體會基於現有的科學主張,在海量論文和權威網站中反覆檢索,不斷擴充證據池。

接著模型會根據這些素材構建一個連貫的科研背景,把零散的知識放在一個具體的科學情境中。

隨後模型將這些知識濃縮成一個包含多個子問題的綜合性研究課題。

專家和算法共同對問題進行驗證和打磨,確保其具有真正的科學價值。

客觀評分系統提升研究質量

對於開放式的科學報告,傳統的機器評分往往力不從心。研究團隊獨闢蹊徑,把宏大的科學報告拆解成了多個封閉且可驗證的客觀檢查點。這種方法就像是給科研報告量身定做了一套極其嚴格的體檢指標。

每一個評分項都必須滿足客觀一致性。面對同一份科學報告,用同一套標準反覆評估多次,得出的結果必須完全一致。這樣就能有效剔除掉那些主觀模糊或極不穩定的判斷條件。

評分標準還要具備強大的區分度。當面對不同完成度的研究報告時,這些標準應當能拉開明顯的分數差距,把優秀的洞察和敷衍的廢話清晰地區分開來。

每一個標準必須是原子的,它每次只測試一個單一的知識點,絕不把多個結論混雜在一起評判。

領域專家會提取解決問題所需的核心知識點,並把它们初始化為一個必備證據清單。搜索智能體再根據研究問題進一步擴充這個清單。最終形成的標準集就像是一組對關鍵知識點的单元測試,把原本難以衡量的開放式任務變成了可以量化的得分。

例如,下面這個化學領域的案例:

圖片

評估標準並不僅僅是考察模型是否背下了某個標準答案。它們真正測試的是模型能否完成從查閱文獻到提出假說,再到設計實驗和進行敏感性分析的完整科學閉環。

除了常規的監督微調,團隊還引入了一種叫做報告聚合的學習目標。

給出一個科研任務和多個不同智能體生成的候選報告,模型需要學會取其精華去其糟粕,最終融合成一份集大成者的終極報告。

訓練的參考標準通過基於評分的拒絕取樣獲得,只有超過預設分數線的報告才會被採納。

這種aggregation能力賦予了智能體審視研究質量、重新思考競爭觀點並重組證據的智慧。

這恰恰是真實科研工作中最核心的一環,科學家們每天都在綜合多方資訊,評估相互衝突的發現,並把最優質的證據編織成連貫的敘事。

代碼解釋器賦能科學計算

研究團隊使用了 Qwen3-30B-A3B-Thinking-2507 作為基座模型,在 NVIDIA H200 GPU 叢集上運行約 1200 GPU 小時,誕生了 UniScientist。

UniScientist 擁有驚人的 128000 個 Token 上下文長度,並且允許在每個任務中調用多達 100 次工具。

它手中的工具箱非常豐富,包括網頁搜索、學術文獻檢索、頁面爬取以及一個極其關鍵的代碼解釋器。

代碼解釋器絕不是一個簡單的輔配件,它是智能體開展可覆現計算的核心樞紐。

過去的語言模型在面對複雜的科學推理時,往往只能依靠內部的文字網絡進行模糊的心理模擬。

這種純文字的推演的很多硬核科學領域既沒有效率也極不準確。你很難用純文字準確描述流體力學的複雜變化規律。

代碼解釋器的加入徹底改變了遊戲規則。

它把研究循環從單純的文字說故事,變成了一個測試與修訂交替進行的嚴謹計算過程。

智能體提出的假設不再只停留在紙面,而是被轉化為一行行可執行的代碼。

這些代碼運行的結果可以證實、反駁或是進一步銳化各種競爭性的科學解釋。

科學研究的突破往往依賴於在明確的約束條件下運行針對性的分析和模擬。

代碼解釋器讓智能體具備了親自動手驗證真理的能力,真正拉近了人工智慧與真實科研操作的距離。

經過專家團隊的反覆評審,這個系統合成的很多研究問題已經達到了成熟項目負責人級別的提案質量。

它們不僅方向明確、視角新穎,而且展現出了驚人的專業深度。

模型合成的問題具有錯綜複雜的混合結構,後一步的推演往往建立在前一步的基礎之上。

這種步步為營的探索過程,完美復刻了人類科學家解決難題的心路歷程。

頂級基準測試展現出色科研潛力

研究團隊在五個極具代表性的權威基準上對系統進行了嚴苛的評估。

其中既有貼近訓練數據的專業前沿科學研究測試,也有考察純粹科學知識儲備的前沿科學奧林匹克測試,還包括了評估通用研究和資訊整合能力的深度研究系列基準。

圖片圖片

這個 30B 參數規模的模型在前沿科學研究基準(FrontierScience-Research)上拿下了 28.3 的高分,通過測試時規模擴展技術(test-time scaling),它的分數甚至能夠飆升至 33.3。

在前沿科學奧林匹克測試(FrontierScience-Olympiad)中,它在不使用任何工具的情況下取得了 66.0 的優異成績。在允許使用工具並結合聚合技術後,分數達到了 71.0,完全追平了最頂級的閉源巨头模型。

即便是在領域外的深度研究基準測試中,它的表現依然光芒四射。

它在 DeepResearch Bench 中拿下了 46.0 分,與得分為 47.0 的 OpenAI Deep Research 表現相當。

在 DeepResearch Bench II 測試中,它以 48.0 分的成績一舉超越了 45.4 分的 OpenAI 模型和 44.6 分的 Gemini 模型。

在 ResearchRubrics 評估中,它同樣獲得了 59.9 分的高水準成績。

即使在剝奪了所有外部工具的裸測環境下,它依然比基礎模型有了質的飛躍。

這種內在科學研究能力的提升,充分證明了漸進式博學合成資料的巨大威力。

廣泛跨學科的大規模資訊獲取能力,徹底打破了單一領域專家在知識廣度上的局限。

目前這個系統的實操能力主要還局限在可覆現的推理和基於模擬的計算上。

它還無法完美地調度真實世界的物理科研資源,比如在大型計算叢集上分配任務或者協調複雜的實驗室操作。

把這套智能大腦連接到真實的實驗設備和計算基礎設施上,將是探索自動化科學發現在未來的核心方向。

參考資料:

https://unipat.ai/blog/UniScientist

https://github.com/UniPat-AI/UniScientist

https://huggingface.co/UnipatAI/UniScientist-30B-A3B

END
圖片
圖片
圖片
圖片


分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.