三個多月前,混元團隊做下一個決定:從底層開始推倒重來。
預訓練,重建。強化學習,重建。基礎設施,重建。
今天,重建後的首個成果正式亮相:Hy3 preview(點擊可前往官網直接體驗)。
先說結論
這是一個融合快速思考與深度推理的混合專家模型。總參數量 295B,啟用參數 21B,支援 256K 上下文視窗——這也是混元迄今最智能的模型。主打全面實用性,Agent 能力提升顯著。
|幾個硬指標
複雜推理:紮實拿下硬核考場
推理是一切能力的底座。Hy3 preview 在 FrontierScience-Olympiad、IMOAnswerBench 等高難度理工科榜單上表現突出,並在真實考場裡也拿到了好成績:
清華大學求真書院數學博士資格考(26 春)— 國內模型最高分
全國中學生生物學聯賽 CHSBO 2025 — 優異
榜單和真實考場雙線驗證,說明這個能力不是應試刷出來的,是結構性地變強了——你讓它推導論文裡的公式,或者幫娃講解高難度題目,大概率都夠用。
程式碼與 Agent:以更快的速度補齊關鍵能力
Agent 是這次迭代中提升最為明顯的方向之一。寫程式碼、查資料、用工具完成任務,它是真能幫你幹活了。複雜的多步驟資訊查找任務——比如跨網頁對比、篩選、歸納,這次也一步補齊。
輸入一句 Prompt,就能拿到一個能在微信上跑的小程式,甚至是小遊戲。
Prompt:我想做一個在小星球上採集建設的小遊戲,玩家降落在雲層上的荒蕪小星球,透過搖桿移動,自動採集草木礦石,消耗資源自動建造。配以清新畫面和輕快音效。
在騰訊文件 AI 助手「開物 AI」輸入一句 Prompt,即可直接撰寫 PPT。
輸入一句 Prompt,就能拿到一個能在微信上跑的小程式。Hy3 preview 一次性輸出所有頁面程式碼和設定檔,導進微信開發者工具直接就能預覽。不用來反復調。
Prompt:幫我做一个徒步路線推薦小程式,要有首頁輪播、路線詳情頁、收藏功能。
Hy3 preview 一次性輸出所有頁面程式碼和設定檔,導進微信開發者工具直接就能預覽。不用來反復調。
技術同行看細節:SWE-Bench Verified、Terminal-Bench 2.0、BrowseComp、WideSearch 等主流評測中均取得有競爭力的結果。
程式碼能力評測
Agent 綜合能力評測,Hy3 preview 展現出高性價比
長上下文與指令遵循:真實場景裡見真章
真實場景裡的資訊永遠是雜亂的:一份會議記錄裡塞著七八條隱藏前提,一段旅行計劃裡藏著預算突變,一個任務描述裡混著「誰這週請假」「誰那週加班」……
項目規劃、旅遊總結、讀書記錄、聊天規劃、業務轉型……Hy3 都能抽絲剝繭把話語中的意向和需求線索挖出來,不漏掉、不瞎猜。準確幫你總結成 To Do(待辦事項)。
想看更多真實生活的 case?點擊這裡前往了解。
|自然對話:讓聊天多點人味
以前的回覆總有點「機器味」——你說「最近狀態不好」,它給你列五條建議。
現在,Hy3 preview 會先接住你的情緒,再往下聊。
你讓它寫東西,機器味淡了;你問它問題,比喻更生動,舉例更貼切。
傾訴的時候它不再端著,寫東西 AI 腔淡了,回答問題比喻更生動——更像一個在認真傾聽、思考接話的人。
|你在用的這些產品,已經換上新模型了
元寶
寫作、閒聊、搜尋全面升級。日常聊天、寫東西、查資料——聊天更有「活人感」,答非所問少了。
「更懂你的意思,寫出來的東西更有人味。」
—— 元寶產品經理
CodeBuddy / WorkBuddy
回應速度快了將近一半,還能穩定跑完將近 500 步的複雜任務。騰訊內部工程師已經在日常用它寫程式碼,內部盲評勝率 55%–56%。
「首次回應快了 54%,任務完成時間縮短 47%,成功率 99.99%+」
—— CodeBuddy/WorkBuddy 產品經理
ima
丟進去一份幾萬字的文件,不管是在知識庫還是通用問答,該找的找得到,該總結的總結得全。
「處理長文的能力出色,回答的準確性、覆蓋度和全面性都表現很好。」
—— ima 產品經理
|Hy3 Preview 重建的三個原則
能力體系化
不推崇「偏科」——即使是程式碼 Agent,背後也是推理、指令、長文、對話多能力的協同。
評測真實性
Benchmark 高分 ≠ 好用。主動跳出易被刷榜的公開榜單,透過自建 50+ 套評測體系、最新考試、人工評測、產品眾測評估真實戰鬥力。
追求性價比
深度協同模型架構與推理框架,大幅降低任務成本,讓智能用得起、用得好。
|還開源了,開發者可以直接用
Hy3 preview 的推理效率提升 40%。模型權重和程式碼已在 GitHub、Hugging Face 等全部開源,免費下載。
想透過 API 調用的話,騰訊雲 TokenHub有專屬套餐:
輸入最低 1.2 元/百萬 tokens,輸出最低 4 元/百萬 tokens。對大多數個人開發者來說,28 元一個月基本夠用了。
|這裡只是開始
Hy3 preview 是一個起點。
混元團隊正在持續擴大預訓練和強化學習的規模,更大尺寸的模型也已經在訓練中。與此同時,將透過與騰訊更多產品場景的深入 co-design,持續改進模型在真實場景中的表現。
歡迎使用,歡迎挑刺
你們用出來的反饋,比我們自己測出來的,更具價值。