Ring-2.5-1T,思更深,行更遠

今天,我們發布並開源首個混合線性架構的萬億參數思考模型 Ring-2.5-1T。

作為邁向通用智能體時代的關鍵步驟,我們將混合線性注意力架構在預訓練和強化學習上均進行了大規模擴展,一方面利用高效的 1:7 MLA + Lightning Linear Attention 架構來提升模型的思考效率和探索空間,另一方面通過擴展強化學習和智能體環境規模來提升模型的思考深度和長程執行能力。

相比此前發布的 Ring-1T,Ring-2.5-1T 在生成效率、思考深度、長程執行上均有大幅提升:

高效生成:得益於高比例的線性注意力機制,在超過 32K 生成長度下,訪存規模降低 10 倍以上,生成吞吐提升 3 倍以上,尤其適合深度思考和長程執行的任務。

深度思考:在 RLVR 基礎上引入 dense reward 來反饋思考過程的嚴謹性,使得 Ring-2.5-1T 同時實現 IMO 2025 和 CMO 2025 的金牌水平(自測)。

長程執行:通過大規模 fully-async agentic RL 訓練,顯著提升針對複雜任務的長程自主執行能力,使得 Ring-2.5-1T 可以輕鬆適配 Claude Code 等智能體編程框架和 OpenClaw 個人 AI 助理。

圖片

深度思考與長程執行

為評估 Ring-2.5-1T 的深度思考和長程執行能力,我們選取了代表性的開源思考模型(DeepSeek-v3.2-Thinking、Kimi-K2.5-Thinking)和閉源 API(GPT-5.2-thinking-high、Gemini-3.0-Pro-preview-thinking-high、Claude-Opus-4.5-Extended-Thinking)作為參考。Ring-2.5-1T 在數學、代碼、邏輯等高難推理任務(IMOAnswerBench、AIME 26、HMMT 25、LiveCodeBench、ARC-AGI-V2)和智能體搜索、軟體工程、工具調用等長程任務執行(Gaia2-search、Tau2-bench、SWE-Bench Verified)上均達到了開源領先水平

我們還額外測試了深度思考模式(heavy thinking mode),通过在推理過程中擴展並行思考與總結,實現測試時擴展,從而有效提升推理的深度與廣度。

在 IMO 2025(滿分 42 分)中,Ring-2.5-1T 獲得 35 分,達到金牌水平;在 CMO 2025(滿分 126 分)中取得 105 分,顯著高於金牌線(78 分)及國家集訓隊入選線(87 分)。對比 Ring-2.5-1T 與 Ring-1T 的答題結果可以發現,前者在推理邏輯嚴謹性、高階數學證明技巧使用以及答案表述完整性方面均有明顯提升。我們現已公開 Ring-2.5-1T 在 IMO 2025 與 CMO 2025 中的詳細解答,完整內容可透過以下連結查看:https://github.com/inclusionAI/Ring-V2.5/tree/main/examples

此外,在挑戰性的智能體搜索 GAIA2-search 任務中,Ring-2.5-1T 達到開源 SOTA 水平。GAIA2 環境強調跨應用工具協作與複雜任務執行能力,Ring-2.5-1T 在規劃生成與多步工具調用上的效率與準確性均表現突出。

圖片

萬億規模的混合線性注意力架構

在通用智能體時代,深度思考(deep thinking)長程執行(long-horizon agent)正成為語言基座的基本工作範式。這一轉變對基座模型在長程推理解碼效率上的架構能力提出了極高要求。作為邁向智能體模型(agentic model)架構的關鍵一步,Ling 2.5 架構在 Ling 2.0 架構基礎上引入了混合線性注意力架構。通過增量訓練方式,將Ling 2.0 架構的 GQA 升級為1:7 的 MLA + Lightning Linear結構。具體而言,我們基於此前發布的 Ring-flash-linear-2.0 技術路線,將部分 GQA 層改造為 Lightning Linear Attention,以顯著提升長程推理場景下的吞吐能力。為進一步壓縮 KV Cache,將其餘 GQA 層近似轉換為 MLA,並對其中的 QK Norm、Partial RoPE 等特性進行了針對性適配,以增強Ling 2.5 架構在混合注意力架構下的表達能力。

圖片

1T規模下的 Ling 2.5架構

改造後,Ring-2.5-1T 的激活參數量從 51B 提升至 63B。但在混合線性注意力架構的支持下,其推理效率相比 Ling 2.0 仍實現了大規模提升。即便與激活參數僅為 32B 的 KIMI K2 架構相比,1T 規模下的 Ling 2.5 架構在長程推理場景下的吞吐依然具有顯著優勢;且生成長度越長,吞吐優勢越明顯

圖片

單機 8 卡 H20-3e,batch size = 64,不同生成長度下的解碼吞吐(decode throughput)對比

圖片

單機 8 卡 H200,batch size = 64,不同生成長度下的解碼吞吐(decode throughput)對比

圖片

手搓案例

我們將 Ring-2.5-1T 接入到 Claude Code 中,為測試其長程軟體開發能力,我們通過如下的 prompt 要求其自動開發一個微型版操作系統(TinyOS)。

1. 系統啟動流程:
- 使用 GRUB 作為引導加載程序,遵循 Multiboot 標準
- 編寫 boot.asm 彙編文件設置基本的 CPU 模式(32 位保護模式)
- 從彙編跳转到 main.c 的 kernel_main 函數

2. 核心功能實現:
- 屏幕輸出:實現簡單的字符顯示功能(如清屏、打印字符串)
- 中斷處理:設置基本的 GDT 和 IDT,處理鍵盤輸入中斷
- 記憶體管理:實現最基本的記憶體分頁初始化
- 鍵盤支持:能夠接收鍵盤輸入並回顯到屏幕

3. 代碼結構:
- 提供完整的 linker.ld 鏈接腳本
- 提供 Makefile 用於編譯和生成 ISO 鏡像
- 每個關鍵函數都要有清晰的註釋說明

4. 代碼要求:
- 確保代碼簡潔、模組化,避免不必要的複雜性
- 優先實現可工作的最小功能集
- 為後續擴展預留介面

請先輸出完整的代碼文件列表和簡要說明,然後提供每個文件的完整代碼。
生成的所有代碼必須能直接編譯運行,並給出具體的編譯和測試方法。
你需要保證可以使用 qemu 來實際運行這個操作系統。

Ring-2.5-1T 在 Claude Code 中運行於 2 小時 8 分鐘,最終完成了上述任務,詳細記錄如下視頻:

我們嘗試繼續讓 Ring-2.5-1T 豐富 TinyOS 的功能,輸入如下 prompt:

好的,現在你繼續開發,實現好 bash 的功能,使得使用 qemu 可以登錄到一個 bash 命令介面,以執行一些簡單的命令,比如 ls、pwd、cat 等。

最終開發的 TinyOS 如下視頻所示:

我們也將 Ring-2.5-1T 接入到個人 AI 助理 OpenClaw,幫助閱讀 AI infra 文獻,並用 JAVA 代碼展示技術邏輯。

圖片

局限性與未來計劃

這一版本模型在 token efficiency 與指令遵從方面仍存在不足,在面向更真實、更複雜任務的長程執行與實際交付能力上,也仍有較大的優化空間。我們將在後續版本中持續改進上述能力,並非常期待來自社區的使用反饋與建議。目前,Ring-2.5-1T 的訓練仍在持续推进中。完整技術報告將在下一版本發布後正式公開。

此外,需要說明的是,上述 GAIA2 榜單評測採用的是社區廣泛使用的 OpenAI function call 格式,而非原始的 ReAct 格式。相關評測配置與方案將提交至 GAIA2 的 GitHub 倉庫,供社區進行更廣泛、可復現的對比與評測。

歡迎大家訪問我們的开源倉庫和體驗頁面進行下載使用

🤗 Hugging Face: https://huggingface.co/inclusionAI/Ring-2.5-1T

🤖 ModelScope: https://modelscope.cn/models/inclusionAI/Ring-2.5-1T

Ling Studiohttps://ling.tbox.cn/chat)與ZenMuxhttps://zenmux.ai/)的 Ring-2.5-1T Chat 體驗頁和 API 服務將在近期上線。

點擊【閱讀原文】,訪問 Ring-2.5-1T 的 Hugging Face 地址。


分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.