太狂了！面壁讓 AI 自己寫訓練框架，結果訓出地表最強 1B 模型 MiniCPM5-1B

面壁剛剛發表了 MiniCPM5-1B，成為 1B 參數規模中，效能最強的終端側文字大模型。

在《Artificial Analysis》智能指數（AA Intelligence Index）上，MiniCPM5-1B 拿下 17.9 分，位居所有小尺寸模型之冠。

這次還有個非常特別的地方：MiniCPM5-1B 的 Base Model 版本，是使用一套完全由 AI 編寫的訓練框架 ForgeTrain 訓練出來的。

更猛的是，這套框架在 NVIDIA H100 上，跑得比 NVIDIA 自家的 Megatron 還要快上 10%。

AI 自己寫框架，訓出該尺寸最強模型，速度還超越 NVIDIA 原廠。這正是面壁正在實踐的重要方向：

用 AI 製造 AI。

效能表現

就效能來說，MiniCPM5-1B 在綜合知識、數學推理、程式撰寫、邏輯推理、工具調用等各項指標上，全面輾壓 Qwen3.5-0.8B、Qwen3-0.6B、LFM2.5-1.2B-Thinking 等同尺寸模型。

而且 MiniCPM5-1B 甚至打敗了參數量多一倍的 Qwen3.5-2B（16.3 分），拿下《Artificial Analysis》智能指數小尺寸模型的第一名，再次展現以小搏大的傳統。

把智能指數和參數量放在同一張圖中，就更清楚了：MiniCPM5-1B 落在左上角的「最佳象限」，體積最小、分數最高。

MiniCPM5-1B 再次刷新模型的智能密度天花板：僅憑 1B 參數規模，就在國際知名榜單 AA-Index 上超越所有 2B 參數以下模型；相比 3 個月前發表的 Qwen3.5-2B，MiniCPM5-1B 不僅效果更好，參數量還直接砍半。

這進一步驗證了面壁長期以來觀察到的密度定律：

大模型的智能密度正以大約每 3.5 個月翻一倍的速度持續提升。更小的模型，正乘載著更高的智能密度。

就推理效率而言，在同等智能水準下，MiniCPM5-1B 消耗的輸出 token 是最少的。

其他 benchmark 的詳細成績如下，涵蓋 GDPval-AA、Terminal-Bench Hard、SciCode、IFBench、GPQA Diamond 等 13 項評測：

← 左右滑動查看完整圖表 →

對終端裝置友善向來是小鋼炮系列的傳統，而這次 MiniCPM5-1B 的部屬門檻更是低到……幾乎沒有門檻：

FP16 權重約 2GB，適合 GPU 或高階筆電，零量化損失

INT8 約 1GB，筆電和邊緣運算盒子都能跑，幾乎無損

INT4 約 0.5GB，手機、平板、車載系統都行，幾乎無損

CPU 能跑，瀏覽器裡也照樣能跑。搭配面壁之前發表的自研 CPU 推理框架 ArcLight，配合 MiniCPM5-1B 的 INT4 量化版，在任意一個瀏覽器裡就能斷網直接開始推理。

能力出色的 1B 模型也能驅動各式各樣的應用，例如每個人都能養一隻的「桌面寵物」。面壁這次順手做了一個桌寵專案（基於 clawd-on-desk 二次開發），讓 MiniCPM5-1B 變成一隻住在你桌面上的 AI 小寵物。

1B 的體量，幾乎任何硬體都跑得動，真正做到「每個人都養得起」的小寵物。

部署和微調方面，模型推理支援 vLLM、SGLang、llama.cpp、Ollama、LM Studio、MLX 等主流框架；微調支援 LLaMA-Factory、ms-swift、unsloth、xtuner、TRL+PEFT。

面壁甚至還貼心提供 Claude Code skills，可以直接丟給 cc 一鍵完成面壁模型的部署與微調。

資料治理

MiniCPM5-1B 能在 1B 規模打出如此亮眼的成績，資料治理是關鍵之一。

面壁設計了一套分級資料治理方案，將資料按品質從 L0 到 L4 分成五個等級，並逐級篩選、提煉。而且不像傳統認為「資料越多越好」，每一級都有不同粒度的清洗、去重和合成策略。

這份核心資料集也在這次隨模型一起開源了：Ultra-FineWeb-L3。

它以 MiniCPM4 訓練用的兆級詞元高品質資料 Ultra-FineWeb 為種子（L2 級精篩資料），在此基礎上進行多種風格與形式的合成與增強，形成 MiniCPM5-1B 退火階段的關鍵訓練燃料。

Ultra-FineWeb-L3 數據規模

總量超過 1T Tokens

英文 680B+ Tokens

中文 410B+ Tokens，開源規模最大的中文預訓練合成資料

對於做中文模型的團隊來說，這批資料可說是價值連城。此外，資料治理的技術報告也一併公開了（見文末連結）。

ForgeTrain：AI 自己寫的訓練框架

那 MiniCPM5-1B 是怎麼訓出來的呢？

這就是另一個重頭戲了：新模型的 Base Model 版本，在預訓練階段用的不是 Megatron，也不是其他工程師寫的框架，它叫做 ForgeTrain，一個完全由 AI 編寫的訓練框架。

用你可能更熟悉、且確實更精確一點的話來說就是：

全球首個、完全由 AI 編寫的生產級大模型訓練框架。

「生產級」這三個字，極度關鍵。

NVIDIA 實驗室先前發表過 VibeTensor（陳天奇、賈揚青等人參與），號稱「首個完全由 AI 生成的深度學習系統」。

但它比 PyTorch 慢 1.7 到 6.2 倍，官方自己標註了「請勿用於生產環境」，本質上，還是個研究原型。

而 ForgeTrain，卻在 NVIDIA H100 上跑出比 Megatron 快 10% 的訓練速度，精度完全對齊（人評和機評與原版模型一致），連續跑了好幾天後，穩定地完成模型訓練。

比 NVIDIA 自家的框架還快，不只是「能用」，還是「更好用」。

整個編寫過程中，人類其實完全沒有介入。按下 start 之後……AI 自己寫個一兩天，基於預先設定好的驗收標準，AI 確認通過後，人類就可以直接拿去用了。

據說面壁內部，已經用同樣的方法搞定 8B 模型 / 華為昇騰的框架 MindSpeed、MOE 等更複雜的架構。而且這套技術的可重複使用性極高，擴展到更大模型可能就一兩個月的事。

Forge Engineering：訂製化軟體程式設計典範

做出如此成績的 ForgeTrain 背後，是由一套被面壁稱作 Forge Engineering 的程式設計典範支撐，即訂製化軟體程式設計典範。

聽起來有點陌生，但思路上很簡單：

傳統訓練框架如 Megatron，要同時支援千問、DeepSeek、MOE 等各種架構，全塞在一套框架裡。就像一支通用手機，要滿足所有人的需求，必然處處妥協、有所讓步。

但如果，AI 寫程式的成本趨近於零呢？

千問和 DeepSeek 的模型架構有不小差異，那就不用非得搞一套通用的，而是可以直接從零各寫一份，再針對性地各自優化到極致。MiniCPM 也正是這樣，從零寫了一套。

所有程式碼都是為特定需求現場訂製的。

打個比方，現在的通用框架像蘋果手機，一個產品需要服務所有人。而 Forge Engineering 的未來，則是賈伯斯坐在你旁邊，為你打造一支完全滿足你個人需求的獨特手機。

OpenAI 之前也提過一個類似的概念，叫 Harness Engineering，它也自動化了評判環節。但 Forge Engineering 則更進一步：程式碼都交給 AI，按需求打造，用完即棄。同一套驗收標準，換個場景、換個晶片，AI 就能鍛出一份全新的實作。

關於 ForgeTrain 的開發過程，面壁公開了一套三步走的方法：

STEP 1

出考試大綱

先從 Megatron 這樣的現有框架裡擷取關鍵數據，定好驗收標準。

STEP 2

先確保及格

讓 AI 在這套標準的約束下，寫出一個和原版訓練結果完全一致的框架。

STEP 3

從及格到超越

放開限制，讓 AI 自由迭代優化，直到跑贏 Megatron。

在 Claude Code 和 Codex 推出 /goal 功能之前，我就也常常這樣玩，不過我主要寫寫工程程式碼或是訓個小尺寸模型，還真沒想過拿來搞一套更好的訓練框架……

用 AI 造 AI

ForgeTrain 和 Forge Engineering 背後，其實是一個全新的研發典範：用 AI 來造 AI。

在我看來，這件事已經到了最關鍵的時刻。

不論 Scaling Law 是否已經撞牆，或者算力、數據、電力哪個快要見頂。但公式裡還有一個變數沒有被充分重視：研發週期。

AI 寫程式的效率是人的 10 到 100 倍，把這個效率用在 AI 研發本身，研發週期就能從 18 個月壓到 6 個月，甚至 1 個月、1 天。

為此，面壁還提出一套 L1 到 L5 的分級體系，對標 OpenAI 對 AGI 的五級劃分：

L1 提建議（GitHub Copilot）

L2 輔助研發（Claude Code、Codex、Cursor）

L3 端到端閉環交付（ForgeTrain）

L4 遞迴自改進，AI 改造 AI 自身

L5 自主探索，AI 自己訂研究方向

目前通用 AI 程式設計大概在 L3 的水準，但「用 AI 造 AI」這件事還落後一個身位，差不多在 L2 剛穩、L3 正要點火的階段。

而 ForgeTrain 就是 L3 的一次實質落地。

另一邊的御三家也都在往這個方向探索：Claude 一小時破解了人類自己都攻不下的開放數學問題；OpenAI 三人小隊靠 AI 寫出百萬行生產級軟體；DeepMind 讓 AI 獨立寫出博士級數學論文。

Anthropic 的 CEO Dario 甚至直接宣稱：自動化 AI 研究，是 AGI 時間表上最強的加速器。

對台灣來說，這個方向或許尤其值得關注。高端晶片持續受限，中美加速卡的比例大約在 1：10，單靠堆算力根本走不通。

晶片數量無法改變，那就提升每一塊晶片的研發效率。讓 AI 自己來製造 AI，可能是目前最現實的路徑。

國產晶片軟體生態的破局

ForgeTrain 已經成功移植到華為昇騰，並且在華為昇騰上成功訓練出 MiniCPM5-1B。

我們知道，NVIDIA 真正的護城河，其實是 CUDA 的軟體生態。老黃反覆強調「NVIDIA 本質上是一家軟體公司」，這十多年累積下來的開發者生態、演算法庫和訓練框架，讓你一旦用了 NVIDIA，基本上就回不去了。

而華為晶片在硬體上的進步雖然快，但軟體生態一直是最大的軟肋。每個實驗室、每個事業部都有自己的一套東西，使用者連該用哪個都搞不清楚。

想在華為卡上辦一件事，常常會這裡缺一塊、那裡缺一塊。

以前也不是沒人想過解決這個問題。像 TVM 這類編譯框架做了五到十年，並以「寫一份程式碼，所有晶片都能跑」為目標。但現實則是，只做到「能跑」，離「跑得好」還差得遠。

畢竟晶片種類和演算法的組合實在太多了，一套通用方案要把每種組合都優化到位，難度還是非常高。

而現在大模型給了一個新思路：既然 AI 寫程式幾乎不花什麼成本了，那就不用再維護一個笨重的萬能框架，而是乾脆直接為每款晶片、每個模型現場訂製一份專屬實作，效能上反而還能做到最優。

面壁的計畫是：年內把大模型訓練各環節（預訓練、微調、強化學習、量化部署、推理）中不好用的軟體，全部用 AI 重寫。

拿到一個新模型，直接告訴系統要訓練什麼，系統就幫你生成一套對應的框架。

可以說，要能好好用上國產晶片這件事，

ForgeTrain，可能就是第一步。

Hugging Face：https://huggingface.openbmb.com/model/openbmb/MiniCPM5-1B

ModelScope：https://modelscope.cn/models/OpenBMB/MiniCPM5-1B

GitCode：https://ai.gitcode.com/OpenBMB/MiniCPM5-1B

魔樂社群：https://modelers.cn/models/OpenBMB/MiniCPM5-1B

桌寵專案：https://github.com/OpenBMB/MiniCPM-Desk-Pet

資料治理論文：https://arxiv.org/pdf/2602.09003

CPU 推理框架 ArcLight：https://github.com/OpenBMB/ArcLight

ForgeTrain 開源連結：https://github.com/OpenBMB/ForgeTrain（5.26 晚間上線）

太狂了！面壁讓 AI 自己寫訓練框架，結果訓出地表最強 1B 模型 MiniCPM5-1B

相關文章推薦

分享網址