太狂了!面壁讓 AI 自己寫訓練框架,結果訓出地表最強 1B 模型 MiniCPM5-1B

面壁剛剛發表了 MiniCPM5-1B,成為 1B 參數規模中,效能最強的終端側文字大模型。

AA 智能指數

在《Artificial Analysis》智能指數(AA Intelligence Index)上,MiniCPM5-1B 拿下 17.9 分,位居所有小尺寸模型之冠。

這次還有個非常特別的地方:MiniCPM5-1B 的 Base Model 版本,是使用一套完全由 AI 編寫的訓練框架 ForgeTrain 訓練出來的

更猛的是,這套框架在 NVIDIA H100 上,跑得比 NVIDIA 自家的 Megatron 還要快上 10%。

AI 鍛造最強小尺寸模型

AI 自己寫框架,訓出該尺寸最強模型,速度還超越 NVIDIA 原廠。這正是面壁正在實踐的重要方向:

用 AI 製造 AI。

效能表現

就效能來說,MiniCPM5-1B 在綜合知識、數學推理、程式撰寫、邏輯推理、工具調用等各項指標上,全面輾壓 Qwen3.5-0.8B、Qwen3-0.6B、LFM2.5-1.2B-Thinking 等同尺寸模型。

能力雷達圖

而且 MiniCPM5-1B 甚至打敗了參數量多一倍的 Qwen3.5-2B(16.3 分),拿下《Artificial Analysis》智能指數小尺寸模型的第一名,再次展現以小搏大的傳統。

把智能指數和參數量放在同一張圖中,就更清楚了:MiniCPM5-1B 落在左上角的「最佳象限」,體積最小、分數最高。

MiniCPM5-1B 最強象限

MiniCPM5-1B 再次刷新模型的智能密度天花板:僅憑 1B 參數規模,就在國際知名榜單 AA-Index 上超越所有 2B 參數以下模型;相比 3 個月前發表的 Qwen3.5-2B,MiniCPM5-1B 不僅效果更好,參數量還直接砍半。

這進一步驗證了面壁長期以來觀察到的密度定律:

大模型的智能密度正以大約每 3.5 個月翻一倍的速度持續提升。更小的模型,正乘載著更高的智能密度。

就推理效率而言,在同等智能水準下,MiniCPM5-1B 消耗的輸出 token 是最少的。

智能 vs 推理消耗

其他 benchmark 的詳細成績如下,涵蓋 GDPval-AA、Terminal-Bench Hard、SciCode、IFBench、GPQA Diamond 等 13 項評測:

← 左右滑動查看完整圖表 →

Benchmark 1
Benchmark 2
Benchmark 3
Benchmark 4
Benchmark 5
Benchmark 6
Benchmark 7
Benchmark 8
Benchmark 9
Benchmark 10
Benchmark 11
Benchmark 13

對終端裝置友善向來是小鋼炮系列的傳統,而這次 MiniCPM5-1B 的部屬門檻更是低到……幾乎沒有門檻:

FP16 權重約 2GB,適合 GPU 或高階筆電,零量化損失
INT8 約 1GB,筆電和邊緣運算盒子都能跑,幾乎無損
INT4 約 0.5GB,手機、平板、車載系統都行,幾乎無損

CPU 能跑,瀏覽器裡也照樣能跑。搭配面壁之前發表的自研 CPU 推理框架 ArcLight,配合 MiniCPM5-1B 的 INT4 量化版,在任意一個瀏覽器裡就能斷網直接開始推理。

能力出色的 1B 模型也能驅動各式各樣的應用,例如每個人都能養一隻的「桌面寵物」。面壁這次順手做了一個桌寵專案(基於 clawd-on-desk 二次開發),讓 MiniCPM5-1B 變成一隻住在你桌面上的 AI 小寵物。

AI 桌寵

1B 的體量,幾乎任何硬體都跑得動,真正做到「每個人都養得起」的小寵物。

部署和微調方面,模型推理支援 vLLM、SGLang、llama.cpp、Ollama、LM Studio、MLX 等主流框架;微調支援 LLaMA-Factory、ms-swift、unsloth、xtuner、TRL+PEFT。

面壁甚至還貼心提供 Claude Code skills,可以直接丟給 cc 一鍵完成面壁模型的部署與微調。

資料治理

MiniCPM5-1B 能在 1B 規模打出如此亮眼的成績,資料治理是關鍵之一。

面壁設計了一套分級資料治理方案,將資料按品質從 L0 到 L4 分成五個等級,並逐級篩選、提煉。而且不像傳統認為「資料越多越好」,每一級都有不同粒度的清洗、去重和合成策略。

這份核心資料集也在這次隨模型一起開源了:Ultra-FineWeb-L3

資料淘金漏斗

它以 MiniCPM4 訓練用的兆級詞元高品質資料 Ultra-FineWeb 為種子(L2 級精篩資料),在此基礎上進行多種風格與形式的合成與增強,形成 MiniCPM5-1B 退火階段的關鍵訓練燃料。

Ultra-FineWeb-L3 數據規模
總量 超過 1T Tokens
英文 680B+ Tokens
中文 410B+ Tokens,開源規模最大的中文預訓練合成資料

對於做中文模型的團隊來說,這批資料可說是價值連城。此外,資料治理的技術報告也一併公開了(見文末連結)。

ForgeTrain:AI 自己寫的訓練框架

那 MiniCPM5-1B 是怎麼訓出來的呢?

這就是另一個重頭戲了:新模型的 Base Model 版本,在預訓練階段用的不是 Megatron,也不是其他工程師寫的框架,它叫做 ForgeTrain,一個完全由 AI 編寫的訓練框架

用你可能更熟悉、且確實更精確一點的話來說就是:

全球首個完全由 AI 編寫生產級大模型訓練框架。

「生產級」這三個字,極度關鍵。

VibeTensor vs ForgeTrain

NVIDIA 實驗室先前發表過 VibeTensor(陳天奇、賈揚青等人參與),號稱「首個完全由 AI 生成的深度學習系統」。

但它比 PyTorch 慢 1.7 到 6.2 倍,官方自己標註了「請勿用於生產環境」,本質上,還是個研究原型。

而 ForgeTrain,卻在 NVIDIA H100 上跑出比 Megatron 快 10% 的訓練速度,精度完全對齊(人評和機評與原版模型一致),連續跑了好幾天後,穩定地完成模型訓練。

比 NVIDIA 自家的框架還快,不只是「能用」,還是「更好用」。
人類按下 START

整個編寫過程中,人類其實完全沒有介入。按下 start 之後……AI 自己寫個一兩天,基於預先設定好的驗收標準,AI 確認通過後,人類就可以直接拿去用了。

據說面壁內部,已經用同樣的方法搞定 8B 模型 / 華為昇騰的框架 MindSpeed、MOE 等更複雜的架構。而且這套技術的可重複使用性極高,擴展到更大模型可能就一兩個月的事。

Forge Engineering:訂製化軟體程式設計典範

做出如此成績的 ForgeTrain 背後,是由一套被面壁稱作 Forge Engineering 的程式設計典範支撐,即訂製化軟體程式設計典範

聽起來有點陌生,但思路上很簡單:

傳統訓練框架如 Megatron,要同時支援千問、DeepSeek、MOE 等各種架構,全塞在一套框架裡。就像一支通用手機,要滿足所有人的需求,必然處處妥協、有所讓步。

但如果,AI 寫程式的成本趨近於零呢?

千問和 DeepSeek 的模型架構有不小差異,那就不用非得搞一套通用的,而是可以直接從零各寫一份,再針對性地各自優化到極致。MiniCPM 也正是這樣,從零寫了一套。

所有程式碼都是為特定需求現場訂製的。

通用框架 vs 訂製鍛造

打個比方,現在的通用框架像蘋果手機,一個產品需要服務所有人。而 Forge Engineering 的未來,則是賈伯斯坐在你旁邊,為你打造一支完全滿足你個人需求的獨特手機。

OpenAI 之前也提過一個類似的概念,叫 Harness Engineering,它也自動化了評判環節。但 Forge Engineering 則更進一步:程式碼都交給 AI,按需求打造,用完即棄。同一套驗收標準,換個場景、換個晶片,AI 就能鍛出一份全新的實作。

關於 ForgeTrain 的開發過程,面壁公開了一套三步走的方法:

STEP 1
出考試大綱
先從 Megatron 這樣的現有框架裡擷取關鍵數據,定好驗收標準。
STEP 2
先確保及格
讓 AI 在這套標準的約束下,寫出一個和原版訓練結果完全一致的框架。
STEP 3
從及格到超越
放開限制,讓 AI 自由迭代優化,直到跑贏 Megatron。

在 Claude Code 和 Codex 推出 /goal 功能之前,我就也常常這樣玩,不過我主要寫寫工程程式碼或是訓個小尺寸模型,還真沒想過拿來搞一套更好的訓練框架……

用 AI 造 AI

ForgeTrain 和 Forge Engineering 背後,其實是一個全新的研發典範:用 AI 來造 AI。

在我看來,這件事已經到了最關鍵的時刻。

能力進步公式

不論 Scaling Law 是否已經撞牆,或者算力、數據、電力哪個快要見頂。但公式裡還有一個變數沒有被充分重視:研發週期

AI 寫程式的效率是人的 10 到 100 倍,把這個效率用在 AI 研發本身,研發週期就能從 18 個月壓到 6 個月,甚至 1 個月、1 天。

為此,面壁還提出一套 L1 到 L5 的分級體系,對標 OpenAI 對 AGI 的五級劃分:

L1-L5 階梯
L1 提建議(GitHub Copilot)
L2 輔助研發(Claude Code、Codex、Cursor)
L3 端到端閉環交付(ForgeTrain)
L4 遞迴自改進,AI 改造 AI 自身
L5 自主探索,AI 自己訂研究方向

目前通用 AI 程式設計大概在 L3 的水準,但「用 AI 造 AI」這件事還落後一個身位,差不多在 L2 剛穩、L3 正要點火的階段。

而 ForgeTrain 就是 L3 的一次實質落地。

另一邊的御三家也都在往這個方向探索:Claude 一小時破解了人類自己都攻不下的開放數學問題;OpenAI 三人小隊靠 AI 寫出百萬行生產級軟體;DeepMind 讓 AI 獨立寫出博士級數學論文。

Anthropic 的 CEO Dario 甚至直接宣稱:自動化 AI 研究,是 AGI 時間表上最強的加速器

對台灣來說,這個方向或許尤其值得關注。高端晶片持續受限,中美加速卡的比例大約在 1:10,單靠堆算力根本走不通。

晶片數量無法改變,那就提升每一塊晶片的研發效率。讓 AI 自己來製造 AI,可能是目前最現實的路徑。

國產晶片軟體生態的破局

ForgeTrain 已經成功移植到華為昇騰,並且在華為昇騰上成功訓練出 MiniCPM5-1B。

我們知道,NVIDIA 真正的護城河,其實是 CUDA 的軟體生態。老黃反覆強調「NVIDIA 本質上是一家軟體公司」,這十多年累積下來的開發者生態、演算法庫和訓練框架,讓你一旦用了 NVIDIA,基本上就回不去了。

而華為晶片在硬體上的進步雖然快,但軟體生態一直是最大的軟肋。每個實驗室、每個事業部都有自己的一套東西,使用者連該用哪個都搞不清楚。

想在華為卡上辦一件事,常常會這裡缺一塊、那裡缺一塊。

CUDA 生態 vs 華為拼圖

以前也不是沒人想過解決這個問題。像 TVM 這類編譯框架做了五到十年,並以「寫一份程式碼,所有晶片都能跑」為目標。但現實則是,只做到「能跑」,離「跑得好」還差得遠。

畢竟晶片種類和演算法的組合實在太多了,一套通用方案要把每種組合都優化到位,難度還是非常高。

而現在大模型給了一個新思路:既然 AI 寫程式幾乎不花什麼成本了,那就不用再維護一個笨重的萬能框架,而是乾脆直接為每款晶片、每個模型現場訂製一份專屬實作,效能上反而還能做到最優

華為晶片 AI 訂製化

面壁的計畫是:年內把大模型訓練各環節(預訓練、微調、強化學習、量化部署、推理)中不好用的軟體,全部用 AI 重寫

拿到一個新模型,直接告訴系統要訓練什麼,系統就幫你生成一套對應的框架。

可以說,要能好好用上國產晶片這件事,

ForgeTrain,可能就是第一步。

相關文章推薦

分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.