仰天……面壁がAIに訓練フレームワークを書かせ、最強の1Bモデル「MiniCPM5-1B」が誕生

面壁智能(ModelBest)は、1Bパラメータ規模で最高性能を誇るエッジ向けテキスト大規模言語モデル「MiniCPM5-1B」を発表しました。

人工知能分析(Artificial Analysis)インテリジェンス指数

Artificial Analysisのインテリジェンス指数(AA Intelligence Index)で、MiniCPM5-1Bは17.9ポイントを獲得し、全小型モデル中で第1位となりました。

今回の特筆すべき点は、MiniCPM5-1Bのベースモデルが、完全にAIによって記述された訓練フレームワーク「ForgeTrain」によって訓練されたことです。

しかも、このフレームワークはNVIDIA H100上で、NVIDIA自社製のMegatronよりも10%高速に動作します。

AIが鍛え上げた最強小型モデル

AI自身が書いたフレームワークが、同規模で最強のモデルを訓練し、その速度はNVIDIA純正をも上回りました。これは面壁智能が実践している重要な方向性を示しています。

AIを使ってAIを製造する。
MiniCPM5-1B

性能面では、MiniCPM5-1Bは総合知識、数学的推論、コードプログラミング、論理的推論、ツール呼び出しなどの次元で、Qwen3.5-0.8B、Qwen3-0.6B、LFM2.5-1.2B-Thinkingといった同サイズのモデルを全面的に上回りました。

能力レーダーチャート

さらにMiniCPM5-1Bは、パラメータ数が倍のQwen3.5-2B(16.3ポイント)を破り、Artificial Analysisインテリジェンス指数で小型モデルのトップに立ち、「小鋼炮(ミニキャノン)」シリーズの常套手段である「小が大を制す」を継承しました。

インテリジェンス指数とパラメータ数を同じグラフにプロットすると、より直感的に理解できます。MiniCPM5-1Bは左上の「最良象限」に位置し、最小の規模で最高スコアを叩き出しています。

指数とパラメータ数の相関図

MiniCPM5-1Bはモデルの「知能密度」の上限を再び更新しました。わずか1Bのパラメータ規模でありながら、国際的に有名な指標AA-Indexで2B以下の全モデルを凌駕。3ヶ月前にリリースされたQwen3.5-2Bと比較して、MiniCPM5-1Bは効果がより優れているだけでなく、パラメータ数も半減しています。

これは面壁が一貫して観測し続けてきた「密度の法則」をさらに裏付けるものです。

大規模モデルの知能密度は、約3.5ヶ月ごとに倍増する速度で持続的に向上しています。より小さなモデルが、より高い知能密度を担うようになっています。

推論効率の面では、同等の知能レベルにおいて、MiniCPM5-1Bが消費する出力トークンは最小です。

知能 vs 推論消費

その他のベンチマークの詳細なスコアは以下の通りです。GDPval-AA、Terminal-Bench Hard、SciCode、IFBench、GPQA Diamondなど13項目の評価をカバーしています。

← 左右にスライドして全項目をご覧ください →

ベンチマーク 1
ベンチマーク 2
ベンチマーク 3
ベンチマーク 4
ベンチマーク 5
ベンチマーク 6
ベンチマーク 7
ベンチマーク 8
ベンチマーク 9
ベンチマーク 10
ベンチマーク 11
ベンチマーク 13

エッジデバイスへの親和性は「小鋼炮」シリーズの伝統ですが、今回のMiniCPM5-1Bの展開ハードルはさらに低く、事実上「皆無」と言えるレベルにまで引き下げられました。

FP16重みは約2GB。GPUや高性能ノートPCに最適で、量子化ロスはゼロです。
INT8約1GB。ノートPCやエッジAIボックスで動作し、ほぼ無損失です。
INT4約0.5GB。スマートフォン、タブレット、車載機でも動作し、ほぼ無損失です。

CPUでも動作し、ブラウザ上でも同様に実行できます。面壁が以前リリースした自社開発のCPU推論フレームワーク「ArcLight」とMiniCPM5-1BのINT4量子化版を組み合わせれば、任意のブラウザでオフラインのまま直接推論を開始できます。

能力に優れた1Bモデルは、誰もが飼育できる「デスクトップペット」のような多様なアプリケーションを駆動します。面壁は今回、手軽にデスクトップペットプロジェクト(clawd-on-deskに基づく二次開発)を公開し、MiniCPM5-1Bをあなたのデスクトップに住むAIペットに変身させました。

デスクトップペット

1Bという規模は、ほぼあらゆるハードウェアで動作可能であり、「誰もが飼える」小さなペットを実現しました。

デプロイとファインチューニングに関して、モデル推論はvLLM、SGLang、llama.cpp、Ollama、LM Studio、MLXなどの主要フレームワークをサポート。ファインチューニングはLLaMA-Factory、ms-swift、unsloth、xtuner、TRL+PEFTをサポートします。

面壁はさらに、Claude Code skillsを提供しており、ccに投げるだけで面壁モデルのデプロイとファインチューニングをワンクリックで完了できます。

データガバナンス

MiniCPM5-1Bが1B規模でこれほど優れた成績を収められた主な要因の一つは、データガバナンスにあります。

面壁は、データ品質をL0からL4の5段階に分け、段階的に選別・精錬する階層型データガバナンスを設計しました。単純に「データは多ければ多いほど良い」のではなく、各レベルで粒度の異なるクリーニング、重複排除、合成戦略を適用しています。

この中核データセットも、今回モデルと共にオープンソース化されました。Ultra-FineWeb-L3です。

データ精錬の漏斗

これは、MiniCPM4の訓練に使用された1兆語の高品質データUltra-FineWebをシード(L2級の精密選別データ)とし、多様なスタイルと形式で合成・強化を行い、MiniCPM5-1Bのアニーリング段階における重要な訓練燃料となったものです。

Ultra-FineWeb-L3 データ規模
総量1T Tokens以上
英語680B+ Tokens
中国語410B+ Tokens、オープンソースで最大規模の中国語事前学習合成データ

中国語モデルを開発するチームにとって、このデータの価値は計り知れません。なお、データガバナンスの技術報告書も併せて公開されています(文末のリンクを参照)。

ForgeTrain

では、MiniCPM5-1Bはどのように訓練されたのでしょうか?

ここがもう一つの目玉です。新モデルのベースモデル版は、事前学習段階でMegatronでも、他の誰かが書いたフレームワークでもなく、ForgeTrainという、完全にAIによって記述された訓練フレームワークを使用しています。

もっと馴染み深く、かつより正確な言い方をするならば、次のようになります。

世界の、完全にAIによって記述された本番環境レベルの大規模モデル訓練フレームワーク。

「本番環境レベル」、この3文字が極めて重要です。

VibeTensor vs ForgeTrain

NVIDIAの研究所は以前、VibeTensor(陳天奇、賈揚清らが参加)を発表し、「完全にAIが生成した初のディープラーニングシステム」と謳いました。

しかし、これはPyTorchより1.7倍から6.2倍遅く、公式自ら「本番環境での使用禁止」と明記していました。本質的にはまだ研究プロトタイプです。

一方ForgeTrainは、NVIDIA H100上でMegatronより10%高速な訓練速度を達成し、精度は完全に一致(人間による評価と機械による評価の両方でオリジナルモデルと一致)。数日間連続稼働させた後も、安定してモデル訓練を完了しました。

NVIDIA自社製フレームワークよりも高速。「使える」だけでなく「より優れている」のです。
人間がSTARTを押す

全過程において、人間は実際にはまったく介入していません。スタートをクリックした後……AIが1〜2日かけて自ら書き、事前に定められた検収基準に基づいて、AIが合格を確認した後、人間はそれを直接使用できるのです。

面壁内部では、既に同様の方法で8Bモデル/ファーウェイAscend向けフレームワークMindSpeed、MoE(混合専門家モデル)といった、より複雑なアーキテクチャでも成功を収めているとのこと。さらにこの技術の再利用性は極めて高く、より大規模なモデルへの拡張も1〜2ヶ月程度で完了する可能性があります。

Forge Engineering

このような成果を上げたForgeTrainの背後には、面壁が「Forge Engineering」と呼ぶプログラミングパラダイム、すなわちカスタマイズド・ソフトウェア・プログラミングパラダイムが存在します。

耳慣れないかもしれませんが、考え方はシンプルです。

Megatronのような従来の訓練フレームワークは、Qwen(千問)やDeepSeek、MoEといった多様なアーキテクチャを同時にサポートし、すべてを一つのフレームワークに詰め込む必要があります。それは、万人のニーズを満たさねばならない汎用スマートフォンのように、必ず妥協や譲歩を強いられます。

しかしもし、AIがコードを書くコストがゼロに近づいたとしたら?

QwenとDeepSeekのモデルアーキテクチャには少なからず違いがあります。であれば、無理に汎用的なものを作る必要はなく、それぞれゼロから書き起こし、それぞれに特化して最適化を極めればよいのです。MiniCPMもまさにそうして、ゼロから一から書き上げました。

すべてのコードは特定のニーズのためにオーダーメイドされたものです。

汎用フレームワーク vs カスタム鍛造

例えるなら、現在の汎用フレームワークはiPhoneのようなものです。一つの製品があらゆる人にサービスを提供します。一方、Forge Engineeringの未来は、スティーブ・ジョブズがあなたの隣に座り、あなたの個人的なニーズを完全に満たす唯一無二の携帯電話を一から作り上げてくれるようなものです。

OpenAIも以前、似た概念として「Harness Engineering」を提唱し、評価プロセスの自動化を実現しました。しかしForge Engineeringはさらに一歩進んでいます。コードはすべてAIに委ね、必要に応じて製造し、使い終わったら破棄するのです。同じ検収基準でも、シーンやチップを変えれば、AIはそれに合わせた全く新しい実装を鍛え上げることができます。

ForgeTrainの開発プロセスについて、面壁は以下の3ステップの方法論を公開しました。

STEP 1
試験範囲の策定
まずMegatronのような既存フレームワークから主要データを収集し、検収基準を定めます。
STEP 2
まずは合格点を確保
AIにこの基準の制約下で、オリジナルと完全に一致する訓練結果を生成するフレームワークを作成させます。
STEP 3
合格から超越へ
制限を解除し、AIに自由に反復最適化させ、Megatronを上回るまで走らせます。

Claude CodeやCodexが/goal機能をリリースする前から、私もよくこうした遊びをしていました。ただ、私は主にエンジニアリングコードを書いたり、小規模モデルを訓練したりする程度で、より優れた訓練フレームワークの作成に利用しようとは、夢にも思いませんでした……。

AIでAIを創る

ForgeTrainとForge Engineeringの背後には、実は全く新しい研究開発パラダイム、「AIでAIを創る」があります。

私の見解では、これは今まさに最も重要な局面を迎えています。

能力進化の方程式

スケーリング則が壁にぶつかっているかどうか、あるいは計算能力、データ、電力のどれが上限に達しつつあるのかは分かりません。しかし、方程式の中にはまだ十分に重視されていない変数があります。研究開発サイクルです。

AIがコードを書く効率は人間の10倍から100倍です。この効率性をAI研究開発そのものに適用すれば、研究開発サイクルは18ヶ月から6ヶ月、さらには1ヶ月、1日へと圧縮できます。

そのために面壁は、OpenAIのAGIに関する5段階の区分に倣った、L1からL5までの階層化体系を提案しています。

L1-L5の階段
L1提案(GitHub Copilot)
L2研究開発支援(Claude Code、Codex、Cursor)
L3エンドツーエンドのクローズドループ提供(ForgeTrain)
L4再帰的自己改善、AIがAI自身を改造
L5自律的探索、AIが自ら研究方向を定める

現在、汎用AIプログラミングはL3レベルに達しつつありますが、「AIでAIを創る」という点では一歩遅れており、L2が安定し、L3に点火しようとしている段階です。

そしてForgeTrainは、まさにL3の具体的な実現例です。

一方、AI御三家もこの方向へ向けて模索を進めています。Claudeは人間が攻略できなかった数学の未解決問題を1時間で解明。OpenAIの3人チームはAIの力で100万行の本番環境向けソフトウェアを作成。DeepMindはAIに博士号レベルの数学論文を単独で執筆させました。

AnthropicのCEOであるDarioは、次のようにまで明言しています。AI研究の自動化は、AGI(汎用人工知能)実現へのタイムライン上で最強の加速器であると。

中国にとって、この方向性は特に重要かもしれません。先端チップの調達が継続的に制限される中、中国と米国のアクセラレーターカードの比率は約10:1です。単に計算能力を積み上げるだけでは到底太刀打ちできません。

チップの枚数が変えられないなら、チップ1枚あたりの研究開発効率を向上させるしかありません。AI自身にAIを製造させることは、現在最も現実的な道筋と言えるでしょう。
国産チップへの適応

ForgeTrainは既にファーウェイのAscend(昇騰)に適応しており、ファーウェイAscend上でMiniCPM5-1Bの訓練に成功しています。

ご存知の通り、NVIDIAの真の堀(競争優位性)は、実はCUDAというソフトウェアエコシステムにあります。ジェンスン・フアンCEOは「NVIDIAは本質的にソフトウェア企業である」と繰り返し強調しています。この10年以上にわたって蓄積された開発者コミュニティ、アルゴリズムライブラリ、訓練フレームワークが、一度NVIDIAを使い始めると、そこから離れられなくなる状況を作り出しています。

一方、ファーウェイのチップはハードウェアの進歩こそ速いものの、ソフトウェアエコシステムは常に最大の弱点でした。各研究室や事業部門がそれぞれ独自のツールを持っており、ユーザーはどれを使うべきかさえ分からない状態です。

ファーウェイのカードで何か一つのことを成し遂げようとすると、あちこちで部品が欠けている状況にしばしば直面します。

CUDAエコシステム vs ファーウェイのパズル

これまで誰もこの問題の解決を考えなかったわけではありません。TVMのようなコンパイルフレームワークは5年から10年かけて開発され、「コードを一度書けば、あらゆるチップで動作する」ことを目標としてきました。しかし現実は、「動作する」ことは達成できても、「優れた性能で動作する」にはまだ遠く及ばないというものでした。

何しろチップの種類とアルゴリズムの組み合わせがあまりにも多く、汎用的なソリューション一つですべての組み合わせを最適化し尽くすのは、依然として非常に困難なのです。

しかし今、大規模モデルが新しい考え方を提示しています。AIがコードを書くコストがほぼゼロになったのなら、重厚長大な万能フレームワークをメンテナンスする必要はもはやなく、むしろチップやモデルごとに、その場で専用の実装をオーダーメイドすれば、性能面ではかえって最適化できるのです。

AIによる専用実装のイメージ

面壁の計画は次の通りです。年内に大規模モデル訓練の全工程(事前学習、ファインチューニング、強化学習、量子化デプロイ、推論)で使い勝手の悪いソフトウェアを、すべてAIによって書き換える

新しいモデルを受け取ったら、訓練内容をシステムに伝えるだけで、システムが自動的に対応するフレームワーク一式を生成してくれる。そういう世界を目指しています。

国産チップをしっかりと使いこなすための第一歩は、

まさにForgeTrainなのかもしれません。

関連記事

分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.