面壁智能9B端側全モーダルオープンソース：見ながら聞き、いつでも中断、即時対話

対話機AIとの別れ！

面壁智能 MiniCPM-o 4.5 全モーダルでAIとの即時自由対話を実現。

MiniCPM-o 4.5はわずか9Bパラメータの小型モデルで、端側で見ながら、聞きながら、能動的に話す全二重通信インタラクションを実現し、いつでもAIと対話でき、いつでも中断し、即座に反応します。

現在のAIアシスタントとのインタラクションでは、まずあなたが話し終え、AIが処理し、返答し、それからあなたが再说する必要があります。

この断片的なインタラクション体験は、MiniCPM-o 4.5の前では過去のものとなりました。

ネイティブな全二重通信の全モーダル大規模モデルとして、わずか9Bパラメータの規模で、業界最高レベルの視覚と音声能力を搭載し、人間のように「一心多用」を学びました。

それは話し的同时にあなたの中断を聞き続け、ビデオストリームを観察的过程中に能動的にコメントを発起することができ、この即時自由対話能力はAIに真にインタラクションの魂を持たせました。

全二重通信が再構築する人間機械インタラクションの感覚体験

MiniCPM-o 4.5は全二重通信多モーダルリアルタイムストリームメカニズムを導入し、視覚、音声、テキストの入出力を三条並行不悖の高速道路のようにし、互いに阻塞しません。

たとえモデルがあなたに向かって滔々と複雑な物理概念を説明していても、その「目」は依然としてビデオストリームの変化に注目し、その「耳」は依然としてあなたが突然挿入した疑問を捕捉します。

この体験はもはや機械に指令を下すのではなく、敏捷な思考を持つパートナーとの交流です。

人間の本能のような滑らかさを実現するために、MiniCPM-o 4.5は極めて巧妙な時分割多重化メカニズムを採用しました。

それはすべての入出力ストリームをミリ秒単位の時間線上で同期し、並行する全モーダルストリームを微小な周期的な時間スライスに分割します。

言語モデルの幹はこれらの極めて短い時間スライス内で処理タスクを高速に切り替え、マクロ的には「見ながら、聞きながら、話しながら」の完璧な融合を呈します。

能動的インタラクションはこの技術革新がもたらした最も魅力的な特性です。

従来のモデルは、叩かれなければ決して動かない人形のようで、VAD（音声活動検出）などの外部ツールに依存してユーザーが話しを終えたかどうかを判断し、返答を開始するかどうかを決定する必要がありました。

MiniCPM-o 4.5はこの判断をモデルの直感に内蔵しました。

それは1Hzの頻度でビデオと音声ストリームを継続的に監視し、脳は毎秒意思決定を行います：今の状況で私が発言する必要があるか？

この高頻度の自律意思決定能力は、「六路を眼で見、八方を耳で聞く」ような機知を備えさせました。

あなたがスマートグラスを装着してキッチンで忙しく、期限切れの醤油の瓶を手に持って迷っている時、「嘿、帮我看看这个」という指令を出す必要はありません。MiniCPM-o 4.5はビデオストリームからこの詳細を捕捉し、「保質期に注意してください、その醤油の瓶はもう食べられません」と能動的に注意を促します。

受動的応答から能動的関心への飛躍は、AIの存在感をツールからパートナーへ昇華させました。

音声の表現力は、真実のインタラクション感を構築するもう一つのパズルです。

乾いた機械的な電子音は複雑な交流感情を担うことはできません。

MiniCPM-o 4.5は音声生成において新しいデータ方法で全面的なアップグレードを行いました。単にテキストを朗読するだけでなく、文脈に応じて最適な口調と音色を自動的に選択できます。

長音声合成で一般的な音色の漂移と口調の断絶の問題に対し、モデルはテキストと音声トークンを交差してモデル化する方法を採用しました。設計は全二重通信のリアルタイム生成をサポートし、たとえ1分を超える長文であっても、音声の安定性、擬人度、表現力が一貫して維持されることを保証します。

それはまた音声克隆能力を持っています。単純な参照音声クリップがあれば、MiniCPM-o 4.5はすぐにその音色特徴を捕捉し、随后の対話で完璧に再現します。

由此、あなたは特定の克隆音色でロールプレイを行うことを指定できます。複雑なファインチューニングは不要で、推論段階の単純なプロンプトでカスタマイズを完了できます。

これは現在市場にある多くの専門的なTTS（Text-to-Speech、テキストから音声）ツールよりも優秀で柔軟です。

小パラメータの高密度爆発

MiniCPM-o 4.5の強さは、極めて効率的なエンドツーエンドアーキテクチャ設計に由来します。

合計でわずか9Bパラメータのモデルの中に、SigLip2、Whisper-medium、CosyVoice2、Qwen3-8Bなど複数分野のトップ成果を融合しています。

それは緩やかな外付け組み合わせを採用せず、各モーダルのエンコーダとデコーダを密な特徴量で大規模言語モデルと紧密に縫合しました。

このエンドツーエンド設計哲学は、従来の多モーダルシステムにおける情報損耗問題を解決しました。

非エンドツーエンドシステムでは、視覚信号はまずテキスト記述に翻訳され、それから言語モデルに処理されますが、この「翻訳」過程で詳細が失われてしまいます。

MiniCPM-o 4.5の視覚と聴覚信号は直接特徴量として言語モデルの脳に入り、無損失の情報流転を実現します。

この高密度能力は視覚理解において特に驚異的です。

MiniCPM-o 4.5はOpenCompassという8つの主要ベンチマークをカバーする総合評価で、77.6の平均点を獲得しました。

この成績はGPT-4oやGemini 2.0 Proのような大規模な専有モデルを超越し、Gemini 2.5 Flashのレベルに近づいています。

端側で実行可能なモデルにとって、これはほぼ想像を超えた越級挑戦です。

視覚>視覚処理の繊細さは、モデルの実際の応用における上限を直接決定します。

MiniCPM-o 4.5は最大180万画素の高解像度画像を処理し、任意の縦横比で解析できます。

長方形の領収書、広角のパノラマ写真、詳細が密集したドキュメントなど、すべて余裕を持って処理できます。

OmniDocBenchリストにおいて、エンドツーエンド英語ドキュメント解析タスクでSOTAの成績を収め、Gemini-3 Flash、GPT-5、専門的なOCRを行うDeepSeek-OCR 2を後方に引き離しました。

ビデオ理解能力も今回のアップグレードの目玉です。

モデルは最大10fps（Frames Per Second、1秒あたりのフレーム数）の高フレームレートビデオストリームを効率的に処理します。それは断片的なスライドショーではなく、流暢で連続した動的世界を見ます。

この高刷視覚理解能力は能動的インタラクションの基盤です。見えて、追従できて初めて、最も適切なタイミングで反応できます。

視覚エンコーダと音声エンコーダは两只の敏感な触角のように、捕捉した外部世界を絶えず中間のLLM（Large Language Model、大規模言語モデル）に供給します。

MMHal-Benchでのテストでは、その行動表現が非常に信頼でき、幻覚率が低く、Gemini 2.5 Flashと同等のレベルに達しています。

それは30種類以上の言語の多言語能力をサポートし、文化的な壁を越えて、より広いグローシナリオで機能します。

テキスト能力も同パラメータモデル中最高峰です。

「万能小鋼砲」の特質は、面壁智能が一貫して追求するモデルの「能効比」の極限を体現しています。より低いVRAM使用量、より速い応答速度で、SOTA級の多モーダル表現を維持し、より高い推論効率とより低い推論コストを実現しました。

9Bというゴールドサイズにおいて、視覚理解、ドキュメント解析、音声対話、音声克隆など全方位の能力を網羅し、All in Oneを実現しました。

端末普及のストリーミング全モーダル

MiniCPM-o 4.5は使いやすさと展開の柔軟性に十分配慮し、千家万戸に入る実用的なツールとして準備されています。

開発者とギークにとって、MiniCPM-o 4.5は極めて豊富な「使い方」を提供します。

それはllama.cppとOllamaを完璧にサポートし、普通のパーソナルコンピュータや高性能スマートフォンでも、CPUを使って効率的な推論が可能です。

異なるハードウェアのVRAM制限に適応するために、公式は16種類の異なるサイズのint4とGGUF形式の量子化モデルを提供しています。

あなたのデバイスが最高性能のワークステーションでも、数年前の古いノートPCでも、必ず実行に適したバージョンが見つかります。

生産環境の高スループットシナリオでは、vLLMとSGLangのサポートが、モデルがメモリ効率的に大規模サービスを提供することを保証します。

そして、国产チップ上に展開したいユーザーにとって、FlagOSのサポートは複数の国产チップの壁を打通し、クロスプラットフォームのエンドツーエンド推論性能向上を実現しました。

開発者が第一时间で全二重通信ライブの魅力を体験できるように、面壁智能は高性能推論フレームワークllama.cpp-omniをオープンソースし、WebRTCデモを付属しました。

ローカル展開能力は、プライバシー保護と応答速度において代替不可能な利点があります。

あなたのビデオストリームと音声データはクラウドにアップロードする必要がなく、すべての処理がローカルで完了します。

モデルを特定の分野知識にさらに理解させたいユーザーにとって、LLaMA-Factoryのサポートはファインチューニングをシンプルで直接的にします。

垂直業界の専門用語でも、特定シナリオのインタラクションロジックでも、低コストのファインチューニングで迅速に適応できます。

MiniCPM-o 4.5は、AIハードウェア形態の進化の新しい方向を私たちに見せました。

それはスマートグラスの魂となり、リアルタイムで見ているものを教えてくれます；それはロボットの脳となり、複雑な環境で自律的にナビゲートし、人間と交流します；それは車載アシスタントの核心となり、運転过程中に真に心のこもった能動的アドバイスを提供します。

無料体験：

https://minicpm-omni.openbmb.cn/

https://huggingface.co/spaces/openbmb/MiniCPM-o-4_5-Demo

参考資料：

https://github.com/OpenBMB/MiniCPM-o

https://huggingface.co/openbmb/MiniCPM-o-4_5

面壁智能9B端側全モーダルオープンソース：見ながら聞き、いつでも中断、即時対話

全二重通信が再構築する人間機械インタラクションの感覚体験

小パラメータの高密度爆発

端末普及のストリーミング全モーダル

関連記事

分享網址