面壁智能9B端側全模態開源:邊看邊聽、隨時打斷、即時互動

告別對講機 AI!

面壁智能 MiniCPM-o 4.5 全模態實現與 AI 即時自由對話。

MiniCPM-o 4.5 僅用 9B 參數的小身板,在端側實現了邊看、邊聽、主動說的全雙工互動,隨時與 AI 互動,隨時打斷,即時反應。

現在與 AI 助手互動,你必須先說完,它處理,它回覆,然後你再說。

這種割裂的互動體驗在 MiniCPM-o 4.5 面前成為了歷史。

作為一個原生全雙工的全模態大模型,在只有 9B 參數的體量下,塞進了行業最頂尖的視覺和語音能力,還學會了像人類一樣「一心多用」。

圖片

它能在說話的同時繼續傾聽你的打斷,能在觀察影片串流的過程中主動發起評論,這種即時自由對話的能力讓 AI 真正擁有了互動的靈魂。

全雙工重構人機互動的感官體驗

MiniCPM-o 4.5 引入了全雙工多模態即時流機制,讓視覺、音訊和文字的輸入輸出如同三條並行不悖的高速公路,互不阻塞。

即使模型正在向你滔滔不絕地解釋一個複雜的物理概念,它的「眼睛」依然在注視著影片串流中的變化,它的「耳朵」依然在捕捉你突然插入的疑問。

這種體驗不再是向一個機器下達指令,而是與一個思維敏捷的夥伴進行交流。

為了實現這種如同人類本能般的流暢感,MiniCPM-o 4.5 採用了極為精妙的時分復用機制。

它將所有輸入和輸出流在毫秒級的時間線上進行了同步,把並行的全模態流切分成了微小的週期性時間片。

語言模型的主幹在這些極短的時間片內快速切換處理任務,在宏觀上呈現出一種同時也「在看、在聽、在說」的完美融合。

主動互動是這一技術變革帶來的最迷人特性。

以往的模型像是一個如果不被戳一下就永遠不會動彈的木偶,必須依賴 VAD(Voice Activity Detection,語音活動檢測)等外部工具來判斷用戶是否停止說話,以此決定是否開始回覆。

MiniCPM-o 4.5 則將這種判斷內化為模型的一種直覺。

它以 1Hz 的頻率持續監控影片和音訊流,大腦每秒鐘都在進行決策:現在的場景是否需要我開口?

這種高頻的自主決策能力讓它具備了「眼觀六路、耳聽八方」的靈性。

當你戴著智慧眼鏡在廚房忙碌,手裡拿著一瓶過期的醬油猶豫不決時,不需要你發出「嘿,幫我看看這個」的指令,MiniCPM-o 4.5 透過影片串流捕捉到這一細節,會主動提醒你「注意看保質期,那瓶醬油已經不能吃了」。

這種從被動回應到主動關懷的跨越,讓 AI 的存在感從工具升維到了夥伴。

聲音的表達力是構建真實互動感的另一塊拼圖。

乾癟機械的電子音無法承載複雜的交流情感。

MiniCPM-o 4.5 在語音生成上透過新的資料方法進行了全面升級,它不再只是朗讀文字,而是能夠根據上下文自動選擇最合適的語氣和音色。

針對長語音合成中常見的音色漂移和語氣斷層問題,模型採用了文字與語音 token 交錯建模的方式。設計支援了全雙工的即時生成,保了即使是超過 1 分鐘的長篇大論,其聲音的穩定性、擬人度和表現力依然始終如一。

它還具備聲音複製能力。只需要一個簡單的參考音訊片段,MiniCPM-o 4.5 就能迅速捕捉其中的音色特徵,並在隨後的對話中完美複刻。

由此你可以指定它用特定的複製音色進行角色扮演。不需要複雜的微調,推論階段的一個簡單提示詞就能完成客製化。

這比目前市面上許多專門的 TTS(Text-to-Speech,文字轉語音)工具表現得更為出色和靈活。

小參數的高密度爆發

MiniCPM-o 4.5 的強大源於極其高效的端到端架構設計。

在一個總共只有 9B 參數的模型中,融合了 SigLip2、Whisper-medium、CosyVoice2 和 Qwen3-8B 等多個領域的頂尖成果。

它沒有採用鬆散的外掛式組合,而是將各模態的編碼器和解碼器透過稠密特徵與大語言模型緊密縫合。

圖片

這種端到端的設計哲學解決了傳統多模態系統中的資訊損耗問題。

在非端到端的系統中,視覺訊號往往需要先被翻譯成文字描述,然後再丟給語言模型處理,這個「翻譯」過程難免會丟失細節。

MiniCPM-o 4.5 的視覺和聽覺訊號直接以特徵的形式進入語言模型的大腦,實現了無損的資訊流轉。

這種高密度的能力在視覺理解上表現得尤為驚人。

圖片

MiniCPM-o 4.5 在 OpenCompass 這一涵蓋了 8 個主流基準的綜合評測中,拿下了 77.6 的平均分。

這個成績不僅超越了 GPT-4o 和 Gemini 2.0 Pro 這樣龐大的專有模型,甚至逼近了 Gemini 2.5 Flash 的水準。

對於一個可以運行在端側的模型來說,這幾乎是不可想像的越級挑戰。

視覺處理的細膩程度直接決定了模型在實際應用中的上限。

MiniCPM-o 4.5 支援處理高達 180 萬像素的高解析度圖像,並且能夠以任意縱橫比進行解析。

無論是長條形的收據、寬幅的全景圖,還是細節密集的文件,它都能遊刃有餘。

在 OmniDocBench 榜單上,它在端到端英文文件解析任務中取得了 SOTA 的成績,將 Gemini-3 Flash、GPT-5 以及專門做 OCR 的 DeepSeek-OCR 2 甩在了身後。

影片理解能力同樣是此次升級的重頭戲。

模型能夠高效處理高達 10fps(Frames Per Second,每秒幀數)的高幀率影片串流。它看到的不再是斷斷續續的幻燈片,而是流暢連貫的動態世界。

這種高刷視覺理解能力是實現主動互動的基礎,只有看得清、跟得上,才能在最恰當的時機做出反應。

視覺編碼器和音訊編碼器像兩隻靈敏的觸角,將捕捉到的外部世界源源不斷地輸送給中間的 LLM(Large Language Model,大語言模型)。

在 MMHal-Bench 上的測試表明,它的行為表現非常可信,幻覺率低,達到了與 Gemini 2.5 Flash 相當的水準。

它支援超過 30 種語言的多語言能力,使其能夠跨越文化的藩籬,在更廣闊的全球場景中發揮作用。

文字能力也是同參數模型的頂尖。

圖片

「全能小鋼炮」的特質,體現了面壁智能一直以來對模型「能效比」的極致追求。它以更低顯存佔用、更快響應速度,保持 SOTA 級多模態表現,實現了更高推論效率與更低推論成本。

圖片

在 9B 這個黃金尺寸上,它涵蓋了視覺理解、文件解析、語音對話、聲音複製等全方位的能力,實現了 All in One。

普惠終端的流式全模態

MiniCPM-o 4.5 在易用性和部署靈活性上做足了功課,是一個準備好進入千家萬戶的實用工具。

對於開發者和極客來說,MiniCPM-o 4.5 提供了極為豐富的「食用方式」。

它完美支援 llama.cpp 和 Ollama,在普通的個人電腦甚至高性能手機上,利用 CPU 就能進行高效的推論。

為了適應不同硬體的顯存限制,官方貼心地提供了 16 種不同尺寸的 int4 和 GGUF 格式量化模型。

無論你的設備是頂配的工作站還是幾年前的舊筆記本,總能找到一款適合運行的版本。

在生產環境的高吞吐場景下,vLLM 和 SGLang 的支援確保了模型能夠以記憶體高效的方式進行大規模服務。

而對於希望在國產晶片上部署的用戶,FlagOS 的支援打通了多款國產晶片的壁壘,實現了跨平台的端到端推論效能提升。

為了讓開發者能夠第一時間體驗到全雙工直播的魅力,面壁智能還開源了一個名為 llama.cpp-omni 的高效能推論框架,並配套了 WebRTC Demo。

本地化的部署能力對於隱私保護和響應速度有著無法替代的優勢。

你的影片串流和語音資料不需要上傳到雲端,所有的處理都在本地完成。

對於希望讓模型更懂特定領域知識的用戶,LLaMA-Factory 的支援讓微調變得簡單直接。

無論是垂直行業的專業術語,還是特定場景的互動邏輯,都可以透過低成本的微調迅速適配。

MiniCPM-o 4.5 讓我們看到了 AI 硬體形態進化的新方向。

它可以是智慧眼鏡的靈魂,實時告訴你看到的是什麼;它可以是機器人的大腦,在複雜的環境中自主導航並與人交流;它可以是車載助手的核心,在駕駛過程中提供真正貼心的主動建議。

免費體驗:

https://minicpm-omni.openbmb.cn/

https://huggingface.co/spaces/openbmb/MiniCPM-o-4_5-Demo

參考資料:

https://github.com/OpenBMB/MiniCPM-o

https://huggingface.co/openbmb/MiniCPM-o-4_5

END

圖片圖片圖片圖片

分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.