近兩年,大模型領域真正制約產業發展的關鍵,已從參數規模轉向推理效率。
模型規模不斷擴大,算力與顯存壓力猶如一道高牆,橫亙在落地應用之前。
尤其當應用從簡單對話延伸至長文档理解、代碼庫級分析、長週期智能體任務後,傳統架構的瓶頸日益凸顯。
許多團隊致力於優化訓練技巧、壓縮權重、進行蒸餾,卻鮮有人直接動底層注意力結構,因為這意味著必須重新審視整個Transformer範式。
面壁智能此次公開的 Linear-Sparse 混合注意力架構 SALA 及對應模型 MiniCPM-SALA,在核心結構層的技術路線上,提供了與眾不同的解答。
新模型能力提升如今已不稀奇,但若是一次架構路線层面的重新定調呢?
農曆新年將至,相比許多公司紅包活動的喧囂與行銷手段,我相信面壁智能如此紮實的技術推進,更值得被看見。
01. 長上下文需求爆發,正倒逼注意力機制進化
大模型最早的商業場景集中在問答、寫作、摘要,這類任務的上下文長度通常在幾千到幾萬 token 範圍內,傳統全注意力機制尚能應付。
隨著應用形態變化,模型開始承擔代碼庫分析、合同審查、科研資料歸納、長鏈路 agent 任務規畫等工作……
輸入規模直接躍升至幾十萬甚至百萬 token 級別,這類需求在企業端與端側同時增長。
企業側希望模型能一次性讀取整個知識庫或代碼庫並保持一致性理解,端側設備則儲存大量用戶私有數據。
例如,聊天記錄、歷史行為、位置軌跡等資訊,唯有在本地處理才符合隱私要求,因此端側長上下文能力逐漸成為剛需指標。
傳統 Transformer 的問題在此場景下會被無限放大。
全注意力機制的計算複雜度隨序列長度平方增長,序列增加十倍,算力需求逼近百倍級上升,同時 KV Cache 也同步膨脹。
以往,這幾個困境就像一個「不可能三角」。
行業已嘗試多條路徑解決此問題,例如線性注意力、狀態空間模型、稀疏注意力結構,各自在某些維度表現出色,卻始終存在明顯短板。
線性注意力與 SSM 類方法將複雜度壓至線性級別,速度與資源消耗表現理想,然而此結構需將歷史資訊壓縮進固定容量狀態中,序列越長,早期資訊權重就越低,在複雜推理或長鏈條邏輯場景中容易出現記憶衰減現象。
稀疏注意力走的則是另一條路線。
透過只計算關鍵位置注意力來降低算力需求,推理速度提升明顯,然而歷史 KV 必須完整保存,否則無法回溯長距離依賴。
這導致顯存仍隨序列線性增長,存儲壓力未根本解決。
行業持續尋找一種結構,既能保留線性結構的效率,又具備稀疏結構的精準感知能力。
MiniCPM-SALA 採用的 Transformer-to-Hybrid 低成本構建方法(HALO)
02. SALA 的混合注意力架構
SALA 的核心設計思路很直接,將兩類注意力優勢拼接進同一架構體系,讓不同模組負責不同任務。
整體結構中約 75% 使用 Lightning Attention 線性模組,負責局部關鍵語義捕捉;
剩餘 25% 使用 InfLLM v2 稀疏注意力模組,負責全局資訊建模。
此比例經過多輪實驗調優後確定,目標是找到效率與精度之間的穩定平衡點。
線性部分保證推理複雜度穩定增長,稀疏部分負責高價值資訊精細建模,兩者共同構成完整上下文理解路徑。
這種設計真正解決的問題在於長序列任務的結構性矛盾。
純線性模型在序列極長時容易遺失細節,純稀疏模型在序列增長時顯存壓力持續擴大,SALA 把計算密度和資訊密度拆分處理,讓計算資源集中在重要區域,同時保證全局狀態可追蹤。
換句話說,模型在處理百萬 token 輸入時不會同時對所有 token 做同等強度計算,而是自動分配算力權重,這使得資源利用效率明顯提高。
另一個關鍵創新來自訓練方法 HALO。
傳統混合架構若從零訓練,成本會高得驚人,因為新結構需要重新學習全部語言知識與推理能力。
HALO 的策略是在已有全注意力模型基礎上進行結構轉換,再者持續訓練,這種方式繼承原模型能力,同時讓新架構逐漸適應新的注意力模式。
從工程層面看,這種路線可以把算力投入降低到可接受範圍,使混合注意力模型具備規模化訓練可行性,對整個行業具有現實參考價值。
若將當前主流架構置於同一坐標系中觀察,可以看到一條明顯演化路徑:
全注意力模型提供穩定智能水平,線性模型提供極致效率,稀疏模型提供長序列能力,SALA 則嘗試把三條路線合併成統一解。
如 Kimi KDA、DeepSeek NSA、InfLLM v2 皆在不同方向推進長上下文能力,SALA 的出現讓行業首次看到統一結構實現多優勢叠加的可能性。
相關論文參考:
稀疏-線性混合注意力:https://arxiv.org/pdf/2601.22156
InfLLM v2:https://arxiv.org/pdf/2509.24663
03. MiniCPM-SALA 實測表現,驗證架構可行性
任何架構創新最終都要回歸模型表現。
MiniCPM-SALA 作為首個基於該結構完成大規模訓練的文本模型,在多個維度給出了較為清晰的數據結果。
模型參數規模為 9B,體量處於輕量級區間,卻能支援百萬 token 上下文推理。
關鍵在於 KV Cache 控制在 6GB 以下,這意味著有消費級 GPU 也能完成推理任務。對開發者而言,這直接降低了部署門檻,使長上下文模型從數據中心專屬能力進入個人硬體可運行階段。
在長文本評測中,該模型展現出穩定優勢,尤其在跨章節資訊整合、長鏈推理、代碼結構理解等任務中表現突出。
更值得關注的是,它在知識問答、數學推理、代碼生成等常規能力測試中仍保持與同規模全注意力模型相近水平,沒有出現性能折損現象,這說明混合結構並未犧牲通用智能能力。
模型同時引入 HyPE 混合位置編碼機制,使短文本與長文本處理能力保持一致,不會出現短輸入性能下降的問題。
推理速度方面的數據,對工程落地很有價值。
在雲端推理晶片測試中,當上下文長度達到 256K token 時,MiniCPM-SALA 推理速度達到同規模全注意力模型約 3.5 倍,且測試未使用投機採樣或額外加速技巧,結果完全來自架構本身。
對企業部署而言,這類性能提升意味著成本直接下降,因為單位時間可處理請求數明顯增加。
端側的表現同樣不俗。
當前許多模型在 8B 規模下運行 256K 上下文就會觸及顯存極限,而 MiniCPM-SALA 在消費級 GPU 上完成百萬上下文推理,這為手機、車載系統、機器人等終端設備運行通用模型打開空間。
端側模型一旦具備長上下文能力,個人助理類產品就能持續讀取用戶歷史數據並維持長期記憶,體驗將發生質變,這也是行業普遍認為下一階段智能終端競爭的關鍵指標。
04. 架構路線之爭,正成為大模型競爭核心變量
大模型行業早期競爭集中在參數規模和訓練數據量,隨後轉向推理成本和部署效率,如今焦點逐漸落在底層結構設計上。
誰能於架構層找到更優解,誰就能在同等算力條件下跑出更高性能。
SALA 的出現,也讓我看到一種新可能性:未來模型競爭不只看誰的模型更大,還要看誰的結構更合理。
我在想,這種變化對行業格局,也許會產生多米諾骨牌一樣的連鎖反應。
有硬體適配邏輯的改變:
當模型顯存需求下降,部署環境選擇範圍會擴大,GPU 不再是唯一選擇,邊緣計算設備也能承擔更多任務。
進一步,也會帶來應用生態會被重新洗牌:
長上下文能力成熟後,大量原本依賴數據庫或檢索系統的應用可能直接由模型完成,因為模型可以一次讀取全部資料並生成結果。
以及說,訓練策略會發生變化,HALO 這類遷移訓練方法降低新架構實驗成本,使更多團隊具備嘗試底層創新的能力。
從技術趨勢觀察,注意力機制很可能進入混合化階段。
單一路線難以同時滿足效率、精度、可擴展性三項指標,多結構協同會成為主流設計方向。
未來模型可能根據任務動態切換注意力模式,複雜推理使用高精度模組,大規模掃描使用高效率模組,這類自適應結構將成為研究重點。
最後有個好消息:看到面壁、OpenBMB、SGLang 與 NVIDIA,聯合發起了一個比賽。
比賽名字就叫《SOAR 2026 稀疏算子加速大獎賽》,已經正式開放報名了。
賽事圍繞混合注意力架構推理性能優化展開,重點方向包括算子融合、編譯優化與硬體協同調度,目標是在消費級 GPU 上進一步壓縮資源占用並提升百萬 token 推理速度。
而且還是面向全球開發者開放,官網報名入口:
對於關注推理效率、系統優化和模型架構的工程團隊來說,這是一次直接參與下一代推理基線定義过程的機會。
特別懸賞獎的獎金,甚至高達28萬!
感興趣的朋友,真的可以試一試~
參考閱讀:
GitHub 連結:https://github.com/openbmb/minicpm
HuggingFace 連結:https://huggingface.co/openbmb/MiniCPM-SALA
Model Scope 連結:https://www.modelscope.cn/models/OpenBMB/MiniCPM-SALA
GitCode 連結:https://ai.gitcode.com/OpenBMB/MiniCPM-SALA
MiniCPM-SALA 技術報告:https://github.com/OpenBMB/MiniCPM/blob/main/docs/MiniCPM_SALA.pdf