今天想跟大家聊聊Zyphra剛開源的超強小參數模型ZAYA1-8B。這小玩意說實話有點意思,還是用AMD晶片訓練的。
咱們平時看大模型新聞,總感覺參數量不上百億就不叫模型。ZAYA1-8B是個混合專家架構的模型,真正幹活的時候激活參數還不到10億。
開源位址:https://huggingface.co/Zyphra/ZAYA1-8B
但就這點體量,跑起數學和寫程式碼的活來,居然能反超那些參數量比自己大幾十倍的大家伙。
例如,在HMMT這個挺難的數學比賽資料集上,分數直接幹到了89.6,硬生生超過了GPT-5的高配版和Claude4.5 Sonnet這些著名閉源模型。
這麼小的參數效能還這麼強,主要是因為Zyphra在設計上死磕了一個點,就是每一分算力每一顆參數都得榨乾它的智商。
他們弄了三個挺巧妙的改動,一個是CCA的注意力機制。簡單理解就是給模型裝了個「濾波器」,把沒用的資訊過濾掉只保留精華。
再加上它那個混合專家架構,就像是組建了一個AI專家團隊,遇到數學題就叫數學專家,遇到寫程式碼就叫程式設計師專家,各司其職推理效率自然高效。
接著他們把選專家的路由器從以前那種簡單的直線判斷換成了一個小型的多層感知機網路,這樣模型在挑誰來幹活的時候就不會手忙腳亂出岔子。
還加了個可以自己學習的殘差縮放開關,花極小的代價就把模型太深導致的數值發散問題給治住了。這三板斧一下來,整個模型的底子就變得特別精幹。
說說它的出身,這點可能很多非硬核玩家不知道,但真的很有意義。以前咱們訓練這種級別的模型,基本都得抱輝達(NVIDIA)的大腿。
畢竟顯卡就那幾家強。但Zaya1-8B是個異類,它是完全在AMD的硬體上跑出來的。
用了1024張AMD的MI300X顯卡,硬是把這個大家伙給練成了。這也說明AMD現在的AI生態也是好起來了。
以後咱們搞AI訓練,又多了一個選擇。這對咱們使用者來說絕對是好事,畢竟有競爭才有CP值嘛。
不過真正讓這個模型脫胎換骨的,其實是他們後面那套極其繁瑣但也極其管用的後訓練流程。
一共分了五步,每一步都在給模型開小灶。一開始先教它最基礎的聊天和聽指令,接著就開始給它餵邏輯題,讓它學會自己把幾個候選答案糅合在一起。
到第三步和第四步就有點像體育生做魔鬼體能訓練了,透過強化學習不斷動態調整題目的難度,死磕數學和程式碼這兩個硬核領域。
等這幾步折騰完,最後再稍微用人類回饋給它整整儀容儀表,比如說話好不好聽、寫文章有沒有風格之類的。
這五步走完之後效果非常明顯,數學和程式碼能力直接飆升,連帶著做選擇題和寫小作文也跟著漲分。
說真的這次Zaya1-8B是真的給小參數模型爭了口氣。模型強不強不能光看參數,還得看架構和能耗。
對於咱們這些想在本地跑個高效能模型,或者對成本比較敏感的朋友來說,是個值得嘗試的新選擇。
目前,ZAYA1-8B已經開源了並且支援Apache2.0協議,也就是說咱們可以直接商業化使用,開發個行動端連線助手啥的都沒問題。