10M參數也能跑ARC與數獨,Bengio團隊押注「多軌跡推理」

來源 | PaperWeekly

10M 參數,在大模型時代顯得有些微不足道。

但 Yoshua Bengio 團隊與 KAIST、Mila、NYU 研究人員提出的 GRAM,用這個量級的模型跑出了幾組值得注意的結果。

在 Sudoku-Extreme 上準確率達到 97.0%,並在面向少樣本模式識別與抽象視覺推理的 ARC-AGI 中,分別取得 52.0%(ARC-AGI-1)和 11.1%(ARC-AGI-2)的成績。

論文還列出了部分大模型結果作為任務難度參考:DeepSeek-R1、Claude 3.7 16k 與 o3-mini-high 在 Sudoku-Extreme 上均為 0.0%。

不過作者也明確強調,這些結果不是同等訓練、同等推理設置下的受控 baseline,不能直接理解為小模型公平擊敗大模型。

GRAM在Sudoku-Extreme、ARC-AGI-1/2上超越HRM、TRM等遞歸模型;大模型分數僅作任務難度參考。

這些結果背後的主要變化,不在遞歸推理本身,而在於 GRAM 把確定性遞歸更新改成了概率多軌跡計算。

傳統遞歸架構透過共享轉移函數反覆更新隱狀態,在不增加參數量的情況下延長內部計算。

HRM、TRM 等模型已經顯示出這條路線的潛力,但它們大多仍是確定性遞歸模型:同一個輸入和初始化會對應同一條隱空間軌跡,缺少探索其他候選軌跡的機制。

基於這個問題,團隊提出 GRAM,即生成式遞歸推理模型,將單一確定性遞歸軌跡改造成概率潛變數過程,並允許推理時並行採樣多條隱空間推理軌跡。

確定性遞歸與GRAM多軌跡對比論文資訊標題與連結

論文標題:Generative Recursive Reasoning

論文連結:http://arxiv.org/abs/2605.19376

項目主頁:https://ahn-ml.github.io/gram-website/

遞歸更新如何變成多軌跡採樣

GRAM 的核心是對隱狀態更新機制的重構。模型將隱狀態解耦為高、低兩層 z=(h,l),承擔不同時間尺度的計算任務。

低層狀態 l 負責細粒度中間計算。在一次隱變數轉移中,它在高層狀態固定的情況下連續執行 K 次確定性更新。

低層狀態更新公式

高層狀態 h 承載更抽象的推理狀態,每次轉移時更新一次。模型先基於底層計算生成確定性候選狀態。

高層候選狀態生成公式

隨後向候選狀態注入依賴當前狀態的高斯擾動。

高斯擾動注入公式

均值負責指引推理方向,變異數控制探索幅度。論文還特別指出,隨機性只加在高層狀態 h 上,作者嘗試過向低層狀態注入雜訊,但沒有帶來性能提升。

訓練階段,GRAM 採用截斷梯度傳播的深度監督機制,優化截斷後的代理目標。

GRAM核心架構圖

附錄實驗顯示,在 Sudoku-Extreme 與 N-Queens 上,完整證據下界(ELBO)與截斷代理目標的總體變化方向較一致。但論文也明確指出,這仍是帶偏但節省記憶體的近似,而不是精確 ELBO。

消融實驗驗證:隨機指導不可或缺

消融實驗進一步說明,隨機性和指導信號需要同時起作用。

消融實驗展示了深度監督、層次遞歸與隨機引導的影響

在 N-Queens 中,僅使用深度監督與層次遞歸的確定性版本(HRM/TRM)分別達到 80.70% / 72.90%。引入隨機引導後,+DS+SG 達到 100.00%,完整 GRAM 為 99.69%;同時完整 GRAM 在 Sudoku-Extreme 上達到 93.96%,綜合表現更佔優勢。

機制拆解也給出了更直接的證據。若移除引導信號(均值歸零,僅保留隨機雜訊),N-Queens 準確率降至 50.27%;若完全移除隨機性(變異數歸零,僅保留引導均值),準確率降至 0.0%。

這說明 GRAM 的收益不是來自隨機解碼或隨機初始化,而是來自變分訓練下的隨機引導,讓隨機軌跡成為可學習、可選擇的推理資源。

TRM與GRAM的隱空間軌跡對比

推理時擴展與多解任務

GRAM 在遞歸深度之外,引入了寬度維度的推理時計算擴展。透過隱過程獎勵模型預測候選軌跡最終產生正確答案的可能性,模型可以在多個採樣候選中選擇預測值最高的輸出,也可以使用多數投票。

在推理時擴展測試中,GRAM 只需在 16 次迭代中並行採樣 N=20 條軌跡,就能在數獨任務中達到 97.0% 的準確率。這一結果超過 TRM 在 320 次迭代下的 90.5%。

推理時擴展與多解任務準確率變化

多解任務更能體現這類設計的價值。面對 N-Queens,GRAM 達到 99.7% 的準確率,並覆蓋 90.3% 的不同有效解。

在 8 節點圖著色任務中,GRAM 將衝突邊數壓低至 2.7 條(10 節點為 3.3 條),優於自迴歸生成模型的 19.0 和 61.3 條。

在 ARC-AGI-1 的附加實驗中,作者還比較了資料增強與並行採樣的關係。無外部資料增強時,GRAM 會隨採樣數增加而提升;當資料增強較強時,增加採樣數的邊際收益趨於飽和。

這說明資料增強和推理時採樣承擔的是互補作用,不能簡單相加理解。

資料增強與推理時採樣的交互關係

從條件推理到無條件生成

GRAM 本身是潛變數生成模型。當輸入被替換為空條件輸入,或固定為某個條件時,同一套遞歸過程也可以定義為無條件生成模型。

在無條件數獨生成中,模型從空棋盤出發生產完整盤面,並按標準 Sudoku 規則評估有效性。GRAM 使用 10.9M 參數和 16 個監督步,有效率达到 99.05%。

作為對比,離散擴散模型 D3PM 使用 55.1M 參數和 1000 次去雜訊步驟,最高有效率為 91.33%。生成階段沒有顯式約束檢查器或搜尋過程,也就是說,模型並不是靠外部搜尋修正結果,而是在遞歸生成過程中逐步形成合規棋盤。

無條件數獨生成示例

在二值化 MNIST 圖像生成中,GRAM 在空條件輸入下從初始生成狀態出發,透過遞歸隱狀態更新逐步修正圖像結構。遞歸步數從 8 增加到 256 時,FID 分數由 84.08 下降至 73.34,IS 分數同步提升。

MNIST圖像無條件生成過程

總結

這篇論文最值得關注的地方,是把遞歸推理從單一確定性軌跡,改成了可以採樣多條候選軌跡的概率過程。

至少在結構化推理和多解約束任務中,這種設計帶來了更好的探索能力和約束滿足品質。基於寬度的並行採樣,也讓推理時計算不再只依賴遞歸步數。

需要強調的是,GRAM 目前主要是在 Sudoku、ARC-AGI、N-Queens、Graph Coloring 和二值化 MNIST 這類受控任務上驗證。

論文也承認,深度監督的順序訓練會限制訓練效率,這也是 GRAM 繼續擴展到更大基礎模型時繞不開的限制。

相關文章推薦

分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.