10M參數也能跑ARC與數獨，Bengio團隊押注「多軌跡推理」

來源 | PaperWeekly

10M 參數，在大模型時代顯得有些微不足道。

但 Yoshua Bengio 團隊與 KAIST、Mila、NYU 研究人員提出的 GRAM，用這個量級的模型跑出了幾組值得注意的結果。

在 Sudoku-Extreme 上準確率達到 97.0%，並在面向少樣本模式識別與抽象視覺推理的 ARC-AGI 中，分別取得 52.0%（ARC-AGI-1）和 11.1%（ARC-AGI-2）的成績。

論文還列出了部分大模型結果作為任務難度參考：DeepSeek-R1、Claude 3.7 16k 與 o3-mini-high 在 Sudoku-Extreme 上均為 0.0%。

不過作者也明確強調，這些結果不是同等訓練、同等推理設置下的受控 baseline，不能直接理解為小模型公平擊敗大模型。

GRAM在Sudoku-Extreme、ARC-AGI-1/2上超越HRM、TRM等遞歸模型；大模型分數僅作任務難度參考。

這些結果背後的主要變化，不在遞歸推理本身，而在於 GRAM 把確定性遞歸更新改成了概率多軌跡計算。

傳統遞歸架構透過共享轉移函數反覆更新隱狀態，在不增加參數量的情況下延長內部計算。

HRM、TRM 等模型已經顯示出這條路線的潛力，但它們大多仍是確定性遞歸模型：同一個輸入和初始化會對應同一條隱空間軌跡，缺少探索其他候選軌跡的機制。

基於這個問題，團隊提出 GRAM，即生成式遞歸推理模型，將單一確定性遞歸軌跡改造成概率潛變數過程，並允許推理時並行採樣多條隱空間推理軌跡。

論文標題：Generative Recursive Reasoning

論文連結：http://arxiv.org/abs/2605.19376

項目主頁：https://ahn-ml.github.io/gram-website/

遞歸更新如何變成多軌跡採樣

GRAM 的核心是對隱狀態更新機制的重構。模型將隱狀態解耦為高、低兩層 z=(h,l)，承擔不同時間尺度的計算任務。

低層狀態 l 負責細粒度中間計算。在一次隱變數轉移中，它在高層狀態固定的情況下連續執行 K 次確定性更新。

高層狀態 h 承載更抽象的推理狀態，每次轉移時更新一次。模型先基於底層計算生成確定性候選狀態。

隨後向候選狀態注入依賴當前狀態的高斯擾動。

均值負責指引推理方向，變異數控制探索幅度。論文還特別指出，隨機性只加在高層狀態 h 上，作者嘗試過向低層狀態注入雜訊，但沒有帶來性能提升。

訓練階段，GRAM 採用截斷梯度傳播的深度監督機制，優化截斷後的代理目標。

附錄實驗顯示，在 Sudoku-Extreme 與 N-Queens 上，完整證據下界（ELBO）與截斷代理目標的總體變化方向較一致。但論文也明確指出，這仍是帶偏但節省記憶體的近似，而不是精確 ELBO。

消融實驗驗證：隨機指導不可或缺

消融實驗進一步說明，隨機性和指導信號需要同時起作用。

在 N-Queens 中，僅使用深度監督與層次遞歸的確定性版本（HRM/TRM）分別達到 80.70% / 72.90%。引入隨機引導後，+DS+SG 達到 100.00%，完整 GRAM 為 99.69%；同時完整 GRAM 在 Sudoku-Extreme 上達到 93.96%，綜合表現更佔優勢。

機制拆解也給出了更直接的證據。若移除引導信號（均值歸零，僅保留隨機雜訊），N-Queens 準確率降至 50.27%；若完全移除隨機性（變異數歸零，僅保留引導均值），準確率降至 0.0%。

這說明 GRAM 的收益不是來自隨機解碼或隨機初始化，而是來自變分訓練下的隨機引導，讓隨機軌跡成為可學習、可選擇的推理資源。

推理時擴展與多解任務

GRAM 在遞歸深度之外，引入了寬度維度的推理時計算擴展。透過隱過程獎勵模型預測候選軌跡最終產生正確答案的可能性，模型可以在多個採樣候選中選擇預測值最高的輸出，也可以使用多數投票。

在推理時擴展測試中，GRAM 只需在 16 次迭代中並行採樣 N=20 條軌跡，就能在數獨任務中達到 97.0% 的準確率。這一結果超過 TRM 在 320 次迭代下的 90.5%。

多解任務更能體現這類設計的價值。面對 N-Queens，GRAM 達到 99.7% 的準確率，並覆蓋 90.3% 的不同有效解。

在 8 節點圖著色任務中，GRAM 將衝突邊數壓低至 2.7 條（10 節點為 3.3 條），優於自迴歸生成模型的 19.0 和 61.3 條。

在 ARC-AGI-1 的附加實驗中，作者還比較了資料增強與並行採樣的關係。無外部資料增強時，GRAM 會隨採樣數增加而提升；當資料增強較強時，增加採樣數的邊際收益趨於飽和。

這說明資料增強和推理時採樣承擔的是互補作用，不能簡單相加理解。

從條件推理到無條件生成

GRAM 本身是潛變數生成模型。當輸入被替換為空條件輸入，或固定為某個條件時，同一套遞歸過程也可以定義為無條件生成模型。

在無條件數獨生成中，模型從空棋盤出發生產完整盤面，並按標準 Sudoku 規則評估有效性。GRAM 使用 10.9M 參數和 16 個監督步，有效率达到 99.05%。

作為對比，離散擴散模型 D3PM 使用 55.1M 參數和 1000 次去雜訊步驟，最高有效率為 91.33%。生成階段沒有顯式約束檢查器或搜尋過程，也就是說，模型並不是靠外部搜尋修正結果，而是在遞歸生成過程中逐步形成合規棋盤。

在二值化 MNIST 圖像生成中，GRAM 在空條件輸入下從初始生成狀態出發，透過遞歸隱狀態更新逐步修正圖像結構。遞歸步數從 8 增加到 256 時，FID 分數由 84.08 下降至 73.34，IS 分數同步提升。

總結

這篇論文最值得關注的地方，是把遞歸推理從單一確定性軌跡，改成了可以採樣多條候選軌跡的概率過程。

至少在結構化推理和多解約束任務中，這種設計帶來了更好的探索能力和約束滿足品質。基於寬度的並行採樣，也讓推理時計算不再只依賴遞歸步數。

需要強調的是，GRAM 目前主要是在 Sudoku、ARC-AGI、N-Queens、Graph Coloring 和二值化 MNIST 這類受控任務上驗證。

論文也承認，深度監督的順序訓練會限制訓練效率，這也是 GRAM 繼續擴展到更大基礎模型時繞不開的限制。

10M參數也能跑ARC與數獨，Bengio團隊押注「多軌跡推理」

相關文章推薦

分享網址