10M（1000万）パラメータ。大規模モデル全盛の時代において、それは取るに足らない数字に思えるかもしれません。

しかし、Yoshua Bengio氏のチームがKAIST、Mila、NYUの研究者と共に発表した「GRAM」は、まさにこの規模のモデルで、いくつかの注目すべき成果を達成しました。

「Sudoku-Extreme」では97.0%の精度を達成。さらに、少数事例からのパターン認識と抽象的視覚推論を評価する「ARC-AGI」において、ARC-AGI-1で52.0%、ARC-AGI-2で11.1%のスコアを記録しました。

論文では、タスクの難易度を示す参考値として、いくつかの大規模モデルの結果も掲載されています。DeepSeek-R1、Claude 3.7 16k、o3-mini-highは、いずれもSudoku-Extremeで0.0%の精度でした。

ただし、著者らはこれらの数値について、同一のトレーニング設定や推論設定のもとで比較された、厳密に制御されたベースラインではないと明言しており、小規模モデルが大規模モデルに公正に勝利したと単純に解釈することはできないと強調しています。

これらの結果の背後にある主要な変化は、再帰的推論そのものではなく、GRAMが「決定論的な再帰的更新」を「確率論的な多軌跡計算」へと再構築した点にあります。

従来の再帰的アーキテクチャは、共有された遷移関数を介して隠れ状態を繰り返し更新することで、パラメータ数を増やすことなく内部計算を延長します。

HRMやTRMといったモデルは、既にこのアプローチの可能性を示していましたが、それらのほとんどは依然として「決定論的な再帰モデル」でした。同じ入力と初期化は同じ隠れ空間軌跡に対応し、他の候補となる軌跡を探索するメカニズムを欠いていました。

この問題を踏まえ、研究チームは「GRAM（Generative Recursive Reasoning Model：生成的再帰推論モデル）」を提案しました。これは、単一の決定論的再帰軌跡を「確率的潜在変数過程」に変換し、推論時に「複数の隠れ空間推論軌跡を並列サンプリング」することを可能にします。

論文タイトル: Generative Recursive Reasoning

論文リンク: http://arxiv.org/abs/2605.19376

プロジェクトページ: https://ahn-ml.github.io/gram-website/

再帰的更新を多軌跡サンプリングへと変革する方法

GRAMの核心は、隠れ状態の更新メカニズムを再構築したことにあります。このモデルは、隠れ状態を高次と低次の二層z=(h,l)に分解し、異なる時間スケールでの計算タスクを担わせます。

低次状態lは、細粒度の中間計算を担当します。1回の潜在変数遷移において、高次状態が固定されている間に、K回の決定論的更新を連続的に実行します。

高次状態hは、より抽象的な推論状態を保持し、遷移のたびに一度だけ更新されます。モデルはまず、低次の計算に基づいて決定論的な候補状態を生成します。

その後、現在の状態に依存するガウスノイズを候補状態に注入します。

平均は推論の方向性を導き、分散は探索の程度を制御します。論文では特に、ランダム性は高次状態hにのみ付加される点が強調されています。著者らは低次状態へのノイズ注入も試みましたが、性能向上は見られなかったとのことです。

訓練段階において、GRAMは勾配伝播を打ち切る「深層監督」メカニズムを採用し、打ち切られた代理目的関数を最適化します。付録の実験によると、Sudoku-ExtremeとN-Queensにおいて、完全なELBO（エビデンス下界）と打ち切られた代理目的関数の全体的な変化の方向性は概ね一致していました。しかし論文では、これが偏りはあるもののメモリを節約できる近似であり、正確なELBOではないと明示されています。

アブレーション実験が検証：ランダム性とガイダンスは不可欠

アブレーション（除去）実験により、ランダム性とガイダンス信号が同時に機能する必要があることが更に明らかになりました。

N-Queensにおいて、深層監督と階層的再帰のみを用いた決定論的バージョン（HRM/TRM）の精度は、それぞれ80.70%と72.90%でした。ランダムなガイダンスを導入した「+DS+SG」では100.00%に達し、完全なGRAMは99.69%でした。同時に、完全なGRAMはSudoku-Extremeで93.96%を達成し、総合的に見てより優れたパフォーマンスを示しました。

メカニズムの分解からも、より直接的な証拠が得られています。ガイダンス信号を取り除き、平均をゼロにしてランダムノイズだけを残すと、N-Queensの精度は50.27%に低下しました。ランダム性を完全に取り除き、分散をゼロにしてガイダンス平均だけを残すと、精度は0.0%にまで落ち込みました。

これは、GRAMの利点がランダムなデコードやランダムな初期化によるものではなく、変分推論に基づく「確率的ガイダンス」によるものであることを示しています。これにより、ランダムな軌跡は学習可能で選択可能な推論リソースへと変貌します。

推論時の計算拡張と多解タスク

GRAMは、再帰の深さに加えて、幅の次元での推論時計算拡張を導入しました。暗黙のプロセス報酬モデルが、各候補軌跡が最終的に正しい答えを導く可能性を予測することで、モデルは複数のサンプリング候補から最も予測値の高い出力を選択したり、多数決を利用したりできます。

推論時拡張テストにおいて、GRAMはわずか16回の反復でN=20本の軌跡を並列サンプリングするだけで、数独タスクで97.0%の精度を達成しました。この結果は、TRMが320回の反復で達成した90.5%を上回ります。

多解タスクは、この設計の価値をより明確に示します。N-Queensにおいて、GRAMは99.7%の精度を達成し、90.3%の異なる有効解を網羅しました。8ノードのグラフ彩色タスクでは、競合するエッジの数を2.7本（10ノードでは3.3本）にまで抑えました。これは、自己回帰生成モデルの19.0本や61.3本を大きく下回る結果です。

ARC-AGI-1の追加実験では、データ拡張と並列サンプリングの関係性も比較されました。外部データ拡張がない場合、GRAMの性能はサンプル数が増えるにつれて向上します。一方、強力なデータ拡張が存在する場合、サンプル数を増やすことによる限界的な利益は飽和する傾向が見られました。

このことから、データ拡張と推論時サンプリングは互いに補完的な役割を担っており、単純に足し合わせて考えることはできないと著者らは結論づけています。

条件付き推論から無条件生成へ

GRAM自体は潜在変数生成モデルです。入力を空の条件に置き換えたり、特定の条件に固定したりすることで、同じ再帰的プロセスを無条件生成モデルとして定義することも可能です。

無条件数独生成では、モデルは空の盤面からスタートし、完全な盤面を生成し、標準的な数独ルールに基づいて妥当性が評価されます。GRAMは、1090万パラメータと16の教師ステップで、99.05%の有効率を達成しました。

比較対象として、離散拡散モデルD3PMは、5510万パラメータと1000ステップのノイズ除去を用いて、最大で91.33%の有効率でした。生成段階では、明示的な制約チェッカーや探索プロセスは一切使用されていません。つまり、モデルは外部の探索によって結果を修正しているのではなく、再帰的な生成プロセスの中で徐々にルールに準拠した盤面を形成しているのです。

二値化MNIST画像生成では、GRAMは空の条件入力のもと、初期生成状態から開始し、再帰的な隠れ状態の更新を通じて画像構造を段階的に修正していきます。再帰ステップ数を8から256に増やすと、FIDスコアは84.08から73.34へと低下（改善）し、ISスコアも同時に向上しました。

まとめ

この論文で最も注目すべき点は、再帰的推論を「単一の決定論的な軌跡」から、「複数の候補軌跡をサンプリングできる確率的なプロセス」へと再構成したことにあります。

少なくとも、構造化推論や多解制約タスクにおいて、この設計はより優れた探索能力と制約充足の質をもたらしました。幅に基づく並列サンプリングは、推論時の計算が再帰のステップ数だけに依存しないことも可能にしました。

強調すべきは、GRAMが現在のところ、Sudoku、ARC-AGI、N-Queens、グラフ彩色、二値化MNISTといった、主に管理されたタスクで検証されている点です。

論文では、深層監督を用いた逐次的なトレーニングが訓練効率を制限してしまう点も認められています。これは、GRAMをより大規模な基盤モデルへとスケールアップしていく上で、避けては通れない制約となるでしょう。

10MパラメータでARCと数独を攻略、Bengioチームが「多軌跡推論」に挑む

再帰的更新を多軌跡サンプリングへと変革する方法

アブレーション実験が検証：ランダム性とガイダンスは不可欠

推論時の計算拡張と多解タスク

条件付き推論から無条件生成へ

まとめ

関連記事

分享網址