Alexia Jolicoeur-Martineau

Less is More: Recursive Reasoning with Tiny Networks

少即是多：微模型的递归推理

要約

階層推論モデル（HRM）は、異なる頻度で再帰的に動作する2つの小型ニューラルネットワークを使用する革新的な方法である。この生物学に着想を得た方法は、数独、迷路、ARC-AGIなどの難問タスクにおいて、大規模言語モデル（LLMs）よりも優れた性能を発揮し、同時に小型モデル（2700万パラメータ）と少量のデータ（約1000個の例）のみで訓練される。HRMは、小型ネットワークを利用して難問を解決する点で有望であるが、その原理は十分に理解されておらず、最適な方案ではない可能性がある。我々は、より簡潔な再帰推論方法である微型再帰モデル（TRM）を提案する。2層のみの小型ネットワークを1つ使用するだけで、その汎化能力はHRMを大幅に上回る。TRMはわずか700万パラメータで、ARC-AGI-1で45%のテスト精度に達し、ARC-AGI-2で8%を達成した。これは、Deepseek R1、o3-mini、Gemini 2.5 Proなどの大多数の大規模言語モデルを上回り、パラメータ数はこれらのモデルの0.01%未満である。

1 導入

大規模言語モデル（LLMs）は強力な能力を持つが、困難な質問解決には課題が残る。LLMsは自己回帰的に答えを生成するため、単一のトークンの誤りが答えを無効にする可能性があり、誤りのリスクが高い。信頼性を高めるため、LLMsは思考チェーン（CoT）（Wei et al., 2022）とテスト時計算（TTC）（Snell et al., 2024）に依存する。思考チェーンは、LLMが答えを出す前に段階的な推論軌道をサンプリングすることで、人間の推論を模倣することを目的としている。これにより精度が向上するが、思考チェーンはコストが高く、高品質の推論データ（入手できない可能性がある）を必要とし、生成された推論が誤っている可能性があるため脆弱である。信頼性をさらに高めるには、テスト時計算を使用し、K個の答えから最も一般的な答えまたは最高報酬の答えを報告する（Snell et al., 2024）。

本研究では、再帰推論による利益が大幅に向上し、その改善が漸進的なものではないことを示す。我々は、改良され簡素化された方法である微型再帰モデル（TRM）を提案する。これは、はるかに小型の2層のみの微型ネットワークを使用し、複数の問題においてHRMよりも著しく高い汎化能力を実現する。この方法により、数独極限テストセットの精度を55%から87%に、迷路困難テストセットを75%から85%に、ARC-AGI-1を40%から45%に、ARC-AGI-2を5%から8%に向上させた。

2. 背景HRMのアルゴリズムの説明はアルゴリズム2に詳述されている。以下でこのアルゴリズムの詳細についてさらに議論する。

2.1. 構造と目的HRMの研究の焦点は教師付き学習にある。入力が与えられると、出力を生成する。入力と出力は両方とも形状[B, L]を持つと仮定される（形状が異なる場合は、パディングトークンを追加できる）。ここで、Bはバッチサイズ、Lはコンコンテキスト長である。

2.2. 2つの異なる頻度での再帰

2.3. 1ステップ勾配近似による定点再帰

2.7 HRMのまとめHRMは、2つの異なる周波数（高周波数と低周波数）を持つネットワークの再帰と深い監視を利用して、複数の監視ステップを通じて答えを改善することを学習する（また、ACTを使用して各データサンプルの処理時間を削減する）。これにより、モデルはすべての層で逆伝播を行うことなく、極めて深いネットワークを模倣できる。この方法は、通常の監視モデルでは対応が難しい困難な質問解決タスクで、著しく高い性能を達成した。しかし、この方法は非常に複雑で、不確実な生物学的論拠と適用が保証されていない不動点定理に過度に依存している。次の節では、これらの問題とHRMの潜在的な改善目標について議論する。

3. 階層推論モデルの改善目標本節では、HRMの主要な改善目標を特定する。これらの目標は、我々が提案する方法である微型再帰モデル（TRM）によって解決される。

3.1. 隠関数定理と1ステップ勾配近似

HRMは、6回の再帰のうち最後の2回のみで逆伝播を行う。著者は、不動点定理と1ステップ近似を適用することで、この做法を正当化している。この定理は、再帰関数が不動点に収束した場合、その平衡点で単一のステップで逆伝播が可能であることを示している。

したがって、HRMに隠関数定理と1ステップ勾配近似を適用することには一定の根拠がある。残差が時間の経過とともに減少する傾向があるためである。しかし、この定理を実際に適用する際、モデルは很可能には不動点に達していない。

次の節では、隠関数定理と1ステップ勾配近似の必要性を回避し、この問題を完全に回避できることを示す。

3.2. 自適応計算時間（ACT）による前向き伝播回数の倍増

HRMは、訓練中に自適応計算時間（ACT）を使用して、各データサンプルに費やす時間を最適化する。ACTを使用しない場合、各データサンプルにはNsup=16個の監視ステップが必要となる。これは非常に非効率的である。彼らは、停止して新しいデータサンプルに移行するか、同じデータ上で反復を続けるかを決定する追加のQ学習目標を介してACTを実現する。これにより、特にACT使用時には、訓練中の平均監視ステップ数が相当低い（彼らが報告するデータによると、Sudoku-Extremeデータセット上で平均2未満）ため、時間をより効率的に利用できる。

しかし、ACTには代償がある。この代償はHRMの論文には直接表示されていないが、公式コードには示されている。Q学習目標は、停止損失と継続損失に依存する。継続損失には、HRMの追加の1回の前向き伝播（全6回の関数評価を含む）が必要である。これは、ACTが各サンプルの時間をより効率的に最適化できるが、各最適化ステップには2回の前向き伝播が必要であることを意味する。具体的な式はアルゴリズム2に示されている。

次の節では、ACTにおける2回の前向き伝播の必要性を回避する方法を示す。

3.3. 複雑な生物学的論拠に基づく階層的説明

HRMの著者は、生物学的論拠に基づいて、2つの潜在変数と異なるレベルで動作する2つのネットワークの設計を正当化しているが、これらの論拠は人工ニューラルネットワークから遠く離れている。彼らは、HRMをマウスの実際の脳実験と結びつけようとした。これは興味深いが、この説明により、HRMがなぜそのように設計されているのかを理解することが極めて困難になる。その論文中に消去実験表が欠如していること、生物学的論拠と不動点定理（完全には適用されない）への過度の依存を考えると、HRMのどの部分が何の役割を果たしているのか、そしてなぜそうなのかを特定するのは難しい。また、なぜ2つの潜在特徴を使用し、他の特徴組み合わせを使用しないのか不明である。

次の節では、再帰プロセスが大幅に簡素化され、生物学的論拠、不動点定理、階層的説明、2つのネットワークを一切必要としない、はるかに単純な方法で理解できることを示す。これにより、なぜ2が最適な特徴数（即ち）なのかが説明される。

4. 微型再帰モデル

本節では、微型再帰モデル（TRM）を紹介する。HRMとは対照的に、TRMは複雑な数学的定理、階層構造、生物学的論拠を必要としない。汎化能力がより優れており、同時に1つの微型ネットワーク（2つの中規模ネットワークではなく）のみを必要とし、ACT（自適応計算時間）は単一の前向き伝播のみで済む（2回ではなく）。我々の方法はアルゴリズム3に記述され、図1に示されている。また、数独極限データセット（1Kの訓練サンプルしかないが、423Kのテストサンプルを含む困難な数独データセット）での消去実験も行い、結果を表1に示す。以下でTRMの主要な構成要素を説明する。

4.1. 不動点定理の不要

この説明は直感的であるが、より多くの特徴を使用するか、より少ない特徴を使用することが役立つかどうかを検証したい。結果は表2に示されている。

単一特徴：同様に、1つの特徴のみを使用するアイデアをテストした。これは、監視ステップの間にのみを伝達することを意味する。この方法はアルゴリズム4に記述されている。この方法では、性能が低下した。これは予想される結果である。なぜなら、前述の議論のように、これによりモデルが解yをzに格納することを強制されるからである。

したがって、数独極限タスクで、より多くのまたはより少ない潜在変数を使用する場合を探索したが、yとzのみを使用することが、最も単純で自然な方法であるだけでなく、より高いテスト精度をもたらすことがわかった。

4.4. 少即是多

容量を増やすために層数を増やすことを試みた。驚くべきことに、層数を増やすと過学習により汎化能力が低下することがわかった。一方で、再帰回数（n）を比例して増やしながら層数を減らす（計算量と模擬深度をほぼ同じに保つため）と、2層（4層ではなく）を使用することで汎化能力を最大化できることがわかった。これにより、Sudoku-Extremeでより良い汎化能力が得られた（TRMを79.5%から87.4%に向上；表1を参照）、同時にパラメータ数を半減させた（再び）。

より小さなネットワークの方が性能が良いことはかなり驚くべきことだが、2層が最適であるようである。Bai & Melas-Kyriazi (2024)は、深さバランス拡散モデルの文脈でも2層ネットワークの最適な性能を観察した。しかし、彼らの性能はより大きなネットワークと同様であったのに対し、我々は2層ネットワークの性能がより良いことを観察した。これは、現代のニューラルネットワークでは、汎化能力は通常モデル規模と直接相関するため、一見異例に見えるかもしれない。しかし、データが極端に少なく、モデル規模が大きすぎる場合、過学習のペナルティが発生する可能性がある（Kaplan et al., 2020）。これは、データ量が少oo多すぎることを示唆している可能性がある。したがって、深い再帰と深い監視を持つ微型ネットワークを使用すると、多くの過学習問題を回避できる。

4.5. 固定された小さなコンコンテキスト長タスク向けの無アテンションアーキテクチャ

4.7. 指数移動平均

小規模データセット（Sudoku-ExtremeやMaze-Hardなど）では、HRMは急速に過学習し、その後発散する傾向がある。この問題を軽減し、安定性を高めるために、重みの指数移動平均（EMA）を採用した。これは、GANや拡散モデルで安定性を高めるために使用される一般的な技術である（Brock et al., 2018; Song & Ermon, 2020）。これにより、急激な崩壊を防ぎ、より高い汎化能力（79.9%から87.4%；表1を参照）が得られることがわかった。

4.8. 再帰回数の最適化

次の節では、複数のデータセットにおけるHRM、TRM、LLMsの主要な結果の比較を示す。

5. 結果

Wang et al. (2025)に従い、以下のデータセットで我々の方法をテストした：Sudoku-Extreme (Wang et al., 2025)、Maze-Hard (Wang et al., 2025)、ARC-AGI1 (Chollet, 2019)、ARC-AGI-2 (Chollet et al., 2025)。結果は表4と表5に示されている。ハイパーパラメータは第6節に詳述されている。データセットの説明は以下の通りである。

Sudoku-Extremeは、極めて困難な数独パズル（Dillion, 2025; Palm et al., 2018; Park, 2018）（9x9グリッド）を含み、わずか1Kの訓練サンプルを使用してFew-shot学習能力をテストする。423Kのサンプルでテストされる。

Maze-Hardは、Lehnert et al. (2024)によって提案されたプログラム生成された30x30迷路を含み、最短経路長が110以上である。訓練セットとテストセットは各1000個の迷路を含む。

ARC-AGI-1とARC-AGI-2は、賞金付きの幾何学パズルである。各パズルは人間には容易だが、現在のAIモデルには困難となるように設計されている。各パズルタスクには、2-3個の入力-出力デモペアと、解決する必要がある1-2個のテスト入力が含まれる。最終スコアは、すべてのテスト入力に対して、2回の試行で正しい出力グリッドを生成する精度として計算される。最大グリッドサイズは30x30である。ARC-AGI-1には800個のタスクが含まれ、ARC-AGI-2には1120個のタスクが含まれる。また、密接に関連するConceptARCデータセット（Moskvichev et al., 2023）の160個のタスクを使用してデータを強化した。ARC-AGI-1とARC-AGI-2の公共評価セットでの結果を提供する。

これらのデータセットは小規模であるが、汎化能力を改善するために、大量のデータ拡張が使用された。Sudoku-Extremeは、各データサンプルに対して1000回のシャッフル拡張（数独ルールに違反しない範囲で）を使用した。Maze-Hardは、各データサンプルに対して8種類の二面体変換を使用した。ARC-AGIは、各データサンプルに対して1000回のデータ拡張（色置換、二面体群変換、平行移動変換）を使用した。二面体群変換には、ランダムな90度回転、水平/垂直反転、反射が含まれる。

結果から、アテンションを使用しないTRMがSudoku-Extremeで最良の汎化能力（87.4%テスト精度）を得ていることがわかる。一方、アテンションを使用したTRMが他のタスクでより良く汎化する（おそらく帰納バイアスと、大きな30x30グリッドでのMLPの過学習傾向のため）。アテンションを使用したTRMは、Maze-Hardで85.3%の精度、ARC-AGI-1で44.6%の精度、ARC-AGI-2で7.8%の精度を得ており、パラメータ数は7Mである。これは、4倍のパラメータ数（27M）を使用したHRMが得た74.5%、40.3%、5.0%を大幅に上回っている。

6. 結論

我々は、微型再帰モデル（TRM）を提案した。これは、潜在的な推論特徴上で再帰し、単一の微型ネットワークを使用して最終的な答えを段階的に改善する、単純な再帰推論方法である。これにより、困難なタスクで強力な汎化能力を実現する。階層推論モデル（HRM）と比較して、TRMは不動点定理、複雑な生物学的論証、階層構造を必要としない。層数を半減させ、2つのネットワークを単一の微型ネットワークで置き換えることで、パラメータ数を大幅に削減した。また、停止プロセスを簡素化し、追加の前向き伝播を不要にした。総じて、TRMはHRMよりもはるかに単純でありながら、より良い汎化能力を実現している。

我々の方法が4つのベンチマークでより良い汎化性能をもたらしたが、我々が行ったあらゆる選択がすべてのデータセットで最適であるとは限らない。例えば、MLPをアテンションで置き換えることがSudoku-Extremeでは非常に効果的（テスト精度10%向上）であるが、他のデータセットでは性能が低いことがわかった。異なる問題設定には、異なるアーキテクチャやパラメータ数が必要となる可能性がある。これらのネットワークのパラメータ化を最適化するためのスケーリング則が必要である。我々は深層再帰を簡素化し改良したが、なぜより大きく深いネットワークを使用するよりも再帰の方が役立つのかという問題はまだ説明されていない。我々は、これが過学習に関連していると疑っているが、この説明を支持する理論はない。我々の考えのすべてが成功したわけではない。成功しなかったいくつかのアイデアについて、第6節で簡単に議論する。

現在、再帰推論モデル（HRMやTRMなど）は教師付き学習方法であり、生成モデルではない。これは、入力問題が与えられると、確定的な答えしか提供できないことを意味する。しかし、多くの場合、問題には複数の答えが存在する可能性がある。したがって、TRMを生成タスクに拡張することは、意義のある研究方向となるだろう。

原文リンク：https://arxiv.org/pdf/2510.04871