エージェント訓練はなぜ長距離タスクで必ず崩壊するのか

現在のLLMエージェントは、Claude CodeからCodexに至るまで、「複雑な事柄を完遂する」実行役としてますます利用され、多段階のデバッグや反復的な意思決定が常態化している。しかし、直感に反する発見がある。同じエージェントに「推論の複雑さは同じだが、ステップ数だけが長い」タスクを実行させると、訓練が直接崩壊してしまうのだ。 この論文は「タスクのステップ数」を単独の変数として取り上げて研究し、体系的な経験的結論を導き出した。ホライズン長（horizon length）そのものが、長距離エージェント訓練の根本的なボトルネックなのである。

[図1: 論文の貢献概要] 論文はホライズンの視点から長距離LLMエージェントの訓練を研究し、ホライズン長が根本的なボトルネックであると指摘。ホライズン短縮（horizon reduction）が強化学習（RL）を安定化させ、同時にモデルがより長いタスクへ汎化する傾向を強化することを証明している。

図1

長距離タスクの何が難しいのか

既存の長距離エージェント研究の多くは、システムレベルでのコンテキストエンジニアリングやワークフロー編成、あるいはモデルレベルでの教師ありファインチューニング（SFT）と強化学習（RL）という二つの道筋を辿っている。しかし論文は、これらの研究が概ね単一ラウンドのパラダイムを漸進的に拡張したものであり、ホライズン長が訓練のダイナミクスに与える影響を独立変数として見過ごしていると指摘する。

論文はまず、「ホライズン」という曖昧な言葉を三つの正式な定義に分解する。(1) 目標距離 d(s₀, g)：最適方策の下で目標に到達するために必要な最小アトミックアクション数。(2) 相互作用予算 H_max：環境が許容する最大相互作用ステップ数。(3) 実効ホライズン h_π(s₀, g)：方策 π が実際にタスクを完了するのに要したステップ数。

タスクのステップ数が長くなると何が難しいのか？論文は二点をまとめている。状態-行動マッピングの複雑さがホライズンに伴い非線形に増大し、初期の意思決定が後続の空間に厳格な制約を課すため、最適軌道に沿う確率が指数関数的に減衰する。同時に、スパースな報酬の下では行動帰属（credit assignment）が極度に曖昧になり、軌道全体が失敗した場合、中間ステップ（それ自体は正しいステップも含む）全てに負のアドバンテージが付与され、勾配ノイズが増幅される。

ホライズンを「問題の難易度」から切り離す

長距離タスクでは、ステップ数は通常、推論の複雑さと不可分である。例えば、空白マスの多い数独はステップ数が長いだけでなく、より高度な解法テクニックも必要とする。論文が行ったのは、このステップ数という変数を単独で切り離すことだ。

具体的な方法として、タスクを「単一ステップの代理」による短距離バージョンに変換し（例えば、モデルに数独の解答全体を一度に生成させる）、その短距離形式でモデルが解けるインスタンスだけを保持する。それらを目標距離に従ってL1からL7の7段階に分類する。こうして得られたデータセットでは、異なる段階間で「問題解決能力の要求」が揃えられており、主な違いはステップ数だけとなる。

[表1: データセット分類統計] d(s₀, g)に基づきタスクをL1～L7に分類。L1～L2（11～15、16～20）とL3～L4（21～25、26～30）を訓練に使用し、各段階640の訓練サンプルと100のテストサンプル。L5～L7（31～35、36～40、41～45）はホライズン汎化の評価のみに使用し、最初の2段階は各100サンプル、L7は50サンプル。

論文はテキストベースのパズルを評価環境として使用し、主に数独を用い、ラッシュアワーで交差検証を行う。数独の難易度はHoDoKuツールで分類され、「基本テクニック」のみで解けるパズルのみを保持することで、差異がホライズンにのみ起因することを保証している。

短いホライズンは安定、長いホライズンは崩壊

実験のベースモデルはQwen3-1.7Bである。論文ではまず、GPT-5-miniなどの大規模モデルを用いてSFT用の軌道を収集する（数独の軌道はGPT-5-miniを用いてより簡潔な思考連鎖（CoT：Chain-of-Thought）に蒸留）。その上で、温度0.8で4エポックのRLを実施する。RLアルゴリズムは基本的なREINFORCEに立ち返り、訓練と推論の間のオフポリシーな乖離を処理するため、Masked IS（幾何平均比に基づく）とTruncated IS（シーケンスレベル比に基づく）を補助的に用いる。報酬は、軌道レベルの割引リターンとステップレベルのフォーマット/妥当性ペナルティに分けられ、それぞれバッチ正規化後に重みα=0.2で加重される。

[図2: 異なる目標距離下での訓練ダイナミクス] 短い目標距離（L1～L2）ではRL訓練は安定して収束する。目標距離がL3～L4に増加すると、訓練は深刻な不安定性を示し、しばしばパフォーマンスの崩壊に終わる。同時に「最大長応答比率」の急上昇を伴う。

論文はメカニズムレベルの解釈を提示する。負のアドバンテージによる勾配更新は、本質的に発散シグナルである。それはサンプリングされたトークンの確率を押し下げる一方で、その確率質量を語彙内の何万ものトークンに均等に分配してしまう。 |V| ≈ 10⁵ のLLMにおいて、これは無関係なトークン群に無差別に加点することに等しく、最適化の分散が増幅される。これこそが、長距離タスクで観測される崩壊の根本原因の一つである。

ホライズン短縮：シンプルだが効果的な原則

論文の核心的主張は極めて明快だ。エージェントに学習不可能な長い依存関係を学ばせようとするよりも、実効ホライズンを直接的に圧縮する方が良い。

第一の手法はマクロアクション（Macro Actions）であり、方策が1ステップ内で複数のアトミックアクションを出力することを可能にする。数独では1ステップで複数のマスを埋めることを許可し、ラッシュアワーではmove(id, direction, N)のように一度に複数マス移動する操作を許可する。これにより、同一タスクのh_π(s₀, g)が構造的に短くなる。第二の手法はサブゴール分解（Subgoal Decomposition）であり、全体目標gを(g₁, g₂, …, gₖ)に分割し、各部分区間で独立にリターンを計算する。論文では数独において、検証可能なサブゴールとして「サブグリッドの完成」を利用し、これを検証した。

[図3: 数独とラッシュアワーにおけるホライズン短縮の効果] 両環境において、マクロアクションの使用はより安定し効果的なRLをもたらす。特に長い目標距離の設定では、アトミックアクションが崩壊する一方で、マクロアクションは安定した成長を維持する。

ここで当然の疑問が生じる。マクロアクションの利益は、「より強力な出発点方策」に由来するのか、それとも「実効ホライズンの短縮」そのものに由来するのか。論文は巧妙なアブレーション（除去実験）を行っている。同一のマクロアクション方策を用いながら、環境側を「1ステップにつき1つのアトミックアクションしか実行できない」ように制限する。すると、方策の表現は変わらないまま、ホライズンが人為的に引き伸ばされる。

[図4: RLの安定性は実効ホライズンに依存する] マクロアクション方策の表現を保持しつつ単一ステップ実行を強制すると、パフォーマンスは一旦上昇した後に崩壊する。真にホライズンが短縮された設定では、上昇はより緩やかであるものの、高いパフォーマンスへと安定して収束する。これは実効ホライズンこそが訓練安定性の主因であることを直接証明している。

サブゴール分解については、スパース報酬のベースラインが既に失敗しているL3～L4の区間において、各サブグリッドの完成区間ごとに独立してGₜを計算した。結果は対照的で、スパース報酬ではほとんど進歩が見られないのに対し、サブゴール誘導方策は安定して上昇し、強力なパフォーマンスに到達した。

環境、モデル規模、最適化手法を問わず成立する

これはパズル特有の問題なのか？ 1.7Bという規模が小さすぎるせいか？ REINFORCEに責任があるのか？論文はこれらについて、それぞれ3つの検証を行っている。

[図7: 環境、モデル規模、最適化手法を跨いだ頑健性] WebShopにおいて、ホライズン短縮は訓練安定性と平均成功率を同時に向上させる。数独のL3～L4区間を4Bモデルに切り替えても、アトミックアクションは依然として崩壊するが、ホライズン短縮は安定して向上する。GRPO（Group Relative Policy Optimization、グループ相対方策最適化）スタイルのグループ正規化オプティマイザに変更しても、同様の「上昇後下降」パターンが出現し、ホライズン短縮によって解消される。

言い換えれば、ホライズンボトルネックは、環境、モデル規模、最適化手法を問わず普遍的に存在するボトルネックであり、ホライズン短縮は分野横断的な汎用解法なのである。

思わぬ収穫：ホライズン汎化

論文はさらに興味深い現象を発見した。限られた目標距離で訓練された方策が、訓練中には全く見られなかった、より長いホライズンへと汎化できるのだ。数独において、L3～L4で訓練されたモデルは、L5～L7の長距離タスクにおいて依然として相当な成功率を示し、しかもベースラインとの差は目標距離が増すごとに拡大していく。論文はこれをホライズン汎化（horizon generalization）と呼ぶ。

[図8: ホライズン汎化] 数独とラッシュアワーにおいて、制限された目標距離で訓練された方策は、訓練で見ていないより長いホライズンへ効果的に汎化する。同時に、ホライズン短縮で訓練されたマクロアクション方策は、より高いステップごとの正確性を持ち、意思決定点数も少なくなるため、長いホライズンにおいてよりエラーに強い。

これが実際の訓練に与える示唆はこうだ。まず短いホライズンで安定した能力を確立し、それからより長いタスクへとブートストラップしていくことは、より低コストなカリキュラム学習の道筋である。ラッシュアワーにおいて、10 ≤ d ≤ 12で直接訓練してもほとんど利益はない。一方、「まず4 ≤ d ≤ 9、次に10 ≤ d ≤ 12」というカリキュラム戦略は、直接訓練を明確に上回る。

長距離エージェント設計への示唆

論文は観察範囲をより広範なエージェント設計パラダイムへと拡張する。コードベースのエージェントが有効である主な理由は、ループや条件分岐を含むプログラムを用いて多数のツール呼び出しを1回の実行に圧縮し、暗黙的にホライズン短縮を行っている点にある。GUIエージェントが多数の低レベルクリックの代わりに高レベルAPI呼び出しを使用するのも、本質的には同じことだ。サブゴール分解は、階層的強化学習（hierarchical RL）の考え方と通じるものがあり、長距離問題を一連の短距離サブ問題に圧縮し、行動帰属を局所化する。

複雑なRLアルゴリズムやドメイン固有の手法に先立ち、ホライズンを意識した（horizon-aware）環境と行動空間の設計が、より優先されるべきである。 論文の結論は明確だ。実効ホライズンを適切に管理することは、スケーラブルな長距離エージェント学習の前提条件であり、オプションではない。

原文タイトル: On Training Large Language Models for Long-Horizon Tasks: An Empirical Study of Horizon Length

原文リンク: https://arxiv.org/abs/2605.02572