為何 agent 訓練總在長程任務上崩潰

當下的 LLM agent 越來越常被用作「完成一件複雜事」的執行者，從 Claude Code 到 Codex，多步除錯、反覆決策已成常態。但一個違反直覺的發現是：讓同一個 agent 去做「推理複雜度相同、只是步驟數更長」的任務，訓練會直接崩掉。 這篇論文把「任務步驟數」單獨抽出來作為變數研究，給出了系統性的經驗結論：horizon length 本身，就是長程 agent 訓練的根本瓶頸。

[圖 1：論文貢獻概覽] 論文從 horizon 視角研究長程 LLM agent 訓練，指出 horizon length 是根本瓶頸，並證明 horizon reduction 可以穩定強化學習（RL），同時強化模型在更長任務上的泛化傾向。

圖 1

長任務到底難在哪

現有的長程 agent 研究大多沿著兩條路徑，要麼在系統層面做 context engineering、工作流程編排，要麼在模型層面做監督式微調（SFT）與強化學習（RL）。但論文指出，這些工作大體上仍是單輪範式的增量擴展，忽略了 horizon length 作為獨立變數對訓練動態的影響。

論文先把「horizon」這個模糊詞拆成三個正式定義：（1）目標距離 d(s₀, g)，也就是在最適策略下到達目標所需的最少原子動作數；（2）互動預算 H_max，即環境允許的最大互動步數；（3）有效 horizon h_π(s₀, g)，即策略 π 實際完成任務所用的步數。

任務步數變長為什麼難？論文總結了兩點：狀態-動作映射複雜度隨 horizon 非線性增長，早期決策對後續空間施加嚴苛約束，沿著最適軌跡的機率指數衰減；同時，稀疏獎勵下的功勞分配（credit assignment）變得極度模糊，整條軌跡失敗時所有中間步驟（包括那些本身正確的步驟）都被打上負的優勢（advantage），梯度雜訊被放大。

把 horizon 從「解題難度」裡剝出來

長程任務裡，步驟數通常和推理複雜度綁死——空格更多的數獨不僅步驟數更長，還需要更高階的解題技巧。論文要做的就是把步驟數這個變數單獨解耦出來。

具體做法是，把任務轉成「單步代理」的短程版本（比如讓模型一次性生成整張數獨的解），只保留那些在短程形式下模型能解的實例，再按目標距離分成 L1–L7 七個檔位。這樣得到的資料集裡，不同檔位的「解題能力需求」已經被對齊，差別主要就剩步驟數。

[表 1：資料集分檔統計] 按 d(s₀, g) 將任務分成 L1–L7：L1–L2（11–15、16–20）與 L3–L4（21–25、26–30）用於訓練，每檔 640 個訓練樣本、100 個測試樣本；L5–L7（31–35、36–40、41–45）僅作 horizon 泛化評估，前兩檔各 100 個樣本、L7 為 50 個。

論文用文本類謎題作為評測環境，主要用數獨，並在「Rush Hour」上做交叉驗證。數獨的難度由 HoDoKu 工具分類，只保留用「基礎技巧」就能解的謎題，確保差異只來自 horizon。

短 horizon 穩如老狗，長 horizon 直接崩

實驗基座是 Qwen3-1.7B。論文先用 GPT-5-mini 等大模型採集 SFT 軌跡（數獨的軌跡還用 GPT-5-mini 蒸餾出更精簡的思維鏈 CoT），再在此基礎上做 4 個 epoch 的強化學習，溫度設為 0.8。RL 演算法回歸到基礎的 REINFORCE，輔以基於幾何平均比值的遮罩重要性採樣（Masked IS）與基於序列級比值的截斷重要性採樣（Truncated IS），來處理訓練與推理之間的非策略性（off-policy）漂移。獎勵分為軌跡層級的折扣回報與步驟層級的格式/有效性懲罰，分別做批次正規化（batch normalization）後加權，權重 α=0.2。

[圖 2：不同目標距離下的訓練動態] 短目標距離（L1–L2）上 RL 訓練穩定收斂；目標距離增加到 L3–L4 後，訓練出現嚴重不穩定並常以效能崩潰告終，同時伴隨「最大長度回應比」急遽上升。

論文給出了一個機制層面的解讀：負 advantage 的梯度更新本質上是一種發散訊號，它把被取樣 token 的機率壓下去，卻把這部分機率質量均勻攤給詞表裡成千上萬個 token。在 |V| ≈ 10⁵ 的 LLM 裡，這等於給一堆不相關 token 無差別加分，最佳化變異數因此被放大，正是長程任務裡觀察到崩潰的根源之一。

horizon reduction：簡單卻有效的原則

論文的核心主張很直白：與其讓 agent 去學一條學不動的長依賴，不如直接把有效 horizon 壓下來。

第一種做法是 Macro Actions，讓策略在一步內輸出多條原子動作。在數獨裡允許一步填多個格子；在 Rush Hour 裡允許 move（id, direction, N）這類一次移動多格的操作。這樣同一個任務的 h_π(s₀, g) 就結構性地變短。第二種做法是子目標分解（Subgoal Decomposition），把全局目標 g 切成（g₁, g₂, …, gₖ），在每個子段獨立計算回報（return）。論文在數獨上利用「子格完成」作為可驗證子目標進行了驗證。

[圖 3：Horizon reduction 在數獨和 Rush Hour 上的效果] 在兩個環境中，使用 macro action 都帶來更穩定、更有效的 RL，尤其在長目標距離設定下，atomic action 崩潰而 macro action 保持穩定增長。

一個自然而然的問題是：macro action 的收益到底來自「更強的起點策略」，還是「有效 horizon 變短」本身？論文做了一個乾淨的消融實驗——用同一個 macro-action 策略，但把環境限制為每步只能執行一個原子動作，於是策略表徵不變、horizon 被人為拉長。

[圖 4：RL 穩定性取決於 effective horizon] 保留 macro-action 策略表徵但強制單步執行，效能先升後崩；真正的 horizon-reduced 設定雖然上升更慢，卻穩定收斂到高效能。這直接證明 effective horizon 才是決定訓練穩定性的主因。

對於子目標分解，論文在稀疏獎勵基準線已經失敗的 L3–L4 區間，將每個子格完成段獨立計算 Gₜ。結果對比鮮明：稀疏獎勵幾乎不進步，subgoal-guided 策略穩定上升並達到強效能。

跨環境、跨規模、跨優化器都成立

會不會是謎題特有的問題？會不會是 1.7B 太小？會不會是 REINFORCE 的鍋？論文分別做了三組驗證。

[圖 7：跨環境、模型規模和優化器的穩健性] 在 WebShop 上，horizon reduction 同時提升訓練穩定性和平均成功率；在數獨 L3–L4 上換成 4B 模型，atomic action 仍然崩潰，而 horizon reduction 穩定提升；換成 GRPO（Group Relative Policy Optimization，組相對策略最佳化）風格的 group-normalized 優化器，同樣的「先升後降」模式出現，並被 horizon reduction 消解。

換句話說，horizon bottleneck 是跨環境、跨模型規模、跨優化器都普遍存在的瓶頸，而 horizon reduction 是一個跨切面的通用解法。

一個意外收穫：horizon generalization

論文還發現了一個有意思的現象：在有限目標距離上訓好的策略，能泛化到訓練中從沒見過的更長 horizon 上。在數獨上，用 L3–L4 訓練的模型在 L5–L7 的長任務上仍有可觀的成功率，而且它和基準線的差距隨目標距離增大還在拉大，論文把這叫做 horizon generalization。

[圖 8：Horizon generalization] 數獨和 Rush Hour 上，受限目標距離訓練出的策略能有效泛化到未見過的更長 horizon；同時，horizon reduction 訓練出的 macro-action 策略擁有更高的每步準確率（per-step accuracy），決策點數也更少，因此在長 horizon 上更抗錯。

這對實際訓練的啟發是：先在短 horizon 上建立穩定能力，再漸進式引導（bootstrapping）到更長任務，是一條成本更低的課程式學習（curriculum）路徑。 在 Rush Hour 上，直接在 10 ≤ d ≤ 12 上訓練幾乎沒有增益；而「先 4 ≤ d ≤ 9、再 10 ≤ d ≤ 12」的課程式策略明顯超越直接訓練。

啟示：對長程 agent 設計的反思

論文把觀察延伸到了更廣的 agent 設計範式。Code-based agent 之所以有效，關鍵在於它用帶迴圈、帶條件的程式把一大串工具呼叫壓縮成一步執行，隱式地做了 horizon reduction；GUI agent 用高層 API 呼叫替代大量底層點擊，本質上也是同一件事。子目標分解則和階層式強化學習（hierarchical RL）的思路相通，把長程問題壓成一串短程子問題，讓功勞分配區域化。

在複雜的 RL 演算法與領域專用方法之前，horizon-aware 的環境和動作空間設計應當被擺在更優先的位置。 論文的結論是鮮明的：管理好 effective horizon，是可擴展長程 agent 學習的先決條件，而不是選項。

原文標題：On Training Large Language Models for Long-Horizon Tasks: An Empirical Study of Horizon Length

原文連結：https://arxiv.org/abs/2605.02572