為何 agent 訓練總在長程任務上崩潰

當下的 LLM agent 越來越常被用作「完成一件複雜事」的執行者,從 Claude Code 到 Codex,多步除錯、反覆決策已成常態。但一個違反直覺的發現是:讓同一個 agent 去做「推理複雜度相同、只是步驟數更長」的任務,訓練會直接崩掉。 這篇論文把「任務步驟數」單獨抽出來作為變數研究,給出了系統性的經驗結論:horizon length 本身,就是長程 agent 訓練的根本瓶頸。

[圖 1:論文貢獻概覽] 論文從 horizon 視角研究長程 LLM agent 訓練,指出 horizon length 是根本瓶頸,並證明 horizon reduction 可以穩定強化學習(RL),同時強化模型在更長任務上的泛化傾向。

圖 1

圖 1

長任務到底難在哪

現有的長程 agent 研究大多沿著兩條路徑,要麼在系統層面做 context engineering、工作流程編排,要麼在模型層面做監督式微調(SFT)與強化學習(RL)。但論文指出,這些工作大體上仍是單輪範式的增量擴展,忽略了 horizon length 作為獨立變數對訓練動態的影響

論文先把「horizon」這個模糊詞拆成三個正式定義:(1)目標距離 d(s₀, g),也就是在最適策略下到達目標所需的最少原子動作數;(2)互動預算 H_max,即環境允許的最大互動步數;(3)有效 horizon h_π(s₀, g),即策略 π 實際完成任務所用的步數。

任務步數變長為什麼難?論文總結了兩點:狀態-動作映射複雜度隨 horizon 非線性增長,早期決策對後續空間施加嚴苛約束,沿著最適軌跡的機率指數衰減;同時,稀疏獎勵下的功勞分配(credit assignment)變得極度模糊,整條軌跡失敗時所有中間步驟(包括那些本身正確的步驟)都被打上負的優勢(advantage),梯度雜訊被放大。

把 horizon 從「解題難度」裡剝出來

長程任務裡,步驟數通常和推理複雜度綁死——空格更多的數獨不僅步驟數更長,還需要更高階的解題技巧。論文要做的就是把步驟數這個變數單獨解耦出來

具體做法是,把任務轉成「單步代理」的短程版本(比如讓模型一次性生成整張數獨的解),只保留那些在短程形式下模型能解的實例,再按目標距離分成 L1–L7 七個檔位。這樣得到的資料集裡,不同檔位的「解題能力需求」已經被對齊,差別主要就剩步驟數。

[表 1:資料集分檔統計] 按 d(s₀, g) 將任務分成 L1–L7:L1–L2(11–15、16–20)與 L3–L4(21–25、26–30)用於訓練,每檔 640 個訓練樣本、100 個測試樣本;L5–L7(31–35、36–40、41–45)僅作 horizon 泛化評估,前兩檔各 100 個樣本、L7 為 50 個。

圖片

論文用文本類謎題作為評測環境,主要用數獨,並在「Rush Hour」上做交叉驗證。數獨的難度由 HoDoKu 工具分類,只保留用「基礎技巧」就能解的謎題,確保差異只來自 horizon。

短 horizon 穩如老狗,長 horizon 直接崩

實驗基座是 Qwen3-1.7B。論文先用 GPT-5-mini 等大模型採集 SFT 軌跡(數獨的軌跡還用 GPT-5-mini 蒸餾出更精簡的思維鏈 CoT),再在此基礎上做 4 個 epoch 的強化學習,溫度設為 0.8。RL 演算法回歸到基礎的 REINFORCE,輔以基於幾何平均比值的遮罩重要性採樣(Masked IS)與基於序列級比值的截斷重要性採樣(Truncated IS),來處理訓練與推理之間的非策略性(off-policy)漂移。獎勵分為軌跡層級的折扣回報與步驟層級的格式/有效性懲罰,分別做批次正規化(batch normalization)後加權,權重 α=0.2。

[圖 2:不同目標距離下的訓練動態] 短目標距離(L1–L2)上 RL 訓練穩定收斂;目標距離增加到 L3–L4 後,訓練出現嚴重不穩定並常以效能崩潰告終,同時伴隨「最大長度回應比」急遽上升。

圖片

論文給出了一個機制層面的解讀:負 advantage 的梯度更新本質上是一種發散訊號,它把被取樣 token 的機率壓下去,卻把這部分機率質量均勻攤給詞表裡成千上萬個 token。在 |V| ≈ 10⁵ 的 LLM 裡,這等於給一堆不相關 token 無差別加分,最佳化變異數因此被放大,正是長程任務裡觀察到崩潰的根源之一。

horizon reduction:簡單卻有效的原則

論文的核心主張很直白:與其讓 agent 去學一條學不動的長依賴,不如直接把有效 horizon 壓下來

第一種做法是 Macro Actions,讓策略在一步內輸出多條原子動作。在數獨裡允許一步填多個格子;在 Rush Hour 裡允許 move(id, direction, N)這類一次移動多格的操作。這樣同一個任務的 h_π(s₀, g) 就結構性地變短。第二種做法是子目標分解(Subgoal Decomposition),把全局目標 g 切成(g₁, g₂, …, gₖ),在每個子段獨立計算回報(return)。論文在數獨上利用「子格完成」作為可驗證子目標進行了驗證。

[圖 3:Horizon reduction 在數獨和 Rush Hour 上的效果] 在兩個環境中,使用 macro action 都帶來更穩定、更有效的 RL,尤其在長目標距離設定下,atomic action 崩潰而 macro action 保持穩定增長。

圖片

一個自然而然的問題是:macro action 的收益到底來自「更強的起點策略」,還是「有效 horizon 變短」本身?論文做了一個乾淨的消融實驗——用同一個 macro-action 策略,但把環境限制為每步只能執行一個原子動作,於是策略表徵不變、horizon 被人為拉長。

[圖 4:RL 穩定性取決於 effective horizon] 保留 macro-action 策略表徵但強制單步執行,效能先升後崩;真正的 horizon-reduced 設定雖然上升更慢,卻穩定收斂到高效能。這直接證明 effective horizon 才是決定訓練穩定性的主因。

圖片

對於子目標分解,論文在稀疏獎勵基準線已經失敗的 L3–L4 區間,將每個子格完成段獨立計算 Gₜ。結果對比鮮明:稀疏獎勵幾乎不進步,subgoal-guided 策略穩定上升並達到強效能。

跨環境、跨規模、跨優化器都成立

會不會是謎題特有的問題?會不會是 1.7B 太小?會不會是 REINFORCE 的鍋?論文分別做了三組驗證。

[圖 7:跨環境、模型規模和優化器的穩健性] 在 WebShop 上,horizon reduction 同時提升訓練穩定性和平均成功率;在數獨 L3–L4 上換成 4B 模型,atomic action 仍然崩潰,而 horizon reduction 穩定提升;換成 GRPO(Group Relative Policy Optimization,組相對策略最佳化)風格的 group-normalized 優化器,同樣的「先升後降」模式出現,並被 horizon reduction 消解。

圖片

換句話說,horizon bottleneck 是跨環境、跨模型規模、跨優化器都普遍存在的瓶頸,而 horizon reduction 是一個跨切面的通用解法。

一個意外收穫:horizon generalization

論文還發現了一個有意思的現象:在有限目標距離上訓好的策略,能泛化到訓練中從沒見過的更長 horizon 上。在數獨上,用 L3–L4 訓練的模型在 L5–L7 的長任務上仍有可觀的成功率,而且它和基準線的差距隨目標距離增大還在拉大,論文把這叫做 horizon generalization。

[圖 8:Horizon generalization] 數獨和 Rush Hour 上,受限目標距離訓練出的策略能有效泛化到未見過的更長 horizon;同時,horizon reduction 訓練出的 macro-action 策略擁有更高的每步準確率(per-step accuracy),決策點數也更少,因此在長 horizon 上更抗錯。

圖片

這對實際訓練的啟發是:先在短 horizon 上建立穩定能力,再漸進式引導(bootstrapping)到更長任務,是一條成本更低的課程式學習(curriculum)路徑。 在 Rush Hour 上,直接在 10 ≤ d ≤ 12 上訓練幾乎沒有增益;而「先 4 ≤ d ≤ 9、再 10 ≤ d ≤ 12」的課程式策略明顯超越直接訓練。

圖片

啟示:對長程 agent 設計的反思

論文把觀察延伸到了更廣的 agent 設計範式。Code-based agent 之所以有效,關鍵在於它用帶迴圈、帶條件的程式把一大串工具呼叫壓縮成一步執行,隱式地做了 horizon reduction;GUI agent 用高層 API 呼叫替代大量底層點擊,本質上也是同一件事。子目標分解則和階層式強化學習(hierarchical RL)的思路相通,把長程問題壓成一串短程子問題,讓功勞分配區域化。

在複雜的 RL 演算法與領域專用方法之前,horizon-aware 的環境和動作空間設計應當被擺在更優先的位置。 論文的結論是鮮明的:管理好 effective horizon,是可擴展長程 agent 學習的先決條件,而不是選項。


原文標題:On Training Large Language Models for Long-Horizon Tasks: An Empirical Study of Horizon Length

原文連結:https://arxiv.org/abs/2605.02572

相關文章推薦

分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.