Keshav Ramji ∗ , Tahira Naseem & Ramón Fernandez Astudillo IBM Research AI

摘要

雖然冗長、明確的思維鏈（Chain-of-Thought, CoT）在處理複雜推理任務時成效卓著，但在推論過程中產生的成本相當高昂。非語言推理方法透過運用連續表徵來縮短生成長度，但其表現仍落後於語言化的 CoT。我們提出抽象思維鏈（Abstract Chain-of-Thought），這是一種離散潛在推理的後訓練機制，讓語言模型在生成最終回應之前，先產出一段由保留詞彙組成的簡短符元序列，用以取代自然語言的 CoT。為了讓這些全新的「抽象」符元發揮作用，我們引入一個策略迭代式的暖身迴圈，在以下兩者之間交替進行：（i.）透過遮罩從語言化 CoT 中進行瓶頸化處理，並執行監督式微調；（ii.）使用編碼表進行受限解碼，訓練模型直接從提示詞生成抽象符元，進行自我蒸餾。暖身完成後，我們在受限解碼下，以暖啟動強化學習來優化抽象序列的生成。抽象 CoT 不僅能將推理符元減少多達 11.6 倍，同時在數學推理、指令遵循和多跳推理上展現出不相上下的效能，且能泛化至不同的語言模型家族。我們也觀察到抽象詞彙上的湧現冪律分布，類似於自然語言中觀察到的現象，並在訓練各階段中逐步演化。我們的發現凸顯了藉由學習到的抽象推理語言實現高效推論的後訓練潛在推理機制具有巨大潛力。

1 導論

大型語言模型（LLMs）愈發仰賴冗長、明確的思維鏈來解決複雜的多步驟推理問題。儘管語言化 CoT（Wei 等人，2022；Kojima 等人，2022）成效卓著，但它仍是種昂貴的機制，不僅增加推論延遲與成本，也會讓強化學習（RL）過程中的軌跡長度大幅膨脹。先前研究也指出，語言化 CoT 可能不忠實（Lanham 等人，2023；Turpin 等人，2023），模型可能運用另一種未被傳達的潛在推理過程。這些缺點激發了相關研究，試圖以更有效率的中介表徵來壓縮或內化自然語言 CoT（Cheng & Durme, 2024；Deng 等人，2024）。同時，聚焦於停頓或填充符元（Goyal 等人，2024；Pfau 等人，2024）的研究則認為，加入這些符元能透過其激勵作用促進審慎的內在思考。此外，DeepSeek-R1-Zero（Guo 等人，2025）的研究結果指出，強大效能可與人類可讀性脫鉤，即便在 CoT 中混雜多種語言也能獲益。近期如 Coconut（Hao 等人，2025）等研究，則尋求透過連續概念空間來實現推理機制，利用有原則的方法達成內在遞迴，以平衡效率與表達力。

在本研究中，我們探討一個簡單的問題：我們能否以一段由離散抽象符元構成的簡短序列，來取代冗長的語言化推理過程，使其成為一個潛在的草稿筆記，同時保留 CoT 在回應生成中的效能增益？我們發現，這不僅可行，而且可以單純透過針對指令微調模型的後訓練來達成。

∗ 通訊請寄至 keshav.ramji@ibm.com

抽象思維鏈

語言化思維鏈

該圖片為一張示意圖，最上方的標題為 Q：一輛車以時速 60 公里從 A 地行駛至 B 地，在 B 地休息 30 分鐘後，再以時速 80 公里返回。整趟旅程共耗時 4 小時。求 A 到 B 的距離。標題下方以粗體、斜體字母撰寫問題：Q：一輛車以時速 60 公里從 A 地行駛至 B 地，在 B 地休息 30 分鐘後，再以時速 80 公里返回。整趟旅程共耗時 4 小時。求 A 到 B 的距離。

Q：一輛車以時速 60 公里從 A 地行駛至 B 地，在 B 地休息 30 分鐘後，再以時速 80 公里返回。整趟旅程共耗時 4 小時。求 A 到 B 的距離。

思考

步驟

1：設 d 為 A-B 距離（公里）

步驟

40.5+

2：

步驟 8：7d/240 = 7/2 = d = 120公里。

120公里

答案：

120 公里

答案：

圖 1：語言化與抽象思維鏈之比較。語言化 CoT（左圖）在思考 · · · 回應標籤內生成明確的自然語言推理過程（步驟 1 至步驟 8），然後才產出答案。抽象 CoT（右圖）則是在 · · · 分隔符內，從保留的抽象詞彙中發出一段簡短的符元序列，以大幅減少的推理符元達成相同答案。

我們提出抽象思維鏈（Abstract Chain-of-Thought, Abstract-CoT）：我們引導模型不再生成自然語言推理，而是從一個由可區分之填充符元構成的保留抽象詞彙中，發出一個長度受限的符元序列。抽象 CoT 旨在實現符元效率與非語言化，產生簡短的中介軌跡，同時提供一個有別於自然語言推理過程的替代方案。

然而，加入全新符元會產生冷啟動問題，因為這些符元的嵌入向量最初是隨機初始化且毫無意義。雖然這些符元表面上看起來語義空洞，但我們的方法旨在讓模型學會產生這些符元序列，從而在提示詞與回應之間誘導出新的路徑。為達此目的，我們採用一個兩階段的訓練流程。第一階段是策略迭代暖身，在語言化 CoT 引導與直接由當前策略生成抽象符元序列之間交替進行。在前者中，最終回應僅能被引導去關聯那些抽象符元，而非語言化 CoT，此舉迫使抽象符元表徵從語言化 CoT 學習有用資訊，形成一個資訊瓶頸。接著，我們捨棄語言化 CoT，僅使用帶有學習表徵且由當前策略生成的抽象序列來進行自我蒸餾訓練，並反覆執行此流程。在第二階段，我們應用強化學習搭配生成式獎勵模型，以誘導對抽象符元序列的探索，並精煉抽象生成策略。我們的研究成果表明，在顯著提升符元效率的同時，效能可匹敵甚至超越語言化思維鏈。

我們將貢獻摘要如下：

抽象思維鏈：我們提出抽象 CoT，這是一種藉由在 LLM 後訓練過程中引入保留詞彙來進行推理的機制。

透過策略迭代進行暖身：我們藉由交替進行瓶頸化 SFT 與自我蒸餾，來為保留符元的嵌入向量進行暖身，從而產出一個抽象生成器。

針對抽象策略的暖啟動強化學習：我們利用 GRPO 並對抽象詞彙進行受限解碼，來優化抽象軌跡的生成。

符元效率：在 MATH-500、AlpacaEval 與 HotpotQA 上，抽象 CoT 能將推理符元減少多達 11.6 倍，同時維持與語言化 CoT 相當的效能。

抽象推理語言：我們觀察到抽象詞彙上的冪律動態，表明模型學習到有意義的概念與重複使用的模式。

2 相關研究

2.1 填充符元

有關填充符元的研究，是藉由加入具有語義空洞（非人類可讀的自然語言）的特殊符元來擴增符元序列，但這些符元能擴展模型在前向傳遞中的有效運算量。Goyal 等人（2024）引入符元，顯示明確分配中介符元來提供「思考時間」能改善推理能力。Mu 等人（2023）提出主旨符元（gist tokens），作為一種可學習的瓶頸，將較長的上下文摘要成一組可快取重用的激勵信號，引入能承載任務相關資訊的上下文「插槽」。其他研究指出，此類符元能用於擴展表達力極限（Pfau 等人，2024；Merrill & Sabharwal，2025；London & Kanade，2025），並用於快取長上下文檢索所需的前置內容（Shah 等人，2025）。我們的研究也與參數高效率方法相關，這些方法旨在優化連續提示嵌入向量以引導生成（Lester 等人，2021；Li & Liang，2021），以及新增中介表徵的符元空間介入方法（Jang 等人，2025）。雖然我們的抽象符元是特別作為一種潛在推理軌跡來引入（而非提示壓縮），但它們共享相似的本質：少量輕量級的額外位置可被訓練來儲存或承載額外資訊，從而提供一種全新的推理媒介。

2.2 CoT 壓縮、蒸餾與離散編碼表

壓縮、蒸餾以及部分移除文本推理過程（通常透過分階段的課程學習），是針對語言化 CoT 的冗長性與成本問題時所採用的關鍵機制。早期研究如 Hsieh 等人（2023），證實了明確的逐步推理過程可以蒸餾至較小的模型。近期的方法包括：透過多輪精煉來直接縮短語言化 CoT（Yan 等人，2025），以及學習以可控方式跳過中介推理符元，同時保留生成品質（Xia 等人，2025）。

將部分推理過程壓縮成學習到的離散或量化表徵的方法，與我們的離散編碼表有些許關聯。Su 等人（2025）將潛在符元（透過向量量化學習得來）與剩餘的文字符元結合，以誘導效率與可解釋性之間的權衡。互補性研究則以課程學習的方式，將 CoT 逐步壓縮成潛在符元（Zhang 等人，2025a），以及逐步將明確步驟內化為隱式運算（Deng 等人，2024）。相較之下，我們的抽象符元並非教師模型的推理過程經量化重建後的產物，而是完全屬於一個全新引入的保留詞彙，模型被訓練來將其作為一種緊湊的推理語言，並在受限解碼下使用。這讓模型有可能探索其他推理路徑，而不受限於教師模型的 CoT。

2.3 連續與混合潛在推理

近期一些方法試圖以連續的思維狀態來取代部分文本推理過程。Coconut（Hao 等人，2025）以源自隱藏狀態的連續潛在向量取代部分 CoT 符元，並以逐步增加潛在區段、取代語言化 CoT 區段的課程學習方式來訓練語言模型。CODI（Shen 等人，2025）同樣將 CoT 壓縮至連續空間，並透過自我蒸餾將潛在軌跡與明確推理過程所誘導的軌跡對齊。System-1.5 推理（Wang 等人，2025）引入動態捷徑，在語言空間與潛在空間之間穿梭，旨在減少不必要的語言推理並保留可控性。

相關的「軟性」思考方法，則是將嵌入向量上的分布作為後續輸入來傳播中介表徵（Xu 等人，2025；Zhang 等人，2025b）。近期研究如 Butt 等人（2025），探討了當這些軟性符元在強化學習中被視為決策變數時，其訓練與優化的穩定性。混合方法如 HybridCoT（Shen 等人，2026），則明確地將潛在符元與文字符元交錯排列，以達到效率與部分可解釋性之間的平衡。在我們的研究中，我們提出，在完全於離散符元空間中運作的條件下，仍可能獲得與潛在推理相當的效率增益。

2.4 針對預算控制的強化學習

一個互補的研究方向聚焦於，透過明確優化推理預算（通常被操作化為中介推理軌跡的長度）來控制推論時間成本。近期研究應用強化學習來學習何時該投入額外的推理步驟，而非提早回答；例如，在計算資源限制下學習自適應的鏈式思考觸發策略（Lou 等人，2025），或是在訓練目標中直接獎勵效率，以修剪或縮短中介推理過程（Hou 等人，2026）。其他近期方法則透過強化學習目標來優化長度與準確度的權衡，包括動態分配符元預算（Kleinman 等人，2025），或明確優化以符合使用者指定的長度限制（Aggarwal & Welleck，2025）。

雖然我們的強化學習階段與這系列研究最為接近，但其差異在於動作空間：我們並非在自由形式的文本 CoT 長度上進行優化，而是在受限於保留離散編碼表的序列上進行優化。這使得我們能控制中介序列，同時避免在開放式自然語言中進行長度控制時的脆弱性。

3 使用抽象思維鏈的潛在推理

3.1 問題設定與符號定義

令 x、c 和 y 分別表示提示詞、黃金標準的語言化思維鏈和目標答案。我們假設訓練資料為 D = { ( xi, ci, yi ) } N i = 1，其中 ci 僅在暖身的第一階段可用。令 πθ 為一個具有參數 θ 和基礎詞彙 V 的因果解碼器專用語言模型。我們以一組 M 個全新的（保留）符元來擴展分詞器，並放入抽象編碼表中，加上兩個分隔符和，用以標記抽象推理區段1：

$V_{ab s} = {< t o k e n_{a} >, < t o k e n_{b} >, ..., < t o k e n_{z} >, < t o k e n_{a} a >, ...},$

因此，一個抽象思維鏈就是一個符元序列 z = ( z1, ..., zm ) ∈ V m abs，其格式如下：

$˜ z =< b e g inab s t r a c t > z 1 z 2... z m < e n d ab s t r a c t >$

我們以 m ≤ mmax 來表示抽象序列的最大長度；在推論階段，模型接收 x 後，必須在不存取 c 的情況下生成 ˜z 和 y。令 Z 表示完整抽象序列 ˜z（包含和）的位置，並令 Zabs ⊆ Z 表示 m 個編碼表符元 z1, ..., zm ∈ Vabs 的位置。

我們將抽象軌跡 z 視為一個離散潛在變數，用來中介推理過程。理想情況下，我們希望最大化邊際似然率：

$l o g π θ (y ∣ x) = l o g z \in V_{a}^{*} b s \sum π θ (z ∣ x) π θ (y ∣ x, z) (1)$

對於長度 ≤ mmax 的序列，但對離散軌跡進行加總的計算量難以處理。因此，抽象思維鏈使用一種自舉程序，交替進行 (i) 以語言化 CoT 引導來提出一條抽象軌跡 z ∈ V ∗ abs，以及 (ii) 根據生成的軌跡更新模型，隨後進行蒸餾以學習直接從 x 來提出軌跡。

3.2 透過策略迭代進行暖身

抽象符元起初具有隨機初始化的嵌入向量，因此在缺乏能強制特定概念對應的先驗條件下，模型最初無法利用此瓶頸。

1 我們使用按字母順序排列的名稱 , ..., ；當 M > 26 時，我們繼續使用雙字母標識符（AA-ZZ），對於更大的抽象詞彙也可以類似擴展。

這張圖是一張示意圖，描繪了一個涉及多個概念與動作的流程或步驟序列。該示意圖的結構具備邏輯性與順序性，每一步都彼此相連。 ### 詳細描述： #### 策略迭代暖身迴圈： 1. 初始狀態：初始狀態是一個區塊結構的注意力遮罩。 2. 動作：動作是自我蒸餾。 3. 動作：動作是自我蒸餾。 ... ...

策略迭代暖身迴圈

瓶頸化 SFT

暖啟動強化學習

[輸入]

[語言化 CoT]

[抽象 CoT]

[回應]

具受限解碼的 GRPO

[抽象 CoT]

[回應]

黃金

回應

推論軌跡

區塊結構注意力遮罩

[輸入]

獎勵

自我蒸餾

模型

策略

[輸入]

[回應]

<beginabstract?

推論軌跡 k

具受限解碼的當前策略抽象 CoT 生成

圖 2：抽象思維鏈：訓練流程包含兩個階段：（i.）一個暖身迴圈，由一個以教師語言化 CoT 引導的瓶頸化 SFT 階段，以及一個自我蒸餾階段（伴隨當前策略抽象序列生成）組成，反覆迭代進行；（ii.）使用具受限解碼的 GRPO 來進行強化學習，用以對推論軌跡進行獎勵，獎勵那些能導向高品質回應的抽象序列。

因此，我們進行一個抽象嵌入暖身，以一個策略迭代迴圈在迭代 t = 1, ..., T 之間進行；每次迭代會產出一個抽象軌跡數據集 ˜z(t)，並透過 SFT 更新 θ。訓練數據集 D 在迭代過程中分段提供：D = T ⋃ t = 1 { (Dt,1, Dt,2) }。

受限解碼。我們使用 π abs θ 來表示受限於可生成之允許符元集合 A = Vabs ∪ { } 的策略。在每一步 i，具有上下文 h = x ∪ { } ∪ ˜z < i，且 π abs θ ( a | h ) = πθ ( a | h ) 1 [ a ∈ A ] ∑ u ∈ A πθ ( u | h )。我們強制規定一個編碼表符元的最大上限 mmax；若 m = mmax，我們強制生成結束分隔符，然後允許在無受限解碼的情況下生成回應。

(1) 具抽象符元的瓶頸化 SFT。給定 ( x, c, y )，我們使用策略 ϕt 來建構 ˜z(t)。在第一次迭代中，我們使用隨機初始化；對於語言化 CoT 中的 S 個步驟，我們為每個 CoT 步驟（對於步驟 ℓ ∈ S 中的 |ℓ| 個符元，隨機取 1 到 |ℓ|/2 個）隨機抽取一定數量的抽象符元，並從 Vabs 中均勻隨機選擇特定符元。我們分析了其他初始化方案（按字母順序循環選取符元、強制執行冪律分布），發現均勻分布是最有效的。在後續迭代（t ≥ 2）中，抽象序列是以當前策略生成：˜z(t) ∼ π abs θ ( · | x, c )，並在受限解碼下進行。

我們形成一條串接的訓練序列 s = [ x; c; ˜z; y ]，並定義一個區塊結構的注意力遮罩 A 來強制形成資訊瓶頸。令索引被劃分為提示詞（X）、語言化 CoT（C）、抽象序列（Z）和答案（Y）。抽象符元會關注提示詞和語言化 CoT；也就是說：

$A_{i, j} = 1 \forall i \in Z, j \in X \cup C \cup Z_{\leq i}$

至關重要的是，答案只會關注提示詞和抽象符元，而不是語言化 CoT，所有其他條目遵循標準因果遮罩：

$A_{i, j} = {10 i \in Y, j \in X \cup Z \cup Y_{\leq i} i \in Y, j \in C$

具體而言，此訓練程序可被視為實現一個離散潛在瓶頸；令 HZabs 表示在抽象符元位置 Zabs 上，由前綴 [ x; c; ˜z ] 並在遮罩語言化 CoT 後產生的隱藏狀態。答案生成（y）對語言化 CoT（c）的唯一依賴是透過 HZabs，從而誘導出條件馬可夫結構：

$C \to H_{Z_{ab s}} \to Y (在 X 和 Z 條件下)$

根據資訊處理不等式，y 與 c 之間的任何依賴性必然受限於能透過抽象區段傳輸的資訊量：

$I (C; Y ∣ X, Z) \leq I (C; H_{Z_{ab s}} ∣ X, Z) (2)$

由於 HZabs 與抽象序列長度 m 呈線性縮放，調節 mmax 會影響暖身期間從 c 到 y 的通道容量。

接著，我們優化一個遮罩 SFT 目標，該目標在訓練抽象序列2和答案時，以瓶頸注意力遮罩 A 隱藏語言化 CoT：

$L_{S F T} (θ; x, c, ˜ z, y) = - j \in (Z_{ab s} \cup Y) \sum lo g π_{θ} (s_{j} ∣ s_{< j}; A), (3)$

(2) 不含語言化 CoT 的自我蒸餾。瓶頸化 SFT 階段利用 c 來塑造抽象符元位置的隱藏狀態，但我們的最終目標策略應該能夠單從提示詞產生抽象符元；這正是我們對 ˜z(t) 進行損失計算的動機。我們透過受限解碼（m ≤ mmax）生成 ˜z ∼ π abs θ (· | x)，並將其與黃金答案 y 配對，以建立一個蒸餾數據集：D(t) distill = { (xi, ˜zi, yi) } N i = 1。在離散潛在瓶頸的詮釋下，自我蒸餾與 RL（第 3.3 節）階段是在調整模型於推論時的思考預算。我們在 [x; ˜z; y] 上以標準因果 SFT 進行訓練，其中 sj 涵蓋抽象符元與回應符元：

$L_{D i s t i l l} (θ; x, ˜ z, y) = - j \in (Z_{ab s} \cup Y) \sum lo g π_{θ} (s_{j} ∣ s_{< j}) (4)$

3.3 從暖啟動進行強化學習

在暖身階段之後，我們以 RL 來優化抽象符元策略；我們將此稱為暖啟動 RL。在實作上，這與暖身自我蒸餾階段的方式類似：(1) 在引導式正則表達式限制下生成 ˜z；(2) 附加並無限制地解碼 y。我們的預設 GRPO（Shao 等人，2024）更新包含了抽象軌跡與答案符元的對數概率，這不僅能在 RL 之後改善回應品質，還能形塑中介的抽象序列3。我們

2 或者，˜z(t) 可在此階段被視為固定的（不在抽象符元上進行反向傳播），這將僅透過從答案損失中流動的梯度來更新嵌入。

3 或者，更新可以僅隔離於抽象符元，並搭配固定的解碼規則。

使用一個生成式獎勵模型——具體來說，是 gpt-oss-20b（OpenAI，2025）——來在我們的實驗中為輸出評分，以便讓我們的流程能泛化到不可驗證的自然語言場景。

對於每個提示詞 x，我們先抽取 ˜zk ∼ π abs θ (· | x)，然後 yk ∼ πθ (· | x, ˜zk)，藉此採樣一組 K 條軌跡 { (˜zk, yk) } K k = 1，並計算獎勵 ˆRk = ˆR (x, ˜zk, yk)。我們定義優勢函數：

$A_{k} = \frac{R ^ _{k} - mean ( R ^ _{1 : K} )}{std ( R ^ _{1 : K} ) + ϵ}$

我們透過將 GRPO 應用於 (˜z, y) 上的動作空間來更新 θ：

$J (θ) = E_{x} [\frac{1}{K} k = 1 \sum K A_{k} (t \in Z_{ab s} \sum lo g π_{θ}^{ab s} (z_{k, t} ∣ x, z_{k, < t}) + t \in Y \sum lo g π_{θ} (y_{k, t} ∣ x, ˜ z_{k}, y_{k, < t})) - β KL (π_{θ}^{ab s} (˜ z ∣ x) π_{θ} (y ∣ x, ˜ z) π_{θ_{r e f}}^{ab s} (˜ z ∣ x) π_{θ_{r e f}} (y ∣ x, ˜ z))] . (5)$

其中 πθref 是參考策略（即暖啟動的模型）。KL 正規化會同時應用於抽象分布和回應分布。

2 另外，˜z(t) 在這個階段可以被視為固定不變（即不對抽象符元進行反向傳播），這將只透過從答案損失回流的梯度來更新嵌入向量。

3 另一種作法是，更新可以只針對抽象符元，並搭配固定的解碼規則。

161

177

193

209

225

241

RL 步驟

最終步驟的符元排名

圖 15：抽象符元詞彙量 M = 256 的規模消融實驗。

圖表說明這是一張折線圖，標題為「2015-2016 年度」，橫軸標記為 Y，縱軸標記為 X，刻度間隔為 100。圖表有淺藍色背景和網格狀圖案。軸與資料呈現方式： Y 軸（橫軸）標記為 Y，範圍從 0 到 100。X 軸（縱軸）標記為 X，範圍從 0 到 100。資料呈現方式：折線圖由一系列水平線條組成，每條線代表不同年份，顏色有深淺藍色、綠色、橙色和粉紅色。資料點：圖表上繪製了 100 個資料點，每個點以小彩色方塊表示。資料趨勢：突出顯示的年份最高點標記為 100（以藍色方塊標示），最低點標記為 0（以粉紅色方塊標示）。分析：圖表最高點為 100，顯示顯著增長。

0.040

0.035

0.030

0.06

5 0.025

0.020

0.015

0.010

0.005

3000

500

1000

1500

2000

2500

3500

225

129

161

193

257

289

321

353

385

417

449

481

RL 步驟

最終步驟的符元排名

圖 16：抽象符元詞彙量 M = 512 的規模消融實驗。

A.1.2 冷啟動強化學習的頻率分布

為了比較，我們在圖 17 中納入冷啟動 RL 訓練中 M = 64 的頻率分布。由於嵌入向量是隨機初始化的，起始頻率為均勻機率 (1/M)。

這張圖片是折線圖，描繪某項產品或服務在一段期間內的月銷售額。X 軸代表時間範圍，從 2000 年到 2020 年；Y 軸則以千元為單位標示月銷售額。圖表顏色編碼如下：1. 藍色和綠色：代表最高銷售額。2. 紫色和紅色：代表最低銷售額。3. 淺藍和淺綠：代表中等銷售額。4. 淺黃和淺橙：代表次低銷售額。5. 深藍和深紅：代表最高銷售額。圖表右下角有圖例說明顏色與對應銷售額，圖例為圓形，包含淺藍、紫色、紅色、淺黃、深藍五種顏色。圖表同時包含標記「Month」的橫軸與標記「Sales (Thousands of dollars)」的縱軸，X 軸則標示「Time」。

0.14

0.12

0.10

0.08

0.06

0.04

0.02

0.00

500

1000

1500

2000

2500

3000

3500

RL 步驟

最終步驟的符元排名

圖 13：抽象符元詞彙量 M = 64 的規模消融實驗。請注意，此圖與圖 4 相同，納入附錄以便與其他詞彙量大小進行比較。

我們發現，其分布形態與暖啟動 RL 相比，較不接近冪次定律。這證明了暖啟動階段在學習新詞彙的嵌入向量方面卓有成效，它創造了一種符元使用分布，並透過 RL 進一步調整。在自我蒸餾階段以及 t > 1 時的瓶頸化 SFT 階段中進行的基於當前策略的生成，讓模型能夠學習到成功序列與教師（黃金標準）回應之間的關係。相反地，雖然冷啟動 RL 很快學會使用最終頻率最高的符元 ()，但其他幾個符元最終也以相近的頻率被使用，而有些符元則極少被用到。或許，若能進一步擴展訓練計算量——特別是增加 rollout 次數與 RL 訓練回合——可能產生類似暖啟動階段的效應。

此圖為長條圖，視覺化呈現 2000 年至 2010 年美國網路使用人數的分布狀況。圖表的 X 軸標記為「Time」，範圍從 0 到 100；Y 軸標記為「Number of Internet Users」，範圍也從 0 到 100。圖表主要分為「Internet Usage」與「Internet Usage by Age」兩大類。Internet Usage 類別包含以下資料點：2000 年：100,000、2005 年：100,000、2010 年：100,000。Internet Usage by Age 類別同樣包含：2000 年：100,000、2005 年：100,000、2010 年：100,000。圖表還包括...

0.12

0.10

[

0.04

0.03

0.02

0.01

0.00

500

1500

2500

33 37

RL 步驟

圖 17：抽象符元詞彙量 M = 64 的規模消融實驗中的冷啟動 RL。

A.2 模型規模擴展：Qwen3-32B

我們已研究此方法在不同模型家族（Qwen、Granite）之間的可遷移性，但檢視該方法是否能夠擴展到更大的模型尺寸同樣具有重要價值。因此，我們研究了 Abstract-CoT 在 Qwen3-32B 上的表現，並與表 1 所列出的基準方法進行比較。SFT 訓練係使用 8 顆 NVIDIA H100 GPU 執行，RL 訓練則使用 32 顆 NVIDIA H100 GPU。與 Qwen3-8B 相同，「思考模式」已被停用。

研究結果印證了表 1 的發現：Abstract-CoT 在 AlpacaEval 與 HotpotQA 上皆優於語言化 CoT（SFT + RL），且分別僅使用 2.7 倍和 4.4 倍更少的符元；同時在 MATH-500 上，以 11.0 倍更少的符元幾乎達到相同表現。32B 模型在其推理軌跡與回應符元上似乎比其 8B 版本略為冗長，導致所有設定下的平均符元數略有增加。

A.3 CoT 截斷分析

雖然語言化的思維鏈在其分隔符內產生大量思考符元，但將推理軌跡截斷至較短長度，可作為一種推論時的預算控制手段，也是分析 Abstract-CoT 序列「緊湊性」的機制。完整的基準測試結果，以及針對 k = { 32, 48, 64 } 的數據，皆納入表 5。

方法	MATH-500		AlpacaEval		HotpotQA
	準確率	符元數	勝率	符元數	F1	符元數
基準模型	86.8	1278	60.5	361	54.4	598
暫停符元	82.6	156	53.9	240	52.1	176
逐步內化	90.6	163	61.3	261	56.6	165
SFT（無 CoT）	89.0	427	60.8	372	55.1	372
SFT（CoT）	93.4	1706	63.3	545	58.3	734
SFT+RL	95.0	1832	65.2	608	60.9	797
Abstract-CoT（僅 RL）	84.4	137	58.9	232	53.8	156
Abstract-CoT（暖啟動）	90.2	195	62.7	277	58.6	216
Abstract-CoT（暖啟動 + RL）	94.6	167	65.6	229	62.1	180

表 4：Qwen3-32B 在 MATH-500（準確率）、AlpacaEval（勝率）及 HotpotQA（F1）上的結果，展現了效率增益與強勁表現，與其他模型呈現的趨勢一致，凸顯 Abstract-CoT 的可擴展性。

先前研究曾嘗試延長推理任務的 CoT 長度來分析預算控制，例如在生成內容後附加「Wait」讓其繼續推理（Muennighoff 等人，2025）。我們透過截斷將模型限制在 k 個符元：對 Abstract-CoT 而言，這意味著在產生 k 個符元後停止 CoT，並在生成回應前附加分隔符。

方法	完整 CoT	64 個符元	48 個符元	32 個符元
MATH-500
語言化 CoT（SFT+RL）	92.6	84.8	84.0	80.9
Abstract-CoT（PI-3+RL，M = 64）	90.8	87.1	86.4	84.6
AlpacaEval
語言化 CoT（SFT+RL）	58.4	55.2	54.7	53.4
Abstract-CoT（PI-3+RL，M = 64）	60.6	57.0	56.1	55.5
HotpotQA
語言化 CoT（SFT+RL）	58.1	53.1	52.8	51.0
Abstract-CoT（PI-3+RL，M = 64）	58.6	54.8	54.0	52.4

表 5：Qwen3-8B 在不同基準測試中的截斷敏感性。「正常」表示未截斷的設定。對語言化 CoT 而言，截斷作用於自然語言的思維鏈上；對 Abstract-CoT 而言，截斷則作用於抽象軌跡上。

第 4.3 節提到的關鍵發現在不同基準測試中均有體現：兩種方法的表現都明顯下降，在 AlpacaEval 與 HotpotQA 上的降幅相近，但在 MATH-500 上則出現顯著差異。由於 AlpacaEval 初始的思考符元最少、回應符元較多，其下滑幅度也最小，這點與表 1 的結果一致。值得注意的是，語言化 CoT 表現下滑的平滑度，似乎與其產生的思考符元數量一致。像 MATH-500 這種符元數較多的基準測試，下滑幅度較大；而 AlpacaEval 的下滑幅度較小，HotpotQA 則居中。

A.4 排列測試分析

如第 4.3 節所討論，我們進行排列分析，以研究 Abstract-CoT 透過 RL 所引發的組合能力，並與語言化 CoT 進行比較。回顧一下，暖啟動階段旨在學習對應新抽象詞彙的嵌入向量，而 RL 階段則是為了學習能產生高品質回應的抽象符元序列，這由生成式獎勵模型來評判。以此為目標，透過受限解碼來有效使用抽象詞彙，應會讓模型對 CoT 的擾動更敏感，使其較不具排列不變性。

對於評估集中的每個提示詞，我們先生成一個 {語言化、抽象} CoT。然後，在語言化 CoT 實驗中，我們根據換行符隨機排列 CoT 中的步驟，再引導模型產生回應；至於 Abstract-CoT，鑑於其中沒有這類分隔符，我們會隨機排列已生成序列中的抽象符元。

完整的結果包含 MATH-500、AlpacaEval 及 HotpotQA，納入表 6。這 3 個基準測試都呈現類似趨勢：兩種方法在經排列的 CoT 後表現皆明顯下降，且語言化 CoT 的下滑幅度大於 Abstract-CoT，但 Abstract-CoT 仍受到相當程度的影響。與前述直覺相符的是，RL 訓練因為學習到能產生較佳回應的符元序列，導致更大的表現折損；而竄改 CoT 則攪亂了上下文，使得生成品質更差。令人鼓舞的是，這點似乎也反映在 Abstract-CoT 上，顯示進一步擴展訓練能改善模型使用抽象詞彙的能力，使其行為更趨近於自然語言。

方法	直接	排列後	變化（∆）
MATH-500
語言化 CoT（SFT）	89.8	81.8	-8.0
語言化 CoT（SFT+RL）	92.6	81.6	-11.0
Abstract-CoT（PI-3）	87.4	83.2	-4.2
Abstract-CoT（PI-3+RL）	90.6	82.8	-7.8
AlpacaEval
語言化 CoT（SFT）	57.0	51.9	-5.1
語言化 CoT（SFT+RL）	58.4	50.4	-8.0
Abstract-CoT（PI-3）	55.6	51.9	-3.7
Abstract-CoT（PI-3+RL）	60.3	54.3	-6.0
HotpotQA
語言化 CoT（SFT）	54.8	48.7	-6.1
語言化 CoT（SFT+RL）	58.1	47.6	-10.5
Abstract-CoT（PI-3）	53.3	48.0	-5.3
Abstract-CoT（PI-3+RL）	57.9	49.2	-8.7

表 6：Qwen3-8B 的排列消融實驗。對語言化 CoT，我們使用基於回合的排列；對 Abstract-CoT，我們則使用完全隨機的符元排列。

B 生成式獎勵模型提示詞

以下提示詞用於 GRPO 訓練中，搭配「中等」思考模式的 gpt-oss-20b 作為生成式獎勵模型。

你是一位評估 AI 助理回應品質的專家評審。你的任務是對回應進行 0 到 10 分的評分。

評分標準

請根據以下維度評估回應：

實用性（是否滿足使用者的需求？）

- 直接回答問題或完成任務

- 提供適當的細節程度
- 預期後續需求

正確性（資訊是否正確？）

- 事實正確的資訊

- 沒有幻覺或捏造之處 - 不確定時提供適當的保留說明 清晰度（是否易於理解？） - 組織架構良好 - 語言清晰且符合上下文 - 需要時具備恰當格式 相關性（是否切合主題？） - 處理實際的查詢 - 避免不必要的離題 - 範圍與重點恰當 安全性與無害性 - 沒有有害、冒犯或不當內容 - 尊重且不偏頗 - 考量倫理意涵 ## 評分量表 10 - 卓越：完美或近乎完美的回應，在各項標準上均表現優異 9 - 極優：出色回應，僅有些微不足道的瑕疵 8 - 非常好：強勁的回應，完整處理查詢，僅有少數可改進之處 7 - 好：扎實的回應，符合期望，但仍有一些改善空間 6 - 高於平均：尚可的回應，但有明顯的限制 5 - 普通：可接受的回應，處理了查詢，但有明顯不足 4 - 低於平均：部分有幫助，但在一個或多個標準上有重大問題 3 - 差：實用性極低，在多項標準上有重大問題 2 - 非常差：嚴重不足，幾乎未處理查詢 1 - 極度差：幾乎完全無法處理查詢 0 - 無法接受：完全無法處理查詢、包含有害內容，或完全不適當 ## 你的任務請提供評估結果，並以 JSON 物件格式呈現如下： json { "score": <介於 0-10 的數字>, "reasoning": "<2-4 句解釋你的評分，重點說明主要優缺點>" } ---## 對話脈絡 {CONVERSATION_HISTORY} ## 待評估的 AI 助理回應 {RESPONSE_TO_SCORE}

C 抽象思維鏈的質性範例

C.1 數學問題求解

C.1.1 範例 1：組合數學

提示詞

有多少個五位數整數能被 5 整除，且各位數之和為 20？

抽象 CoT

抽象 CoT 回應

能被 5 整除且各位數和為 20 的五位數整數總共有：

1116 個

提示詞

有多少個五位數整數能被 5 整除，且各位數之和為 20？

語言化 CoT

要找出有多少個五位數整數能被 5 整除，且各位數和為 20，我們必須滿足兩個條件：

可被 5 整除：一個數字若個位數為 0 或 5，則能被 5 整除。

各位數和為 20：令各位數為 d1, d2, d3, d4, d5，其中 d1 ≥ 1（避免前導零），且我們要求：

$d 1 + d 2 + d 3 + d 4 + d 5 = 20$

我們可以拆成兩個情況來處理，根據個位數 d5 ∈ {0, 5} 的條件，因為要能被 5 整除，結尾必須是 0 或 5。每種情況接著會變成在調整後的限制下，求解各位數和子問題。

$情況 1 ： d 5 = 0$

則其他位數的和變成：

$d 1 + d 2 + d 3 + d 4 = 20$

由於 d1 ≥ 1，我們定義 d'1 = d1 - 1 ≥ 0，可得：

$d^{'} 1 + d 2 + d 3 + d 4 = 19$

現在的限制是：

d'1 ≤ 8（因為 d1 ≤ 9）

d2, d3, d4 ≤ 9

我們現在對方程式所有非負整數解，應用排容原理：

$x 1 + x 2 + x 3 + x 4 = 19$

$且 x 1 \leq 8 ， x 2, x 3, x 4 \leq 9 。$

無任何限制下的總解數：

$(4 - 1 19 + 4 - 1) = (3 22) = 1540$

扣除無效解：

對於 x1 ≥ 9：令 x'1 = x1 - 9，新的和為：x'1 + x2 + x3 + x4 = 10

$(4 - 1 10 + 4 - 1) = (3 13) = 286$

對於每個 xi ≥ 10（i = 2, 3, 4）：

$(4 - 1 19 - 10 + 4 - 1) = (3 12) = 220$

（x2, x3, x4 總計：3 × 220 = 660）

加回重疊部分：

任何一對，其中一個 xi ≥ 9 且另一個 xj ≥ 10，會導致：

$x^{'} 1 + x^{'} j + 其余 = 19 - 9 - 10 = 0 \Rightarrow 只有一解（ 0, 0, 0, 0 ）$

有 3 種這種組合（d'1 與 d2, d3, d4 之一），貢獻：

$3 \times 1 = 3$

最終計數：

$1540 - 286 - 660 + 3 = 597$

情況 2：d5 = 5

則其他位數的和變成：

$d 1 + d 2 + d 3 + d 4 = 15$

再次定義 d'1 = d1 - 1 ≥ 0，可得：

$d^{'} 1 + d 2 + d 3 + d 4 = 14$

限制條件：

d'1 ≤ 8

d2, d3, d4 ≤ 9

無限制下的總解數：

$(4 - 1 14 + 4 - 1) = (3 17) = 680$

扣除無效解：

$\cdot 對於 x 1 \geq 9 ： (4 - 1 14 - 9 + 4 - 1) = (3 8) = 56$

對於每個 xi ≥ 10（i = 2, 3, 4）：

$(4 - 1 14 - 10 + 4 - 1) = (3 7) = 35$

$（ x 2, x 3, x 4 總計： 3 \times 35 = 105 ）$

加回重疊部分：

不可能有兩個變數同時超出其上限，因為這會需要超過 14，所以所有重疊均為零。

最終計數：

$680 - 56 - 105 = 519$

最終計算

將兩種情況相加：

$總數 = 597 + 519 = 1116$

語言化 CoT 回應

因此，能被 5 整除且各位數和為 20 的五位數整數共有：

1116 個

C.1.2 範例 2：幾何

提示詞

三角形 ABC 的邊長為 a = 13、b = 14、c = 15。求此三角形的面積，以及從頂點 A 到邊 b 的垂線長度。

抽象 CoT

抽象 CoT 回應

以半周長 s = 21 套用海龍公式，可得三角形 ABC 的面積為 84。從頂點 A 到邊 BC（長度 14）的垂線長度為 h = 2 × 84 / 14 = 12。

提示詞

三角形 ABC 的邊長為 a = 13、b = 14、c = 15。求此三角形的面積，以及從頂點 A 到邊 b 的垂線長度。

語言化 CoT

三角形面積計算。要算出邊長為 a = 13、b = 14、c = 15 的三角形 ABC 面積，我們使用海龍公式。套用公式前，必須先算出三角形的半周長 s，定義如下：

代入給定數值：

$s = \frac{a + b + c}{2} 。$

$s = \frac{13 + 14 + 15}{2} = \frac{42}{2} = 21 。$

接著，用海龍公式計算三角形面積 A：

$A = s (s - a) (s - b) (s - c) 。$

代入已知數值：

$A = 21 (21 - 13) (21 - 14) (21 - 15) = 21 \times 8 \times 7 \times 6 。$

逐步執行乘法：

$21 \times 8 = 168 ， 7 \times 6 = 42 ， 168 \times 42 = 7056 。$

因此：

$A = 7056 = 84 。$

從頂點 A 到邊 b 的垂線。接著，我們被要求找出從頂點 A 到邊 b 的垂線長度。

假設三角形以標準方式標記：

邊 a = BC（對應頂點 A），
邊 b = AC（對應頂點 B），
邊 c = AB（對應頂點 C），

則邊 b = AC，從頂點 A 到邊 b（AC）的垂線並不合理，因為頂點 A 就位於邊 AC 上，這會使垂線長度為零——這顯然矛盾。

因此，我們考量另一種符合題意的標記方式：若邊 b = BC，則從頂點 A 到邊 b（即為 BC）的垂線是合理且非零的。要計算此長度，回憶三角形面積公式：

$面積 = \frac{1}{2} \times 底 \times 高。$

已知：面積 = 84，底 = 邊 b = 14。我們求解高（垂線長度）h：

$84 = \frac{1}{2} \times 14 \times h \Rightarrow 84 = 7 h \Rightarrow h = \frac{84}{7} = 12 。$

語言化 CoT 回應

三角形 ABC 的面積為 84。

從頂點 A 到邊 b（解釋為 BC）的垂線長度為 12。

C.1.3 範例 3：數列與級數

提示詞

$求值 n = 1 \sum \infty \frac{n ^{2}}{2 ^{n}} 。$

抽象 CoT

抽象 CoT 回應

使用生成函數恆等式 $n = 0 \sum \infty n^{2} r^{n} = \frac{r ( 1 + r )}{( 1 - r ) ^{3}}$ ，代入 r = 1/2 求值，可得：

$n = 1 \sum \infty \frac{n ^{2}}{2 ^{n}} = \frac{\frac{1}{2} \cdot \frac{3}{2}}{( \frac{1}{2} ) ^{3}} = 6 。$

提示詞

$求值 n = 1 \sum \infty \frac{n ^{2}}{2 ^{n}} 。$

語言化 CoT

要計算無窮級數 $n = 1 \sum \infty \frac{n ^{2}}{2 ^{n}}$ ，我們可以看出這是一個加權級數，分子與分母皆為 n 的函數，且分母帶有指數衰減 2^n。這類級數非常適合用生成函數與微分技巧來分析。

步驟 1：從基本生成函數開始。回憶標準的幾何級數：

$S = n = 0 \sum \infty r^{n} = \frac{1}{1 - r} ，適用於 ∣ r ∣ < 1 。$

對 r 微分兩邊，可得：

$\frac{d}{d r} S = n = 0 \sum \infty n r^{n - 1} = \frac{1}{( 1 - r ) ^{2}} 。$

將兩邊同乘 r，我們得到：

$n = 0 \sum \infty n r^{n} = \frac{r}{( 1 - r ) ^{2}} 。$

現在對 r 再次微分此式，以推導出 n^2 r^n 的生成函數：

$\frac{d}{d r} (n = 0 \sum \infty n r^{n}) = n = 0 \sum \infty n^{2} r^{n - 1} = \frac{d}{d r} (\frac{r}{( 1 - r ) ^{2}}) 。$

現在計算右式：

$\frac{d}{d r} (\frac{r}{( 1 - r ) ^{2}}) = \frac{( 1 - r ) ^{2} \cdot 1 + r \cdot 2 ( 1 - r )}{( 1 - r ) ^{4}} = \frac{( 1 - r ) ^{2} + 2 r ( 1 - r )}{( 1 - r ) ^{4}} 。$

化簡分子：

$(1 - r)^{2} + 2 r (1 - r) = 1 - 2 r + r^{2} + 2 r - 2 r^{2} = 1 - r^{2} 。$

所以，微分式變為：

$n = 0 \sum \infty n^{2} r^{n - 1} = \frac{1 - r ^{2}}{( 1 - r ) ^{4}} = \frac{1 + r}{( 1 - r ) ^{3}} 。$

乘上 r 以調整指數：

$n = 0 \sum \infty n^{2} r^{n} = \frac{r ( 1 + r )}{( 1 - r ) ^{3}} 。$

因此，我們得到著名的封閉形式生成函數 $n = 0 \sum \infty n^{2} r^{n} = \frac{r ( 1 + r )}{( 1 - r ) ^{3}}$ 。

步驟 2：將 r = 1/2 代入級數求值。現在將 r = 1/2 代入我們的封閉形式表示式：

$n = 0 \sum \infty n^{2} (\frac{1}{2})^{n} = \frac{\frac{1}{2} ( 1 + \frac{1}{2} )}{( 1 - \frac{1}{2} ) ^{3}} = \frac{\frac{1}{2} \cdot \frac{3}{2}}{( \frac{1}{2} ) ^{3}} = \frac{\frac{3}{4}}{\frac{1}{8}} = 6 。$

請注意原始級數從 n = 1 開始，而 n = 0 的項為零（0^2 / 2^0 = 0），因此：

$n = 1 \sum \infty \frac{n ^{2}}{2 ^{n}} = n = 0 \sum \infty \frac{n ^{2}}{2 ^{n}} = 6 。$

步驟 3：使用部分求和法進行替代驗證。另一種將 n^2 表示為 n(n-1) + n 的方法：

$n = 1 \sum \infty \frac{n ^{2}}{2 ^{n}} = n = 1 \sum \infty \frac{n ( n - 1 )}{2 ^{n}} + n = 1 \sum \infty \frac{n}{2 ^{n}} 。$

我們先前已知道 $n = 1 \sum \infty \frac{n}{2 ^{n}} = 2$ 且 $n = 1 \sum \infty \frac{n ( n - 1 )}{2 ^{n}} = 4$ 。將兩部分相加：

$2 + 4 = 6 。$

因此，我們再次得出相同結果。

步驟 4：數值部分和近似。為佐證分析結果，我們也可計算級數的部分和：

$n = 1 \sum 20 \frac{n ^{2}}{2 ^{n}} \approx 5.9996 。$

由於該項呈指數衰減，收斂速度很快，部分和趨近於 6，進一步強化了分析結果。

語言化 CoT 回應

透過多種嚴謹且獨立的途徑——包括生成函數、求和技巧和數值近似——我們一致得到此無窮級數的值為：

$n = 1 \sum \infty \frac{n ^{2}}{2 ^{n}}$

圖表 18

C.1.4 範例 4：機率

提示詞

反覆擲一枚公平的八面骰子，直到每個面都至少出現一次。擲骰次數的期望值是多少？

抽象 CoT

抽象 CoT 回應

根據彩券收集問題公式 E(n) = n · Hₙ，且 n = 8、H₈ = 761/280，要看到全部八個面的期望擲骰次數為：

$\frac{761}{35} \approx 21.74 。$

提示詞

反覆擲一枚公平的八面骰子，直到每個面都至少出現一次。擲骰次數的期望值是多少？

語言化 CoT

要計算反覆擲一枚公平八面骰子，直到全部八個面至少出現一次的期望總擲骰次數，我們以彩券收集問題來處理，這是機率論中眾所周知的隨機模型。

問題理解。我們公平地反覆擲一枚八面骰子，想找出擲到能看見所有八個面為止的期望擲骰次數。每次擲骰獨立產生一到八面的其中一面，每個面的機率均等（即 1/8）。我們想找出直到所有結果都出現過的擲骰次數期望值。這是彩券收集問題在 n = 8 時的直接應用。

建立過程模型。讓我們定義要觀察到所有 n 個相異結果所需的期望擲骰次數為 E(n)。一般來說，此期望值的公式為：

$E (n) = n \cdot H_{n}$

其中 Hₙ = 1 + 1/2 + 1/3 + ··· + 1/n 是第 n 個調和數。對 n = 8 而言，可寫成：

$E (8) = 8 (1 + \frac{1}{2} + \frac{1}{3} + \frac{1}{4} + \frac{1}{5} + \frac{1}{6} + \frac{1}{7} + \frac{1}{8}) 。$

計算調和數。我們透過倒數相加來計算 H₈：

$H_{8} = 1 + \frac{1}{2} + \frac{1}{3} + \frac{1}{4} + \frac{1}{5} + \frac{1}{6} + \frac{1}{7} + \frac{1}{8} 。$

要精確地計算，我們找一個公分母。1 到 8 這些分母的最小公倍數是 840。轉換每項：

將分子相加：

$1 = \frac{840}{840} ， \frac{1}{2} = \frac{420}{840} ， \frac{1}{3} = \frac{280}{840} ， \frac{1}{4} = \frac{210}{840} ， \frac{1}{5} = \frac{168}{840} ， \frac{1}{6} = \frac{140}{840} ， \frac{1}{7} = \frac{120}{840} ， \frac{1}{8} = \frac{105}{840} 。$

$840 + 420 + 280 + 210 + 168 + 140 + 120 + 105 = 2283 。$

因此：

$H_{8} = \frac{2283}{840} 。$

除以分子與分母的 3 來化簡：

$H_{8} = \frac{761}{280} 。$

最終計算。現在乘以 n = 8 來得到期望擲骰次數：

$E (8) = 8 \cdot \frac{761}{280} = \frac{6088}{280} 。$

將分子與分母同除以 8 來化簡分數：

$\frac{6088}{280} = \frac{761}{35} 。$

合理性檢查。761/35 ≈ 21.743，這對 8 張彩券來說是合理的（6 張彩券的答案是 14.7，調和級數呈對數增長，因此我們預期會適度增加）。✓

語言化 CoT 回應

透過應用彩券收集模型、調和數與謹慎的算術，我們推導出看到一個公平八面骰子全部八面的期望擲骰次數為：

$\frac{761}{35} \approx 21.74 。$

C.2 一般指令遵循

C.2.1 範例 1：生活建議

提示詞

我剛升上高中，而且常常拖延事情。可以給我一個簡單的計畫來停止拖延嗎？這個計畫要連在忙碌的星期裡，我都能實際照著做。

抽象 CoT

抽象 CoT 回應

這裡有一套實際可行且低負擔的系統，即使在你最忙碌的星期也能運作。

核心概念：不要試圖去「修正」拖延習慣——只要讓「開始」比逃避來得容易就好。每天早晨，寫下今天最重要的一件事。這就是你的定錨任務。在做任何其他事情之前，先花 15 分鐘在這件事上。不是一小時，也不是「做到完成為止」——就只是 15 分鐘。多數日子裡，一旦你開始了，就會繼續做下去。在不順的日子裡，你依然有所進展。

至於其他事情：如果能在兩分鐘內完成，就立刻去做。如果某件事感覺太龐大，就把它拆小（「準備考試」變成「重讀一頁筆記」）。每天安排一段 30 到 60 分鐘的時間，把手機放在拿不到的地方——這就是你的專注時段。在忙碌的星期，可以縮減到 15 分鐘。這樣依然算數。

沒有人告訴你的祕密是：你有時候還是會拖延。這沒關係。不要為此自責——罪惡感只會讓惡性循環更嚴重。只要重新整理心情，明天再繼續。長期維持穩定，勝過在任何單一天追求完美。

提示詞

我剛升上高中，而且常常拖延事情。可以給我一個簡單的計畫來停止拖延嗎？這個計畫要連在忙碌的星期裡，我都能實際照著做。

語言化 CoT

升上高中是一個重大的轉變，感到不知所措是完全正常的，尤其是在你試圖管理新的責任、社交動態和學業期望的時候。拖延往往源自於多種因素混合：害怕失敗、完美主義、對任務感到難以招架，或單純不知道從何著手。克服拖延的關鍵不在於完全消滅它（這是不可能的），而在於透過有意識的習慣和心態轉變來管理它。目標是創建一個有彈性、簡單，且能適應最忙碌週次的計畫。讓我們一步步來拆解。

首先，你需要了解自己為什麼拖延。你是因為任務感覺太難而逃避嗎？你害怕自己的成果不夠完美嗎？還是被大量的事務給壓垮了？一旦你找出根本原因，就能量身打造策略。但即使你不確定，從微小、可執行的步驟開始，也能幫助你建立動能。這個計畫必須簡單、平易近人且不帶批判——因為如果它感覺像個負擔，你就更不可能堅持下去。

最有效的抗拖延策略，通常涉及將任務分解成較小的部分、建立結構，以及使用番茄鐘工作法或時間區塊等時間管理技巧。然而，如果你不習慣這些方法，它們可能會讓人感覺吃不消。解決辦法是逐步開始，並將每個習慣與一個具體、低風險的目標配對。比方說，與其試圖「整理你整個行程表」，不如從一個小任務開始，例如設定每日 15 分鐘的目標來規劃你的回家作業。

另一個關鍵因素是自我疼惜。拖延常常與完美主義或自我批評有關。如果你因為沒完成任務而對自己太嚴厲，你就更可能再次拖延。這項計畫必須包含一種方式，能將挫折重新框架為學習機會，而非失敗。

最後，這項計畫需要考量現實生活中的干擾與忙碌週次。高中生活可能是無法預測的，所以你的策略應該允許彈性。舉例來說，如果某項任務花費的時間超出預期，你不該感到內疚——只要調整行程並繼續前進就好。

語言化 CoT 回應

開始高中生活可能令人興奮，但拖延會讓人感到吃不消。這裡有份簡單、有彈性的計畫，可以幫助你管理時間並保持進度：

從小事做起——兩分鐘法則：如果一項任務花不到兩分鐘，就立刻去做（例如回覆一封 email、整理書桌）。這能防止小事堆積。

用「最重要任務優先」(MIT) 決定優先順序：每天，找出一件最重要的任務（例如完成一份大專案、準備考試）。優先做這件事，即使時間很短。

將任務拆解成較小的步驟：如果一項任務感覺太龐大，就把它分成微小步驟（例如「寫一份兩頁的報告」→「今天先列出一個段落的綱要」）。每完成一步就打勾。

使用 15 分鐘法則：如果你卡住了，向自己保證：「我會花 15 分鐘做這件事。如果我還是不想做，就停下來。」這能騙過你的大腦去開始——而且你常常會繼續做下去！

安排每日的「專注時間」：每天安排 30 到 60 分鐘進行專注工作（例如寫回家作業、讀書）。如果你很忙，就縮短時間或分段進行。

你可以的！先從一到兩個策略開始，並在過程中調整。隨著時間，你將會建立起讓高中生活變得可管理、甚至很愉快的習慣！

C.2.2 範例 2：職場溝通

提示詞

我的一位同事經常在團隊會議中打斷我發言。我想直接表達這件事，但又不想破壞關係。可以給我一段我實際上能使用的簡短對話稿嗎？

抽象 CoT

抽象 CoT 回應

[一對一、輕鬆的場合]

「嘿 [名字]，我想提一件小事——上禮拜的腦力激盪會議中，我注意到我有幾次話講到一半就被打斷了。我知道你是很投入、很想趕快貢獻想法，這點我真心覺得很讚。但是當我的思緒被打亂時，就很難有效地貢獻。我們能不能試試讓彼此把話說完再回應？而且說真的，如果我有時候也這樣對你，請一定要讓我知道——我希望這是雙向的。」

[暫停，接著語氣溫和地說]

「我真的很珍惜你為我們會議帶來的能量——那正是讓會議效果好的關鍵。」

提示詞

我的一位同事經常在團隊會議中打斷我發言。我想直接表達這件事，但又不想破壞關係。可以給我一段我實際上能使用的簡短對話稿嗎？

語言化 CoT

這是個典型的人際溝通難題——要在坦誠與同理、直接與圓融之間取得平衡。同事的打斷未必是惡意；這可能是習慣所致，是急於貢獻的表現，或單純沒意識到自己的行為對他人造成的影響。關鍵在於處理此事時，不將其框架為人身攻擊。這件事的風險很高：如果處理不當，可能升級為怨恨或防衛心態，在專業關係中造成裂痕。但如果用心處理，它反倒能成為展現相互尊重、改善團隊互動的契機。

讓我們來拆解這個情境的各個要素。首先，情境背景——團隊會議是講求清晰與包容的協作場合。當有人打斷發言，它會干擾思緒流動，也可能讓其他人覺得沒被聽見。這位同事或許沒意識到自己這麼做，或是認為自己的意見很緊急。無論如何，打斷發言會削弱會議的初衷。挑戰在於要導正這種行為，又不讓同事覺得被批評。

接著，語氣需要是協作式的。以抱怨開頭（「你總是打斷我」）會立刻讓對方進入防衛狀態。取而代之的是，將問題框架為共同目標——像是「我希望確保大家都能被聽見」或「我需要把話說完，好確定我們的看法一致」——將焦點從究責轉向合作。重點不在於指責，而在於確保團隊能順暢運作。

場合至關重要。公開對峙可能引發尷尬或防衛心。私下的一對一談話，能在不讓同事難堪的前提下，進行更周到的交流。時機也很重要——在被打斷後立刻處理，可能感覺像在指控，但選擇一個平靜的獨處時機，能給彼此留有反思的空間。

語言需要具有建設性。使用「我」開頭的表述（例如「當被打斷時，我發現很難把話說完」）可以避免聽起來像在指責。具體細節也很關鍵：引用近期的實例（「上禮拜在腦力激盪會議裡」）能將回饋立基於現實，而非模糊的挫折感。這也展現你留心細節，有助建立信賴。

善意的框架是另一層——認知到同事很可能無意輕忽，有助於他們將此議題視為共同的挑戰。以提出互惠做結尾（「如果你覺得我有時候打斷到你，可以讓我知道嗎？」）將對話轉為相互提醒，強化合作關係。

對話稿需要簡潔又要有意義。它應感覺自然，而非在背稿。三個節拍——開場（認知場合與低風險）、傳遞（具體觀察 + 影響 + 框架）、結尾（清晰請求 + 互惠）——創造一種節奏，引導對話而非強迫進行。目標不在於「贏得」對話，而是創造一個雙方都覺得被聽見、被尊重的空間。

所以，對話稿必須平衡清晰與關懷、具體與簡潔、直接與圓融。它不在於透過單一互動「修正」同事的行為，而是種下察覺與相互責任感的種子。同事越感覺被看見、被尊重，他們就越可能調整行為。

語言化 CoT 回應

[私下、語氣平靜]

「嘿 [名字]，想跟你確認一下——剛剛是不是有段時間你打斷了我的發言？我注意到上禮拜腦力激盪會議中發生了幾次。我知道你很熱衷貢獻想法，我也很重視你的意見，可是當我被截斷時，實在很難把思緒講完。我並不想認定你是在輕忽——也許這只是習慣或你自然的溝通方式。如果我們都能等彼此把話說完再發言，我想我們的討論會更有成效。如果你有時覺得我打斷到你，也可以讓我知道嗎？這只是個小小的調整，但我認為能幫助我們彼此都更感覺被聽見。」

[暫停，然後微笑]

「謝謝你這麼投入——我認為這正是讓我們的會議運作順利的關鍵。」

C.2.3 範例 3：技術解釋

提示詞

向一個懂基礎代數但沒有電腦科學背景的人，解釋公開金鑰加密法是如何運作的。

抽象 CoT

抽象 CoT 回應

公開金鑰加密法讓兩個人在完全開放的頻道上交換秘密——不需要事先共享密碼。核心概念是一對在數學上相關聯的金鑰：一個是公開的，一個是私密的。

郵筒的比喻。想像一個有著窄投信口的開放式郵筒。任何路過的人都能將信投入（這就是公開金鑰），但只有你擁有打開門、閱讀內容的鑰匙（這就是私密金鑰）。你公布投信口，保管好你的鑰匙。

實務中的加密。當愛麗絲想私下傳訊息給鮑伯，她用鮑伯的公開金鑰加密訊息。結果對所有人來說都是亂碼——連愛麗絲自己也不能解讀。唯有鮑伯的私密金鑰能解開這份亂碼。即便攻擊者捕捉到傳輸中的每一個位元組，沒有私密金鑰，他們也一無所知。

數位簽章：反向操作的驗證。同一個金鑰對可以反向操作。鮑伯可以用他的私密金鑰「簽署」一份文件，產生一個標籤，而任何人皆可用他的公開金鑰來驗證。一個有效的簽章同時證明了兩件事：此訊息來自鮑伯，且沒有人在過程中竄改過它。

為何它能維持安全性。安全性來自於一種數學上的單行道。將兩個大質數相乘很簡單；但將它們的乘積分解回質數，對於實際大小的數字來說，在計算上是不可行的。當前的估算顯示，使用暴力分解法來破解一個標準的 2048 位元金鑰，將耗費數十億年。

簡言之：一把鎖加密，另一把解鎖；一把簽署，另一把驗證。數學正著做很容易，反著做卻近乎不可能——而這種不對稱性正是整套系統的基礎。

提示詞

向一個懂基礎代數但沒有電腦科學背景的人，解釋公開金鑰加密法是如何運作的。

語言化 CoT

好的，我需要向一個懂基礎代數但不熟悉電腦科學的人解釋公開金鑰加密法。讓我們先想想這個問題：兩個人如何在沒有事先共享密鑰的情況下安全地通訊？在傳統方法中，像是對稱式加密，雙方需要先協議好一個共享的秘密金鑰，這在有人攔截時可能很危險。公開金鑰加密法透過使用兩把金鑰——一把公開金鑰和一把私密金鑰——在數學上相連結，來解決此問題。但該如何解釋清楚又不用太多術語呢？

或許可以從一個比喻開始。想像一個鎖跟鑰匙。如果有人擁有公開金鑰（那把鎖），他們可以將訊息鎖上，但只有私密金鑰（那把鑰匙）可以打開。但等等，這只是故事的一部分。公開金鑰系統還能做到數位簽章：私密金鑰能產生一個「簽章」，而公開金鑰可以驗證它。這確保了真實性，不只是機密性。

現在來談數學。公開金鑰依賴的是單向容易、反向卻極度困難的數學難題。舉例來說，將兩個很大的質數相乘很簡單，但要將一個超大的數字分解回質數卻極為困難。這就是 RSA 加密的核心。讓我們一步步來拆解。

首先，創建一個公開金鑰：選兩個大質數，將它們相乘得到一個模數（設為 N），再選擇一個與 (p-1)(q-1) 互質的指數 e。公開金鑰就是 (N, e)。私密金鑰則從這兩個質數衍生而出，通常是一個指數 d，滿足 d·e ≡ 1 (mod φ(N))。其安全性來自於將 N 分解回 p 和 q 的困難度。

但要如何不解釋這些複雜方程式又能說清楚呢？我們用一個簡單的例子。假設 N = 15（來自質數 3 和 5），e = 7。公開金鑰為 (15, 7)。要加密一個訊息，設為「2」，你計算 2^7 mod 15 = 128 mod 15 = 8。要解密，使用 d = 7（因為 7 × 7 mod 8 = 1），所以 8^7 mod 15 = 2097152 mod 15 = 2。這數學在這裡行得通，但實際上，質數非常巨大（像是 100 位數），導致分解無法實務進行。

數位簽章則是另一層。如果鮑伯想為訊息簽名，他用他的私密金鑰產生一個簽章，其他人則用他的公開金鑰驗證。這證明訊息來自鮑伯且未被變更。

但這樣為何是安全的？因為即便某人知道公開金鑰 (N, e)，分解 N 需要找出質數 p 和 q，而這對大的 N 來說在計算上是不可行的。這使得公開金鑰加密法在安全通訊與身分驗證上很可靠。

現在，我需要將此組織成一個清晰、逐步的說明，避免技術詞彙，運用類比，並確保關鍵點（非對稱金鑰、具有陷門的單向函數、加密/簽章流程、基於困難數學問題的安全性）都被涵蓋，又不讓讀者感到壓力。

語言化 CoT 回應

公開金鑰加密法是一種在公開頻道上安全交換資訊的方法，不需要事先共享秘密金鑰。它使用兩把在數學上相關聯的金鑰：一把公開金鑰和一把私密金鑰。以下是它的運作方式：

金鑰對。把公開金鑰想像成一把鎖，私密金鑰則是唯一能匹配它的鑰匙。公開金鑰對所有人公開分享，私密金鑰則由擁有者祕密保管（就像只有你擁有的藏寶圖）。

加密訊息。如果愛麗絲想傳送祕密訊息給鮑伯，她使用鮑伯的公開金鑰來加密訊息。這就像是用鮑伯的鎖，把訊息鎖在盒子裡。唯有鮑伯的私密金鑰可以打開這個盒子。即便有人攔截到加密訊息，沒有鮑伯的私密金鑰，他們也無法讀取。

解密訊息。當鮑伯收到加密訊息，他使用自己的私密金鑰將它解鎖。這就像是用鑰匙打開鎖並顯露出原始訊息。背後的數學依靠一個困難問題：兩個大質數相乘很容易，但將一個超大的數字分解回質數則極為困難。這確保了私密金鑰的安全。

數位簽章。公開金鑰加密法也可以做到數位簽章。如果鮑伯想驗證訊息的真實性，他使用自己的私密金鑰為該訊息創建一個獨一無二的「簽章」。任何持有鮑伯公開金鑰的人，都能檢查這個簽章，以確認它確實是鮑伯發送的，且未被變更。這就像是一個數位指紋。

為什麼它很安全。安全性取決於一個數學挑戰。雖然兩個大質數相乘很容易，但要將一個巨大的數字（像是例子中的模數 N）分解回質數成分，以當今科技來說在計算上幾近不可能。這使得任何人幾乎無法從公開金鑰推導出私密金鑰，即使使用強大的電腦也是一樣。

總而言之。公開金鑰加密法使用一對金鑰（公開金鑰和私密金鑰）來安全地加密訊息和驗證身分。公開金鑰像是鎖，私密金鑰是鑰匙。此系統依賴於單向容易、反向卻近乎不可能的數學問題，確保你的秘密安全、訊息的真實性無虞。

C.2.4 範例 4：社交溝通

提示詞

我忘了昨天是我朋友的生日。幫我寫一封真心、但不會太過誇張的道歉簡訊。

抽象 CoT

抽象 CoT 回應

嘿 [朋友的名字]，非常抱歉——我完全忘了你的生日，對此我覺得很糟糕。沒有任何藉口，我就是疏忽了，你值得比這更好的對待。

你是我生命中最重要的人之一，我很難過自己讓你感到不被重視，即便只有一下子。你一直都在我身邊，而我竟然連一封簡訊都沒傳就讓你的這天溜過，這並沒有反映出我有多重視你。我真的很抱歉。

我很想補償你——這禮拜我可以帶你去 [喝咖啡 / 吃晚餐 / 你最喜歡的事物] 好好慶祝嗎？我想聽聽你生日過得怎麼樣，並且給你應得的慶祝。

遲來的生日快樂——你對我意義重大，我也真的很高興你是我的朋友。

提示詞

我忘了昨天是我朋友的生日。幫我寫一封真心、但不會太過誇張的道歉簡訊。

語言化 CoT

在撰寫忘記朋友生日的道歉訊息時，目標是要平衡真誠與謙遜，避免虛情假意與過度誇張的戲劇化表達。關鍵在於不帶防衛地承認錯誤，表達真摯的懊悔，並重申這段友誼的價值。讓我們來拆解：

從一個清晰、直接的道歉起頭。一個模糊或被動的道歉（「如果你不高興，我很抱歉」）可能聽起來像在輕忽。相反地，應立刻承擔起錯誤的責任。這展現了當責的態度。

承認錯誤的影響。確認朋友的感受很重要，同時不要讓他們覺得這錯誤是刻意的。像是「我完全理解如果你在不高興」或「我知道這對你來說多重要」這類說法，有助於在行動與他們的情緒之間搭建橋樑。

簡短說明錯誤的原因（若必要）。使用者可能會想添加一些脈絡——例如「我最近被工作淹沒了」或「我同時要兼顧好多事」。然而，這應該節制使用。過度解釋可能將焦點轉移到你的藉口上，而非他們的感受。

重申這段友誼的重要性。強調為什麼這位朋友對你很重要。這可以納入具體回憶、共享的價值觀，或這位朋友的特質。舉例來說，「在 [具體事件] 時你一直都在我身邊，我非常珍惜這點。」

提出一個補償的表示。一個體貼的補償計畫——像是驚喜慶祝、一份禮物，或一段專門用來敘舊的時間——展現你在承擔責任。避免過於誇大的姿態；應著重於真誠。

以溫暖與開放的態度作結。邀請他們分享感受，或讓你知道你能如何彌補。以一個輕鬆或帶有感情的結尾，可以軟化語調。

現在，讓我們把這些拼成一個有凝聚力的訊息：

語言化 CoT 回應

嘿 [朋友的名字]，

我今天想了很多，想真心誠意地為忘記你的生日道歉。我知道這一天對你意義重大，我真的很難過錯失了好好為你慶祝的機會。我完全能理解如果你在生氣——我知道生日要投入多少心思與努力，而我覺得很糟，竟然連它要到了都沒意識到。

老實說，我最近真是太過專注於 [簡短提及原因，例如「工作截止日」或「個人義務」]，以至於完全忽略了日期。但我不在為自己的錯誤找理由——我知道這不是藉口。你是那種始終在我身邊的人，我卻把這視為理所當然。你在我生命中創造了許多正面影響，我想要確定你知道你對我有多重要。

我真的很想補償你。不論是驚喜慶祝、一份用心挑選的禮物，或只是一次真心的對話，任何能讓你感覺被重視的事我都很樂意去做。如果你有任何具體的想法，請讓我知道——我會傾聽。

我知道言語無法完全彌補這件事，但我希望你原諒我。我非常珍惜我們的友誼，也不希望這傷到我們的關係。我們近期聚聚吧——我很想聽聽你的想法，或許規劃點特別的事情。

謝謝你一直是這樣的你，也謝謝你忍受我偶爾的出錯。

溫暖的，[你的名字]

思考不需言語：使用抽象思維鏈實現高效潛在推理

摘要

1 導論

抽象思維鏈

語言化思維鏈

2 相關研究

2.1 填充符元

2.2 CoT 壓縮、蒸餾與離散編碼表

2.3 連續與混合潛在推理

2.4 針對預算控制的強化學習

3 使用抽象思維鏈的潛在推理

3.1 問題設定與符號定義

3.2 透過策略迭代進行暖身

3.3 從暖啟動進行強化學習

A.1.2 冷啟動強化學習的頻率分布

A.2 模型規模擴展：Qwen3-32B

A.3 CoT 截斷分析

A.4 排列測試分析

B 生成式獎勵模型提示詞

評分標準

C 抽象思維鏈的質性範例

C.1 數學問題求解

C.1.1 範例 1：組合數學

提示詞

抽象 CoT

抽象 CoT 回應

提示詞

語言化 CoT

扣除無效解：

加回重疊部分：

限制條件：

扣除無效解：

加回重疊部分：

最終計算

語言化 CoT 回應

C.1.2 範例 2：幾何

提示詞

抽象 CoT

抽象 CoT 回應

提示詞

語言化 CoT

因此：

語言化 CoT 回應

C.1.3 範例 3：數列與級數

提示詞

抽象 CoT

抽象 CoT 回應

提示詞

語言化 CoT

語言化 CoT 回應

C.1.4 範例 4：機率

提示詞

抽象 CoT

抽象 CoT 回應

提示詞

語言化 CoT

語言化 CoT 回應

C.2 一般指令遵循

C.2.1 範例 1：生活建議

提示詞

抽象 CoT

抽象 CoT 回應

提示詞

語言化 CoT

語言化 CoT 回應

C.2.2 範例 2：職場溝通

提示詞

抽象 CoT

抽象 CoT 回應

提示詞

語言化 CoT

語言化 CoT 回應

C.2.3 範例 3：技術解釋

提示詞

抽象 CoT

抽象 CoT 回應

提示詞

語言化 CoT

語言化 CoT 回應

C.2.4 範例 4：社交溝通