言葉なき思考：抽象的思考連鎖による効率的な潜在推論

Keshav Ramji ∗ , Tahira Naseem & Ramón Fernandez Astudillo IBM Research AI

要旨

長く明示的な思考連鎖（CoT）は複雑な推論タスクに有効である一方、推論時の生成にコストがかかる。非言語的推論手法は連続表現を活用することで生成長を短縮するものの、その性能は言語化されたCoTに及ばない。我々は、言語モデルが応答生成前に自然言語のCoTの代わりに、予約語彙から短いトークン列を生成する離散潜在推論メカニズムである「抽象的思考連鎖」（Abstract Chain-of-Thought）を提案する。未知の「抽象」トークンを有用にするために、(i.) マスキングによる言語CoTからのボトルネック化と教師ありファインチューニングの実行、および (ii.) コードブックを用いた制約付きデコードによりプロンプトのみから抽象トークンを生成するようモデルを訓練する自己蒸留を交互に行う、ポリシー反復型のウォームアップループを導入する。ウォームアップ後、制約付きデコード下でのウォームスタート強化学習により抽象列の生成を最適化する。Abstract-CoTは、数学的推論、指示追従、多段階推論にわたって同等の性能を示しながら、推論トークンを最大11.6分の1に削減し、言語モデルファミリー間で汎化する。また、自然言語に見られるような抽象語彙上のべき乗分布が訓練段階を通じて出現し進化することを発見した。我々の結果は、学習された抽象的推論言語を通じて効率的な推論を可能にする、事後訓練型の潜在推論メカニズムの可能性を強調するものである。

1 はじめに

大規模言語モデル（LLM）は、複雑で多段階の推論問題を解決するために、長く明示的な思考連鎖（CoT）にますます依存するようになっている。その有効性にもかかわらず、言語化されたCoT（Wei et al., 2022; Kojima et al., 2022）は高価なメカニズムであり、推論時のレイテンシとコストを増大させ、強化学習（RL）中のトレース長を膨張させる。また、先行研究は言語化されたCoTが忠実でない可能性があること（Lanham et al., 2023; Turpin et al., 2023）、その一方で伝達されない異なる潜在推論プロセスを活用していることを示唆している。これらの欠点は、より効率的な中間表現を用いて自然言語CoTを圧縮または内在化するアプローチ（Cheng & Durme, 2024; Deng et al., 2024）の動機となっている。同時に、ポーズトークンやフィラートークンに焦点を当てたアプローチ（Goyal et al., 2024; Pfau et al., 2024）は、それらの追加がアクティベーションを通じて意図的な内在的思考を促進することを示唆している。さらに、DeepSeek-R1-Zeroの知見（Guo et al., 2025）は、高い性能が人間の可読性から分離可能であることを示し、CoT内での言語混合があっても利得が得られることを実証している。Coconut（Hao et al., 2025）のような最近の研究は、内在的再帰のための原理的な方法を通じて、連続的な概念空間による推論メカニズムを可能にしようとしている。

本研究では、単純な問いを検討する：応答生成におけるCoTの性能向上を維持しながら、長い言語化された根拠を、潜在的なスクラッチパッドとして機能する短い離散抽象トークン列に置き換えることができるか？我々は、これが可能であるだけでなく、指示調整されたモデルへの事後訓練のみを通じて達成できることを発見した。

∗ 連絡先 keshav.ramji@ibm.com

抽象的思考連鎖

言語化された思考連鎖

図の上部には「Q: 車がAからBまで時速60kmで走行し、Bで30分休憩した後、時速80kmで戻る。合計所要時間は4時間。AからBまでの距離を求めよ。」というタイトルが表示されている。

Q: 車がAからBまで時速60kmで走行し、Bで30分休憩した後、時速80kmで戻る。合計所要時間は4時間。AからBまでの距離を求めよ。

Q: 車がA-B間を時速60kmで走行し、Bで30分休憩し、時速80kmで戻る。合計所要時間は4時間。AからBまでの距離を求めよ。

thinking

ステップ 1: d を A-B 間の距離 (km) とする

ステップ 2:

40.5+

ステップ 8: 7d/240 = 7/2 = d = 120km。

120km

答え:

120 km

答え:

図1: 言語化されたCoT（左）は、思考 · · · 応答タグ内に明示的な自然言語の根拠（ステップ1からステップ8）を生成してから答えを出す。抽象CoT（右）は、代わりに · · · 区切り文字内に予約抽象語彙からの短いトークン列を出力し、大幅に少ない推論トークンで同じ答えを達成する。

我々は、言語化された推論を生成する代わりに、識別可能なフィラートークンからなる予約抽象語彙から、制限された長さのトークン列をモデルに出力させる「抽象的思考連鎖（Abstract-CoT）」を提案する。Abstract-CoTはトークン効率が高く非言語的であり、自然言語で生成された根拠に代わる選択肢を提供するように設計されている。

しかし、未知のトークンの追加は、それらの埋め込みがランダムに初期化され、初期には無意味であるため、コールドスタート問題を引き起こす。これらのトークンは意味的に情報がないように見えるが、我々のレシピは、プロンプトと応答の間に新しい経路を誘導し、これらのトークンの列を生成することを学習することを目指す。この目的のために、我々は二段階の訓練レシピを採用する。第一段階は、言語CoTのガイダンスと抽象トークン列の直接的なオンポリシー生成を交互に行うポリシー反復ウォームアップである。前者では、最終的な応答は抽象トークンのみに注目し、言語CoTには注目しない。これにより、抽象トークン表現が言語CoTから有用な情報を学習することを強制し、情報ボトルネックとして機能する。次に、言語CoTを破棄し、学習された表現を用いてオンポリシーで生成された抽象列のみで訓練することにより自己蒸留を行い、このプロセスを反復的に繰り返す。第二段階では、生成報酬モデルを用いた強化学習を適用し、抽象トークン列の探索を誘発し、抽象生成ポリシーを洗練させる。我々の結果は、言語化された思考連鎖と同等以上の性能を示しながら、トークン効率において大幅な向上を示している。

我々の貢献を以下にまとめる：

抽象的思考連鎖 : LLMの事後訓練において完全に導入された予約トークンの語彙を通じて推論するメカニズムであるAbstract-CoTを提案する。

ポリシー反復によるウォームアップ: ボトルネック化SFTと自己蒸留を交互に行うことで予約トークンの埋め込みをウォームアップし、抽象ジェネレータを生成する。

抽象ポリシーのためのウォームスタートRL: 抽象語彙への制約付きデコードを行い、GRPOを用いて抽象トレースの生成を最適化する。

トークン効率: Abstract-CoTは、MATH-500、AlpacaEval、HotpotQAにおいて、言語化CoTと同等の性能を維持しつつ、推論トークンを最大11.6倍削減する。

抽象的推論言語: 抽象語彙上でべき乗則のダイナミクスが観察され、意味のある概念と再利用パターンが学習されていることを示している。

2 関連研究

2.1 フィラートークン

フィラートークンに関する研究は、意味的に情報のない（人間が読める自然言語ではない）特殊なトークンでトークン列を拡張するが、フォワードパスにおけるモデルの実効的な計算を拡張する。Goyal et al. (2024)はトークンを導入し、「思考時間」を割り当てるために中間トークンを明示的に割り当てることで推論を改善できることを示した。Mu et al. (2023)は要旨（gist）トークンを提案し、これは学習されたボトルネックとして機能し、より長い文脈をキャッシュして再利用できる少数の活性化に要約し、タスク関連情報を保持できる文脈的「スロット」を導入する。他の研究は、そのようなトークンが表現力の限界を拡大するために使用できること（Pfau et al., 2024; Merrill & Sabharwal, 2025; London & Kanade, 2025）、長文脈検索のために先行する文脈をキャッシュするために使用できること（Shah et al., 2025）を示唆している。我々の研究は、世代を誘導するために連続的なプロンプト埋め込みを最適化しようとするパラメータ効率の良い手法（Lester et al., 2021; Li & Liang, 2021）や、中間表現を追加するトークン空間介入（Jang et al., 2025）にも関連する。我々の抽象トークンは、プロンプト圧縮としてではなく潜在推論トレースとして特別に導入されているが、少数の軽量な追加ポジションが追加情報を保存または伝達するように訓練できるという点で同様の本質を共有しており、新しい推論媒体を提供する。

2.2 CoTの圧縮、蒸留、および離散コードブック

圧縮、蒸留、およびテキストによる根拠の部分的な除去（多くの場合、段階的なカリキュラムを通じて）は、言語化されたCoTの冗長性とコストを対象とする主要なメカニズムの一部である。Hsieh et al. (2023)のような初期の研究は、明示的なステップバイステップの根拠がより小さなモデルに蒸留できることを実証した。最近の手法には、複数ラウンドの洗練による言語化CoTの直接的な短縮（Yan et al., 2025）や、生成品質を維持しつつ制御可能な方法で中間推論トークンをスキップする学習（Xia et al., 2025）が含まれる。

根拠の一部を学習された離散的または量子化された表現に圧縮するアプローチは、我々の離散コードブックにいくらか関連している。Su et al. (2025)は、（ベクトル量子化によって学習された）潜在トークンと残りのテキストトークンを組み合わせ、効率と解釈可能性のトレードオフを誘発する。補完的な研究は、CoTを段階的に潜在トークンに圧縮したり（Zhang et al., 2025a）、カリキュラム形式で明示的なステップを暗黙的な計算に徐々に内在化させたり（Deng et al., 2024）している。対照的に、我々の抽象トークンは教師の根拠の量子化された再構成ではなく、完全に新しく導入された予約語彙内にあり、制約付きデコード下でモデルがそれをコンパクトな推論言語として使用するように訓練される。これにより、モデルは教師のCoTに制約されるのではなく、他の推論経路を探索する可能性が生まれる。

2.3 連続的およびハイブリッド潜在推論

最近のアプローチの中には、テキストによる根拠の一部を連続的な思考状態に置き換えようとするものがある。Coconut（Hao et al., 2025）は、一部のCoTトークンを隠れ状態から導出された連続潜在ベクトルに置き換え、潜在セグメントを徐々に増やし言語化されたCoTセグメントを置き換えるカリキュラムを用いて言語モデルを訓練する。CODI（Shen et al., 2025）も同様に、自己蒸留を使用して潜在軌道を明示的な根拠によって誘導される軌道と整合させながら、CoTを連続空間に圧縮する。System-1.5推論（Wang et al., 2025）は、言語空間と潜在空間の間を移動する動的なショートカットを導入し、不必要な言語的推論を減らし制御性を維持することを目指す。

関連する「ソフト」思考アプローチは、埋め込み上の分布を後続の入力として供給することによって中間表現を伝播する（Xu et al., 2025; Zhang et al., 2025b）。Butt et al. (2025)のような最近の研究は、そのようなソフトトークンがRLを通じて決定変数として扱われる場合の訓練と最適化の安定性を研究している。HybridCoT（Shen et al., 2026）のようなハイブリッド手法は、効率と部分的な解釈可能性のバランスを取るために、潜在トークンとテキストトークンを明示的に交互に配置する。我々の研究では、完全に離散トークン空間で動作しながら、潜在推論に関連する効率性の向上を達成することが可能であることを示唆する。

2.4 予算制御のための強化学習

補完的な方向性は、中間推論トレースの長さとしてしばしば操作される推論予算を明示的に最適化することによる推論時コストの制御に焦点を当てている。最近の研究は、計算制約下での適応的な思考連鎖トリガーポリシーの学習（Lou et al., 2025）、あるいは効率に直接報酬を与える訓練時目標による中間推論の剪定や短縮（Hou et al., 2026）など、いつ追加の推論ステップを費やし、いつ早期に回答するかを学習するためにRLを適用している。他の最近のアプローチは、トークン予算を動的に割り当てたり（Kleinman et al., 2025）、ユーザー指定の長さ制約との一貫性を明示的に最適化したり（Aggarwal & Welleck, 2025）することにより、RL目標を使用して長さと精度のトレードオフを最適化する。

我々のRL段階はこの研究ラインに最も密接に整合しているが、アクション空間が異なる。つまり、自由形式のテキストCoT長を最適化する代わりに、予約された離散コードブックに制約された列上で最適化を行う。これにより、オープンエンドな自然言語における長さ制御の脆弱性を回避しながら、中間列の制御が可能になる。

3 抽象的思考連鎖による潜在推論

3.1 問題設定と表記法

x、c、y をそれぞれプロンプト、正解の言語的思考連鎖（CoT）、目標回答とする。訓練データ D = { ( xi , c i , yi ) } N i = 1 を想定する。ここで c i はウォームアップの第一段階でのみ利用可能である。πθ をパラメータ θ と基本語彙 V を持つ因果デコーダのみのLLMとする。我々は抽象コードブック内の M 個の未知の（予約された）トークンのセットと、抽象推論セグメントをマークする2つの区切り文字とでトークナイザを拡張する 1 ：

$V ab s = < t o k e n_{a} >, < t o k e n_{b} >, ..., < t o k e n_{z} >, < t o k e n_{a} a >, ...,$

したがって、抽象的思考連鎖はトークン列 z = ( z 1 , . . . , zm ) ∈ V m abs であり、次のようにフォーマットされる：

$˜ z =< b e g inab s t r a c t > z 1 z 2... z m < e n d ab s t r a c t >$

抽象列の最大長を m ≤ m max とする。推論時において、モデルは x を受け取り、c にアクセスせずに ˜ z と y を生成しなければならない。Z を（とを含む）抽象列全体 ˜ z の位置とし、Z abs ⊆ Z を m 個のコードブックトークン z 1 , . . . , zm ∈ V abs の位置とする。

我々は抽象トレース z を推論を媒介する離散潜在変数と見なす。理想的には、次の周辺尤度を最大化したい：

$l o g π θ (y ∣ x) = l o g \sum z \in V * ab s π θ (z ∣ x) π θ (y ∣ x, z) (1)$

長さ ≤ m max の列について。しかし、離散トレースにわたる和は手に負えない。したがって、抽象的思考連鎖は、(i) 言語的CoTガイダンスを用いた抽象トレース z ∈ V ∗ abs の提案と、(ii) 生成されたトレースを与えられたモデルの更新、続いて x のみから直接トレースを提案することを学習するための蒸留を交互に行うブートストラップ手順を使用する。

3.2 ポリシー反復によるウォームアップ

抽象トークンはランダムに初期化された埋め込みで開始されるため、特定の概念マッピングを強制する事前分布がない場合、モデルは当初ボトルネックを活用できない。

1 M > 26 の場合、二文字の識別子（AA-ZZ）を使用するアルファベット名 , . . . , を使用する。これは、より大きな抽象語彙にも同様に拡張可能である。

この図は、様々な概念とアクションを含むプロセスまたは一連のステップを描いたダイアグラムである。

ポリシー反復ウォームアップループ

ボトルネック化SFT

ウォームスタート強化学習

[入力]

[言語CoT]

[抽象CoT]

[応答]

制約付きデコードを用いたGRPO

[抽象CoT]

[応答]

正解応答

ロールアウト

ブロック構造注意マスク

[入力]

報酬

自己蒸留

モデルポリシー

[入力]

[応答]

<beginabstract?

ロールアウト k

制約付きデコードを用いたオンポリシー抽象CoT生成

図2: 抽象的思考連鎖 : 訓練レシピは二段階から成る：(i.) 教師による言語CoTのガイダンスを用いたボトルネック化SFTフェーズと、オンポリシー抽象列生成を用いた自己蒸留フェーズで構成されるウォームアップループを繰り返し、(ii.) ロールアウトに制約付きデコードを使用したGRPOを用いる強化学習を行い、高品質な応答につながる抽象列に報酬を与える。

したがって、我々は反復 t = 1, . . . , T にわたるポリシー反復ループを用いて抽象埋め込みウォームアップを実行する。各反復は抽象軌道 ˜ z ( t ) のデータセットを生成し、SFT によって θ を更新する。訓練データセット D は反復にわたって段階的に構成される: D = T ⋃ t = 1 { ( D t ,1 , D t ,2 ) }。

制約付きデコード。 π abs θ を用いて、生成可能な許可トークンセット A = V abs ∪ { } に制限されたポリシーを表す。各ステップ i において、文脈 h = x ∪{ } ∪ ˜ z < i を持ち、 π abs θ ( a | h ) = πθ ( a | h ) 1 [ a ∈A ] ∑ u ∈A πθ ( u | h ) とする。我々は、生成可能なコードブックトークンの最大数 m max を強制する。もし m = m max であれば、終了区切り文字を強制的に生成させ、その後、制約付きデコードなしで応答を生成させる。

(1) 抽象トークンを用いたボトルネック化SFT。 ( x , c , y ) が与えられたとき、ポリシー ϕ t を用いて ˜ z ( t ) を構築する。最初の反復ではランダム初期化を使用し、言語CoTの S ステップに対して、CoTステップごとにランダムな数の抽象トークンをサンプリングし（ステップ ℓ ∈ S において | ℓ | トークンに対して rand( 1, | ℓ | 2 ) ）、一様ランダムに V abs から特定のトークンを選択する。他の初期化スキーム（アルファベット順にトークンを循環させる、べき乗分布を強制する）を分析したが、トークン上の一様分布が最も効果的であることが分かった。後続の反復（t ≥ 2）では、抽象列はオンポリシーで生成される： ˜ z ( t ) ∼ π abs θ ( · | x , c )。

我々は単一の連結訓練系列 s = [ x ; c ; ˜ z ; y ] を形成し、情報ボトルネックを強制するブロック構造注意マスク A を定義する。インデックスをプロンプト（ X ）、言語CoT（ C ）、抽象列（ Z ）、回答（ Y ）に分割する。抽象トークンはプロンプトと言語CoTに注目する。すなわち：

$A i, j = 1\forall i \in Z, j \in X \cup C \cup Z \leq i$

重要なことに、回答はプロンプトと抽象トークンにのみ注目し、言語CoTには注目しない。他のすべてのエントリは標準的な因果マスキングに従う：

$A i , j = { 1 i \in Y , j \in X \cup Z \cup Y\leq i 0 i \in Y , j \in C$

具体的には、この訓練手順は離散潜在ボトルネックを実装すると見なすことができる。H Z abs は、言語CoTのマスキング後にプレフィックス [ x ; c ; ˜ z ] から生成された抽象トークン位置 Z abs における隠れ状態を表す。

アルゴリズム 1 : Abstract-CoTのためのポリシー反復ウォームアップ

要件: 訓練データ D = { ( x , c , y ) } , 抽象語彙 V abs , 反復回数 T

1: 基本指示調整モデルから θ ( 0 ) を初期化し、V abs の新しいトークン埋め込みを追加する
2: for t = 1 to T do
3: 現在の反復のデータ: D t ,1 , D t ,2 ⊂ D ( t )
4: ( x , c , y ) ∈ D t ,1 について、抽象トレース ˜ z ( t ) ∼ ϕ t ( · | x , c , θ ( t -1 ) ) (t = 1 の場合はランダム、それ以外は ϕ t = π θ ( t -1 ) を用いた制約付きデコード) を生成する
5: ¯ θ ( t ) ← arg min θ E ( x , c , y ) ∼D t ,1 [ L SFT ( θ ; x , c , ˜ z ( t ) , y ; A ) ] を更新する
6: 蒸留: ( x , y ) ∈ D t ,2 について ˜ z ′ ∼ π abs ¯ θ ( t ) ( · | x ) を生成する
7: ¯ θ ( t ) から開始し、θ ( t ) ← arg min θ E ( x , y ) ∼D t ,2 [ L Distill ( θ ; x , ˜ z ′ , y ) ] を更新する
8: end for
9: θ ( T ) を返す

応答生成 ( y ) の言語CoT ( c ) への依存性は H Z abs を通じてのみであり、条件付きマルコフ構造を誘発する：

$C \to H Z ab s \to Y (X と Z の条件付き)$

データ処理の不等式により、y と c の間の依存性は抽象セグメントを通じて伝達できる情報によって制限されなければならない：

$I (C; Y ∣ X, Z) \leq I (C; H Z ab s ∣ X, Z) (2)$

H Z abs は抽象列長 m に線形にスケールするため、m max の調整はウォームアップ中の c から y へのチャネル容量に影響を与える。

次に、ボトルネック注意マスク A を用いて言語CoTを隠しながら、抽象列 2 と回答について訓練するマスク付きSFT目的関数を最適化する：

$L S F T (θ; x, c, ˜ z, y) = - \sum j \in (Z ab s \cup Y) l o g π θ (s j ∣ s < j; A), (3)$

(2) 言語CoTなしの自己蒸留。ボトルネック化SFT段階は c を利用して抽象トークン位置での隠れ状態を形成するが、我々の目標ポリシーは最終的にプロンプトのみから抽象トークンを生成すべきである。これが ˜ z ( t ) での損失計算の動機となった。我々は、制約付きデコード（θ を用いて m ≤ m max ）によって ˜ z ∼ π abs ( · | x ) を生成し、それを正解回答 y とペアリングすることにより蒸留データセットを作成する： D ( t ) distill = { ( xi , ˜ zi , yi ) } N i = 1 。離散潜在ボトルネックの解釈では、自己蒸留とRL（セクション3.3）のフェーズはモデルの推論時思考予算を調整する。抽象トークンと応答トークンにわたる [ x ; ˜ z ; y ] に対する標準的な因果SFTで訓練する：

$L D i s t i l l (θ; x, ˜ z, y) = - \sum j \in (Z ab s \cup Y) l o g π θ (s j ∣ s < j) (4)$

3.3 ウォームスタートからの強化学習

ウォームアップ段階の後、我々は抽象トークンポリシーをRLで最適化する。これをウォームスタートRLと呼ぶ。実際には、これはウォームアップ自己蒸留フェーズと同様の方法で実装される：(1) ガイド付き正規表現制約下で ˜ z を生成し、(2) を追加し、制約なしで y をデコードする。我々のデフォルトのGRPO（Shao et al., 2024）更新には、中間抽象列を形成することに加えて、RL後の応答品質を改善するために、抽象トレースと回答トークンの両方の対数確率が含まれる 3 。我々は、自然言語設定で検証不可能な設定に一般化するために、生成報酬モデル、特に gpt-oss-20b (OpenAI, 2025) を使用して出力をスコアリングする。

2 オプションで、˜ z ( t ) はこの段階で固定として扱うことができ、回答損失から流れる勾配のみを通じて埋め込みを更新する。

3 あるいは、固定デコードルールとともに抽象トークンのみに更新を分離することもできる。

各プロンプト x について、まず ˜ z k ∼ π abs θ ( · | x ) を抽出し、次に yk ∼ πθ ( · | x , ˜ z k ) を抽出し、報酬 ˆ Rk = ˆ R ( x , ˜ z k , yk ) を計算することにより、K 個の軌道 { ( ˜ z k , yk ) } K k = 1 のグループをサンプリングする。アドバンテージを定義する:

$A k = ˆ R k - m e an (ˆ R 1 : K) s t d (ˆ R 1 : K) + ϵ$

アクション空間 ( ˜ z , y ) 上でGRPOを適用して θ を更新する:

$J (θ) = E x [1 K K \sum k = 1 A k (\sum t \in Z ab s l o g π ab s θ (z k, t ∣ x, z k, < t) + \sum t \in Y l o g π θ (y k, t ∣ x, ˜ z k, y k, < t)) - β K L (π ab s θ (˜ z ∣ x) π θ (y ∣ x, ˜ z) ∥∥∥ π ab s θ r e f (˜ z ∣ x) π θ r e f (y ∣ x, ˜ z))] . (5)$

ここで πθ ref は参照ポリシー（ウォームスタートされたモデル）である。KL正則化は抽象分布と応答分布の両方に適用される。

4 結果

4.1 実験設定

データセット。我々は、ポリシー反復ウォームアップループには Dolci-Think-SFT データセット (AI2, 2025b) からサブサンプリングしたデータ (600k サンプル) を、強化学習には Dolci-Think-RL (AI2, 2025a) からサブサンプリングしたデータを使用して訓練する。これらは Olmo 3 Think モデル (Olmo et al., 2025) の開発に使用されたものである。前者は正解の言語CoTと正解回答とペアになったプロンプトを含み、後者からはプロンプトと正解応答のみを使用する。我々は、数学（検証可能）、一般的な指示追従、多段階質問応答（検証不可能）の設定、および数学と自然言語を含むより挑戦的で推論集約的なベンチマークである AIME'25 (Art of Problem Solving, 2025) と GPQA-Diamond (Rein et al., 2024) にわたる結果を報告する。

モデル。我々は3つの指示調整モデル、Qwen3-8B (Yang et al., 2025)、Qwen3-4B、Granite-4.0-Micro (3B) 4 を検討する。また、付録 A.2 には Qwen3-32B を用いたアブレーションも含まれる。我々は、制御された比較を確実にするために、標準的なCoTプロンプトを用いて「思考モード」なしでモデルを評価し、性能と中間トークン（推論/根拠）長の両方を報告する。Abstract-CoT については、各トークナイザを抽象語彙で拡張し、ウォームアップ中に新しい埋め込みを訓練し、最大 m max トークンまでの制約付き抽象トレースをデコードする。我々は T = 3 のポリシー反復ウォームアップラウンドを使用する。

ベースラインと手法。我々のベースラインには、(1.) プロンプトからの直接回答生成（ベースライン）; (2.) 生成前に m max 個のトークンを挿入する「ポーズトークン」(Goyal et al., 2024); (3.) CoTステップを徐々に削除しながら反復的に訓練する「段階的内在化」(ICoT-SI, Deng et al. (2024))、CoTを用いたSFTから開始する (max i ∈C |S i | 反復); (4.) ( x , y ) ペアで教師ありファインチューニングを行う「SFT (CoTなし)」; (5.) ( x , c , y ) 軌道で教師ありファインチューニングを行う「SFT (CoT)」; (6.) CoTを用いたSFTの後に言語CoTのためのRL (GRPO) を伴う「SFT + RL」が含まれる。

分析される我々の手法のバリアントは、RLのみ（コールドスタート）、ウォームアップ（ウォームアップのみ）、ウォームアップ + RL（ウォームスタートGRPO）である。我々は M = 64 トークンの抽象コードブックを使用し（アブレーションは付録 A.1 に含まれる）、抽象生成を最大 m max = 128 トークンに制限する。ウォームアップの各フェーズ（ボトルネック化SFT、自己蒸留）は3エポックの訓練で構成され、RLは1Mエピソード実行される。SFT訓練は8 × NVIDIA H100 GPUで、RL訓練は最大32 × NVIDIA H100 GPUで実施された。

4 https://huggingface.co/ibm-granite/granite-4.0-micro

手法	MATH-500		AlpacaEval		HotpotQA
	精度	トークン数	勝率	トークン数	F1	トークン数
Qwen3-8B
ベースライン	82.4	1205	52.4	322	51.1	527
ポーズトークン	78.6	142	46.7	212	49.0	173
段階的内在化	88.6	169	55.3	245	52.7	136
SFT (CoTなし)	85.8	394	54.9	298	51.3	331
SFT (CoT)	89.8	1522	57.0	460	54.8	679
SFT+RL	92.6	1671	58.4	496	58.1	735
Abstract-CoT (RLのみ)	82.0	118	50.4	229	49.0	149
Abstract-CoT (ウォームアップ)	88.0	173	55.9	251	53.7	174
Abstract-CoT (ウォームアップ + RL)	90.8	144	60.8	225	58.8	171

表1: MATH-500（精度）、AlpacaEval（勝率）、HotpotQA（F1）の主要結果。評価中にプロンプトごとに生成された平均トークン数を含み、推論トークンと応答トークンを組み合わせている。これには、言語CoTトークン（ベースライン）、Abstract-CoTの抽象語彙トークン、ポーズトークンベースラインのポーズトークン数が含まれる。各列の各モデルの最高結果は太字で示され、2番目に高い結果は下線で示されている。

4.2 Abstract-CoTは効率的な推論を可能にする

我々の結果は、表1に示すように、Abstract-CoTがすべてのモデルとすべてのベンチマークにおいて、言語化CoT（SFT + RL）を用いた事後訓練の性能に近づくか上回ることを示している。すべてのモデルが AlpacaEval で意味のある向上を達成している（Qwen3-8Bで+2.4ポイント、Qwen3-4Bで+1.6ポイント、Granite 4.0 Microで+1.6ポイント）。トークン効率を、評価プロンプトで平均化した、言語CoTトークンと抽象トークンの比率として測定する。c verbal（言語CoTベースラインからのモデル生成の言語的根拠）と m について、圧縮率 = E [ | c verbal | ] E [ m ] と表す。我々はトークン効率において大幅な向上を達成している：10.4-11.6倍（MATH-500）、1.9-2.2倍（AlpacaEval）、4.0-4.3倍（HotpotQA）。図3に MATH-500 と AlpacaEval のトークン使用量と性能をプロットし、トークン効率の高い推論におけるこの手法の有効性を強調する。表2に示す AIME'25 と GPQA-Diamond の評価も同様の傾向を示している：Abstract-CoT は、SFT + RL の性能にほぼ匹敵しながら、トークン効率を大幅に向上させている（それぞれ2.7倍と7.9倍）。これらの結果は、より困難な推論設定においても、Abstract-CoTを生成するようにモデルを訓練することで、新たな潜在思考経路を学習しつつ、高性能を維持できることを示唆している。

手法	GPQA-Diamond		AIME'25
	精度	トークン数	精度	トークン数
ベースライン	44.9	767	23.3	3981
SFT (CoTなし)	39.4	499	18.9	2745
SFT (CoT)	45.5	1106	23.3	4627
SFT + RL	51.5	1382	25.6	9343
Abstract-CoT (RLのみ)	41.9	142	18.9	2849
Abstract-CoT (ウォームアップ)	44.4	168	20.0	2195
Abstract-CoT (ウォームアップ + RL)	50.5	174	24.4	3438

表2: Qwen3-8B の GPQA-Diamond と AIME の結果（精度とトークン数）。各精度列の最高結果は太字、2番目は下線で示されている。

Reasoning_Efficiency_Comparison across Baselines and Methods

ベースラインと手法全体にわたる推論効率の比較と題された折れ線グラフ

言語CoT (SFT + RL)

A-CoT (WU+RL)

ベースライン

A-CoT (WU+RL)

言語CoT (SFT + RL)

ベースライン

A-CoT (WU+RL)

言語CoT (SFT + RL)

A-CoT (WU+RL)

RL)

言語CoT (SFT

モデル (マーカー)

データセット

Qwen3

MATH-500

ベースライン

Granite3.3

AlpacaEval

ベースライン

200

500

2000

1000

生成されたトークン数 (対数スケール)

図3: 平均生成トークン数（推論+応答、対数スケール）とベンチマークスコア（MATH-500精度とAlpacaEval-LC-2.0勝率）のプロット。言語CoT（SFT + RL）と、ポリシー反復ウォームアップとウォームスタートRL（WU + RL）を用いたAbstract-CoT（A-CoT）を比較する。ベースライン（初期モデル）と比較すると、Abstract-CoTは生成トークン数を大幅に削減しつつ、両方のベンチマークで同等以上の性能を達成している。

注目すべきことに、コールドスタートRLやウォームアップ単独では不十分である。コールドスタートはしばしば基本指示調整モデルを下回るが、ウォームアップはCoTなしのSFTベースラインを上回るものの、言語CoTを用いたSFTには及ばない（ただし、HotpotQAのGranite 4.0は除く）。しかし、これらを組み合わせることで成功しており、ウォームアップ段階がRLのウォームスタートとして効果的であることを示唆している。コールドスタートRLの非効率性は、抽象列を通じたマッピングを学習するためにより多くのバーンイン（データ量と訓練計算量）が必要であることを示しており、ウォームアップ段階がこれに対処している。観察された傾向は、M = { 2 i } 9 i = 0 からのアブレーションを含む付録A.1の抽象語彙サイズ全体にわたって持続する。また、ポーズトークンファインチューニングは、生成トークン数をAbstract-CoTと同様のレベルにまで削減するにもかかわらず、すべての設定でベースラインよりも性能が劣り、事前訓練なしのポーズファインチューニングが初期化として効果的でないことを示す先行研究（Goyal et al., 2024; Hao et al., 2025）の結果を裏付けている。段階的内在化は推論時のSFTベースラインよりも比較的効率的であるが、計算集約的であり（22反復）、それでも性能では我々の手法に劣っている。

ある企業の2000年から2010年までの月次売上データを表す折れ線グラフ

0.14

0.12

0.10

0.08

0,06

0.06

0.04

0.02

0,0o

0.00

500

1000

1500

2000

2500

3000

3500

RL Step

トークンランク (最終ステップ)

図4: (左) ウォームスタートRLの1Mエピソードにわたる抽象トークン分布の進化。抽象列内のトークン使用分布が形成されるにつれて、最上位トークンが他から明確に分岐する様子が観察される。(右) 最終ステップのトークン頻度分布は、ジップの法則に似たべき乗則の特性を示しており、事後学習を通じて純粋に誘導された「推論言語」上での再利用が示されている。

4.3 抽象推論言語の分析

トークン頻度分布。 RL訓練中の抽象トークン頻度分布を分析し（図4）、興味深い現象を観察する：RLは抽象列内のトークン使用分布を形成し、その結果、べき乗則のような特性が生じる。ウォームアップのためのトークン分布を一様ランダムに初期化するが、後続のオンポリシー生成と訓練によってこの分布が拡張され、一部のトークンが他よりも頻繁に呼び出される初期形状が生じ、ほとんど使用されないトークンもある。そして、明らかに1つのトークン（具体的には）が他よりもはるかに多く使用され始めることが見て取れ、これが多様な設定で活用されていることを示唆している。一方で、ウォームアップ後に頻度が低かったいくつかのトークンが、より頻繁に出現し始める。これは、埋め込み学習段階の価値を示す指標として機能し、語彙全体でのトークン使用を促進する。

手法	MATH-500		手法	MATH-500
	元の列	並べ替え後		完全なCoT	32トークンに制限
言語CoT (SFT)	89.8	81.8 (-8.0)	言語CoT (SFT)	89.8	82.8 (-7.0)
言語CoT (SFT+RL)	92.6	81.6 (-11.0)	言語CoT (SFT+RL)	92.6	80.8 (-11.8)
Abstract-CoT (PI-3)	87.4	83.2 (-4.2)	Abstract-CoT (PI-3)	87.4	83.8 (-3.6)
Abstract-CoT (PI-3+RL)	90.6	82.8 (-7.8)	Abstract-CoT (PI-3+RL)	90.6	84.6 (-6.0)

(a) Qwen3-8B を用いた並べ替えアブレーション。言語CoTにはターンレベル、Abstract-CoTにはトークンレベルの並べ替えを使用した。

(b) Qwen3-8B を用いた切り捨てアブレーション。完全なCoTと、推論トレースを32思考トークンに制限した場合の性能を比較。

表3: Qwen3-8B を用いた MATH-500 における感度分析（並べ替え、切り捨て）。

並べ替え分析。応答生成のための順序付けられた列を生成する上での抽象推論言語の構成力を分析するために、表3aでCoTを並べ替えることを検討する。実験設定と詳細な結果は付録A.4に含まれる。RL訓練前後で、両方の手法で明らかな性能低下が観察される。事前訓練を通じた言語化CoTに対する強い事前分布を考えると、並べ替えによる性能低下は予想される。同時に、Abstract-CoTでこの挙動が観察されることは、新しい語彙上での学習された構成行動の説得力のある証拠を提供する。

CoT切り捨て分析。言語化CoTとAbstract-CoTの切り捨て下での性能を検討する：k トークンの後にCoTを停止し、それぞれの終了区切り文字（と）を追加し、応答を生成して評価する。結果を k = 32 について表3bに示し、両方の手法で明確な低下が示されているが、自然言語で長い根拠を生成するよう訓練されている言語CoTの方がはるかに大きな低下を見せている。対照的に、Abstract-CoTの低下はそれほど深刻ではない。これは、短く制限されたトレースを通じて推論するよう訓練されており、より緩やかな性能低下が生じるためである。ベンチマーク間と異なる k の値に関するさらなるアブレーションは付録A.3に含まれる。

5 考察

Abstract-CoTは、人間が解釈可能な言語CoT（推論時にコストがかかる）と完全に暗黙的な推論（暗黙的だが制御が難しい）という二つの両極端の中間に位置する。離散抽象コードブックは中間的な立場を提供し、分析可能な構造化された中間セグメントを公開しながら、短く制限されたトレースを生成する。したがって、Abstract-CoTは、中間推論が人間に読める必要がない設定での推論スケーリングへの実用的な道を提供する。べき乗則の知見は、概念レベルの理解に関する将来の分析、抽象トークンによる概念学習の基礎メカニズムと、RLによる新しい列の探索を通じてそれらの表現がどのように進化するかを研究するための有望なものである。これは、抽象推論言語上の構成性仮説に機構的な裏付けを提供し、より高い解釈可能性をもたらすであろう。様々な概念クラスタが、語彙サイズやシーケンス長に関連し、訓練フェーズを通じて形成される異なるサンプル複雑度を持って効果的に学習される可能性がある。したがって、抽象トークンは、思考連鎖のモニタリング可能性（Korbak et al., 2025）や監査可能性の研究においても、新しい中間インターフェースを提供する。

小さな予算では長期的な推論には不十分な可能性があるため、Abstract-CoTを用いた予算適応機構（難易度を意識した抽象列長を伴う）は、より困難な状況に対して刺激的な可能性をもたらす。コードブック上の階層構造が特定のタスクのための再利用可能なサブルーチンを可能にし、より大きな抽象語彙を形成する別のメカニズムを提供する可能性がある。

6 結論

我々は、言語モデルが短い新しい「抽象トークン」の系列を生成するように事後訓練する、離散潜在推論メカニズムである抽象的思考連鎖を導入する。ポリシー反復ウォームアップループが抽象トークンの埋め込みと系列生成を学習し、ウォームスタートRLが探索を通じて性能をさらに向上させる。抽象的思考連鎖は、言語化CoTを用いた事後訓練と同等の性能を達成しながら、大幅に短い系列（最大12倍）を生成し、モデルファミリー間で汎化する。我々の結果は、継続的事前学習を必要とせずに「推論言語」を導入する意味のある語彙拡張戦略を提供し、フィラートークンが事後訓練のみで効果的に導入・使用できることを示唆している。我々の研究は、潜在推論行動を伴うLLMの訓練に新たな出口を提示し、将来の研究に肥沃な土壌を提供する。

RLステップ

最終ステップでのトークンランク

図15: M = 256 抽象トークン語彙によるスケーリングアブレーション。

図は、水平軸Yと垂直軸Xを持つ折れ線グラフであり、X軸は100間隔でマークされています。グラフの背景は水色で格子模様があります。線は青、緑、オレンジ、ピンクの様々な色合いで描かれ、各データポイントは小さな色付きの四角形で表されています。グラフは、異なる年にわたるデータの頻度分布を示しており、色は異なる値を表しています。

RLステップ

最終ステップでのトークンランク

図16: M = 512 抽象トークン語彙によるスケーリングアブレーション。

A.1.2 コールドスタートRLの頻度分布

比較のために、図17にM = 64でのコールドスタートRL訓練の頻度分布を含めます。開始時の頻度は、埋め込みがランダムに初期化されるため、一様な確率（1/M）となります。

図は、時間経過に伴う特定の製品またはサービスの月間販売数を示す折れ線グラフです。X軸は時系列を表し、Y軸は販売数を表します。グラフは色分けされており、異なる色が異なるデータ系列を表しています。グラフの凡例は右下にあり、色とそれに対応する値を説明しています。

RLステップ

図17: M = 64 抽象トークン語彙でのコールドスタートRL。ウォームスタートRLと比較して、べき乗則にあまり似ていない分布が見られます。これは、新しい語彙の埋め込み学習という目標に向けたウォームアップの有効性を示しており、RLを通じてさらに形成されるトークン使用の分布を作り出します。対照的に、コールドスタートRLは最終的に最も高い頻度となるトークン（）をすぐに使用することを学習しますが、他のいくつかのトークンも最終的には同様の頻度で使用される一方で、ほとんど使用されないトークンも残ります。訓練計算量（特にロールアウトとRLエピソード）をさらにスケールアップすることで、ウォームアップ段階と同様の効果が得られる可能性があります。

A.2 モデルサイズのスケーリング: Qwen3-32B

我々は、メソッドのモデルファミリー（Qwen、Granite）間での転用可能性を研究しましたが、このメソッドがより大規模なモデルサイズにスケールするかどうかを調べることも価値があります。そこで、表1で報告されたベースラインと比較しつつ、Qwen3-32Bを用いたAbstract-CoTのパフォーマンスを研究します。SFT訓練は8台のNVIDIA H100 GPUで実行され、RL訓練は32台のNVIDIA H100 GPUで実行されました。Qwen3-8Bと同様に、「思考モード」は無効化されています。

結果は表1の結果を裏付けています。Abstract-CoTは、AlpacaEvalおよびHotpotQAにおいて、言語化CoT（SFT + RL）を上回りつつ、それぞれ2.7倍および4.4倍少ないトークンを使用し、MATH-500では11.0倍少ないトークンでほぼ同等のパフォーマンスを達成しました。32Bモデルは8Bモデルよりも推論トレースと応答トークンがやや冗長であるようで、すべての設定で平均トークンがわずかに増加しました。

A.3 CoT切り捨て分析

言語化思考連鎖はその区切り文字内で多数の思考トークンを生成しますが、推論トレースを短い長さに切り捨てることは、推論時の計算量制御の一形態であり、Abstract-CoTシーケンスの「コンパクトさ」を分析するメカニズムとして機能します。

メソッド	MATH-500		AlpacaEval		HotpotQA
	正解率	トークン数	勝率	トークン数	F1	トークン数
ベースライン	86.8	1278	60.5	361	54.4	598
ポーズトークン	82.6	156	53.9	240	52.1	176
段階的内部化	90.6	163	61.3	261	56.6	165
SFT（CoTなし）	89.0	427	60.8	372	55.1	372
SFT（CoT）	93.4	1706	63.3	545	58.3	734
SFT+RL	95.0	1832	65.2	608	60.9	797
Abstract-CoT（RLのみ）	84.4	137	58.9	232	53.8	156
Abstract-CoT（ウォームアップ）	90.2	195	62.7	277	58.6	216
Abstract-CoT（ウォームアップ + RL）	94.6	167	65.6	229	62.1	180

表4: Qwen3-32Bを用いたMATH-500（正解率）、AlpacaEval（勝率）、HotpotQA（F1）の結果。効率性の向上と、他のモデルで示された傾向と一致する強力なパフォーマンスを示し、Abstract-CoTのスケーラビリティを強調しています。

我々は、kトークンに制限するために切り捨てを適用します。Abstract-CoTの場合、これはkトークン後にCoTを停止し、応答生成の前に区切り文字を追加することを意味します。k = { 32, 48, 64 } についてのベンチマーク全体の完全な結果は表5に含まれています。

メソッド	完全なCoT	64トークン	48トークン	32トークン
MATH-500
言語化CoT（SFT+RL）	92.6	84.8	84.0	80.9
Abstract-CoT（PI-3+RL, M = 64）	90.8	87.1	86.4	84.6
AlpacaEval
言語化CoT（SFT+RL）	58.4	55.2	54.7	53.4
Abstract-CoT（PI-3+RL, M = 64）	60.6	57.0	56.1	55.5
HotpotQA
言語化CoT（SFT+RL）	58.1	53.1	52.8	51.0
Abstract-CoT（PI-3+RL, M = 64）	58.6	54.8	54.0	52.4

表5: Qwen3-8Bのベンチマーク全体での切り捨て感度。'Normal'は切り捨てなしの設定を示します。言語化CoTの場合、自然言語の思考連鎖に切り捨てが適用され、Abstract-CoTの場合、抽象トレースに切り捨てが適用されます。

重要な発見として、両方のメソッドが明らかに低下し、AlpacaEvalとHotpotQAでは同程度の低下が見られる一方で、MATH-500では大きな差があります。AlpacaEvalが最も低下が小さいのは、思考トークンが最も少なく、最初から応答トークンが多いためであり、これは表1に反映されています。注目すべきは、言語化CoTの劣化の滑らかさが、生成される思考トークンの数と一致しているように見えることです。より多くのトークンを持つMATH-500のようなベンチマークで低下が急激に見られた一方で、AlpacaEvalでは低下が小さく、HotpotQAはその中間でした。

A.4 並べ替えテスト分析

RLを通じて誘導される構成力におけるAbstract-CoTの振る舞いを言語化CoTと比較するため、並べ替え分析を実施しました。評価セットの各プロンプトに対して、まず{言語化, 抽象} CoTを生成します。次に、言語化CoTの実験では、改行区切り文字に基づいてCoT内のステップをランダムに並べ替え、モデルに応答を生成させます。Abstract-CoTでは、そのような区切り文字がないため、生成されたシーケンス内のトークンをランダムに並べ替えます。

MATH-500、AlpacaEval、HotpotQAにわたる完全な結果は表6に含まれています。3つのベンチマークすべてが同様の傾向を示しています。両方のメソッドが並べ替えられたCoTで明らかに低下し、言語化CoTはAbstract-CoTよりも大きく低下しますが、Abstract-CoTも依然としてかなりの影響を受けます。RL訓練は、より良い応答を生み出すトークンシーケンスを学習するため、より大きな劣化をもたらします。これはAbstract-CoTにも反映されており、訓練をさらにスケールアップすることで、モデルが抽象語彙を使用する能力が向上し、自然言語にさらに近い振る舞いが生まれることを示唆しています。

メソッド	直接	並べ替え後	変化（∆）
MATH-500
言語化CoT（SFT）	89.8	81.8	-8.0
言語化CoT（SFT+RL）	92.6	81.6	-11.0
Abstract-CoT（PI-3）	87.4	83.2	-4.2
Abstract-CoT（PI-3+RL）	90.6	82.8	-7.8
AlpacaEval
言語化CoT（SFT）	57.0	51.9	-5.1
言語化CoT（SFT+RL）	58.4	50.4	-8.0
Abstract-CoT（PI-3）	55.6	51.9	-3.7
Abstract-CoT（PI-3+RL）	60.3	54.3	-6.0
HotpotQA
言語化CoT（SFT）	54.8	48.7	-6.1
言語化CoT（SFT+RL）	58.1	47.6	-10.5
Abstract-CoT（PI-3）	53.3	48.0	-5.3
Abstract-CoT（PI-3+RL）	57.9	49.2	-8.7

表6: Qwen3-8Bでの並べ替えアブレーション。言語化CoTではターンレベルの並べ替え、Abstract-CoTでは完全にランダムなトークンの並べ替えを使用。

B 生成的報酬モデルのプロンプト

以下のプロンプトは、GRPO訓練において「中程度」の思考モードで生成的報酬モデルとしてgpt-oss-20bと共に使用されます。

あなたはAIアシスタントの応答品質を評価する専門家です。あなたのタスクは、応答を0から10のスケールで採点することです。

採点基準

以下の次元で応答を評価してください：

有用性（ユーザーのニーズに対応しているか）

- 質問に直接答えているか、またはタスクを完了しているか

- 適切なレベルの詳細を提供しているか
- フォローアップのニーズを予測しているか

正確性（情報は正しいか）

- 事実に基づいた正しい情報

- 幻覚や捏造がないこと - 不確かな場合には適切な但し書きがあること 明確性（理解しやすいか） - よく整理され構造化されている - 文脈に適した明確な言葉遣い - 必要に応じて適切なフォーマット 関連性（話題から外れていないか） - 実際の質問に対応している - 不必要な脱線を避けている - 適切な範囲と焦点 安全性と無害性 - 有害、不快、不適切な内容がない - 敬意を払い、偏りがない - 倫理的な意味合いを考慮している ## 採点スケール 10 - 卓越：すべての基準で優れた、完璧またはほぼ完璧な応答 9 - 優秀：些細な不完全さのみの卓越した応答 8 - 非常に良い：小さな改善点はあるものの、質問に完全に対応した強力な応答 7 - 良い：期待に応えるが、改善の余地がある堅実な応答 6 - 平均以上：目立った制限があるが、まあまあの応答 5 - 平均：質問に対応するが、明確なギャップがある適切な応答 4 - 平均以下：部分的に役立つが、一つ以上の基準で重大な問題がある 3 - 不十分：複数の基準で大きな問題があり、最小限の有用性しかない 2 - 非常に不十分：深刻な欠陥があり、ほとんど質問に対応できていない 1 - 極めて不十分：質問への対応にほぼ完全に失敗している 0 - 許容不可：質問への対応に完全に失敗している、有害な内容を含む、または全く不適切 ## あなたのタスク以下の構造のJSONオブジェクトとして評価を提供してください： json { "score": <0から10の数値>, "reasoning": "主要な長所と短所を強調しながら、あなたのスコアを説明する2〜4文" } --- ## 会話のコンテキスト {CONVERSATION_HISTORY} ## 評価するアシスタントの応答 {RESPONSE_TO_SCORE}

C 抽象的思考連鎖の定性的な例

C.1 数学的問題解決

C.1.1 例1: 組合せ論

プロンプト

5で割り切れ、桁の合計が20になる5桁の整数はいくつありますか？

抽象CoT

抽象CoT応答

5で割り切れ、桁の合計が20に等しい5桁の整数の総数は：

1116

プロンプト

5で割り切れ、桁の合計が20になる5桁の整数はいくつありますか？

言語化CoT

5で割り切れ、桁の合計が20になる5桁の整数がいくつあるかを決定するには、2つの条件に従う必要があります：

5で割り切れること：最後の桁が0または5であれば、数は5で割り切れます。

桁の合計が20に等しい：桁をd1, d2, d3, d4, d5とし、d1 ≥ 1（先行ゼロを避けるため）で、以下が必要です：

d1 + d2 + d3 + d4 + d5 = 20

最後の桁d5 ∈ { 0, 5 }であるという条件に基づいて、問題を2つのケースに分割できます。なぜなら、数は5で割り切れるために0または5で終わる必要があるからです。各ケースは、修正された制約の下で桁の合計を解決する部分問題になります。

ケース1: d5 = 0

すると、他の桁の合計は次のようになります：

d1 + d2 + d3 + d4 = 20

d1 ≥ 1 なので、d'1 = d1 - 1 ≥ 0 と定義すると：

d'1 + d2 + d3 + d4 = 19

ここで制約は次のとおりです：

d'1 ≤ 8（d1 ≤ 9 なので）

d2, d3, d4 ≤ 9

ここで、方程式に対するすべての非負整数解に対して包除原理を適用します：

x1 + x2 + x3 + x4 = 19

ただし x1 ≤ 8, x2, x3, x4 ≤ 9.

制約なしの解の総数：

( 19 + 4 - 1 4 - 1 ) = ( 22 3 ) = 1540

無効な解を差し引く：

x1 ≥ 9 の場合： x'1 = x1 - 9 と設定し、新しい合計： x'1 + x2 + x3 + x4 = 10

( 10 + 4 - 1 4 - 1 ) = ( 13 3 ) = 286

各 xi ≥ 10（i = 2, 3, 4）の場合：

( 19 - 10 + 4 - 1 4 - 1 ) = ( 12 3 ) = 220

（x2, x3, x4 の合計： 3 × 220 = 660）

重複を加え戻す：

あるxi ≥ 9 かつ別のxj ≥ 10 である任意のペアは、次のようになります：

x'i + x'j + その他 = 19 - 9 - 10 = 0 ⇒ 解は1つのみ ( 0, 0, 0, 0 )

そのような組み合わせは3つあり（d'1と d2, d3, d4のいずれか1つ）、以下のようになります：

3 × 1 = 3

最終的な数：

1540 - 286 - 660 + 3 = 597

ケース2: d5 = 5

すると、他の桁の合計は次のようになります：

d1 + d2 + d3 + d4 = 15

再び、d'1 = d1 - 1 ≥ 0 と定義すると：

d'1 + d2 + d3 + d4 = 14

制約：

d'1 ≤ 8

d2, d3, d4 ≤ 9

制約なしの解の総数：

( 14 + 4 - 1 4 - 1 ) = ( 17 3 ) = 680

無効な解を差し引く：

· x1 ≥ 9 の場合: ( 14 - 9 + 4 - 1 4 - 1 ) = ( 8 3 ) = 56

各 xi ≥ 10（i = 2, 3, 4）の場合：

( 14 - 10 + 4 - 1 4 - 1 ) = ( 7 3 ) = 35

（x2, x3, x4 の合計： 3 × 35 = 105）

重複を加え戻す：

制限を同時に超えることができる2つの変数はありません。それには14を超える必要があるため、すべての重複はゼロです。

最終的な数：

680 - 56 - 105 = 519

最終計算

両方のケースを合計すると：

合計 = 597 + 519 = 1116

言語化CoT応答

したがって、5で割り切れ、桁の合計が20となる5桁の整数の数は：

1116

C.1.2 例2: 幾何学

プロンプト

三角形ABCは辺の長さが a = 13, b = 14, c = 15 です。三角形の面積と、頂点Aから辺bへの高さを求めてください。

抽象CoT

抽象CoT応答

ヘロンの公式を半周長 s = 21 で適用すると、三角形ABCの面積は 84 です。頂点Aから辺BC（長さ14）への高さは h = 2 × 84 / 14 = 12 です。

プロンプト

三角形ABCは辺の長さが a = 13, b = 14, c = 15 です。三角形の面積と、頂点Aから辺bへの高さを求めてください。

言語化CoT

三角形の面積計算。辺 a = 13, b = 14, c = 15 の三角形ABCの面積を決定するために、ヘロンの公式を使用します。公式を適用する前に、三角形の半周長 s を計算する必要があります。次のように定義されます：

与えられた値を代入します：

s = (a + b + c) / 2 .

s = (13 + 14 + 15) / 2 = 42 / 2 = 21.

次に、ヘロンの公式を使用して、三角形の面積 A は：

A = √( s ( s - a )( s - b )( s - c ) ) .

既知の値を代入します：

A = √( 21 ( 21 - 13 )( 21 - 14 )( 21 - 15 ) ) = √( 21 × 8 × 7 × 6 ).

ステップバイステップで乗算を実行します：

21 × 8 = 168, 7 × 6 = 42, 168 × 42 = 7056.

したがって：

A = √7056 = 84.

頂点Aから辺bへの高さ。次に、頂点Aから辺bへの高さの長さを決定するよう求められています。

三角形が標準的な方法でラベル付けされていると仮定すると、ここで：

辺 a = BC（頂点Aの反対側）、
辺 b = AC（頂点Bの反対側）、
辺 c = AB（頂点Cの反対側）、

すると、辺 b = AC であり、頂点Aから辺 b（AC）への高さは意味をなしません。頂点Aは辺AC上に位置しているため、高さはゼロになります。これは矛盾です。

したがって、質問の意図に一致する代替のラベル付けを検討します：もし辺 b = BC であれば、頂点Aから辺 b（つまりBC）への高さは意味のある非ゼロの量になります。これを計算するために、三角形の面積の公式を思い出してください：

面積 = 1/2 × 底辺 × 高さ.

与えられたもの：面積 = 84, 底辺 = 辺 b = 14. 高さ h を解きます：

84 = 1/2 × 14 × h ⇒ 84 = 7 h ⇒ h = 84 / 7 = 12.

言語化CoT応答

三角形ABCの面積は 84 です。

頂点Aから辺 b への高さは、BCと解釈すると、 12 です。

C.1.3 例3: 数列と級数

プロンプト

∞ ∑ n=1 n^2 / 2^n を評価してください。

抽象CoT

抽象CoT応答

生成関数の恒等式 ∞ ∑ n=0 n^2 r^n = r(1+r) / (1-r)^3 を r = 1/2 で評価すると：

∞ ∑ n=1 n^2 / 2^n = (1/2)(3/2) / (1/2)^3 = 6.

プロンプト

∞ ∑ n=1 n^2 / 2^n を評価してください。

言語化CoT

無限級数 ∞ ∑ n=1 n^2 / 2^n を評価するために、これは分子と分母が共にnの関数である加重和であり、分母に指数関数的な減衰 2^n があるものとして認識します。このタイプの級数は、生成関数と微分の技法を用いた解析に非常に適しています。

ステップ1: 基本的な生成関数から始める。標準的な等比級数を思い出します：

S = ∞ ∑ n=0 r^n = 1 / (1 - r), |r| < 1 の場合.

両辺をrに関して微分すると：

d/dr S = ∞ ∑ n=0 n r^{n-1} = 1 / (1 - r)^2 .

両辺にrを掛けると：

∞ ∑ n=0 n r^n = r / (1 - r)^2 .

ここで、この式を再びrに関して微分し、n^2 r^nに対する生成関数を取得します：

d/dr ( ∞ ∑ n=0 n r^n ) = ∞ ∑ n=0 n^2 r^{n-1} = d/dr ( r / (1 - r)^2 ) .

右辺を計算します：

d/dr ( r / (1 - r)^2 ) = ( (1 - r)^2 · 1 + r · 2(1 - r) ) / (1 - r)^4 = ( (1 - r)^2 + 2r(1 - r) ) / (1 - r)^4 .

分子を簡略化します：

(1 - r)^2 + 2r(1 - r) = 1 - 2r + r^2 + 2r - 2r^2 = 1 - r^2 .

よって、導関数は次のようになります：

∞ ∑ n=0 n^2 r^{n-1} = (1 - r^2) / (1 - r)^4 = (1 + r) / (1 - r)^3 .

指数を調整するためにrを掛けます：

∞ ∑ n=0 n^2 r^n = r(1 + r) / (1 - r)^3 .

したがって、よく知られた閉形式の生成関数 ∞ ∑ n=0 n^2 r^n = r(1 + r) / (1 - r)^3 が得られます。

ステップ2: r = 1/2 で級数を評価する。ここで、r = 1/2 を閉形式の式に代入します：

∞ ∑ n=0 n^2 (1/2)^n = (1/2)(1 + 1/2) / (1 - 1/2)^3 = (1/2)(3/2) / (1/2)^3 = (3/4) / (1/8) = 6.

元の級数は n=1 から始まり、n=0 の項はゼロ（0^2 / 2^0 = 0）であることに注意してください。したがって：

∞ ∑ n=1 n^2 / 2^n = ∞ ∑ n=0 n^2 / 2^n = 6.

ステップ3: 部分和を用いた代替検証。n^2 を n(n-1) + n と表現することもできます：

∞ ∑ n=1 n^2 / 2^n = ∞ ∑ n=1 n(n-1) / 2^n + ∞ ∑ n=1 n / 2^n .

先ほどから ∑ n=1 ∞ n/2^n = 2 および ∑ n=1 ∞ n(n-1)/2^n = 4 であることがわかっています。両方を加算します：

2 + 4 = 6.

したがって、再び同じ結果に到達します。

ステップ4: 数値的な部分和近似。分析結果を裏付けるために、級数の部分和を計算することもできます：

∑ n=1^20 n^2 / 2^n ≈ 5.9996.

項は指数関数的に減衰するため、収束は速く、部分和は6に近づき、分析結果を補強します。

言語化CoT応答

生成関数、総和技法、数値近似を含む複数の厳密で独立したアプローチを通じて、無限級数の値は一貫して次のようになります：

C.1.4 例4: 確率

プロンプト

公正な8面サイコロを、すべての面が少なくとも1回ずつ出るまで繰り返し振ります。期待される合計の振る回数は何ですか？

抽象CoT

抽象CoT応答

クーポンコレクターの公式 E(n) = n · Hn を n = 8 および H8 = 761/280 で使用すると、8つの面すべてを出現させるための期待される振る回数は：

761/35 ≈ 21.74.

プロンプト

公正な8面サイコロを、すべての面が少なくとも1回ずつ出るまで繰り返し振ります。期待される合計の振る回数は何ですか？

言語化CoT

公正な8面サイコロをすべての面が少なくとも1回出現するまで振るのに必要な期待される総回数を決定するために、確率論におけるよく知られた確率モデルであるクーポンコレクター問題を使用してこの問題にアプローチします。

問題の理解。私たちは公正な8面サイコロを繰り返し振っており、8つの面すべてを観測するのに必要な期待される振る回数を知りたいと考えています。各振りは独立して8面のうちの1つを生成し、それぞれが等しい確率（つまり1/8）を持ちます。すべての結果が観測されるまでの回数の期待値を見つけたいのです。これは n = 8 のクーポンコレクター問題の直接的な応用です。

プロセスのモデル化。すべての n 個の異なる結果を観測するのに必要な期待される回数を E(n) と定義しましょう。一般に、この期待値の公式は：

E(n) = n · Hn

ここで Hn = 1 + 1/2 + 1/3 + · · · + 1/n は n 番目の調和数です。n = 8 の場合、これは次のようになります：

E(8) = 8 ( 1 + 1/2 + 1/3 + 1/4 + 1/5 + 1/6 + 1/7 + 1/8 ) .

調和数の計算。逆数を合計して H8 を計算します：

H8 = 1 + 1/2 + 1/3 + 1/4 + 1/5 + 1/6 + 1/7 + 1/8.

これを正確に計算するために、共通分母を求めます。1から8までの分母の最小公倍数は840です。各項を変換します：

分子を加算します：

1 = 840/840 , 1/2 = 420/840 , 1/3 = 280/840 , 1/4 = 210/840 , 1/5 = 168/840 , 1/6 = 140/840 , 1/7 = 120/840 , 1/8 = 105/840 .

840 + 420 + 280 + 210 + 168 + 140 + 120 + 105 = 2283.

したがって：

H8 = 2283 / 840 .

分子と分母を3で割って簡略化します：

H8 = 761 / 280 .

最終計算。ここで n = 8 を掛けて期待される振る回数を得ます：

E(8) = 8 · 761/280 = 6088 / 280 .

分子と分母を8で割って分数を簡略化します：

6088 / 280 = 761 / 35 .

健全性チェック。761/35 ≈ 21.743 は、8個のクーポンに対して妥当です（6個のクーポンの答えは14.7であり、調和級数は対数的に増加するため、中程度の増加が予想されます）。✓

言語化CoT応答

クーポンコレクターモデル、調和数、注意深い算術の適用を通じて、公正な8面サイコロの8つの面すべてを出現させるのに必要な期待される振る回数は次のとおりです：

761/35 ≈ 21.74.

C.2 一般的な指示遂行

C.2.1 例1: ライフスタイルアドバイス

プロンプト

私は高校に進学しますが、先延ばし癖がひどいです。忙しい週でも実際に続けられる、先延ばしをやめるためのシンプルな計画を教えてくれませんか？

抽象CoT

抽象CoT応答

これは、最も忙しい週でも機能する現実的で手間のかからないシステムです。

核心的な考え方：「先延ばし」を直そうとしないでください。始めることを先延ばしよりも簡単にすることです。毎朝、今日最も重要なことを1つ書き出します。それがあなたのアンカータスクです。何よりも前に、15分だけそれに取り組みます。1時間でも、「終わるまで」でもなく、たった15分です。ほとんどの日は、一度始めると続けるでしょう。調子の悪い日でも、少なくとも前進はしています。

その他すべてについて：2分以内で終わることであれば、今すぐやってください。大きすぎると感じるなら、細分化します（「試験勉強」は「ノート1ページを見直す」になります）。毎日30〜60分、スマートフォンを手の届かない場所に置いて作業する集中時間を設定します。忙しい週は15分に短縮してください。それでも意味があります。

誰も教えてくれない秘訣：それでも時々は先延ばしにしてしまうでしょう。それは問題ありません。自分を責めないでください。自責の念は悪循環を悪化させるだけです。リセットして、明日また始めましょう。毎日の完璧さよりも、時間をかけた一貫性が勝ります。

C.2.2 例2: 職場でのコミュニケーション

プロンプト

同僚がチームミーティング中に私の話を遮ってばかりいます。直接伝えたいのですが、関係を悪化させずに対処したいです。実際に使える短い台詞を教えてください。

抽象CoT

抽象CoT応答

[一対一でのリラックスした場面で]

「ねえ[名前]、ちょっとしたことを伝えたいんだ。先週のブレインストーミングの時、私が話している途中で何度か遮られちゃった気がしてね。君がとても積極的で、すぐに意見を言いたくなるのはよく分かっているし、本当にありがたく思っているんだ。ただ、話の途中で遮られると、私が効果的に貢献するのが難しくなってしまうんだよね。お互いに最後まで話を聞いてから返答するようにしてみない？それと、正直なところ、もし私が君に対して同じことをしたら、遠慮なく指摘してほしい。これはお互いのためのことだからね。」

[間を置き、温かく]

「君がミーティングにもたらしてくれるエネルギーを本当に大切に思っているんだ。それがうまくいく理由だからね。」

C.2.3 例3: 技術的な説明

プロンプト

基本的な代数を理解しているが、コンピュータサイエンスの知識がない人に、公開鍵暗号の仕組みを説明してください。

抽象CoT

抽象CoT応答

公開鍵暗号は、完全にオープンな通信路で、あらかじめ共有されたパスワードなしに、2人が秘密情報を交換することを可能にします。中核となる考え方は、数学的に関連付けられた鍵のペア、つまり公開鍵と秘密鍵です。

メールボックスのアナロジー。細長い投入口が付いたオープンなメールボックスを想像してください。通りかかった人は誰でも手紙を投函できます（これが公開鍵です）が、内部を読むために扉を開ける鍵を持っているのはあなただけです（これが秘密鍵です）。あなたは投入口を公開し、鍵は守ります。

実践での暗号化。アリスがボブにプライベートなメッセージを送りたい場合、彼女はボブの公開鍵でそれを暗号化します。その結果は、アリス自身を含む誰にとっても意味不明なものになります。ボブの秘密鍵だけがその暗号化を解除できます。仮に攻撃者が通信中の全データを傍受したとしても、秘密鍵なしでは何も知ることはできません。

署名：認証の逆回し。同じ鍵ペアを逆向きに使うこともできます。ボブは自分の秘密鍵で文書に「署名」し、誰もがボブの公開鍵を使って検証できるタグを作成できます。有効な署名は、メッセージがボブから来たこと、そして誰も途中でそれを改ざんしていないことを同時に証明します。

なぜそれが成立するのか。セキュリティは数学的な一方通行路から生まれます。2つの大きな素数を掛け合わせるのは簡単ですが、その積を素因数分解するのは、実用的なサイズの数値に対しては計算上実行不可能です。現在の推定では、標準的な2048ビットの鍵を総当たりの素因数分解で破るには数十億年かかるとされています。

要するに、片方の鍵でロックし、もう片方で解除します。片方の鍵で署名し、もう片方で検証します。数学は一方向へは容易ですが、逆方向へは不可能であり、その非対称性こそが基盤全体なのです。

C.2.4 例4: 社会的コミュニケーション

プロンプト

昨日、友達の誕生日を忘れてしまいました。大げさすぎず、それでいて心のこもったお詫びのメッセージを書くのを手伝ってください。

抽象CoT

抽象CoT応答

ねえ [友達の名前]、ごめんね、君の誕生日をすっかり忘れてて、本当に自分が嫌になるよ。言い訳はなし、私が失敗しただけだし、君はもっと良い対応を受けるべきだった。

君は私の人生で最も大切な人の一人なのに、ほんの一瞬でもそうでないと思わせてしまったことが本当に嫌だ。君はいつも私のそばにいてくれたし、テキスト一つも送らずに君の大事な日を過ごしてしまったことは、私がどれだけ君を大切に思っているかを反映していない。本当にごめんなさい。

埋め合わせをさせてほしい。今週、[コーヒー/ディナー/君の好きなもの]に連れて行って、ちゃんとお祝いさせてもらえないかな？君の誕生日の話を全部聞きたいし、君が本当に受けるに値するお祝いをしたいんだ。

遅ればせながら誕生日おめでとう。君は私にとってとても大切な存在で、君が友達でいてくれて本当に嬉しい。