概要:IBM Researchが提唱するAbstract Chain-of-Thought(Abstract-CoT)は、冗長な自然言語による思考連鎖を一連の「抽象的推論語彙」で置き換える。MATH-500において、推論トークンは1671から144へと激減し(11.6倍の圧縮)、精度は90.8%に達し、完全なCoT+RLと同等かそれ以上を達成した。これは近似ではない。モデルに真に「自らの言語で考えさせる」ことを実現したのだ。
問題の背景
大規模モデルの推論能力はChain-of-Thought(CoT)によって支えられているが、その代償として、推論時に大量の自然言語ステップを生成する必要がある。GPT-4oがMATHの問題を解く際には、1500トークン以上を出力することもある。モデルの規模が拡大するにつれて、この数字はさらに膨れ上がっている。
テキストによる推論を「連続的表現」で代替する試み(Pause Tokenなど)もあったが、パフォーマンスは常に明示的なCoTに及ばなかった。ここにある核心的な矛盾は、離散的なトークンは強化学習による最適化に適しているが、自然言語の冗長性が効率を極端に悪化させている点にある。
中核的手法
Abstract-CoTのアプローチはこうだ。語彙の中に「予約領域」(64個の専用トークン)を設け、モデルにこの抽象記号システムを用いて中間推論を自然言語の代わりに実行させ、その後に最終的な解答を出力させる。
訓練は以下の3段階で行われる。
ステップ1:ボトルネックSFT
自然言語CoT → マスク圧縮 → 抽象トークン系列 (SFTによるアライメント)
ステップ2:自己蒸留
プロンプトのみから → 抽象トークンを直接生成(制約付きデコーディング)
ステップ3:RLによる微調整
GRPO強化学習 + 制約付きデコーディング → 報酬を最大化
重要な洞察は、自然言語によるCoTは「人間が読める」ものであるが、モデル内部ではそれが必要とされていないという点だ。コンパクトな抽象記号のセットで完全に事足りるのである。
主要データ比較
| 手法 | MATH-500 | 推論トークン | 圧縮比 |
|---|---|---|---|
| SFT + RL(完全CoT) | 92.6 | 1671 | — |
| Abstract-CoT (ウォームアップ + RL) | 90.8 | 144 | 11.6倍 |
| Pause Token | 78.6 | 142 | 11.7倍 |
| Stepwise Internalization | 88.6 | 169 | 9.9倍 |
注目すべき点が3つある。
Pause Tokenは同程度の少ないトークン数を用いているが、パフォーマンスは12ポイントも低い。これは、「抽象化」の質こそが鍵であり、量ではないことを示している。 Qwen3-32Bにスケールアップすると効果はさらに安定し、MATH-500で94.6、AlpacaEvalで65.6(完全CoTを上回る)を達成し、トークンは11倍に圧縮された。 切り捨てに対する堅牢性がより高い。従来のCoTが切り捨てられた場合、パフォーマンスは11.8ポイント低下したが、Abstract-CoTではわずか6ポイントの低下にとどまった。
興味深い発見:抽象的推論言語の自己組織化
訓練完了後、研究者らは抽象語彙の使用頻度がべき乗分布に従うことを発見した。少数の記号が高頻度で再利用される一方で、大多数はごくまれにしか出現しない。これは自然言語におけるジップの法則と全く同様である。
このことは、モデルがこれら64個のトークンをランダムに使用しているのではなく、自発的に構造化された推論言語を学習したことを意味している。
まとめ
Abstract-CoTの意義は、単に「11倍高速化した」ことだけにとどまらない。それはより根本的な事実を明らかにしている。LLMの推論能力は、自然言語に拘束されるものではないということだ。モデルはよりコンパクトな記号システムを用いて完全に思考することができ、自然言語は最終出力における単なる「翻訳層」に過ぎないのである。
o1/R1/Qwen-thinkingといった推論モデルが本格的に実運用される中で、推論トークンのコストはますます中核的なボトルネックとなっている。Abstract-CoTは、モデルアーキテクチャを変更することなく、訓練後にすぐに適用できる、明快で無駄のない解決策を提示している。
出典:arXiv:2604.22709[1] | IBM Research AI | 2026-04-24
引用リンク
[1]arXiv:2604.22709: https://arxiv.org/abs/2604.22709