Abstract-CoT：推理token暴降11.6倍，無詞思維鏈打破LLM效率天花板

導讀：IBM Research 提出 Abstract Chain-of-Thought（Abstract-CoT），用一套「抽象推理詞彙」取代冗長的自然語言思維鏈。在 MATH-500 測試中，推理 token 從 1,671 個驟降至 144 個（壓縮 11.6×），準確率卻達到 90.8%，與全量 CoT+RL 持平甚至超越。這不是近似——是真正意義上讓模型「用自己的語言思考」。

問題背景

大型語言模型的推理能力靠思維鏈（Chain-of-Thought，CoT）撐場，但代價是推理時需要生成大量自然語言步驟——GPT-4o 解一道 MATH 題目可能產出 1,500 多個 tokens。隨著模型規模增大，這個數字還在膨脹。

有人嘗試以「連續表示」替代文字推理（如暫停 Token），但效能始終落後於顯式 CoT。核心矛盾在於：離散 token 便於強化學習最佳化，但自然語言的冗餘性讓效率極差。

核心方法

Abstract-CoT 的做法是：在詞表裡劃出一塊「保留區」（64 個專用 token），讓模型用這套抽象符號系統代替自然語言完成中間推理，再輸出最終答案。

訓練分三步：


步驟 1：瓶頸監督式微調 (SFT)
  自然語言 CoT → 掩碼壓縮 → 抽象 token 序列 (SFT 對齊)

步驟 2：自蒸餾
  僅從提示詞 (Prompt) → 直接生成抽象 token（約束解碼）

步驟 3：強化學習 (RL) 精調
  群組相對策略最佳化 (GRPO) 強化學習 + 約束解碼 → 最大化獎勵

關鍵洞察：自然語言 CoT 是「人類可讀」的，但模型內部並不需要它——一套緊湊的抽象符號完全夠用。

核心數據對比

方法	MATH-500 準確率	推理 Token 數	壓縮比
SFT + RL（全量 CoT）	92.6	1671	—
Abstract-CoT (暖開機 + RL)	90.8	144	11.6×
暫停 Token	78.6	142	11.7×
逐步內化	88.6	169	9.9×

三點值得注意：

暫停 Token 用了同樣少的 token，但效能差了 12 個百分點——說明「抽象」的品質，而非數量，是關鍵
Qwen3-32B 放大後效果更穩定：MATH-500 達到 94.6，AlpacaEval 65.6（超越全 CoT），Token 壓縮 11×
截斷強健性更強：傳統 CoT 被截斷後效能下降 11.8 點，Abstract-CoT 僅降 6 點

有趣發現：抽象推理語言自組織

訓練完成後，研究者發現抽象詞彙的使用頻率呈冪次定律分布——少數符號被高頻使用，絕大多數偶爾出現。這和自然語言的齊夫定律如出一轍。

這意味著：模型沒有隨機使用這 64 個 token，而是自發學會了一套有結構的推理語言。

總結

Abstract-CoT 的意義不只是「快了 11 倍」。它揭示了一件更根本的事：大型語言模型的推理能力並不綁定在自然語言上。模型完全可以用更緊湊的符號系統思考，自然語言只是最終輸出的「翻譯層」。

隨著推理模型（o1/R1/Qwen-thinking）在生產中大規模部署，推理 token 的成本越來越成為核心瓶頸。Abstract-CoT 給出了一個乾淨俐落的解法——無需改模型架構，訓練後即用。

來源：arXiv:2604.22709^[1] | IBM Research AI | 2026-04-24

引用連結

[1]arXiv:2604.22709: https://arxiv.org/abs/2604.22709