導讀:IBM Research 提出 Abstract Chain-of-Thought(Abstract-CoT),用一套「抽象推理詞彙」取代冗長的自然語言思維鏈。在 MATH-500 測試中,推理 token 從 1,671 個驟降至 144 個(壓縮 11.6×),準確率卻達到 90.8%,與全量 CoT+RL 持平甚至超越。這不是近似——是真正意義上讓模型「用自己的語言思考」。
問題背景
大型語言模型的推理能力靠思維鏈(Chain-of-Thought,CoT)撐場,但代價是推理時需要生成大量自然語言步驟——GPT-4o 解一道 MATH 題目可能產出 1,500 多個 tokens。隨著模型規模增大,這個數字還在膨脹。
有人嘗試以「連續表示」替代文字推理(如暫停 Token),但效能始終落後於顯式 CoT。核心矛盾在於:離散 token 便於強化學習最佳化,但自然語言的冗餘性讓效率極差。
核心方法
Abstract-CoT 的做法是:在詞表裡劃出一塊「保留區」(64 個專用 token),讓模型用這套抽象符號系統代替自然語言完成中間推理,再輸出最終答案。
訓練分三步:
步驟 1:瓶頸監督式微調 (SFT)
自然語言 CoT → 掩碼壓縮 → 抽象 token 序列 (SFT 對齊)
步驟 2:自蒸餾
僅從提示詞 (Prompt) → 直接生成抽象 token(約束解碼)
步驟 3:強化學習 (RL) 精調
群組相對策略最佳化 (GRPO) 強化學習 + 約束解碼 → 最大化獎勵
關鍵洞察:自然語言 CoT 是「人類可讀」的,但模型內部並不需要它——一套緊湊的抽象符號完全夠用。
核心數據對比
| 方法 | MATH-500 準確率 | 推理 Token 數 | 壓縮比 |
|---|---|---|---|
| SFT + RL(全量 CoT) | 92.6 | 1671 | — |
| Abstract-CoT (暖開機 + RL) | 90.8 | 144 | 11.6× |
| 暫停 Token | 78.6 | 142 | 11.7× |
| 逐步內化 | 88.6 | 169 | 9.9× |
三點值得注意:
暫停 Token 用了同樣少的 token,但效能差了 12 個百分點——說明「抽象」的品質,而非數量,是關鍵 Qwen3-32B 放大後效果更穩定:MATH-500 達到 94.6,AlpacaEval 65.6(超越全 CoT),Token 壓縮 11× 截斷強健性更強:傳統 CoT 被截斷後效能下降 11.8 點,Abstract-CoT 僅降 6 點
有趣發現:抽象推理語言自組織
訓練完成後,研究者發現抽象詞彙的使用頻率呈冪次定律分布——少數符號被高頻使用,絕大多數偶爾出現。這和自然語言的齊夫定律如出一轍。
這意味著:模型沒有隨機使用這 64 個 token,而是自發學會了一套有結構的推理語言。
總結
Abstract-CoT 的意義不只是「快了 11 倍」。它揭示了一件更根本的事:大型語言模型的推理能力並不綁定在自然語言上。模型完全可以用更緊湊的符號系統思考,自然語言只是最終輸出的「翻譯層」。
隨著推理模型(o1/R1/Qwen-thinking)在生產中大規模部署,推理 token 的成本越來越成為核心瓶頸。Abstract-CoT 給出了一個乾淨俐落的解法——無需改模型架構,訓練後即用。
來源:arXiv:2604.22709[1] | IBM Research AI | 2026-04-24
引用連結
[1]arXiv:2604.22709: https://arxiv.org/abs/2604.22709