技能驅動推理新範式，清華＆北大：Token立省59%，準確率不降反升

大家好，我是PaperAgent，不是Agent！

當前推理模型（如OpenAI o1、DeepSeek-R1）雖然準確率驚人，但動輒生成數千甚至上萬字的「思考過程」，導致推理成本和延遲急劇上升。DeepSeek V4沒做的，MiniCPM-o 4.5給做「全」了~

奇元科技、清華與北京大學等提出的TRS（Thinking with Reasoning Skills）框架，無需訓練、黑盒相容，透過將歷史推理軌跡蒸餾成可重複使用的技能卡片，在推理時檢索並注入，實現了更少Token，更高準確率的反直覺突破——在數學和程式設計任務上，Token消耗降低6%-59%，準確率不降反升。

1. 推理模型的Token通膨危機

現代推理模型（LRMs）透過顯式中間思考（Chain-of-Thought）大幅提升了數學和程式碼的可靠性，但也帶來了一個生產級瓶頸：測試時運算成本與Token數量成正比。

以商業API計費模式為例，輸出Token往往比輸入Token更貴。當模型面對複雜問題時，會產生大量冗餘的驗證、試錯和回溯循環。業界報告也證實，推理密集型負載正在顯著放大基礎設施壓力。

現有提速方案（如Chain-of-Draft、TALE、NoWait）本質上都在做同一件事：讓模型「想得更短」。但強制壓縮思考空間往往導致效率-準確率權衡（Efficiency-Accuracy Trade-off）——簡單題省了Token，難題卻直接翻車。

核心問題：我們能不能不讓模型每次都「從零推導」，而是像人類專家一樣，直接調用已沉澱的解題經驗？

2. 核心洞察：從「從零推理」到「回憶技能」

人類專家解題時很少從頭推導。他們依賴從過去練習中提煉出的可重複使用技能（例如：「尋找不變量」、「雙指標」、「鏈式法則」）。TRS正是將這一認知模式系統化：近期，不錯的LLM Agent統一記憶框架綜述~

離線（Offline）：將模型解決歷史問題時的長軌跡（包括成功路徑和失敗教訓）蒸餾成結構化的技能卡片（Skill Card）
線上（Online）：面對新問題時，檢索最相關的技能卡片注入Prompt，引導模型走「直達路徑」

標準CoT在求解積分時需要經歷「分部積分→三角替換→試錯」的高Token消耗探索；而TRS檢索到「鏈式法則＋換元法」技能後，直接三步出解，Token成本大幅降低。

3. 方法詳解：TRS框架

3.1 技能卡片的設計（Skill Card Schema）

每個技能卡片是一個高度結構化的緊湊文本，包含五個欄位（詳見論文 Appendix A）：

欄位	含義
Trigger	適用場景觸發詞（如「積分形式含」）
Do	核心操作步驟（最小可執行配方）
Avoid	反模式／常見陷阱
Check	必須驗證的約束或不變量
Risk	邊界情況與失敗模式

對於正確的解題軌跡，卡片提煉成功模式；對於錯誤軌跡，卡片提煉「反模式→修正策略」。這種「從失敗中學習」的設計是TRS能在難題上提升準確率的關鍵。

3.2 離線建構技能庫

對來源問題，運行推理模型得到軌跡和結果
用更強的蒸餾模型（如Gemini Flash）將軌跡壓縮為技能卡片和10-20個檢索關鍵詞
以Key-Value形式存入技能庫：Key = Concat(問題, 關鍵詞)，Value = 技能卡片

論文使用DEEPMATH-103K（93K建構庫，10K測試）和NEMOTRON-COMPETITIVEPROGRAMMING-V1（26.6K建構庫，1K測試）進行驗證。

3.3 線上檢索與注入

面對新查詢時：

檢索：使用 BM25（數學）或 Hybrid（BM25 + Dense Embedding，程式碼）檢索 top-k 技能
注入：將技能卡片前置到Prompt中（Figure 13展示了標準模板）
輕量門控：Prompt中附帶仲裁指令——「僅使用直接適用的技能；忽略無關或矛盾建議」

為什麼能減少Token？雖然注入技能增加了輸入長度，但它消除了冗餘的探索分支、試錯循環和重複驗證。實驗表明，輸出Token的減少量遠大於輸入Token的增加量，最終端對端成本和延遲均下降。

4. 主實驗：打破效率-準確率權衡

4.1 數學推理（DeepMath-103K）

展示了TRS在多模型上的驚豔表現：

關鍵發現：

Doubao Seed在幾乎不損失準確率（-0.2%）的情況下，Token數腰斬，成本降低53.8%
GPT-4o-mini這種較弱模型在TRS加持下，準確率反而提升 **1.8%**，成本降低6.9%
GPT-OSS-120B保持準確率不變，成本降低16.9%

4.2 程式碼競賽（Competitive Programming）

在程式設計任務上，TRS同樣表現穩健：

GPT-4o-mini: 準確率從22.0% → **24.4%**（+2.4%），成本 ↓6.3%
Doubao Seed-2.0: 準確率從63.6% → **64.4%**（+0.8%），成本 ↓6.0%
GPT-OSS-120B: 準確率從54.2% → **58.3%**（+4.1%），雖然Prompt增加導致成本微升+4.8%，但準確率提升顯著

直觀展示了在程式碼任務上，TRS相比Direct在Token和準確率上的綜合優勢。

5. 深度分析：為什麼TRS能贏？

5.1 難題上優勢更大：與TALE／CoD／NoWait的對比

現有提速方法（TALE強制預算、CoD極簡草稿、NoWait抑制反思詞）在難題上普遍出現災難性崩潰。

按基線思考長度（難度閾值）切片顯示：

當題目變難，TALE和CoD的準確率急遽下滑
TRS在GPT-OSS上，最難區間的準確率從約45%提升至約80%，同時將Token從~15k壓到~7k

結論：強制「想短」會 cripple 深度推理；TRS透過提供導航地圖（技能卡片），讓模型在複雜解空間中不迷路，自然就不需要那麼長的試錯軌跡。

5.2 控制實驗：不是簡單的RAG

消融實驗證明，TRS的收益不能被簡單檢索解釋：

只有結構化技能卡片 + 足夠覆蓋率的組合才能釋放TRS潛力。這說明模型需要的不是「相關上下文」，而是可執行的程序性指導。

5.3 跨模型遷移：強模型蒸餾，弱模型受益

展示了跨模型技能遷移：

用Doubao生成的技能庫給OSS用，或用OSS技能庫給Doubao用，均能帶來正向收益
同模型風格對齊時收益最大（如Doubao用Doubao庫）
跨源技能有時甚至能帶來更激進的Token削減

工程意義：企業可以用強模型（如GPT-4／Gemini）離線蒸餾技能庫，部署時供輕量模型（如GPT-4o-mini／Doubao）檢索使用，實現**「大師經驗，學徒執行」**的成本結構。

5.4 檢索策略：數學靠BM25，程式碼靠Hybrid

對比了檢索後端：

數學問題表面觸發詞（公式、定理名） lexical overlap 高，BM25即可；程式碼問題表面描述差異大但演算法模式相似，需要Dense Embedding捕捉語意。論文預設：**數學用BM25(k=1)，程式碼用Hybrid(k=5)**。

5.5 外部競賽數學遷移：AoPS技能庫

為驗證跨領域泛化，作者從AoPS（Art of Problem Solving）競賽題庫蒸餾7,616張技能卡片，在AIME 2024／2025／2026和HMMT 2025上測試。

顯示：

25個模型-基準對中，13對準確率提升，20對成本降低
Doubao-1.8平均提升+1.88%準確率，成本降低2.8%
Gemini-3-Flash準確率提升但成本微增，說明技能注入對強模型可能以增加輸入換取輸出品質

Table 6的基準級平均顯示，AIME 2024 I的遷移效果最好（+2.54%），更新更難的AIME 2026效果趨於平緩。這表明技能庫與目標域的鄰近性仍是關鍵因素。

https://github.com/stallone0000/Reasoning-Skill huggingface.co/datasets/stallone0000/Reasoning-Skill https://reasoning-skill.onrender.com https://arxiv.org/pdf/2604.21764 Thinking with Reasoning Skills: Fewer Tokens, More Accuracy

動手設計AI Agents：（編排、記憶、插件、workflow、協作）

分享兩篇Claude Skills最新論文，有3個核心結論

會學習的龍蝦，才是好龍蝦：OpenClaw-RL

每天一篇大模型Paper來鍛鍊我們的思維~已經讀到這了，不妨點個👍、❤️、↗️三連，加個星標⭐，不迷路哦~