大家好,我是PaperAgent,不是Agent!
當前推理模型(如OpenAI o1、DeepSeek-R1)雖然準確率驚人,但動輒生成數千甚至上萬字的「思考過程」,導致推理成本和延遲急劇上升。DeepSeek V4沒做的,MiniCPM-o 4.5給做「全」了~
奇元科技、清華與北京大學等提出的TRS(Thinking with Reasoning Skills)框架,無需訓練、黑盒相容,透過將歷史推理軌跡蒸餾成可重複使用的技能卡片,在推理時檢索並注入,實現了更少Token,更高準確率的反直覺突破——在數學和程式設計任務上,Token消耗降低6%-59%,準確率不降反升。
1. 推理模型的Token通膨危機
現代推理模型(LRMs)透過顯式中間思考(Chain-of-Thought)大幅提升了數學和程式碼的可靠性,但也帶來了一個生產級瓶頸:測試時運算成本與Token數量成正比。
以商業API計費模式為例,輸出Token往往比輸入Token更貴。當模型面對複雜問題時,會產生大量冗餘的驗證、試錯和回溯循環。業界報告也證實,推理密集型負載正在顯著放大基礎設施壓力。
現有提速方案(如Chain-of-Draft、TALE、NoWait)本質上都在做同一件事:讓模型「想得更短」。但強制壓縮思考空間往往導致效率-準確率權衡(Efficiency-Accuracy Trade-off)——簡單題省了Token,難題卻直接翻車。
核心問題:我們能不能不讓模型每次都「從零推導」,而是像人類專家一樣,直接調用已沉澱的解題經驗?
2. 核心洞察:從「從零推理」到「回憶技能」
人類專家解題時很少從頭推導。他們依賴從過去練習中提煉出的可重複使用技能(例如:「尋找不變量」、「雙指標」、「鏈式法則」)。TRS正是將這一認知模式系統化:近期,不錯的LLM Agent統一記憶框架綜述~
離線(Offline):將模型解決歷史問題時的長軌跡(包括成功路徑和失敗教訓)蒸餾成結構化的技能卡片(Skill Card) 線上(Online):面對新問題時,檢索最相關的技能卡片注入Prompt,引導模型走「直達路徑」
標準CoT在求解積分時需要經歷「分部積分→三角替換→試錯」的高Token消耗探索;而TRS檢索到「鏈式法則+換元法」技能後,直接三步出解,Token成本大幅降低。
3. 方法詳解:TRS框架
3.1 技能卡片的設計(Skill Card Schema)
每個技能卡片是一個高度結構化的緊湊文本,包含五個欄位(詳見論文 Appendix A):
| Trigger | |
| Do | |
| Avoid | |
| Check | |
| Risk |
對於正確的解題軌跡,卡片提煉成功模式;對於錯誤軌跡,卡片提煉「反模式→修正策略」。這種「從失敗中學習」的設計是TRS能在難題上提升準確率的關鍵。
3.2 離線建構技能庫
對來源問題,運行推理模型得到軌跡和結果 用更強的蒸餾模型(如Gemini Flash)將軌跡壓縮為技能卡片和10-20個檢索關鍵詞 以Key-Value形式存入技能庫:Key = Concat(問題, 關鍵詞),Value = 技能卡片
論文使用DEEPMATH-103K(93K建構庫,10K測試)和NEMOTRON-COMPETITIVEPROGRAMMING-V1(26.6K建構庫,1K測試)進行驗證。
3.3 線上檢索與注入
面對新查詢時:
檢索:使用 BM25(數學)或 Hybrid(BM25 + Dense Embedding,程式碼)檢索 top-k 技能 注入:將技能卡片前置到Prompt中(Figure 13展示了標準模板) 輕量門控:Prompt中附帶仲裁指令——「僅使用直接適用的技能;忽略無關或矛盾建議」
為什麼能減少Token?雖然注入技能增加了輸入長度,但它消除了冗餘的探索分支、試錯循環和重複驗證。實驗表明,輸出Token的減少量遠大於輸入Token的增加量,最終端對端成本和延遲均下降。
4. 主實驗:打破效率-準確率權衡
4.1 數學推理(DeepMath-103K)
展示了TRS在多模型上的驚豔表現:
關鍵發現:
Doubao Seed在幾乎不損失準確率(-0.2%)的情況下,Token數腰斬,成本降低53.8% GPT-4o-mini這種較弱模型在TRS加持下,準確率反而提升 **1.8%**,成本降低6.9% GPT-OSS-120B保持準確率不變,成本降低16.9%
4.2 程式碼競賽(Competitive Programming)
在程式設計任務上,TRS同樣表現穩健:
GPT-4o-mini: 準確率從22.0% → **24.4%**(+2.4%),成本 ↓6.3% Doubao Seed-2.0: 準確率從63.6% → **64.4%**(+0.8%),成本 ↓6.0% GPT-OSS-120B: 準確率從54.2% → **58.3%**(+4.1%),雖然Prompt增加導致成本微升+4.8%,但準確率提升顯著
直觀展示了在程式碼任務上,TRS相比Direct在Token和準確率上的綜合優勢。
5. 深度分析:為什麼TRS能贏?
5.1 難題上優勢更大:與TALE/CoD/NoWait的對比
現有提速方法(TALE強制預算、CoD極簡草稿、NoWait抑制反思詞)在難題上普遍出現災難性崩潰。
按基線思考長度(難度閾值)切片顯示:
當題目變難,TALE和CoD的準確率急遽下滑 TRS在GPT-OSS上,最難區間的準確率從約45%提升至約80%,同時將Token從~15k壓到~7k
結論:強制「想短」會 cripple 深度推理;TRS透過提供導航地圖(技能卡片),讓模型在複雜解空間中不迷路,自然就不需要那麼長的試錯軌跡。
5.2 控制實驗:不是簡單的RAG
消融實驗證明,TRS的收益不能被簡單檢索解釋:
只有結構化技能卡片 + 足夠覆蓋率的組合才能釋放TRS潛力。這說明模型需要的不是「相關上下文」,而是可執行的程序性指導。
5.3 跨模型遷移:強模型蒸餾,弱模型受益
展示了跨模型技能遷移:
用Doubao生成的技能庫給OSS用,或用OSS技能庫給Doubao用,均能帶來正向收益 同模型風格對齊時收益最大(如Doubao用Doubao庫) 跨源技能有時甚至能帶來更激進的Token削減
工程意義:企業可以用強模型(如GPT-4/Gemini)離線蒸餾技能庫,部署時供輕量模型(如GPT-4o-mini/Doubao)檢索使用,實現**「大師經驗,學徒執行」**的成本結構。
5.4 檢索策略:數學靠BM25,程式碼靠Hybrid
對比了檢索後端:
數學問題表面觸發詞(公式、定理名) lexical overlap 高,BM25即可;程式碼問題表面描述差異大但演算法模式相似,需要Dense Embedding捕捉語意。論文預設:**數學用BM25(k=1),程式碼用Hybrid(k=5)**。
5.5 外部競賽數學遷移:AoPS技能庫
為驗證跨領域泛化,作者從AoPS(Art of Problem Solving)競賽題庫蒸餾7,616張技能卡片,在AIME 2024/2025/2026和HMMT 2025上測試。
顯示:
25個模型-基準對中,13對準確率提升,20對成本降低 Doubao-1.8平均提升+1.88%準確率,成本降低2.8% Gemini-3-Flash準確率提升但成本微增,說明技能注入對強模型可能以增加輸入換取輸出品質
Table 6的基準級平均顯示,AIME 2024 I的遷移效果最好(+2.54%),更新更難的AIME 2026效果趨於平緩。這表明技能庫與目標域的鄰近性仍是關鍵因素。
https://github.com/stallone0000/Reasoning-Skill huggingface.co/datasets/stallone0000/Reasoning-Skill https://reasoning-skill.onrender.com https://arxiv.org/pdf/2604.21764 Thinking with Reasoning Skills: Fewer Tokens, More Accuracy動手設計AI Agents:(編排、記憶、插件、workflow、協作)
每天一篇大模型Paper來鍛鍊我們的思維~已經讀到這了,不妨點個👍、❤️、↗️三連,加個星標⭐,不迷路哦~