こんにちは、PaperAgentです。エージェントではありません!
現在の推論モデル(OpenAI o1やDeepSeek-R1など)は驚異的な精度を誇りますが、数千字から数万字に及ぶ「思考プロセス」を生成するため、推論コストと遅延が急増しています。DeepSeek V4がやらなかったことを、MiniCPM-o 4.5が「全部」やってのけた〜
奇元科技、清華大学、北京大学などが提案したTRS(Thinking with Reasoning Skills)フレームワークは、学習不要でブラックボックス互換を実現し、過去の推論軌跡を再利用可能なスキルカードに蒸留し、推論時に検索して注入することで、より少ないトークン数で、より高い精度という直感に反するブレークスルーを達成しました。数学およびプログラミングタスクにおいて、トークン消費量を6%〜59%削減しつつ、精度はむしろ向上しました。
1. 推論モデルのトークンインフレ危機
現代の推論モデル(LRM)は、明示的な中間思考(Chain-of-Thought)によって数学やコードの信頼性を大幅に向上させましたが、同時に本番環境レベルのボトルネックももたらしました:テスト時の計算コストがトークン数に比例するということです。
商業APIの課金モデルを例にとると、出力トークンは多くの場合、入力トークンよりも高価です。モデルが複雑な問題に直面すると、大量の冗長な検証、試行錯誤、バックトラックのループが発生します。業界レポートでも、推論集約型のワークロードがインフラへの負荷を著しく増大させることが確認されています。
既存の高速化アプローチ(Chain-of-Draft、TALE、NoWaitなど)は、本質的に同じことを行っています:モデルに「より短く考えさせる」ことです。しかし、思考空間を強制的に圧縮すると、多くの場合効率と精度のトレードオフが発生し、単純な問題ではトークンを節約できても、難しい問題では完全に失敗してしまいます。
核心的な問題:モデルに毎回「ゼロから導出」させるのではなく、人間の専門家のように、すでに蓄積された問題解決経験を直接呼び出させることはできないでしょうか?
2. 核心的洞察:「ゼロからの推論」から「スキルの想起」へ
人間の専門家は、問題を解く際に最初から導出することはほとんどありません。彼らは過去の練習から抽出された再利用可能なスキル(例:「不変量を見つける」、「ツーポインター」、「連鎖律」)に依存しています。TRSはまさにこの認知パターンをシステム化したものです。最近の、優れたLLMエージェント統合メモリフレームワークに関するレビュー〜
オフライン:モデルが過去問題を解決した際の長い軌跡(成功パスと失敗の教訓を含む)を、構造化されたスキルカードに蒸留する オンライン:新しい問題に直面したとき、最も関連性の高いスキルカードを検索してプロンプトに注入し、モデルを「最短経路」へと導く
標準CoTが積分を解く際には、「部分積分→三角関数置換→試行錯誤」といった高いトークン消費を伴う探索を経験する必要があります。一方、TRS検索が「連鎖律+置換積分法」のスキルを検索すると、直接3ステップで解答に至り、トークンコストが大幅に削減されます。
3. 方法の詳細:TRSフレームワーク
3.1 スキルカードの設計 (スキルカードスキーマ)
各スキルカードは、高度に構造化されたコンパクトなテキストであり、以下の5つのフィールドを含みます(詳細は論文のAppendix Aを参照):
| Trigger | |
| Do | |
| Avoid | |
| Check | |
| Risk |
正解の解答軌跡に対しては、カードは成功パターンを抽出します。不正解の軌跡に対しては、カードは「アンチパターン→修正戦略」を抽出します。この「失敗から学ぶ」設計こそが、TRSが難問において精度を向上させることができる鍵です。
3.2 オフラインでのスキルライブラリ構築
ソース問題に対して、推論モデルを実行し、軌跡と結果を得る より強力な蒸留モデル(Gemini Flashなど)を使用して、をスキルカードと10〜20個の検索キーワードに圧縮する Key-Value形式でスキルライブラリに格納:Key = Concat(問題, キーワード)、Value = スキルカード
論文では、DEEPMATH-103K(93Kでライブラリ構築、10Kでテスト)とNEMOTRON-COMPETITIVEPROGRAMMING-V1(26.6Kでライブラリ構築、1Kでテスト)を使用して検証を行っています。
3.3 オンライン検索と注入
新しいクエリに直面した場合:
検索:BM25(数学)またはHybrid(BM25 + Dense Embedding、コード)を使用して、top-kのスキルを検索する 注入:スキルカードをプロンプトの先頭に配置する(Figure 13に標準テンプレートが示されています) 軽量ゲーティング:プロンプトに調停命令を付与する — 「直接適用可能なスキルのみを使用し、無関係または矛盾する提案は無視する」
なぜトークンを削減できるのか? スキルの注入により入力長は増加しますが、冗長な探索ブランチ、試行錯誤ループ、繰り返しの検証が排除されます。実験によると、出力トークンの減少量は入力トークンの増加量をはるかに上回り、最終的にエンドツーエンドのコストと遅延の両方が削減されることが示されています。
4. 主実験:効率と精度のトレードオフを打破
4.1 数学的推論 (DeepMath-103K)
TRSが複数モデルで示した驚異的なパフォーマンス:
主な発見:
Doubao Seedは、精度をほとんど損なうことなく(-0.2%)、トークン数を半減し、コストを53.8%削減 GPT-4o-miniのような比較的弱いモデルは、TRSの補助により、精度が**1.8%**向上し、コストを6.9%削減 GPT-OSS-120Bは精度を維持したまま、コストを16.9%削減
4.2 コードコンペティション (競技プログラミング)
プログラミングタスクにおいても、TRSは堅実なパフォーマンスを示しています:
GPT-4o-mini: 精度が22.0%から **24.4%**(+2.4%)に向上、コスト ↓6.3% Doubao Seed-2.0: 精度が63.6%から **64.4%**(+0.8%)に向上、コスト ↓6.0% GPT-OSS-120B: 精度が54.2%から **58.3%**(+4.1%)に向上、プロンプト増加によりコストが+4.8%微増したものの、精度向上は顕著
コードタスクにおいて、TRSがDirectと比較して、トークン数と精度の両面で総合的に優れていることを直感的に示しています。
5. 詳細な分析:なぜTRSは勝てるのか?
5.1 難問ほど優位性が拡大:TALE/CoD/NoWaitとの比較
既存の高速化手法(TALEの強制予算、CoDの超簡易ドラフト、NoWaitの内省語抑制)は、難問において普遍的に壊滅的な崩壊を起こします。
ベースラインの思考長(難易度閾値)でスライスした結果を示しています:
(問題が難しくなるにつれ)が増加すると、TALEとCoDの精度は急激に低下する TRSはGPT-OSS上で、最も難しい区間()において、精度が約45%から約80%に向上し、同時にトークン数を約15kから約7kに圧縮した
結論:「短く考える」ことを強制すると、深い推論が阻害されます。TRSはナビゲーションマップ(スキルカード)を提供することで、モデルが複雑な解空間で迷子にならないようにし、結果として長い試行錯誤の軌跡が不要になります。
5.2 制御実験:単純なRAGではない
アブレーション実験により、TRSの利得は単純な検索では説明できないことが証明されました:
構造化されたスキルカード + 十分なカバレッジの組み合わせのみが、TRSの潜在能力を引き出すことができます。これは、モデルが必要としているのが「関連するコンテキスト」ではなく、実行可能な手続き的ガイダンスであることを示しています。
5.3 クロスモデル転送:強いモデルが蒸留し、弱いモデルが恩恵を受ける
クロスモデルスキル転送を示しています:
Doubaoで生成したスキルライブラリをOSSに使用する、またはOSSライブラリをDoubaoに使用する、いずれの場合もポジティブな利益が得られた 同一モデルのスタイルに合わせた場合に利益が最大となる(例:DoubaoがDoubaoのライブラリを使用) クロスソースのスキルが、時にさらに積極的なトークン削減をもたらすこともある
工学的意義:企業は強力なモデル(GPT-4/Geminiなど)でオフラインにスキルライブラリを蒸留し、デプロイ時に軽量モデル(GPT-4o-mini/Doubaoなど)がそれを検索して使用することで、**「マスターの経験、見習いの実行」**というコスト構造を実現できます。
5.4 検索戦略:数学はBM25、コードはHybrid
検索バックエンドを比較しました:
数学問題は表層的なトリガーワード(数式、定理名)の語彙的重複(lexical overlap)が高いため、BM25で十分です。コード問題は表層的な記述の差異が大きいものの、アルゴリズムパターンが類似しているため、Dense Embeddingで意味を捉える必要があります。論文のデフォルト設定:**数学はBM25(k=1)、コードはHybrid(k=5)** です。
5.5 外部競技数学への転移:AoPSスキルライブラリ
ドメインを超えた汎化を検証するため、著者らはAoPS(Art of Problem Solving)の競技問題集から7,616枚のスキルカードを蒸留し、AIME 2024/2025/2026およびHMMT 2025でテストしました。
結果が示しています:
25のモデル-ベンチマークペアのうち、13ペアで精度が向上し、20ペアでコストが削減された Doubao-1.8は、平均+1.88%の精度向上を達成し、コストを2.8%削減 Gemini-3-Flashは精度が向上したがコストが微増しており、強力なモデルへのスキル注入は、出力品質と引き換えに入力が増加する可能性があることを示唆している
Table 6のベンチマークレベル平均は、AIME 2024 Iへの転移効果が最も高く(+2.54%)、より新しく難しいAIME 2026では効果が横ばいになることを示しています。これは、スキルライブラリとターゲットドメインの近接性が依然として重要な要素であることを示唆しています。
https://github.com/stallone0000/Reasoning-Skill huggingface.co/datasets/stallone0000/Reasoning-Skill https://reasoning-skill.onrender.com https://arxiv.org/pdf/2604.21764 Thinking with Reasoning Skills: Fewer Tokens, More Accuracy