新智元レポート
AIに原始人のように喋らせるプラグインが、Hacker News(HN)で一夜にして爆発的な人気となり、GitHubのスター数は2万件を突破しました。その核心は「冠詞、社交辞令、そしてあらゆる無駄話を削除せよ」というシンプルかつ強引なプロンプトにあり、出力トークンを最大75%削減できると謳っています。この流行は、開発者がAIの「お喋りすぎる」性質に心底うんざりしていることを物語っています。
最近、「caveman(洞窟人間)」というClaude Code向けプラグインがHacker Newsで大きな話題となりました。
まずはこちらの画像をご覧ください。
GitHubのスター数増加曲線を見ると、「JuliusBrussee/caveman」は長い間緩やかに上昇していましたが、ある時点から急激に跳ね上がっています。わずか半日ほどで数十件から500件へと急増し、現在は2万件を突破しています!
「洞窟人間」によるトークン節約術が爆発的にヒットした背景には、コミュニティ全体の感情的な共鳴があります。それは、「AI Yap(AIの無駄話)」という、一見小さく見えても多くのユーザーを苛立たせていた痛点を、見事に突いたことを意味しています。
ネット上では、このプラグインを「2026年で最も強力なプロンプトテクニック」と呼ぶ声もあり、「喜んでお手伝いします」といった礼儀正しさや前置きに浪費されるトークンを完全にカットできると絶賛されています。
このプラグインがやることは至ってシンプルです。AIエージェントに洞窟人間のようにな喋らせることです。
「the」「please」「thank you」などの冠詞や社交辞令を排除し、技術的な意味に影響を与えずトークンだけを消費する「人間的な礼儀」をすべて削ぎ落とします。
https://github.com/JuliusBrussee/caveman
このプロジェクトは開発者のJulius Brussee氏によって作成され、GitHubリポジトリ名は「JuliusBrussee/caveman」です。Julius氏はREADMEの中で、「少量のトークンで説明できることを、なぜ大量のトークンを使って説明しなければならないのか?」という極めて直接的な問いを投げかけています。
これは「Claude Code」と「Codex」の両方に適応するスキル/プラグインです。その核心的なアプローチは、エージェントを「原始人」のように喋らせることで、技術的な正確性を犠牲にすることなく出力を極限まで圧縮し、トークン消費量を約75%削減できるとしています。
ここで疑問が生じます。冠詞や礼儀作法を消すだけで、本当にユーザーのコストを4分の3も削減できるのでしょうか?
SKILL.mdの中身を解析:ユーザーは「たったこれだけか」と驚愕
cavemanは一体どのようにして「節約」しているのでしょうか?核心ファイルであるSKILL.mdを開くと、その内容は驚くほど簡潔でした。
https://raw.githubusercontent.com/JuliusBrussee/caveman/main/skills/caveman/SKILL.md
ファイルのフロントマターでは、これを「Ultra-compressed communication mode(超圧縮通信モード)」と定義しています。そして以下のように明記されています。
洞窟人間のようにな喋ることで、技術的な正確性を維持しつつ、トークン使用量を最小限に抑えることを目標とする。
ユーザーが「caveman mode」「talk like caveman」「use caveman」「less tokens」「be brief」と言及したとき、または「/caveman」を呼び出したときに有効化される。また、ユーザーが高効率なトークン利用を明確に求めた場合にも自動的にトリガーされる。
トークン節約のルールは非常にシンプルで強引です。「冠詞を使うな、無駄話をしろ、礼儀を捨てること」。技術用語とコードブロックは保持し、それ以外は可能な限りカットします。
削除対象:冠詞、フィラー(つなぎ言葉)、社交辞令、ためらい表現。
短文や断片的な文章の使用を許可。
より短い類義語を優先する(例:「巨大な」ではなく「大きい」、「解決策を実装する」ではなく「直す」)。
技術用語は正確に維持。
コードブロックは変更しない。
エラーメッセージはそのまま引用する。
推奨構文:[問題][アクション][理由]。[次ステップ]。
例えば、次のような書き方はNGです。「もちろんです!喜んでお手伝いいたします。発生している問題は、おそらく……が原因であると考えられます……」
正解はこちら:「バグは認証ミドルウェアにあり。トークン期限判定に < を使用、 <= ではない。ここを修正:」
また、3つの強度レベルが用意されています:lite, full(デフォルト), ultra。
- lite: フィラーやためらい表現を削除。完全な文章と標準的な書き言葉を維持。プロフェッショナルかつ簡潔。
- full: さらに表現を圧縮。一部の機能語を省略し、断片的な文章を許可。短い単語で代替。典型的な「洞窟人間」スタイル。
- ultra: 大量に略語を使用(DB, auth, config, req, res, fn, implなど)。接続詞を極力排除。因果関係を矢印(X→Y)で表現。1単語で済むなら2単語使わない。
具体例:
lite:「コネクションプールは、リクエストごとに新しく作成するのではなく、既に開いているデータベース接続を再利用するため、ハンドシェイクのオーバーヘッドを回避できます。」
full:「コネクションプールは開いているDB接続を再利用。毎リクエスト作成しない。ハンドシェイクコスト削減。」
ultra:「コネクションプール=DB接続再利用。ハンドシェイク省略→高並行で高速化。」
もちろん、セキュリティ警告、不可逆な操作の確認、多ステップのプロセス、またはユーザーが明らかに混乱している場合は、明確な表現が優先されます。これはSKILL.mdに明記されている例外ロジックです。
モデルアーキテクチャの変更も、推論メカニズムレベルの圧縮もありません。cavemanの正体は、精巧に書かれた1本のシステムプロンプトであり、AIの出力スタイルを制約しているだけです。
さらに重要な点として、作者のJulius Brussee氏はHNのスレッドで、「このスキルはhidden reasoning tokens(隠れた推論トークン)やthinking tokens(思考トークン)には影響しない」と明言しています。
モデルがバックグラウンドで「思考」するプロセスはcavemanによって短くなるわけではなく、主に最終的に出力される部分を圧縮しています。
Anthropicの公式ドキュメントでも、スキルの名称と説明自体がコンテキスト予算を消費することが言及されています。つまり、cavemanというスキルをロードすること自体にトークンが消費されるということです。
したがって、エンドツーエンドでの実際のコスト削減は、READMEにある「75%」という数字とは必ずしも一致しません。可視的な出力長は大幅に短縮されますが、それをそのまま総コストの同比例的な低下と解釈すべきではありません。
READMEの「75%」は信頼できるのか?
リポジトリの公開内容を見ると、作者はベンチマークスクリプトを提供しており、READMEにはいくつかのタスクにおけるトークン比較が記載されています(削減率22%から87%、平均65%)。
しかし、現時点で公開リポジトリにあるのはテストスクリプトと例示されたテーブルのみであり、外部からすべての結果を完全に再現・検証することは困難です。
作者はHNのスレッドで、「これは予備的なテストであり、厳格なベンチマークではない」と述べています。
とはいえ、「簡潔な表現がAIの性能を損なうか」という問題については、学術的な研究が存在します。
https://arxiv.org/pdf/2401.05618
2024年の論文『The Benefits of a Concise Chain of Thought on Problem-Solving in Large Language Models』によれば、研究者がモデルにより簡潔な推論チェーンを使用するよう求めた際、GPT-3.5とGPT-4の平均回答長は48.70%減少しましたが、全体的な問題解決能力に顕著な低下は見られませんでした。ただし、数学の問題においては、GPT-3.5のパフォーマンスが平均27.69%低下したとしています。
また、2026年の論文『Brevity Constraints Reverse Performance Hierarchies in Language Models』では、さらに踏み込んだ指摘がなされています。
一部のベンチマークにおいて、大規模モデルに簡潔性の制約を加えることで、正解率が26ポイント向上し、モデル規模による本来のパフォーマンス順位が逆転する可能性さえあるとしています。
https://arxiv.org/pdf/2604.00025
以上の2本の論文は、「簡潔さが必ずしも性能を損なうわけではない」という研究背景を提供しています。ただし、これらは汎用的なプロンプト戦略としての「簡潔性(brevity)」を研究したものであり、cavemanという特定のリポジトリを評価したものではない点に注意が必要です。READMEでこれらの研究を引用していることは、アプローチに理論的な根拠があることを示唆していますが、プロジェクト自体の効果を厳密に検証したものとは言えません。
Claude Codeのプラグインエコシステムが始動
cavemanが流行したもう一つの背景には、AnthropicがClaude Codeに対して比較的完全なスキルおよびプラグインメカニズムを提供したことがあります。
https://code.claude.com/docs/en/skills
Anthropicの公式ドキュメントによると、開発者が SKILL.md ファイルを作成するだけで、Claudeはそれを「スキル」として認識します。description はいつ自動ロードするかを決定し、name は直接トリガー可能なスラッシュコマンドになります。
また、プラグインレベルのスキルのパス構造は <plugin>/skills/<skill-name>/SKILL.md であると明記されています。
cavemanのリポジトリには、実際に .claude-plugin, plugins/caveman, skills/caveman などのディレクトリが存在しており、単なる「数行のプロンプト」というレベルのおもちゃではなく、Claude Codeのスキル/プラグインメカニズムに基づいた拡張機能としてパッケージ化されていることがわかります。
これは、開発者が SKILL.md を通じて、モデルの底層を変更することなく、特定のタスクにおけるClaude Codeの呼び出し方法や出力スタイルを変更できることを意味します。
ある意味で、これは初期のVS Code拡張エコシステムに似ています。最初は軽量で、時にはジョークのような拡張機能が現れ、それが次第に本格的で専門的なワークフローツールへと成長していく過程にあります。
開発者はAIの無駄話に耐えられない
最初の問いに戻りましょう。cavemanは本当に有用なのでしょうか?
もしこれを厳格な意味での「コスト削減ツール」として捉えるなら、慎重になる必要があります。圧縮されるのは可視的な出力テキストのみであり、Claude Codeのコストの大部分を占めるhidden reasoning tokensには触れていません。さらにスキル自体のコンテキスト消費を考慮すると、エンドツーエンドでの実際の削減率は75%には届かない可能性が高いでしょう。
真にトークンコストを最適化したいのであれば、モデルの階層呼び出し、コンテキストウィンドウ管理、プロンプトエンジニアリング、キャッシュ戦略といった主戦場に取り組むべきです。
しかし、cavemanの真に注目すべき点は、それが完璧な処方箋であるかどうかではなく、一つの「信号」であることです。
ある開発者が「AIに無駄話をさせない」ことをプラグイン化してGitHubに公開し、数千人が真剣に議論し、HNで爆発的にヒットしたとき、焦点はすでに変わっています。
それは、AIツールの冗長さが、もはや「許容できる小さな欠点」ではなく、ユーザーが自ら手を下して修正し始めるレベルの「深刻な苦痛」になったことを示しています。
実際、開発者の感情は限界に達しています。コミュニティを見れば、AIの無駄話に対する嘆きと不満で溢れています。
「たった2行の正規表現が欲しいだけなのに、正規表現の歴史に関するエッセイを5段落も書いてきた」
「お願いだから『もちろんです!こちらが……』なんて言わずに、直接エラーを出すかコードをくれ」
Hacker Newsでは、こうした嘆きは直接的にコストの問題と結びついています。
「100万トークンあたり15ドルという金を払って、AIの謝罪と挨拶を読まされている気分だ」
「句読点を一つ直したいだけなのに、800行のファイル全体を再出力しやがった。APIの残高が目に見えて減っていくのを見て、破産しそうになった」
ユーザーが、冗長な出力にコストを払い続けるよりも、AIが「洞窟人間」のように喋ることを選ぶとき、本当に反省すべきは主要なAI大手企業かもしれません。
なぜ今日に至るまで、「抑制」を基本能力として実装できなかったのでしょうか。
計算資源のビジネスばかりに目を向けず、ユーザーがなぜ不必要な出力にこれほどまで耐えられなくなっているのかを真剣に考えるべき時が来ています。
参考資料:
https://github.com/JuliusBrussee/caveman
https://code.claude.com/docs/en/skills
https://news.ycombinator.com/item?id=47647455