DeepSeekが一夜で削除した新論文、一体何が書かれていたのか

昨夜、DeepSeekのマルチモーダル研究者である陈小康（Chen Xiaokang）氏がXに投稿し、DeepSeekのマルチモーダル技術に関する新論文「Thinking with Visual Primitives」を公開し、「Excited to release」と述べた。

Feishuドキュメント - 画像

今朝、投稿は削除され、GitHub上の論文も取り下げられた。

しかしAPPSOは、それが消える前に全文を読み終えた。読了後の感想は、この論文が撤回されたのは内容に問題があったからではないだろう、というものだ。

むしろ逆で、多くを明かしすぎたのかもしれない。

一昨日、我々はDeepSeekの画像認識モードを実測し、指の数を数えさせたところ、思考を巡らせた末に「本当に数えていて混乱した」と自らぼやき、間違えてしまった。当時はグレーテスト中の小さな問題だと思っていた。

Feishuドキュメント - 画像

この論文は、指を数えて混乱するという現象の背後に、GPT、Claude、Geminiがいずれもうまく解決できていない技術的ボトルネックが潜んでいることを教えてくれる。

そしてDeepSeekが出した解決策は、口に出すのもおこがましいほど素朴なものだ：AIに指を与えること。

Feishuドキュメント - 画像

陈小康氏はその投稿で次のように書いている。

「Traditional CoT stays in the linguistic space, but visual reasoning needs more. By using points and boxes as cognitive anchors, our model bridges the Reference Gap—mimicking the "point-to-reason" synergy humans use.」

「従来の思考連鎖は言語空間に留まりますが、視覚的推論にはそれ以上が必要です。点とボックスを認知的アンカーとして使用することで、私たちのモデルは『参照のギャップ』を埋め、人間が用いる『指さしながら考える』共同作業を模倣します。」

はっきり見えることと、正確に指し示すことは別物だ

現在の全てのマルチモーダル大規模モデルが行う画像推論は、本質的には見えた画面をテキストに変換し、そのテキスト空間で思考連鎖推論を行うというものだ。GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash、いずれもこの手法である。

過去2年間、OpenAI、Google、Anthropicの改善の方向性は一つの問題に集中していた。それは、どうすればモデルにもっと鮮明に見せられるか、ということだ。高解像度での切り抜き、動的ブロック分割、画像を拡大してから入力する方法などだ。DeepSeekはこれを「Perception Gap（知覚のギャップ）」と呼ぶ。

しかし、この論文は別のボトルネックを指摘している。それが「Reference Gap（参照のギャップ）」だ。モデルははっきり見えているのに、推論プロセスの中で画像内の特定の何かを正確に指し示すことができないのだ。

このように理解できる：一枚の写真に25人が密集して立っている。あなたが言語で「左から3列目の青いユニフォームを着た人の隣の人」と説明するとき、その説明自体が曖昧なのである。モデルは数えているうちに文脈を見失い、さっき誰まで数えたか忘れてしまう。

人間はこの問題をどう解決するか？実に原始的な方法だ。指を差し出し、一人ずつ指さしながら数える。

2840億パラメータのモデルに、指が一本搭載された

DeepSeekの解決策：モデルが思考プロセスの中で、画像上の座標を直接出力できるようにすることだ。

想像してみてほしい。モデルが多くの人々が写った写真を見たとき、その思考連鎖は「左側に青い服を着た人が見える」ではなくなり、「この人が見える」となり、その上にボックスの座標を付けて、その人を囲む。一人数えるごとにボックスを描き、数え終わったらボックスの数を数えれば良い。

座標フォーマットは2種類ある。1つはボックス（バウンディングボックス）で、物体を囲むように矩形を描き、物体の位置を特定するのに適している。もう1つは点（ポイント）で、画面上の一箇所を指し示すもので、経路追跡や迷路探索に適している。DeepSeekはこれら2つを「視覚プリミティブ」、つまり最小の思考単位と呼んでいる。

重要な変化はここにある。以前はモデルが座標を出力するのは最終的な答え（「ターゲットはここにあります」）としてだったが、今では座標は思考プロセスそのものに埋め込まれている。座標は草稿用紙上のメモであり、解答用紙上の答えではないのだ。

一枚の画像を7056倍に圧縮しても、その中に何人いるか正確に数えられる

モデルの基盤は、2840億パラメータのMoEモデル「DeepSeek-V4-Flash」だ。MoEとは、モデルの頭脳は非常に大きいが、質問に答えるたびにニューロンのごく一部だけを呼び出して作業し、推論時には130億パラメータしかアクティブ化しないことを意味する。これは、100人のチームがいて、タスクごとに5人だけを起用するようなものだ。

視覚エンコーダ側では、3段階の圧縮を行っている。例えるなら、あなたが友人に写真を送りたいが、ネット速度が非常に遅い状況だ。第一段階では、写真を小さなグリッドに分割して準備する。第二段階では、9つの小さなグリッドを1つに統合する（3×3圧縮）。第三段階では、転送中に冗長な情報をさらに削ぎ落とす（KVキャッシュ4倍圧縮）。

実際の数字：756×756の画像、57万ピクセルが、最終的には81の情報単位にまで圧縮される。圧縮率は7056倍だ。

この数字を見た私の最初の反応は、「これでまだ物が見えるのか？」だった。しかし論文の結果が示すのは、確かに見えるということだ。見えるだけでなく、画像内に25人いることを正確に数えられる。

Feishuドキュメント - 画像

比較してみよう。同じ800×800の画像で、Gemini-3-Flashは約1100トークンを消費してこの画像を表現し、Claude-Sonnet-4.6は約870、GPT-5.4は約740である。DeepSeekは最終計算時にわずか90の情報単位しか使わない。他が千数百のマス目を使って画像を記憶する一方で、DeepSeekは90のマス目で十分とし、その分浮いた計算能力をすべて「指し示す」ことに費やすのだ。

4000万件のトレーニングデータはどのように蓄積されたか

DeepSeekはHuggingfaceなどのプラットフォームから、「物体検出」ラベルが付いた全てのデータセットをクロールし、初期選別で97,984のデータソースを得た。

その後、二段階の選別を実施した。

第一段階ではラベルの品質をチェックした。AIを使って3種類の問題を自動審査した。ラベルが無意味な数字の番号（カテゴリ名が「0」「1」のようなもの）、ラベルが個人の実体（「MyRoommate」）、ラベルが曖昧な略語（工業検査の「OK」「NG」など。リンゴの「OK」と回路基板の「OK」は全く異なり、AIは学習できない）である。この段階で56%が削減され、43,141件が残った。

第二段階ではボックスの品質をチェックした。3つの基準で判断した。ラベル漏れが多すぎるもの（半分だけラベル付けして残りをやめている）、ボックスが歪んで物体を半分だけ切り取っているもの、ボックスが大きすぎて画像全体を囲んでいるもの（これは元データが画像分類を無理やり検出データに変換したもので、位置情報がないことを示す）。さらに27%が削減され、31,701件が残った。

最終的にカテゴリ別にサンプリングし、重複を除去して、4000万件を超える高品質なサンプルを生成した。

DeepSeekはまずボックスのデータを充実させ、点のデータは後から補うことを選択した。理由は単純だ。AIにボックスを描かせる場合、答えはほぼ一意になる（物体をちょうど囲む）。しかしAIに点を打たせる場合、物体上のどの位置でも正解となり得るため、一意の正解がなく、トレーニングのシグナルがあいまいすぎる。しかもボックス自体が2つの点（左上隅と右下隅）を含んでいるため、ボックスを描くことを学べば、点を打つのは次元を下げた操作となる。

どのように「指し示す」能力をモデルに教えたか

ポストトレーニングの戦略は、「まず個別に訓練し、後で統合する」というものだ。

DeepSeekはまず、ボックスデータを使ってボックス描画に特化したエキスパートモデルを訓練し、次に点データを使って点のマーキングに特化したエキスパートモデルを訓練した。データ量がまだ十分でないため、2つの能力を混ぜて訓練すると相互に干渉しやすいからだ。

その後、2つのエキスパートに対してそれぞれ強化学習を実施した。モデルが「ボックスを正しく描けたか」「道を正しく進めたか」をどう判断するか？ DeepSeekは多角的な評価システムを設計した。フォーマットが正しいか（座標の文法は正しいか）、論理が通っているか（思考プロセスに矛盾がないか）、答えが正確か（最終結果が正解とどれだけずれているか）を評価する。

強化学習のデータ選別にも工夫がある。まずモデルに同じ問題をN回解かせる。全て正解した問題は簡単すぎて訓練の価値がなく、全て間違えた問題は難しすぎて学べない。「正解と不正解が混在する」問題だけを残して訓練するのだ。

最後のステップは、2人のエキスパートの能力を1つのモデルに統合することだ。具体的な方法としては、統合モデルに2人のエキスパートのアウトプットを模倣させる。これは1人の学生が同時に2人の教師から異なる科目を学ぶようなものだ。

指を与えた後、どのように数を数えるのか

25人の人物を数える

モデルにサッカーチームの集合写真を渡し、「画像内に何人いますか？」と尋ねる。

思考プロセス：まず「これはチームの集合写真なので、選手とコーチを含む全員を数える必要がある」と判断する。次に、25個のボックス座標を一度に出力し、各人物に1つずつボックスを付ける。そして列ごとに集計する。前列に座っている4人＋中列9人＋後列8人＋左側にコーチ2人＋右側にコーチ2人＝25。

「地面にいるクマは何匹？」

Feishuドキュメント - 画像

画像には3頭のクマがいる。モデルは1頭ずつボックスを描き、位置を判断する。1頭目：木の幹を垂直に登っている、除外。2頭目：岩の端を歩いている、カウントする。3頭目：砕けた木と土の間にいる、カウントする。答え：2匹。

最初に3匹数えてから1匹を引いたのではない。それぞれのクマに対して「地面にいるかどうか」を判断しており、各判断の背後には具体的な座標によるアンカーがある。それは本当に1頭ずつ確認しており、推測ではないのだ。

マルチホップ空間推論

Feishuドキュメント - 画像

3Dレンダリングされたシーンに、色とりどりの幾何学図形が散らばっている。質問：「紫色のゴム製の物体で、灰色の金属物体と同じ大きさのものは存在しますか？」

モデルはまず灰色の金属球をボックスで囲み、それが小さいサイズの物体であることを確認する。次に、シーン内の他の小さい物体を一つずつボックスで囲んでいく。茶色の金属円柱、青い金属の立方体、青いゴムの立方体、黄色いゴムの円柱…。6つの物体を一つ一つ調べ、色、材質、大きさの3つの属性を照合する。結論：紫色のゴム製のものは存在しない。

6回の位置特定、6回の判断。各ステップに座標のアンカーがあるため、「待って、今どこまで調べたっけ？」という状況にはならない。

論文内のその他の事例参照：

Feishuドキュメント - 画像

迷路ナビゲーション：他者がコイン投げをする中、DeepSeekは真剣に探索する

論文では4種類のタスクをテストしており、迷路は差が最も大きく開いたものだ。

タスクは直接的だ。迷路の画像を与え、スタートからゴールまで道があるかどうかを尋ね、もしあれば描かせる。迷路には3つの形状がある。格子状、円環状、ハニカム状だ。

モデルが迷路を解く方法は、あなたが子供の頃に鉛筆で紙に描いて解いた方法と同じだ。分かれ道を選んで行き止まりまで進み、行き止まったら戻って別の道を試す。違うのは、一手進むごとに画面上に座標点を打ち、記録を残すことだ。

論文では、円形迷路の完全なプロセスを示している。モデルはまずスタートとゴールの位置に点を打ち、それから探索を始める。18手進み、途中で2度袋小路に入り込んで戻り、最終的に通り道をぐるりと回って発見し、経路全体の座標点をつなげて出力する。

DeepSeekはまた、多数の「罠迷路」も設計した。一見すると道があるように見えるが、中間のどこかが密かに塞がれている。この種の迷路は忍耐力を試すもので、モデルはスタート付近の傾向を見ただけで結論を下してはならず、正直に通れる道をすべて試してからでないと、通れないことを確認できない。

Feishuドキュメント - 画像

正解率の比較：

- DeepSeek：66.9%

- GPT-5.4：50.6%

- Claude-Sonnet-4.6：48.9%

- Gemini-3-Flash：49.4%

- Qwen3-VL：49.6%

迷路の答えは2つしかない。道があるか、ないかだ。ランダムに推測するとちょうど50%になる。GPT、Claude、Gemini、Qwenはいずれも50%付近をうろうろしており、コイン投げと大差ない。DeepSeekの66.9%は決して高くはないが、着実に一歩ずつ進んでおり、当てずっぽうではないのだ。

経路追跡：「間違い探し」の究極版

このタスクはより直感的だ。たくさんの線が絡み合い、各線はあるマークから別のマークへと続いている。ポケットから取り出したイヤホンコードがどんな状態か、まさにあの通りだ。問題は「Cの線はどの終点に通じていますか？」というもの。

モデルのやり方は、線に沿って次々と座標点を出力していくことで、まるで指で紙面をなぞるかのようだ。線が大きく曲がっている場所では点を密に打ち、直線部分では疎らに打つ。人が目で一本の線を追うときもそうで、カーブではゆっくりになり、直線ではさっと流す。

Feishuドキュメント - 画像

論文ではさらに難易度を上げたテストも追加された。全ての線の色と太さが同じだ。色でどの線かを区別できなくなり、曲線自体の連続性だけで、交差点でどれに従うべきかを判断しなければならない。

- DeepSeek：56.7%

- GPT-5.4：46.5%

- Claude-Sonnet-4.6：30.6%

- Gemini-3-Flash：41.4%

Claudeの30.6%はやや予想外だ。終点は通常4～5つの選択肢があるので、ランダムに推測しても20%強にはなるはずで、30.6%は当てずっぽうよりほんの少し良い程度だ。この種の純粋な空間追跡タスクにおいて、言語推論の慣性がかえって足を引っ張ったのかもしれない。

どのようにAIに不正をせず迷路を解かせるか

迷路の訓練には現実的な問題がある。もし最終的な正解かどうかだけで採点すると、モデルはすぐに賢くなり、苦労して探索して間違えるよりも、最初から推測で答えた方がましだと学習してしまう。真面目に解いて間違えても、解かずに間違えても、点数は同じくゼロだからだ。

DeepSeekの解決策は、プロセスも点数に組み込むことだ。合法的な探索の一手一手に加点し、壁をすり抜けたら減点する。より遠くまで進めればそれだけ良い。たとえ最終的にゴールにたどり着けなくても、大部分のエリアを真剣に探索していれば、それなりの良いスコアを獲得できる。こうすれば、モデルは手を抜く動機を失う。

解けない迷路への要求はさらに高い。「通れません」と一言言うだけではだめで、到達可能な場所を全て探索し尽くしたことを証明しなければならない。探索カバー率も評価対象となる。

一つの嬉しいサプライズ、三つの限界

ポストトレーニング用のデータに中国語は含まれていなかった。しかしモデルは中国語で視覚プリミティブ推論を行うことができる。

コーヒーメーカーの写真を与え、中国語で「どうやってラテを作るの？」と尋ねると、モデルはスチームワンド、ミルクピッチャー、コーヒー豆、ラテボタンの位置座標を中国語でアノテーションし、それから操作手順を提示した。多言語能力は基盤モデルから継承されたものであり、視覚プリミティブの訓練によってそれが破壊されることはなかった。

Feishuドキュメント - 画像

さらに、画像と世界知識を結びつけることもできる。ゴールデンゲートブリッジの写真を見せて「この近くにNBAチームはありますか？」と尋ねると、まず橋をボックスで囲み、ここがサンフランシスコであると推論し、次にゴールデンステート・ウォリアーズと答える。

Feishuドキュメント - 画像

ユーモアも理解できる。あるフルーツの切断面に、偶然にも憂鬱そうな猫の顔のような自然の斑点模様が現れた場合、モデルは類似点がどこにあるかを指摘し、なぜ面白いのかを説明できる。

Feishuドキュメント - 画像

脱出ゲームのガイドもできる。高い場所にある鍵、床の上の椅子、鍵のかかったドアをボックスで囲み、「椅子を鍵の下に移動させる → それに乗って鍵を取る → ドアを開けに行く」と提案する。

Feishuドキュメント - 画像

論文は非常に率直に、現状できないことを記している。

入力解像度に制限がある。ViTの出力は81から384の視覚情報単位に制限されており、非常に細かいシーン（指を数えるなど）に遭遇すると、座標精度がまだ不十分である。これが、一昨日の実測で指の数を間違えた直接の原因かもしれない。

現在、視覚プリミティブモードを起動するには特定のトリガーワードが必要だ。モデルはまだ「この問題は指を使って解くべきだ」と自分で判断できず、誰かが教えてやらなければならない。

トポロジカル推論の汎化能力が限られている。訓練した迷路のタイプでは効果的だが、新しい空間構造に変わると、とたんに失敗する可能性がある。陈小康氏はその削除された投稿でもこう述べている。

「We're still in the early stages; generalization in complex topological reasoning tasks isn't perfect yet, but we're committed to solving it.」

「我々はまだ初期段階にあり、複雑なトポロジカル推論タスクの汎化はまだ不完全ですが、我々はこれを解決することにコミットしています。」

一昨日の実測で、DeepSeekの画像認識モードが見せた能力（投稿者の身元の追及、クジラのロゴの意味の連想、自己修正、自ら「小さな弁論会」を開くこと）は、この論文が説明する思考様式と一脈通じるものがある。それは脳内に視覚的アンカーを構築し、そのアンカーを中心に推論を行い、矛盾にぶつかるとさかのぼって修正するというものだ。

そして指の数を数え間違えたのは、まさに「参照のギャップ（Reference Gap）」の生きたデモンストレーションである。指が交差して重なり合った画像の中で、純粋に言語記述に頼って「左から3本目」と「右から2本目」を区別することは、混雑した人混みの中で、自分で指を差さずに人の数を数えるのと同じ理屈で、混乱する運命にあるのだ。

この論文が指し示す方向性はこうだ。マルチモーダル推論の次の進化は、アンカリング機構にある。DeepSeekは90の情報単位で、他者が数千トークンを使って達成するのと同等の効果を出し、浮いた計算能力をすべてモデルに「考えながら指し示させる」ことに費やしている。

解像度の軍拡競争はしばらく休戦できる。モデルに指を差し出すことを教える方が、より高価な眼鏡をかけるよりも効果的なのだ。

このクジラは目を開けた後、さらに指まで生やした。66.9%という迷路の正解率は完璧にはほど遠いが、少なくとも真剣に歩いており、コイン投げをしている隣の連中とは違う。

DeepSeekが一夜で削除した新論文、一体何が書かれていたのか

関連記事

分享網址