テンセント先端技術論文解説コラム。コードとビジネスの交差点で、AIの確実性を探求する。
文|博陽
編集|徐青陽
最近、シリコンバレーのトップAI企業Anthropicと米国国防省(DoD)の間の駆け引きが、AI業界の注目を集めている。五角大楼との提携を発表する際、Anthropicは2本のレッドラインを特に強調した。AIを攻撃用兵器に使用すること、および大規模な国内監視に使用することは許容しない。
しかし、五角大楼はAnthropicに対し、そのAIモデル「Claude」の全ての使用制限を解除することを求めており、これはAnthropicの2本のレッドラインと対立している。
五角大楼とAnthropicの対立の核心は、実は人工知能技術の使用境界と倫理的限界を巡る争いであり、「無制限な使用」と「安全ガードレール」という根本的な衝突である。
古今東西、機関も商業体も、システムコントロールのループを構築する際、明確な経路に従ってきた。すなわち、あなたが誰であるかを知り、あなたが何を望むかを理解し、最終的にあなたの行動と選択を掌握すること。
そしてこの経路の第一歩は、あなたが誰であるかを確認することである。インターネット誕生の初日から、匿名はその核心要素と見なされてきた。「インターネット上では、誰もあなたが犬であることを知らない」。人々は様々なフォーラムやコミュニティで異なるハンドルネームを使い、現実の身元から解放された言論の自由を享受してきた。
もちろん、人肉捜索や「箱開け」(個人情報の暴露)もよく見られる。あるインフルエンサーが失言をすれば、憤怒したネットユーザーが集合知を動員し、ほんのわずかな発言から当事者の真実の身元を推測し組み立てる。
しかし、この従来的な匿名化解除の方法は時間と労力を消費し、大量の情報を手作業で比較する必要があり、通常は公衆の関心を集める高価値の標的に対してのみ行われる。
一方、企業がユーザーの嗜好を把握し広告を的確に配信したい場合は、IPアドレス、デバイスフィンガープリント、アプリ間トラッキングといった比較的安価な技術手段に依存することが多い。しかし、これらの方法は厳格化するプライバシー保護政策の下で、実行が困難になっている。
しかし、AIの到来はこのルールを根本的に変える可能性がある。Anthropic自身とスイス連邦工科大学(ETH Zurich)などの機関が最近発表した重要な論文「大規模言語モデルを用いた大規模オンライン匿名化解除」は、AIの「箱開け」能力を極限までテストした。
彼らの結論は、AIはその正確さと低廉なコストにより、基本的にインターネットの匿名時代に死刑判決を下したというものだ。
したがってAnthropicの懸念は全く道理がある。なぜなら、あなたはいつでも匿名の殻から容易に特定される可能性があるからだ。
01 「箱開け」の歴史:手作りから自動化ラインへ
匿名化解除、すなわち「箱開け」は、本質的に玉ねぎの皮をむくようなプロセスである。箱開けをする者はまず、匿名者の断片的な発言からそのデジタル輪郭を描き出し、次にその輪郭を既知の身元データベースと照合する。
AI時代以前、プライバシー安全分野で最も有名な「箱開け」事件は、2008年のNetflixチャレンジ攻撃だった。当時、Netflixは匿名化されたユーザーの映画評価データを公開し、推薦アルゴリズムの最適化を悬赏した。
NarayananとShmatikovは、この匿名化された評価データを公開されているIMDb(インターネット・ムービー・データベース)アカウントと比較すれば、マイナーな映画の評価やタイムスタンプのようなマイクロデータを通じて、簡単にこれらの匿名ユーザーの真実の身元を復元できることを発見した。
いわゆるマイクロデータとは、個人レベルの情報断片のことである。例えば「『トワイライト』に5つ星を付けた」、「テキサス州在住」、「文の最初の文字を大文字にしない」などだ。単一の断片ではあなたを特定するには不十分かもしれないが、複数の断片が組み合わさると、独自の指紋となり得る。87%のアメリカ人が郵便番号、生年月日、性別の3つの情報のみで唯一に特定できるように、一見関係なさそうな詳細が積み重なると、身元の鍵となる。
しかしNetflix攻撃のこの戦略には制限があった。すなわち、構造化データを必要とするということだ。映画評価は整然とした数字の行列であり、アルゴリズムで直接的に類似性を比較できる。
一方で、現実のインターネットは無数の非構造化の雑談、不平、主観的なコメント、口語的な表現で構成されている。例えば「昨日ドロレス公園に犬を連れて散歩に行った、ポートランドの雨が恋しい」という発言は多くの情報を提供するが、従来のアルゴリズムには全く理解できない。このような非構造化テキストに直面した場合、過去に有効だった唯一の方法は、専門の調査員を投入し、探偵のように一字一句を読み解き、分析し、推論することだった。
この巨大な人的コストは、一般市民のプライバシーを守る堅牢なコストの堀(ほり)を構成していた。この調査コストの高さによって生まれる安心感は、「事実上の秘匿性(practical obscurity)」と呼ばれる。
大規模言語モデルの到来は、この堀を瞬く間に干上がらせた。大モデルの最も核心的な超能力は、人間の自然言語とその背後にある複雑な意味を深く理解することである。もはや整然とした表は必要なく、モデルはあなたが任意のプラットフォームで行った任意の発言を直接読み取り、瞬時に糸をほぐくように分析できる。
以前は人間の専門家が数時間を費やしてこなわなければならなかった論理的推論と情報抽出が、今や大規模モデルは数秒と極めて低い演算コストで完了できる。
安全レッドラインを掲げたAnthropicは、2025年12月に125人の科学者とAIのインタビュー記録を公開した。これは彼らが業務でどのようにAIツールを使用しているかを議論するもので、部分的に編集されており(機密情報は伏せて)、プライバシー保護が意図されていた。
しかしデータ公開後数週間で、研究者はLLMを使ってインタビューに言及された研究テーマと発表済みの論文を照合し、被験者の真実の身元を突き止めた。過去の研究について話した33人の科学者のうち、AIは9人を正確に特定し、以前の方法より50%多く発見した。
(Anthropicインタビューの匿名化解除方法)
そしてこれに必要だったのは数分間と数ドルだけだ。
AIは新たな攻撃論理を発明したわけではない。単に前例のない規模と極めて低いコストで、この攻撃をインターネットの隅々に普及させただけだ。
02 AIによる「箱開け」:4ステップで完了
AIの真の実力を検証するため、研究チームはESRCと名付けられたスケーラブルな自動化攻撃パイプラインを設計した。このパイプラインは、匿名化解除を4つの高度に自動化されたステップに分解する。
第一ステップは抽出(Extract)である。LLMは対象ユーザーの全ての投稿とコメントを読み込み、そこから構造化された個人プロファイルを帰納する。意味レベルでの理解を通じて、モデルはRedditユーザーが「今年のCS224Nの授業に苦しめられ、大四は本当に大変だ」と言った発言から、彼がスタンフォード大学CS専門(CS224Nはスタンフォードの自然言語処理コースであるため)、おそらく22歳、サンフランシスコ在住であることを抽出できる。ユーザーが「私はスタンフォードの学生です」と直接言わなくても、AIは情報から推論できる。
第二ステップは検索(Search)である。数百万という膨大な候補者を含むインターネットデータベースに直面し、AIは抽出された個人プロファイルを高密度の意味ベクトル(Embeddings)に変換する。従来のNetflix攻撃にも同様のステップはあったが、それは構造化された特徴(映画評価、プログラミング言語、勤務地)のみを照合できた。一方、LLMの埋め込みベクトルは、暗黙の興味や価値観など、より豊かな意味情報を捉えることができる。多次元空間における余弦類似度を計算することで、システムは極めて短時間で89,000人のHacker Newsユーザーから最も類似した上位100名を選び出せる。
第三ステップは推論(Reason)である。これはAIが真の恐るべき実力を発揮する段階だ。従来のアルゴリズムは類似度を計算した後に手をこまねくしかなかったが、AIパイプラインは極めて強力な論理推論能力を持つ大規模モデル(GPT 5.2など)を呼び出し、初回で絞り込まれた数十人の容疑者に対して深い交差検証を行う。モデルは裁判官のように、タイムラインに矛盾がないか、生活の細部が整合しているかを審査し、誤認の可能性を大幅に減らす。
第四ステップは較正(Calibrate)である。攻撃の有効性を確保するため、AIは自分の「確信度」を判断することを学ばなければならない。システムは大規模モデルに絶対的な信頼度スコアを出力するよう促す。さらに確信度を高めたい場合、研究者はAIに全ての候補マッチを2つずつ比較させ、ランキング競争のような方法で最終ランキングを付けるようにする。この方法は大規模な攻撃シナリオで特に有効だ。
この実験では、設計者は事実的意味手がかり(Semantic content)の掘り下げを強化し、文体学的特徴(Stylometry)、つまり人が使用する機能語の頻度や文法構造、トーンの特徴を分析して身元を確認する方法は弱めた。というのも、生活経験に根ざした客観的事実(例えばあなたの住む都市、患っている特定の慢性疾患、好きな特定のマイナーな事物)は長期にわたって隠すのが難しいからだ。事実は文体よりも致命的であり、大規模モデルによる交差照合もより容易だ。
もちろん、この研究自体は矛盾に直面している。攻撃の効果を検証するには正解を知る必要があるが、正解を知るということは、ユーザーはそもそも十分に匿名ではなかったということだ。
研究者は2つの戦略を取った。一つは合成匿名化であり、身元を自発的に公開しているユーザー(例えばHacker NewsのプロフィールにLinkedInリンクを貼っているユーザー)を見つけ、AIですべての直接的識別子(氏名、リンク、GitHubアカウント)を抹消し、意味情報のみを残して、AIが再特定できるかどうかを見る方法だ。
もう一つは時間分割法であり、同じRedditユーザーの異なる時期の発言を2つに切り分け、AIがそれらを再び照合できるかどうかを見る方法だ。
この2つの方法にはそれぞれ偏りがある。例えば、自発的に身元を公開する人はそもそもプライバシーを気にしていない可能性があり、同じ人の2つの履歴は元々類似性がある。しかし、これらは定量化可能な基準を提供し、異なる方法の優劣を比較できるようにする。
さらに強調すべきは、プロセス全体で使用されているのは公開可能なモデルと標準APIのみであり、Geminiの埋め込みモデル、GPT-5.2の推論能力、一般的なベクトル検索ライブラリなどが含まれる。
カスタムモデルもなければ、独自データもなく、ハッキング技術もない。一定の技術力を持つ誰もが、この攻撃を再現できる。
03 3つのシナリオ:段階的に高まる脅威
AIによる「箱開け」の境界を探るため、研究チームは3つの極めて複雑なシナリオでテストを行い、この3つは段階的にAIの普遍性を検証するものだ。
このパイプラインの威力を測るため、まず2つの核心指標の定義を理解する必要がある。すなわち適合率(Precision)と再現率(Recall)である。
適合率とは、AIが最終的に肯定的な回答を出した全てのマッチのうち、本当に正しい人物を見つけた割合を指す。再現率とは、本来真実の対応する身元を持つ全ての標的のうち、AIが何人をマッチさせることに成功したかを指す。
監視者や攻撃者にとって、見つからないことは受け入れられるが、間違った人物を捕まえることは壊滅的だ。したがって、以下の全てのテストは、AIが90%あるいは99%という極めて高い適合率を維持する厳格な条件下で行われた。
プラットフォーム横断的マッチング
第一のシナリオはプラットフォーム横断的なマッチングであり、これは最も一般的な「箱開け」モードだ。匿名フォーラムのハンドルネームと現実世界の職業的身元をAIに結びつけようとするものだ。
研究チームは、Hacker NewsのプロフィールにLinkedInリンクを貼っている987人のユーザー(これは検証用の正解を提供する)を収集し、AIですべての直接的識別子を抹消し、89,000人の候補ユーザーから再びマッチングを試みた。
この一見極めて困難なタスクにおいて、大規模モデルは圧倒的な優位性を示した。90%の適合率設定で、AIは67%のユーザーを正確に特定した。99%の適合率(ほぼ間違いがない状態)に高めても、依然として45%を特定できる。対比として、従来のNetflix式攻撃方法はこのタスクでほぼ完全に失敗し、再現率はわずか0.1%だった。
しかもAIの優位性は候補プールの拡大とともにますます顕著になる。候補者が1,000人から89,000人に増えても、従来の方法は完全に崩壊し、AI手法の再現率はわずか13ポイントしか低下しなかった。研究者は大胆な推定も行った。候補プールが100万人(実際のプラットフォーム規模に近づく)に拡大しても、AIは依然として35%の再現率を保つ可能性がある。1億人の候補者でも、理論的には27%を特定できる。
コミュニティ横断的マッチング
第二のシナリオはコミュニティ横断的マッチングだ。同じ人物がRedditの異なるセクション(主流の映画フォーラム vs ニッチな映画コミュニティ)で発言したものを、AIが関連付けできるかをテストするものだ。
これはより困難なタスクだ。なぜなら、ユーザーが異なるコミュニティで議論する映画は限られており、重複する話題はごくわずかかもしれないからだ。
研究者はAIに、2つのコミュニティで共通して議論された映画のレビューだけを見せ、9,781人のユーザーをマッチングさせようとした。48%のユーザーは1本の映画しか共有していなかった。
この結果、AIのパフォーマンスは比較的温和だった。90%の適合率で再現率は8.5%、99%の適合率では2.8%に低下した。
しかしこのシナリオは、情報の豊かさの識別度、つまりどれだけの情報を明かせばAIに特定されるのか、という点を浮き彫りにした。研究によると、極めて少量の情報であっても、絶対的安全閾値はない。共通の映画を1本だけ言及したユーザーの再現率は3.1%、5-9本言及したものは23%に跳ね上がり、10本以上言及したものは48%という高い再現率を示した。あなたがオンラインで行う全ての主観的な表現は、あなたのデジタルパズルの鮮明さを増し続けており、しかも非線形に加速して露出している。
さらに注目すべきは、「高い推論努力」モードを使用したGPT-5.2は、低い推論努力のものに比べて効果が2倍良かった(99%適合率で2.8%対1.4%)ことだ。これはAIの推論能力が急速に進化しており、将来のモデルはさらに強力になることを示している。
時間横断的マッチング
第三のシナリオはさらに極限的な時間横断的マッチングだ。人は変わるものであり、人の関心事、居住地、心境は時の流れとともに変化する。したがって時間はプライバシーを守るための天然の防壁と見なされてきた。
この防壁に挑むため、研究チームはRedditユーザーの発言履歴を1年の時間スパンで無理やり切り分け、1年前の発言で1年後のアカウントをマッチングさせた。これはAIの核心的理解能力を試すものであり、表面的な話題の違いから、深層で持続的な身元の特徴を掴む必要がある。
この極めて困難なシナリオにおいて、極めて低い誤報率を確保するため、AIは前文で述べた較正ステップを使用した。
5,000人のテストユーザー、10,000個の候補プロファイルという設定において、較正を加えたAIは67.3%の再現率(90%適合率)と38.4%(99%適合率)を達成した。
これはコミュニティ横断的マッチングよりもはるかに高く、話題が変化しても、人の深層的な特質、すなわち地理的位置、職業分野、核心的価値観、趣味は比較的安定していることを示している。
結果は、1年という歳月の深淵を隔てても、AIは依然として極めて安定した人格特性とマイクロデータを正確に抽出でき、過去のあなたと現在のあなたを固く結びつけることができることを証明した。
研究者は極端なテストも行った。クエリユーザーのわずか千分の一(0.1%)だけが候補プールに真のマッチを持ち(99.9%は見つからない)、AIはまだ機能するだろうか?答えは依然として可能である。マッチング確率が万分の一に下がっても、AIは90%の適合率で約9%のマッチング可能なユーザーを特定できる。
これは、大多数の人が検索データベースにいなくても、確かに特定できる人々は依然としてAIによって見つけ出されるということだ。
04 匿名の終焉
これらの実験結果は、基本的にネットワーク匿名時代の終焉を宣言したものだ。
研究者はいくつかの防御方法をテストしたが、結果は楽観的ではなかった。APIアクセス速度を制限することはできるが、攻撃者は分散型クロールができる。自動化行動を検出することはできるが、AIの使用パターンは高度に読書する通常のユーザーに非常に似ている。差分プライバシーやk-匿名性技術を使用することはできるが、これらは構造化データ向けに設計されており、自由テキストには限界がある。
さらに、LLMプロバイダの安全保護も効果が薄い。なぜなら、この攻撃パイプラインの各ステップ(要約、埋め込み、照合)は正常な使用に見え、悪用として検出されにくいからだ。
唯一有効な防御は、プラットフォームが最初からユーザーの過去の発言を公開しないことだ。
では、インターネットには何の役割が残っているのだろうか?
フォーラムで医療アドバイスを求めるには、症状や病歴を説明する必要がある。技術コミュニティで質問をするには、使用しているツールや遭遇したエラーを説明する必要がある。映画レビューサイトで感想を共有するには、自然と嗜好や視聴習慣が露呈する。これらの情報自体は無害だが、AIがあなたを識別するためのマイクロデータとなる。
そして、数台のサーバーと一套のLLMパイプラインがあればよい。私的なデバイスや通信に侵入する必要はなく、公開情報を分析するだけで、ネットワークから具体的なあなたを特定するのに十分だ。プライバシーポリシーやユーザー規約はここでは完全に無効だ。なぜなら、データは元々公開されているからだ。
徹底的に防御するには、あなたは黙るしかなく、それは現代社会の協力ネットワークからの脱落と同義だ。もしあなたが発声を選択すれば、あなたは深淵に自分の身分証明書を提出しているのだ。
AnthropicがAIを大規模な国内監視に使用しないという約束は、称賛に値する立場だ。
しかし、この研究が示しているように、監視に必要な能力はもはや独自のモデルを必要としない。公開可能なLLM、標準的なAPI、一般的なデータセットを使用すれば、かつて情報機関のみが持っていた能力を実現できる。
技術的条件、安全保護などあらゆる可能な側面から、誰もあなたが極めて低コストで「箱開け」されるのを阻止できない。
AI時代、匿名は死んだ。
おそらくAIの未来において、支配から逃れる芸術は山中に隠れることではなく、永久にオフラインになることだ。