Anthropic最新論文：網際網路匿名，在AI時代終結｜Hao好聊論文

騰訊前沿科技論文解讀專欄，在程式碼與商業的交會處，尋找AI的確定性。

文｜博陽

編輯｜徐青陽

近日，矽谷頂級AI公司Anthropic與美國國防部（DoD）之間的一場角力，成了AI圈的焦點。在宣布與五角大廈合作時，Anthropic特別強調了兩條紅線：AI不得用於攻擊性武器，也不得用於大規模國內監控。

但是五角大廈希望Anthropic解除其AI模型Claude的所有使用限制，這與Anthropic的兩條紅線產生了衝突。

五角大廈與Anthropic的矛盾核心其實是人工智慧技術的使用邊界與倫理底線之爭，是「無限制使用」與「安全護欄」之間的根本性衝突。

從古至今，無論是機構還是商業體，在構建系統控制的閉迴路中，一直遵循著一條清晰的路徑，即知道你是誰，了解你想要什麼，最終掌握你的行為與選擇。

而這條路徑的第一步，就是確認你是誰。從網際網路誕生之初，匿名就被視為其核心特質。「在網際網路上，沒有人知道你是一條狗。」人們在各個論壇、社群中披上不同的分身帳號，享受著免於現實身份束縛的言論自由。

當然，我們也習慣見到各種人肉搜尋和開盒。某個網紅說錯話，憤怒的網友就會動員集體智慧，從隻字片語中拼湊出當事人的真實身份。

但這種傳統的去匿名化方法耗時費力，需要人工比對大量資訊，通常只針對引發公眾關注的高價值目標。

而企業想要了解使用者偏好以精準推送廣告，則更依賴IP位址、裝置指紋、跨應用程式追蹤這些相對便宜的技術手段。但這些方法在日益嚴格的隱私保護政策下，正變得越來越困難。

然而，AI的到來可能徹底改變這個遊戲規則。Anthropic自己和蘇黎世聯邦理工學院等機構近期發布的一篇重磅論文《利用大型語言模型進行大規模線上去匿名化》，就對AI的開盒能力進行了一次極限測試。

他們的結論是，AI，以其精準度與低廉的成本，基本已經宣判了網際網路匿名時代的死刑。

所以Anthropic的擔心完全有道理。因為你，隨時都可以從匿名之殼中被任何人輕易地定位。

開盒簡史：從手工到自動化流水線

去匿名化，即開盒，本質上是一個剝洋蔥的過程。開盒者首先從一個匿名者的零散發言中描繪出他的數位輪廓，然後將這個輪廓與一個已知身份的資料庫進行配對。

在AI時代之前，隱私安全領域最著名的一次開盒事件，是2008年Netflix挑戰賽攻擊。當時，Netflix公開了一批經過匿名處理的使用者電影評分資料，試圖懸賞優化其推薦演算法。

Narayanan和Shmatikov發現，只需要將這些匿名的評分資料與公開的IMDb（網際網路電影資料庫）帳號進行比對，透過幾部冷門電影的評分和時間戳記這樣的微數據，就能輕易還原出這些匿名使用者的真實身份。

所謂微數據，就是個體層面的資訊片段，比如「給《暮光之城》打了5星」、「住在德州」、「句首字母從不大寫」。單一片段可能不足以識別你，但當多個片段組合起來，就能構成獨特的指紋。就像87%的美國人可以僅憑郵遞區號、出生日期和性別三項資訊被唯一確定一樣，看似無關緊要的細節，累積起來就是身份的鑰匙。

但Netflix攻擊的這個策略有個限制，即它需要結構化的資料。電影評分是整齊的數字矩陣，可以用演算法直接比對相似度。

而真實的網際網路是由無數非結構化的閒聊、吐槽、主觀評論和口語化表達構成的。比如「昨天帶狗去多洛雷斯公園散步，真懷念波特蘭的雨水」提供了很多資訊，但傳統的演算法根本讀不懂。面對這種非結構化文本，過去唯一有效的辦法就是投入專業的調查員，像偵探一樣逐字逐句地閱讀、分析和推演。

這種巨大的人力成本，構成了保護普通人隱私的一道堅固的成本護城河。這種因為調查成本過高而產生的安全感，被稱為事實上的隱蔽性（practical obscurity）。

大型語言模型的到來，瞬間抽乾了這條護城河。大模型最核心的超能力，正是對人類自然語言及其背後複雜語義的深刻理解。它不再需要整齊劃一的表格，它能夠直接閱讀你在任意平台上的任意發言，並在瞬間抽絲剝繭。

過去需要人類專家耗費數小時才能完成的邏輯推理和資訊提取，現在大模型只需要幾秒鐘和極低的運算成本就能完成。

提出安全紅線的Anthropic，在2025年12月公開了125名科學家與AI的訪談記錄，討論他們如何在工作中使用AI工具。這些記錄做了部分編輯（隱去敏感資訊），本意是保護隱私。

但就在資料發布幾週後，就有研究者透過LLM配對訪談中提到的研究課題和已發表的論文，找到了受訪者的真實身份。33名談論過去研究的科學家中，AI成功識別了9人，比先前的方法多找到50%。

（Anthropic訪談的開盒方法）

而這只需要幾分鐘和幾美元。

AI並沒有發明新的攻擊邏輯，它只是以前所未有的規模和極低的成本，將這種攻擊普及到了網際網路的每一個角落。

AI開盒，只需四步

為了驗證AI的真正實力，研究團隊設計了一套名為ESRC的可擴展自動化攻擊流程。這套流程將去匿名化分解為四個高度自動化的步驟。

第一步是提取（Extract）。LLM會閱讀目標使用者的所有貼文和評論，從中歸納出結構化的個人檔案。透過語義層面的理解，模型可以從一個Reddit使用者說的「今年CS224N課把我折磨慘了，大四真難熬」，提取出他是史丹佛CS專業（因為CS224N是史丹佛的自然語言處理課程）、大約22歲、住在舊金山。即使用戶從未直接說我是史丹佛學生，AI也能從資訊中推論出來。

第二步是搜尋（Search）。面對動輒數百萬候選人的龐大網際網路資料庫，AI將提取出的個人檔案轉化為密集的語意向量（Embeddings）。傳統的Netflix攻擊也有類似步驟，但它只能比對結構化特徵（電影評分、程式語言、工作地點），而LLM的嵌入向量能夠捕捉更豐富的語義資訊，包括隱含的興趣、價值觀。透過計算多維空間中的餘弦相似度，系統能夠在極短的時間內從89,000個Hacker News使用者中找出最相似的前100名。

第三步是推理（Reason）。這是AI展現真正實力的階段。傳統演算法在計算完相似度後就束手無策了，而AI流程會呼叫具備極強邏輯推理能力的大模型（如GPT 5.2），對初篩出來的幾十個嫌疑人進行深度的交叉驗證。模型會像法官一樣，審視時間軸是否有衝突，生活細節是否自洽，從而大幅降低誤判的可能。

第四步是校準（Calibrate）。為了確保攻擊的有效性，AI必須學會判斷自己的「確信度」。系統會提示大模型輸出一個絕對的信賴度分數。如果還想更好地提高確信度，研究員還會讓AI對所有候選配對進行兩兩比較，透過類似排序競賽的方式給出最終排名。這種方法在大規模攻擊場景下特別有效。

在這個實驗中，設計者強化了對事實語義線索（Semantic content）的挖掘，而弱化了文體學（Stylometry），即透過分析一個人使用的虛詞頻率、語文結構和語氣特徵來確認身份的方法。因為那些根植於生活經驗中的客觀事實（比如你所在的城市、你患有的某種慢性疾病、你喜歡的特定冷門事物）是難以長期掩飾的。事實比文風更加致命，也更容易被大模型交叉比對。

當然，這項研究本身面臨一個矛盾：要驗證攻擊效果，需要知道正確答案，但知道答案意味著使用者本來就不夠匿名。

研究者採取了兩種策略。一種是合成匿名化，即找那些主動公開身份的使用者（比如Hacker News帳號簡介裡寫了LinkedIn連結），然後用AI把所有直接識別資訊抹掉（姓名、連結、GitHub帳號），只保留語義資訊，看AI能否重新識別。

另一種是時間分割法，即把同一個Reddit使用者在不同時期的發言切成兩份，看AI能否把它們重新配對。

這兩種方法都有偏差，比如主動公開身份的人可能本來就不在乎隱私，同一個人的兩段歷史天然有相似性，但它們至少提供了可量化的基準，讓我們能比較不同方法的優劣。

更值得強調的是，整個流程使用的都是公開可用的模型和標準API，包括Gemini的嵌入模型、GPT-5.2的推理能力、普通的向量檢索庫。

沒有定製模型，沒有專有資料，沒有駭客技巧。任何有一定技術能力的人，都能複現這套攻擊。

三種場景：層層遞進的威脅

為了探明AI開盒的邊界，研究團隊分別在三種極其複雜的場景中進行了測試，這三種場景層層遞進地驗證了AI的普適性。

為了衡量這套流程的威力，我們需要先理解兩個核心指標的定義：精確率（Precision）和召回率（Recall）。

精確率指的是在AI最終給出肯定答覆的所有配對中，真正找對人的比例。而召回率則是指在所有本來就有真實對應身份的目標中，AI成功配對上了多少人。

對於監控者或攻擊者而言，找不到是可以接受的，但抓錯人是災難性的。因此，接下來的所有測試，都是在AI保持90%甚至99%極高精確率的嚴苛條件下進行的。

跨平台配對

第一種場景是跨平台配對，這是最常見的開盒模式。就是試著讓AI把一個匿名論壇的分身帳號與現實世界的職業身份相綁定。

研究團隊收集了987個在Hacker News簡介裡貼了LinkedIn連結的使用者（這提供了驗證用的正確答案），然後用AI抹掉所有直接識別資訊，從89,000個候選使用者中嘗試重新配對。

透過在這個看似跨度極大的任務中，大模型展現了壓倒性的優勢。在90%精確率的設定下，AI正確識別了67%的使用者。即使提高到99%精確率（基本不出錯），仍然能識別45%。作為對比，傳統的Netflix式攻擊方法在這個任務上幾乎完全失敗，召回率只有0.1%。

而且AI的優勢隨著候選池擴大而愈發明顯，當候選人從1,000增加到89,000，傳統方法徹底崩潰，AI方法的召回率只下降了13個百分點。研究者還做了大膽的推算：如果候選池擴大到100萬人（接近真實平台的規模），AI仍可能保持35%的召回率；即使是1億候選人，理論上還能識別27%。

跨社群配對

第二種場景是跨社群配對。測試同一個人在Reddit的不同板塊（主流電影論壇 vs 小眾電影社群）發言，能否被AI關聯起來。

這是個更難的任務，因為使用者在不同社群討論的電影有限，重疊的話題可能很少。

研究者讓AI只看兩個社群共同討論的電影評論，有48%的使用者只分享了一部電影，然後嘗試配對9,781個使用者。

這次AI的表現相對溫和：90%精確率下召回率為8.5%，99%精確率下降到2.8%。

但這個場景引出了資訊豐度的區分度，即到底需要透露多少資訊，一個人才會被AI鎖定？研究發現，即便是極少量的資訊，也沒有絕對的安全閾值。只提到1部共同電影的使用者，召回率是3.1%；提到5-9部的，召回率躍升到23%；提到10部以上的，召回率高達48%。你在網路上的每一次主觀表達，都在不斷增加你數位拼圖的清晰度，而且是非線性的加速暴露。

更值得注意的是，使用「高推理努力」模式的GPT-5.2比低推理努力的效果好了一倍（99%精確率下2.8% vs 1.4%），說明AI的推理能力仍在快速進化，未來模型會更強。

跨時間配對

第三種場景是更加極限的跨時間配對。人是會變的，一個人的關注點、居住地和心境都會隨著時間流逝而改變。因此時間往往被視為保護隱私的天然屏障。

為了挑戰這道屏障，研究團隊將Reddit使用者的發言歷史按照一年的時間跨度硬生生切開，用一年前的發言去配對一年後的帳號。這考驗AI的核心理解能力，它需要能從表面的話題差異中，抓住深層的、持久的身份特徵。

在這種極其困難的場景下，為了確保極低的誤報率，AI使用了前文提到的校準步驟。

在5,000個測試使用者、10,000個候選檔案的設定下，加了校準的AI達到了67.3%的召回率（90%精確率）和38.4%（99%精確率）。

這比跨社群配對高得多，說明即使話題變化，一個人的深層特質，如地理位置、職業領域、核心價值觀、興趣愛好還是相對穩定的。

結果證明，哪怕跨越了一年的歲月鴻溝，AI依然能夠精準提取那些極其穩定的人格特徵和微觀數據，將過去與現在的你死死綁定在一起。

研究者還做了一個極端測試：如果只有千分之一的查詢使用者在候選池中有真正的配對（99.9%都是找不到的），AI還能運作嗎？答案是依然可以。即使配對機率降到萬分之一，AI仍能在90%精確率下識別出約9%的可配對使用者。

這意味著，就算絕大多數人根本不在被搜尋的資料庫中，那些確實能被識別的人，還是會被AI揪出來。

匿名的終結

這些實驗結果基本上已經宣布了網路匿名時代的終結。

研究者測試了幾種防禦方法，結果都不樂觀。可以限制API存取速度，但攻擊者可以分散式爬取；可以偵測自動化行為，但AI的使用模式很像正常使用者的高度閱讀；可以用差分隱私或k-匿名性技術，但這些都是為結構化資料設計的，對自由文本效果有限。

甚至LLM提供商的安全防護也難以奏效，因為這套攻擊流程的每個步驟（總結、嵌入、比對）看起來都像正常使用，很難被偵測為濫用。

唯一有效的防禦，是平台從一開始就不公開使用者的歷史發言。

那網際網路還有什麼用呢？

你在論壇尋求醫療建議，必然要描述症狀和病史；你在技術社群請教問題，需要說明你用的工具和遇到的錯誤；你在影評網站分享觀感，自然會暴露品味和觀影習慣。這些資訊本身無害，卻正是AI用來識別你的微數據。

而只需要幾台伺服器和一套LLM流程。不需要侵入任何私人裝置或通訊，只需要分析公開資訊，就足以從網路中定位具體的你。隱私政策和使用者協定在這裡完全無效，因為資料本就是公開的。

要徹底防禦，你只能選擇閉嘴，那等同於退出了現代社會的協作網路；如果你選擇發聲，你就是在向深淵遞交自己的身份證。

而Anthropic承諾不把AI用於大規模國內監控，這是值得讚許的立場。

但正如這項研究所展示的，監控所需的能力已經不需要專有模型，用公開可用的LLM、標準的API、普通的資料集，就能實現曾經只有情報機構才具備的能力。

從技術條件、安全保護等一切可能的方面，都沒有任何人能阻止你被極低成本的開盒。

AI時代，匿名已死。

也許在AI的未來中，逃避被控制的藝術將不再是躲入山中，而是永久離線。

Anthropic最新論文：網際網路匿名，在AI時代終結｜Hao好聊論文

相關文章推薦

分享網址