騰訊前沿科技論文解讀專欄,在程式碼與商業的交會處,尋找AI的確定性。
文|博陽
編輯|徐青陽
近日,矽谷頂級AI公司Anthropic與美國國防部(DoD)之間的一場角力,成了AI圈的焦點。在宣布與五角大廈合作時,Anthropic特別強調了兩條紅線:AI不得用於攻擊性武器,也不得用於大規模國內監控。
但是五角大廈希望Anthropic解除其AI模型Claude的所有使用限制,這與Anthropic的兩條紅線產生了衝突。
五角大廈與Anthropic的矛盾核心其實是人工智慧技術的使用邊界與倫理底線之爭,是「無限制使用」與「安全護欄」之間的根本性衝突。
從古至今,無論是機構還是商業體,在構建系統控制的閉迴路中,一直遵循著一條清晰的路徑,即知道你是誰,了解你想要什麼,最終掌握你的行為與選擇。
而這條路徑的第一步,就是確認你是誰。從網際網路誕生之初,匿名就被視為其核心特質。「在網際網路上,沒有人知道你是一條狗。」人們在各個論壇、社群中披上不同的分身帳號,享受著免於現實身份束縛的言論自由。
當然,我們也習慣見到各種人肉搜尋和開盒。某個網紅說錯話,憤怒的網友就會動員集體智慧,從隻字片語中拼湊出當事人的真實身份。
但這種傳統的去匿名化方法耗時費力,需要人工比對大量資訊,通常只針對引發公眾關注的高價值目標。
而企業想要了解使用者偏好以精準推送廣告,則更依賴IP位址、裝置指紋、跨應用程式追蹤這些相對便宜的技術手段。但這些方法在日益嚴格的隱私保護政策下,正變得越來越困難。
然而,AI的到來可能徹底改變這個遊戲規則。Anthropic自己和蘇黎世聯邦理工學院等機構近期發布的一篇重磅論文《利用大型語言模型進行大規模線上去匿名化》,就對AI的開盒能力進行了一次極限測試。
他們的結論是,AI,以其精準度與低廉的成本,基本已經宣判了網際網路匿名時代的死刑。
所以Anthropic的擔心完全有道理。因為你,隨時都可以從匿名之殼中被任何人輕易地定位。
01
開盒簡史:從手工到自動化流水線
去匿名化,即開盒,本質上是一個剝洋蔥的過程。開盒者首先從一個匿名者的零散發言中描繪出他的數位輪廓,然後將這個輪廓與一個已知身份的資料庫進行配對。
在AI時代之前,隱私安全領域最著名的一次開盒事件,是2008年Netflix挑戰賽攻擊。當時,Netflix公開了一批經過匿名處理的使用者電影評分資料,試圖懸賞優化其推薦演算法。
Narayanan和Shmatikov發現,只需要將這些匿名的評分資料與公開的IMDb(網際網路電影資料庫)帳號進行比對,透過幾部冷門電影的評分和時間戳記這樣的微數據,就能輕易還原出這些匿名使用者的真實身份。
所謂微數據,就是個體層面的資訊片段,比如「給《暮光之城》打了5星」、「住在德州」、「句首字母從不大寫」。單一片段可能不足以識別你,但當多個片段組合起來,就能構成獨特的指紋。就像87%的美國人可以僅憑郵遞區號、出生日期和性別三項資訊被唯一確定一樣,看似無關緊要的細節,累積起來就是身份的鑰匙。
但Netflix攻擊的這個策略有個限制,即它需要結構化的資料。電影評分是整齊的數字矩陣,可以用演算法直接比對相似度。
而真實的網際網路是由無數非結構化的閒聊、吐槽、主觀評論和口語化表達構成的。比如「昨天帶狗去多洛雷斯公園散步,真懷念波特蘭的雨水」提供了很多資訊,但傳統的演算法根本讀不懂。面對這種非結構化文本,過去唯一有效的辦法就是投入專業的調查員,像偵探一樣逐字逐句地閱讀、分析和推演。
這種巨大的人力成本,構成了保護普通人隱私的一道堅固的成本護城河。這種因為調查成本過高而產生的安全感,被稱為事實上的隱蔽性(practical obscurity)。
大型語言模型的到來,瞬間抽乾了這條護城河。大模型最核心的超能力,正是對人類自然語言及其背後複雜語義的深刻理解。它不再需要整齊劃一的表格,它能夠直接閱讀你在任意平台上的任意發言,並在瞬間抽絲剝繭。
過去需要人類專家耗費數小時才能完成的邏輯推理和資訊提取,現在大模型只需要幾秒鐘和極低的運算成本就能完成。
提出安全紅線的Anthropic,在2025年12月公開了125名科學家與AI的訪談記錄,討論他們如何在工作中使用AI工具。這些記錄做了部分編輯(隱去敏感資訊),本意是保護隱私。
但就在資料發布幾週後,就有研究者透過LLM配對訪談中提到的研究課題和已發表的論文,找到了受訪者的真實身份。33名談論過去研究的科學家中,AI成功識別了9人,比先前的方法多找到50%。
(Anthropic訪談的開盒方法)
而這只需要幾分鐘和幾美元。
AI並沒有發明新的攻擊邏輯,它只是以前所未有的規模和極低的成本,將這種攻擊普及到了網際網路的每一個角落。
02
AI開盒,只需四步
為了驗證AI的真正實力,研究團隊設計了一套名為ESRC的可擴展自動化攻擊流程。這套流程將去匿名化分解為四個高度自動化的步驟。
第一步是提取(Extract)。LLM會閱讀目標使用者的所有貼文和評論,從中歸納出結構化的個人檔案。透過語義層面的理解,模型可以從一個Reddit使用者說的「今年CS224N課把我折磨慘了,大四真難熬」,提取出他是史丹佛CS專業(因為CS224N是史丹佛的自然語言處理課程)、大約22歲、住在舊金山。即使用戶從未直接說我是史丹佛學生,AI也能從資訊中推論出來。
第二步是搜尋(Search)。面對動輒數百萬候選人的龐大網際網路資料庫,AI將提取出的個人檔案轉化為密集的語意向量(Embeddings)。傳統的Netflix攻擊也有類似步驟,但它只能比對結構化特徵(電影評分、程式語言、工作地點),而LLM的嵌入向量能夠捕捉更豐富的語義資訊,包括隱含的興趣、價值觀。透過計算多維空間中的餘弦相似度,系統能夠在極短的時間內從89,000個Hacker News使用者中找出最相似的前100名。
第三步是推理(Reason)。這是AI展現真正實力的階段。傳統演算法在計算完相似度後就束手無策了,而AI流程會呼叫具備極強邏輯推理能力的大模型(如GPT 5.2),對初篩出來的幾十個嫌疑人進行深度的交叉驗證。模型會像法官一樣,審視時間軸是否有衝突,生活細節是否自洽,從而大幅降低誤判的可能。
第四步是校準(Calibrate)。為了確保攻擊的有效性,AI必須學會判斷自己的「確信度」。系統會提示大模型輸出一個絕對的信賴度分數。如果還想更好地提高確信度,研究員還會讓AI對所有候選配對進行兩兩比較,透過類似排序競賽的方式給出最終排名。這種方法在大規模攻擊場景下特別有效。
在這個實驗中,設計者強化了對事實語義線索(Semantic content)的挖掘,而弱化了文體學(Stylometry),即透過分析一個人使用的虛詞頻率、語文結構和語氣特徵來確認身份的方法。因為那些根植於生活經驗中的客觀事實(比如你所在的城市、你患有的某種慢性疾病、你喜歡的特定冷門事物)是難以長期掩飾的。事實比文風更加致命,也更容易被大模型交叉比對。
當然,這項研究本身面臨一個矛盾:要驗證攻擊效果,需要知道正確答案,但知道答案意味著使用者本來就不夠匿名。
研究者採取了兩種策略。一種是合成匿名化,即找那些主動公開身份的使用者(比如Hacker News帳號簡介裡寫了LinkedIn連結),然後用AI把所有直接識別資訊抹掉(姓名、連結、GitHub帳號),只保留語義資訊,看AI能否重新識別。
另一種是時間分割法,即把同一個Reddit使用者在不同時期的發言切成兩份,看AI能否把它們重新配對。
這兩種方法都有偏差,比如主動公開身份的人可能本來就不在乎隱私,同一個人的兩段歷史天然有相似性,但它們至少提供了可量化的基準,讓我們能比較不同方法的優劣。
更值得強調的是,整個流程使用的都是公開可用的模型和標準API,包括Gemini的嵌入模型、GPT-5.2的推理能力、普通的向量檢索庫。
沒有定製模型,沒有專有資料,沒有駭客技巧。任何有一定技術能力的人,都能複現這套攻擊。
03
三種場景:層層遞進的威脅
為了探明AI開盒的邊界,研究團隊分別在三種極其複雜的場景中進行了測試,這三種場景層層遞進地驗證了AI的普適性。
為了衡量這套流程的威力,我們需要先理解兩個核心指標的定義:精確率(Precision)和召回率(Recall)。
精確率指的是在AI最終給出肯定答覆的所有配對中,真正找對人的比例。而召回率則是指在所有本來就有真實對應身份的目標中,AI成功配對上了多少人。
對於監控者或攻擊者而言,找不到是可以接受的,但抓錯人是災難性的。因此,接下來的所有測試,都是在AI保持90%甚至99%極高精確率的嚴苛條件下進行的。
跨平台配對
第一種場景是跨平台配對,這是最常見的開盒模式。就是試著讓AI把一個匿名論壇的分身帳號與現實世界的職業身份相綁定。
研究團隊收集了987個在Hacker News簡介裡貼了LinkedIn連結的使用者(這提供了驗證用的正確答案),然後用AI抹掉所有直接識別資訊,從89,000個候選使用者中嘗試重新配對。
透過在這個看似跨度極大的任務中,大模型展現了壓倒性的優勢。在90%精確率的設定下,AI正確識別了67%的使用者。即使提高到99%精確率(基本不出錯),仍然能識別45%。作為對比,傳統的Netflix式攻擊方法在這個任務上幾乎完全失敗,召回率只有0.1%。
而且AI的優勢隨著候選池擴大而愈發明顯,當候選人從1,000增加到89,000,傳統方法徹底崩潰,AI方法的召回率只下降了13個百分點。研究者還做了大膽的推算:如果候選池擴大到100萬人(接近真實平台的規模),AI仍可能保持35%的召回率;即使是1億候選人,理論上還能識別27%。
跨社群配對
第二種場景是跨社群配對。測試同一個人在Reddit的不同板塊(主流電影論壇 vs 小眾電影社群)發言,能否被AI關聯起來。
這是個更難的任務,因為使用者在不同社群討論的電影有限,重疊的話題可能很少。
研究者讓AI只看兩個社群共同討論的電影評論,有48%的使用者只分享了一部電影,然後嘗試配對9,781個使用者。
這次AI的表現相對溫和:90%精確率下召回率為8.5%,99%精確率下降到2.8%。
但這個場景引出了資訊豐度的區分度,即到底需要透露多少資訊,一個人才會被AI鎖定?研究發現,即便是極少量的資訊,也沒有絕對的安全閾值。只提到1部共同電影的使用者,召回率是3.1%;提到5-9部的,召回率躍升到23%;提到10部以上的,召回率高達48%。你在網路上的每一次主觀表達,都在不斷增加你數位拼圖的清晰度,而且是非線性的加速暴露。
更值得注意的是,使用「高推理努力」模式的GPT-5.2比低推理努力的效果好了一倍(99%精確率下2.8% vs 1.4%),說明AI的推理能力仍在快速進化,未來模型會更強。
跨時間配對
第三種場景是更加極限的跨時間配對。人是會變的,一個人的關注點、居住地和心境都會隨著時間流逝而改變。因此時間往往被視為保護隱私的天然屏障。
為了挑戰這道屏障,研究團隊將Reddit使用者的發言歷史按照一年的時間跨度硬生生切開,用一年前的發言去配對一年後的帳號。這考驗AI的核心理解能力,它需要能從表面的話題差異中,抓住深層的、持久的身份特徵。
在這種極其困難的場景下,為了確保極低的誤報率,AI使用了前文提到的校準步驟。
在5,000個測試使用者、10,000個候選檔案的設定下,加了校準的AI達到了67.3%的召回率(90%精確率)和38.4%(99%精確率)。
這比跨社群配對高得多,說明即使話題變化,一個人的深層特質,如地理位置、職業領域、核心價值觀、興趣愛好還是相對穩定的。
結果證明,哪怕跨越了一年的歲月鴻溝,AI依然能夠精準提取那些極其穩定的人格特徵和微觀數據,將過去與現在的你死死綁定在一起。
研究者還做了一個極端測試:如果只有千分之一的查詢使用者在候選池中有真正的配對(99.9%都是找不到的),AI還能運作嗎?答案是依然可以。即使配對機率降到萬分之一,AI仍能在90%精確率下識別出約9%的可配對使用者。
這意味著,就算絕大多數人根本不在被搜尋的資料庫中,那些確實能被識別的人,還是會被AI揪出來。
04
匿名的終結
這些實驗結果基本上已經宣布了網路匿名時代的終結。
研究者測試了幾種防禦方法,結果都不樂觀。可以限制API存取速度,但攻擊者可以分散式爬取;可以偵測自動化行為,但AI的使用模式很像正常使用者的高度閱讀;可以用差分隱私或k-匿名性技術,但這些都是為結構化資料設計的,對自由文本效果有限。
甚至LLM提供商的安全防護也難以奏效,因為這套攻擊流程的每個步驟(總結、嵌入、比對)看起來都像正常使用,很難被偵測為濫用。
唯一有效的防禦,是平台從一開始就不公開使用者的歷史發言。
那網際網路還有什麼用呢?
你在論壇尋求醫療建議,必然要描述症狀和病史;你在技術社群請教問題,需要說明你用的工具和遇到的錯誤;你在影評網站分享觀感,自然會暴露品味和觀影習慣。這些資訊本身無害,卻正是AI用來識別你的微數據。
而只需要幾台伺服器和一套LLM流程。不需要侵入任何私人裝置或通訊,只需要分析公開資訊,就足以從網路中定位具體的你。隱私政策和使用者協定在這裡完全無效,因為資料本就是公開的。
要徹底防禦,你只能選擇閉嘴,那等同於退出了現代社會的協作網路;如果你選擇發聲,你就是在向深淵遞交自己的身份證。
而Anthropic承諾不把AI用於大規模國內監控,這是值得讚許的立場。
但正如這項研究所展示的,監控所需的能力已經不需要專有模型,用公開可用的LLM、標準的API、普通的資料集,就能實現曾經只有情報機構才具備的能力。
從技術條件、安全保護等一切可能的方面,都沒有任何人能阻止你被極低成本的開盒。
AI時代,匿名已死。
也許在AI的未來中,逃避被控制的藝術將不再是躲入山中,而是永久離線。