TurboQuant:以極致壓縮技術重新定義 AI 效率
2026年3月24日
Amir Zandieh(Google Research 研究科學家)、Vahab Mirrokni(Google Research 副總裁暨 Google Fellow)

我們推出一系列具備紮實理論基礎的先進量化演算法,可針對大型語言模型與向量搜尋引擎實現大規模壓縮。
快速連結:TurboQuant 論文、Quantized Johnson-Lindenstrauss 論文、PolarQuant 論文
向量是 AI 模型理解與處理資訊的根本方式。小型向量用於描述簡單屬性,例如圖表上的某個點;而「高維度」向量則能捕捉複雜資訊,例如影像特徵、詞語意義或資料集屬性。高維度向量極其強大,但也會消耗大量記憶體,進而在鍵值快取(key-value cache)中造成瓶頸。鍵值快取是一種高速的「數位備忘錄」,用於儲存經常使用的資訊,並以簡單標籤標示,讓電腦能夠即時檢索,無需搜尋緩慢的大型資料庫。
向量量化(Vector quantization)是一種強大的經典資料壓縮技術,可縮減高維度向量的體積。這項最佳化技術解決了 AI 的兩個關鍵面向:它能強化向量搜尋(驅動大規模 AI 與搜尋引擎的高速技術),透過實現更快速的相似度查詢;並透過縮減鍵值對(key-value pairs)的大小來疏通鍵值快取的瓶頸,從而實現更快速的相似度搜尋並降低記憶體成本。然而,傳統的向量量化通常會帶來自身的「記憶體額外負擔(memory overhead)」,因為大多數方法需要針對每個小型資料區塊以完整精度計算並儲存量化常數(quantization constants)。這種額外負擔可能為每個數字增加 1 到 2 個額外位元,部分削弱了向量量化的目的。
今日,我們推出TurboQuant(將於ICLR 2026發表),這是一種能夠最佳化解決向量量化中記憶體額外負擔挑戰的壓縮演算法。我們也一併介紹量化強森-林登施特勞斯轉換(Quantized Johnson-Lindenstrauss, QJL),以及PolarQuant(將於AISTATS 2026發表),TurboQuant 正是運用這些技術來達成其成果。在測試中,這三種技術在減少鍵值瓶頸的同時,皆展現出不犧牲 AI 模型效能的優異潛力。這對於所有依賴壓縮的應用場景(特別是搜尋與 AI 領域)可能具有深遠的影響。
TurboQuant 運作方式
TurboQuant 是一種壓縮方法,能夠在維持零精確度損失的前提下,大幅縮減模型體積,使其成為支援鍵值(KV)快取壓縮與向量搜尋的理想選擇。它透過兩個關鍵步驟達成此目標:
1. 高品質壓縮(PolarQuant 方法):TurboQuant 首先隨機旋轉資料向量。這個巧妙步驟簡化了資料的幾何結構,使得能夠輕易地對向量的每個部分單獨應用標準的高品質量化器(quantizer)(這是一種將大量連續值〔如精確小數〕對應到較小離散符號集〔如整數〕的工具:範例包括音訊量化與JPEG 壓縮)。這第一階段使用了大部分的壓縮能力(大多數位元)來捕捉原始向量的主要概念與強度。
2. 消除隱藏誤差:TurboQuant 使用少量的殘餘壓縮能力(僅需 1 位元)對第一階段殘留的微小誤差應用 QJL 演算法。QJL 階段如同數學上的誤差檢查器,可消除偏差,從而產生更精確的注意力分數(attention score)。
為了充分理解 TurboQuant 如何達成此效率,我們深入探討 QJL 與 PolarQuant 演算法的運作機制。
QJL:零額外負擔的 1 位元技巧
QJL 使用一種稱為強森-林登施特勞斯轉換(Johnson-Lindenstrauss Transform)的數學技術來縮減複雜的高維度資料,同時保留資料點之間的基本距離與關係。它將每個產生的向量數值縮減為單一個符號位元(sign bit)(+1 或 -1)。這項演算法本質上創造了一種高速速記法,且完全不需要記憶體額外負擔。為了維持精確度,QJL 使用一種特殊的估計器,策略性地平衡高精度查詢與低精度簡化資料。這讓模型能夠準確計算注意力分數(attention score)(即決定輸入中哪些部分重要、哪些部分可以安全忽略的過程)。
PolarQuant:壓縮技術的全新「角度」
PolarQuant 採用完全不同的方法來解決記憶體額外負擔問題。它不是使用標準座標(即顯示每個軸距離的 X、Y、Z)來檢視記憶體向量,而是使用直角座標系統(Cartesian coordinate system)將向量轉換為極座標。這好比將「向東走 3 條街,向北走 4 條街」替換為「以 37 度角總共走 5 條街」。這產生了兩項資訊:半徑(radius),代表核心資料的強度;以及角度(angle),指示資料的方向或意義。因為角度的模式是已知且高度集中的,模型不再需要執行昂貴的資料正規化(data normalization)步驟,因為它將資料對應到固定的、可預測的「圓形」網格上(邊界已知),而非傳統方法必須使用的「方形」網格(邊界不斷變化)。這讓 PolarQuant 能夠消除傳統方法必須承載的記憶體額外負擔。
PolarQuant 作為高效率壓縮橋樑,將直角座標輸入轉換為簡潔的極座標「速記」以進行儲存與處理。此機制首先將 d 維度向量的座標配對分組,並將其對應至極座標系統。接著半徑被成對收集以進行遞迴極座標轉換——此過程重複進行,直到資料被精煉為單一最終半徑與一組描述性角度。
實驗與結果
我們在標準長上下文基準測試中嚴格評估這三種演算法,包括:LongBench、Needle In A Haystack、ZeroSCROLLS、RULER,以及L-Eval,使用的開源大型語言模型為 Gemma 與 Mistral。實驗數據顯示,TurboQuant 無論在內積失真(dot product distortion)或召回率(recall)方面皆達到最佳評分表現,同時將鍵值(KV)記憶體足跡最小化。下方圖表顯示 TurboQuant、PolarQuant 與 KIVI 基準線在問答、程式碼生成與摘要等多樣任務中的綜合表現分數。

TurboQuant 在LongBench基準測試中展現穩健的 KV 快取壓縮效能,相對於多種壓縮方法在Llama-3.1-8B-Instruct模型上的表現(括號中標示位元數)。
下方顯示長上下文「大海撈針」(needle-in-haystack)任務(即設計用於測試模型能否在大量文字中找出特定微小資訊的測試)的結果。同樣地,TurboQuant 在所有基準測試中皆達到完美的下游結果,同時將鍵值記憶體大小縮減至少 6 倍。PolarQuant 在此任務上也近乎無損失。
TurboQuant 證明它能夠在不需訓練或微調的情況下,將鍵值快取量化至僅 3 位元,且不損害模型精確度,同時運行速度比原始大型語言模型(Gemma 與 Mistral)更快。它的實作極具效率,且運行時額外負擔可忽略不計。下方圖表說明使用 TurboQuant 計算注意力對數(attention logits)的速度提升:具體而言,4 位元 TurboQuant 在 H100 GPU 加速器上相較於 32 位元未量化鍵值,可達成高達 8 倍的效能提升。

TurboQuant 顯示在鍵值快取中計算注意力對數(attention logits)的顯著效能提升,橫跨不同位元寬度層級,相對於高度最佳化的 JAX 基準線測量。
這使其成為支援向量搜尋等應用場景的理想選擇,能大幅加速索引建立過程。我們使用1@k 召回率(1@k recall ratio)(衡量演算法在其前 k 個近似結果中捕捉真實前 k 個內積結果的頻率)評估 TurboQuant 在高維度向量搜尋中的功效,與最先進的方法(PQ 與 RabbiQ)進行比較。儘管這些基準方法使用無效率的大型碼本(codebooks)與特定資料集調校,TurboQuant 仍持續達成優於基準方法的召回率(見下方圖表)。這證實了 TurboQuant 在高維度搜尋任務中的穩健性與效率。

TurboQuant 展現穩健的檢索效能,在GloVe資料集(d=200)上相對於多種最先進量化基準線達成最佳的1@k 召回率。
TurboQuant 展現了高維度搜尋的典範轉移。透過設定可達成速度的新基準,它以資料無關(data-oblivious)的方式提供近乎最佳的失真率。這讓我們的近鄰搜尋引擎能夠以 3 位元系統的效率運作,同時維持遠更重型的模型才有的精確度。詳細資訊請見論文。
未來展望
TurboQuant、QJL 與 PolarQuant 不僅是實用的工程解決方案;它們更是具備強大理論證明的基礎演算法貢獻。這些方法不僅在實際應用中表現優異,它們在可證明的效率上運作,並接近理論下界。這種嚴謹的基礎使其對於關鍵的大型系統具備穩健性與可信度。
雖然主要應用之一是解決 Gemini 等模型中的鍵值快取瓶頸,但高效率的線上向量量化的影響甚至更為深遠。例如,現代搜尋正從單純的關鍵字進化為理解意圖與意義。這需要向量搜尋——即能在數十億向量的資料庫中找到「最近」或語義最相似項目的能力。
像 TurboQuant 這樣的技術對此使命至關重要。它們允許以最小記憶體、近乎零的前置處理時間,以及最先進的精確度來建立與查詢大型向量索引。這讓 Google 規模的語義搜尋變得更快且更有效率。隨著 AI 更深度整合至所有產品——從大型語言模型到語義搜尋——這項基礎向量量化工作將變得比以往任何時候都更加關鍵。
致謝
本研究系列由以下人員協同合作完成:Google 研究員 Praneeth Kacham;KAIST 助理教授 Insu Han;紐約大學博士生 Majid Daliri;Google 研究員 Lars Gottesbüren;以及 Google 研究員 Rajesh Jayaram。