Subquadratic — 效率即智慧

備註:本文分享經第三方驗證的基準測試結果。完整的模型卡即將推出!

SubQ 的核心是 SSA(Subquadratic Sparse Attention,次平方稀疏注意力),這是一種專為長上下文檢索、推理及軟體工程工作負載設計的線性擴展注意力機制。

核心主張很簡單:企業級 AI 需要解決的難題,都是長上下文問題。程式碼庫、合約、企業語料庫、資料庫、試算表、研究語料庫以及長時間運行的代理人會話,很少因為缺少答案而失敗。它們失敗的原因,在於相關證據散布在龐大的上下文中,間接地被引用,且只有同時掌握多個證據片段時才有意義。

密集注意力機制讓現代語言模型成為可能,但也讓長上下文變得昂貴。每個詞元都會與其他所有詞元進行比對,因此注意力的計算量會隨著序列長度呈平方增長。SSA 改變了這種擴展行為。它不使用計算所有成對互動的方式,而是採用內容相依的選擇機制,將注意力導向重要的位置,無論這些位置在序列中何處出現。

這很重要,因為長上下文能力不僅僅是更大的提示視窗。名義上的上下文視窗告訴你模型能處理多少詞元。功能性的上下文視窗則告訴你,模型能可靠地對多少詞元進行推理。SSA 正是為了後者而設計的。

SubQ 在 MRCR v2 上與前沿的密集注意力模型保持同步,在核心的長上下文檢索任務中達到同等水準,並在 1M 詞元時,相較於密集注意力實現了 52.2 倍的預填充加速。其成果是一種模型架構,使得百萬詞元級別的上下文服務成本更低、迭代速度更快,且在無法接受檢索失敗的生產工作流程中更實用。

以下,我們將說明目前長上下文系統的缺陷、SSA 的運作方式、其訓練過程,以及這些結果對真實軟體工程和企業級 AI 部署的意義。

為何長上下文仍未解決

大多數企業級 AI 工作並非針對短文段落進行的簡潔問答。它看起來更像是:

  • 在一個程式碼庫中,一個函式在某個模組定義,在數十個其他模組中被呼叫,並受到其他地方的測試所約束。
  • 在一份合約中,一項義務取決於一個定義、一個例外條款,以及一個在數頁之外的引用條款。
  • 一個研究工作流程,其結論取決於調和多篇論文中的證據。
  • 一項長時間的程式開發任務,其中先前的規劃決策、中間編輯、審查筆記和回歸錯誤都至關重要。

這些都不是查找問題,而是在碎片化語料庫上的多跳推理問題。

短上下文系統的失敗模式不僅僅是它們缺少某些上下文,而是它們被迫對片段進行推理。當整個工件無法放入上下文時,系統會透過分塊、檢索、摘要和編排來補償。這些技術雖然有用,但也引入了它們自身的失敗模式。

RAG 系統保留了語義相似性,但失去了位置、階層結構、鄰近上下文和引用結構。一個區塊可能包含正確的文字,卻遺失了該文字為何重要的脈絡。代理人工作流程將大型任務分解為更小的模型呼叫,但錯誤會在各步驟間累積,編排邏輯變成了人工制定的策略,且上下文在呼叫之間被反覆壓縮。最終,這些系統的人為策劃使它們受限於「苦澀的教訓」,降低了它們的泛化能力。

業界的回應一直是在模型周圍構建腳手架。SSA 則試圖從根本上消除這些腳手架存在的必要性。

密集注意力的成本

注意力是內建於模型中的一種檢索操作。每個詞元作為一個查詢,將自身與所有其他詞元進行比較,評分它們的相關性,並將它們的資訊聚合到自身的下一個表徵中。

這個機制之所以強大,是因為它讓每個詞元都能存取完整的上下文。它也因為同樣的原因而代價高昂:每個查詢都與每個鍵進行比對。結果就是一種全對全的計算,其成本隨著序列長度呈平方增長。

在小上下文規模下,這還能忍受。但在現實世界問題所需的規模下——數十萬到數百萬個詞元——它就變成了主要瓶頸。上下文加倍,成本並非加倍,而是變成四倍。原本可管理的狀態,在訓練、服務和迭代上很快就變得令人望之卻步。

更糟的是,這些計算大多無關緊要。在已訓練的模型中,絕大多數的注意力權重都趨近於零。模型仍然執行完整的比較,但只有一小部分互動會對輸出產生意義上的影響。密集注意力不只是平方級的,它是浪費的平方級

FlashAttention 改善了此計算的執行方式。透過避免實體化完整的注意力矩陣並最佳化記憶體搬移,它在當今的上下文長度下讓密集注意力變得實用許多。但它並未改變底層的擴展性。比較的次數保持不變。模型仍然執行平方級的工作;它只是更有效率地執行這項工作。

同樣的模式也適用於系統層級的變通方案。檢索管線、上下文壓縮、遞迴分解和代理人編排,都讓密集注意力系統變得更可用。它們都沒有改變擴展法則。它們繞過了限制,但平方級成本依然是它們試圖繞過的邊界。

先前的效率架構捨棄了什麼

這個領域花了數年時間試圖讓注意力更便宜。困難點不在於降低成本,而在於不破壞檢索能力的前提下降低成本。

每種先前的做法都在某處做出了取捨。

固定模式的稀疏注意力透過限制詞元可以關注的位置來減少計算量。滑動視窗、跨步模式和空洞遮罩將搜尋空間縮小到足以實現次平方級擴展。但路由決策是預先根據位置而非內容決定的。模型在知道自己在找什麼之前,就先決定了要去哪裡找。當相關資訊落在模式之外時,它就完全看不到了。

狀態空間模型和遞迴替代方案採取了不同的方法。它們完全移除了全對全的比較,取而代之的是一個隨著序列演進的壓縮狀態。這在建構上就實現了線性擴展。但它也引入了一個限制:狀態的容量是固定的。隨著序列增長,資訊必須被摘要、模糊化或捨棄。這些模型保留了主旨和結構。但它們在檢索序列中很久以前引入的特定事實時表現較弱,因為那個事實可能已不復存在於可恢復的形式中。

混合架構結合了這兩種想法。效率層承擔了大部分計算,同時保留密集注意力層以維持檢索能力。這在實務上行得通,但並未改變底層的擴展行為。密集層仍然是關鍵的負載承擔者。隨著上下文增長,其平方級成本會占據主導地位,模型便停留在它本應脫離的機制中。其效益是線性的。

DeepSeek 稀疏注意力是一種較新的稀疏方法。它將注意力的平方級成本轉移到一個閃電索引器上,該索引器為每個查詢選擇要關注哪些鍵。索引器本身是平方級的。它對每個查詢與每個鍵進行評分,常數較小,但卻是同樣的 O(n²) 擴展,這正是該架構本應避免的。複雜度只是被轉移了,而非被移除了。

模式是一致的。固定稀疏性藉由放棄內容相依的路由來達成效率。遞迴模型藉由放棄精確檢索來達成效率。混合模型則透過重新引入密集注意力及其原始成本來恢復能力。DeepSeek 稀疏注意力以平方級擴展,在超大規模下變得成本過高。

待解決的問題並非「讓注意力變快」。更精確地說是:建立一個有效率、內容相依,且能從長上下文中的任意位置進行檢索的機制。

這正是 SSA 被設計來扮演的角色。

SSA 如何運作

SSA——次平方選擇性注意力——改變了注意力工作的分配方式。

核心概念是內容相依的選擇。對於每個查詢,模型會選擇序列中哪些部分值得關注,並在這些位置上精確計算注意力。

密集注意力假設每一對都可能很重要,因此對所有對進行評估。實際上,幾乎沒有。大多數成對互動都帶有可忽略的訊號,但模型仍然付出了完整的平方級成本來計算它們。SSA 移除了那個假設。它不近似注意力,而是將注意力限制在實際帶有訊號的位置上,並跳過其餘部分。

這賦予了 SSA 三個重要的特性:

  1. 計算和記憶體的線性擴展。注意力成本隨著所選位置的數量而增長,而非整個序列,使得長上下文在經濟上變得可用。
  2. 內容相依的路由。模型根據含義而非位置來決定要關注哪裡。相關資訊無論出現在何處都能被檢索。
  3. 從任意位置進行稀疏檢索。與遞迴或壓縮方法不同,SSA 保留了恢復序列中較早引入的特定資訊的能力。

務實的區別很重要。SSA 不只是密集注意力的一種更快的實作。它減少了模型執行的注意力工作量。而這種減少正是體現在速度上的原因。

以實際的輸入處理時間來衡量,在 B200 上使用 FlashAttention-2 處理 128K 詞元時,SSA 相較於標準注意力實現了 7.2 倍的輸入處理加速。FlashAttention-3 在 B200 上相較於 FlashAttention-2 並未產生加速。在 256K 時,提升到 13.2 倍。在 512K 時,為 23.0 倍。在 1M 詞元時,達到 52.2 倍。

上下文長度SSA 相較於 B200 上 Flash Attention 的速度提升
128K7.2 倍
256K13.2 倍
512K23.0 倍
1M52.2 倍

這就是對生產至關重要的吞吐量逆轉。隨著上下文增長,密集注意力相對於 SSA 變得更慢。SSA 正是在長上下文工作負載變得最有價值的地方,變得更有優勢。

為長上下文行為訓練 SSA

架構是必要的,但還不夠。一個模型可能擁有長上下文視窗,卻仍然無法善用它。SSA 的訓練目標是讓長上下文的使用變得可靠,而不僅僅是可能。

我們採用了三階段的訓練流程:

  1. 預訓練建立基礎的語言建模能力,以及選擇機制所使用的長上下文表徵。
  2. 監督式微調將行為塑造成企業工作負載所需的指令遵循、結構化推理和程式碼生成模式。
  3. 強化學習針對僅透過監督式範例最難誘導的行為:可靠的長上下文檢索,以及積極使用可用上下文而非預設為局部推理的程式開發行為。

最後一個階段至關重要。長上下文的失敗往往看起來很合理。模型可能會從鄰近的上下文中尋找答案,因為鄰近的證據更容易使用,即使決定性的證據出現在序列中更早的地方。它可能會產生一個在局部正確,但違反了其他地方定義的介面的程式碼修補。它可能會摘要先前的決策,而不是保留應該支配後續步驟的精確約束。SSA 的強化學習階段正是針對這些失敗模式設計的。

訓練資料強調具有高資訊密度和交叉引用結構的長篇來源。正是這種資料迫使選擇機制學習跨越長距離位置的 routing。目標不是基準測試的背誦,而是教導模型關注重要的內容,無論其位於何處。

訓練基礎設施:使百萬詞元實驗成為可能

長上下文訓練不僅僅是一個建模問題,更是一個只在大規模下才會顯現的系統問題。

在百萬詞元的序列長度下,較短上下文時不可見的失敗模式變得具有約束力:記憶體壓力、跨裝置的序列分割、梯度不穩定、數值精度以及核心效率。這些並非邊緣案例,它們是決定訓練能否運行的約束條件。

該系統在 1M 詞元及更長的長度下穩定訓練,在整個訓練管線中維持線性記憶體擴展,並在序列超出單一裝置限制時,使用分散式序列平行處理將序列分片到多個裝置上。

其結果不僅是讓長上下文訓練變得可能,更是讓它變得可迭代

在密集注意力下,長上下文實驗的昂貴程度足以讓它們被視為保留運行。藉助 SSA 的線性擴展,它們變成了常規操作。開發迴圈改變了:更多的消融實驗、更多的評估、更快的回饋,以及對長上下文中真正重要的行為進行針對性修正。

這就是更深層的含義。SSA 不僅降低了推論的成本,它還降低了學習長上下文行為本身的成本。

評估功能性上下文,而非名義上下文

一個宣傳的上下文視窗並不能告訴你模型能使用多少上下文。問題在於模型能否檢索、連結並推理散布在該視窗中的證據

我們從兩個軸向來評估 SubQ:

  • 部署可行性:計算量減少和實際處理時間。
  • 檢索能力:RULER 和 MRCR v2。

更多通用基準測試將在模型卡中發布(即將推出)。

大海撈針測試的是對單一目標的精確檢索。

RULER 則將其擴展到多跳檢索、聚合、變數追蹤和選擇性過濾。

MRCR v2 更進一步:模型必須定位並整合散布在上下文中多個證據片段,而相關的集合並未事先給定。

這更接近真實工作的樣貌。找到一個事實是不夠的。模型必須判斷哪些證據片段是重要的,並將它們組合成一個連貫的答案。

結果

計算與速度

SSA 的線性擴展意味著上下文長度加倍,注意力的計算成本也加倍,而非變成四倍。在 1M 詞元時,我們觀察到相較於標準平方級注意力,注意力浮點運算次數減少了 62.5 倍。

上下文長度相較於標準注意力的 FLOP 減少
128K8 倍
1M62.5 倍

實際的處理速度是與產品更相關的結果。在 1M 詞元時,SSA 相較於密集注意力實現了 52.2 倍的預填充加速。這就是一個行為像互動式工具的長上下文系統,和一個感覺像離線批次作業的系統之間的差異。

上下文長度輸入處理速度提升
128K7.2 倍
256K13.2 倍
512K23.0 倍
1M52.2 倍

RULER

RULER 測試的是超越簡單大海撈針的檢索和推理行為,包括多跳檢索、聚合、變數追蹤和選擇性過濾。

模型RULER @ 128K
SSA / SubQ95.0%
Opus 4.694.8%

對於企業工作流程而言,這很重要,因為多跳任務會複合錯誤。鏈條早期遺漏的一個引用,可能會污染下游的所有結論。

MRCR v2

MRCR v2 是要求最嚴格的檢索基準測試。它評估的是在長上下文中定位並整合多個非相鄰證據片段的能力。

模型MRCR v2 分數
SSA / SubQ65.9%
Gemini 3.1 Pro26.3%
Opus 4.678.3%
Opus 4.732.2%
GPT 5.436.6%
GPT 5.574.0%

SubQ 得分 65.9%,穩健地落在 Opus 4.6 的 78% 範圍內,且領先於 GPT 5.4 的 39% 和 Gemini 3.1 Pro 的 23%。

這個結果是區分名義上下文與功能性上下文之間差異的最清晰證據。一個模型可能接受長篇輸入,卻仍然無法可靠地對該輸入進行推理。MRCR v2 浮現了這個差距,因為它要求模型檢索並整合證據,而不僅僅是處理詞元。

SWE-Bench Verified

SWE-Bench Verified 在真實的 GitHub 議題上評估端到端的軟體工程能力。它並非一個純粹的檢索基準測試,而是測試模型能否運用程式碼庫理解來定位錯誤、推理實作限制並產生修補程式。

模型SWE-Bench Verified
SSA / SubQ81.8%
Gemini 3.1 Pro80.6%
Opus 4.680.8%
Opus 4.787.6%
GPT 5.4未報告
GPT 5.5未報告
相關文章推薦

分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.