Subquadratic — 效率即智慧

備註：本文分享經第三方驗證的基準測試結果。完整的模型卡即將推出！

SubQ 的核心是 SSA（Subquadratic Sparse Attention，次平方稀疏注意力），這是一種專為長上下文檢索、推理及軟體工程工作負載設計的線性擴展注意力機制。

核心主張很簡單：企業級 AI 需要解決的難題，都是長上下文問題。程式碼庫、合約、企業語料庫、資料庫、試算表、研究語料庫以及長時間運行的代理人會話，很少因為缺少答案而失敗。它們失敗的原因，在於相關證據散布在龐大的上下文中，間接地被引用，且只有同時掌握多個證據片段時才有意義。

密集注意力機制讓現代語言模型成為可能，但也讓長上下文變得昂貴。每個詞元都會與其他所有詞元進行比對，因此注意力的計算量會隨著序列長度呈平方增長。SSA 改變了這種擴展行為。它不使用計算所有成對互動的方式，而是採用內容相依的選擇機制，將注意力導向重要的位置，無論這些位置在序列中何處出現。

這很重要，因為長上下文能力不僅僅是更大的提示視窗。名義上的上下文視窗告訴你模型能處理多少詞元。功能性的上下文視窗則告訴你，模型能可靠地對多少詞元進行推理。SSA 正是為了後者而設計的。

SubQ 在 MRCR v2 上與前沿的密集注意力模型保持同步，在核心的長上下文檢索任務中達到同等水準，並在 1M 詞元時，相較於密集注意力實現了 52.2 倍的預填充加速。其成果是一種模型架構，使得百萬詞元級別的上下文服務成本更低、迭代速度更快，且在無法接受檢索失敗的生產工作流程中更實用。

以下，我們將說明目前長上下文系統的缺陷、SSA 的運作方式、其訓練過程，以及這些結果對真實軟體工程和企業級 AI 部署的意義。

為何長上下文仍未解決

大多數企業級 AI 工作並非針對短文段落進行的簡潔問答。它看起來更像是：

在一個程式碼庫中，一個函式在某個模組定義，在數十個其他模組中被呼叫，並受到其他地方的測試所約束。
在一份合約中，一項義務取決於一個定義、一個例外條款，以及一個在數頁之外的引用條款。
一個研究工作流程，其結論取決於調和多篇論文中的證據。
一項長時間的程式開發任務，其中先前的規劃決策、中間編輯、審查筆記和回歸錯誤都至關重要。

這些都不是查找問題，而是在碎片化語料庫上的多跳推理問題。

短上下文系統的失敗模式不僅僅是它們缺少某些上下文，而是它們被迫對片段進行推理。當整個工件無法放入上下文時，系統會透過分塊、檢索、摘要和編排來補償。這些技術雖然有用，但也引入了它們自身的失敗模式。

RAG 系統保留了語義相似性，但失去了位置、階層結構、鄰近上下文和引用結構。一個區塊可能包含正確的文字，卻遺失了該文字為何重要的脈絡。代理人工作流程將大型任務分解為更小的模型呼叫，但錯誤會在各步驟間累積，編排邏輯變成了人工制定的策略，且上下文在呼叫之間被反覆壓縮。最終，這些系統的人為策劃使它們受限於「苦澀的教訓」，降低了它們的泛化能力。

業界的回應一直是在模型周圍構建腳手架。SSA 則試圖從根本上消除這些腳手架存在的必要性。

密集注意力的成本

注意力是內建於模型中的一種檢索操作。每個詞元作為一個查詢，將自身與所有其他詞元進行比較，評分它們的相關性，並將它們的資訊聚合到自身的下一個表徵中。

這個機制之所以強大，是因為它讓每個詞元都能存取完整的上下文。它也因為同樣的原因而代價高昂：每個查詢都與每個鍵進行比對。結果就是一種全對全的計算，其成本隨著序列長度呈平方增長。

在小上下文規模下，這還能忍受。但在現實世界問題所需的規模下——數十萬到數百萬個詞元——它就變成了主要瓶頸。上下文加倍，成本並非加倍，而是變成四倍。原本可管理的狀態，在訓練、服務和迭代上很快就變得令人望之卻步。

更糟的是，這些計算大多無關緊要。在已訓練的模型中，絕大多數的注意力權重都趨近於零。模型仍然執行完整的比較，但只有一小部分互動會對輸出產生意義上的影響。密集注意力不只是平方級的，它是浪費的平方級。

FlashAttention 改善了此計算的執行方式。透過避免實體化完整的注意力矩陣並最佳化記憶體搬移，它在當今的上下文長度下讓密集注意力變得實用許多。但它並未改變底層的擴展性。比較的次數保持不變。模型仍然執行平方級的工作；它只是更有效率地執行這項工作。

同樣的模式也適用於系統層級的變通方案。檢索管線、上下文壓縮、遞迴分解和代理人編排，都讓密集注意力系統變得更可用。它們都沒有改變擴展法則。它們繞過了限制，但平方級成本依然是它們試圖繞過的邊界。

先前的效率架構捨棄了什麼

這個領域花了數年時間試圖讓注意力更便宜。困難點不在於降低成本，而在於不破壞檢索能力的前提下降低成本。

每種先前的做法都在某處做出了取捨。

固定模式的稀疏注意力透過限制詞元可以關注的位置來減少計算量。滑動視窗、跨步模式和空洞遮罩將搜尋空間縮小到足以實現次平方級擴展。但路由決策是預先根據位置而非內容決定的。模型在知道自己在找什麼之前，就先決定了要去哪裡找。當相關資訊落在模式之外時，它就完全看不到了。

狀態空間模型和遞迴替代方案採取了不同的方法。它們完全移除了全對全的比較，取而代之的是一個隨著序列演進的壓縮狀態。這在建構上就實現了線性擴展。但它也引入了一個限制：狀態的容量是固定的。隨著序列增長，資訊必須被摘要、模糊化或捨棄。這些模型保留了主旨和結構。但它們在檢索序列中很久以前引入的特定事實時表現較弱，因為那個事實可能已不復存在於可恢復的形式中。

混合架構結合了這兩種想法。效率層承擔了大部分計算，同時保留密集注意力層以維持檢索能力。這在實務上行得通，但並未改變底層的擴展行為。密集層仍然是關鍵的負載承擔者。隨著上下文增長，其平方級成本會占據主導地位，模型便停留在它本應脫離的機制中。其效益是線性的。

DeepSeek 稀疏注意力是一種較新的稀疏方法。它將注意力的平方級成本轉移到一個閃電索引器上，該索引器為每個查詢選擇要關注哪些鍵。索引器本身是平方級的。它對每個查詢與每個鍵進行評分，常數較小，但卻是同樣的 O(n²) 擴展，這正是該架構本應避免的。複雜度只是被轉移了，而非被移除了。

模式是一致的。固定稀疏性藉由放棄內容相依的路由來達成效率。遞迴模型藉由放棄精確檢索來達成效率。混合模型則透過重新引入密集注意力及其原始成本來恢復能力。DeepSeek 稀疏注意力以平方級擴展，在超大規模下變得成本過高。

待解決的問題並非「讓注意力變快」。更精確地說是：建立一個有效率、內容相依，且能從長上下文中的任意位置進行檢索的機制。

這正是 SSA 被設計來扮演的角色。

SSA 如何運作

SSA——次平方選擇性注意力——改變了注意力工作的分配方式。

核心概念是內容相依的選擇。對於每個查詢，模型會選擇序列中哪些部分值得關注，並在這些位置上精確計算注意力。

密集注意力假設每一對都可能很重要，因此對所有對進行評估。實際上，幾乎沒有。大多數成對互動都帶有可忽略的訊號，但模型仍然付出了完整的平方級成本來計算它們。SSA 移除了那個假設。它不近似注意力，而是將注意力限制在實際帶有訊號的位置上，並跳過其餘部分。

這賦予了 SSA 三個重要的特性：

計算和記憶體的線性擴展。注意力成本隨著所選位置的數量而增長，而非整個序列，使得長上下文在經濟上變得可用。
內容相依的路由。模型根據含義而非位置來決定要關注哪裡。相關資訊無論出現在何處都能被檢索。
從任意位置進行稀疏檢索。與遞迴或壓縮方法不同，SSA 保留了恢復序列中較早引入的特定資訊的能力。

務實的區別很重要。SSA 不只是密集注意力的一種更快的實作。它減少了模型執行的注意力工作量。而這種減少正是體現在速度上的原因。

以實際的輸入處理時間來衡量，在 B200 上使用 FlashAttention-2 處理 128K 詞元時，SSA 相較於標準注意力實現了 7.2 倍的輸入處理加速。FlashAttention-3 在 B200 上相較於 FlashAttention-2 並未產生加速。在 256K 時，提升到 13.2 倍。在 512K 時，為 23.0 倍。在 1M 詞元時，達到 52.2 倍。

上下文長度	SSA 相較於 B200 上 Flash Attention 的速度提升
128K	7.2 倍
256K	13.2 倍
512K	23.0 倍
1M	52.2 倍

這就是對生產至關重要的吞吐量逆轉。隨著上下文增長，密集注意力相對於 SSA 變得更慢。SSA 正是在長上下文工作負載變得最有價值的地方，變得更有優勢。

為長上下文行為訓練 SSA

架構是必要的，但還不夠。一個模型可能擁有長上下文視窗，卻仍然無法善用它。SSA 的訓練目標是讓長上下文的使用變得可靠，而不僅僅是可能。

我們採用了三階段的訓練流程：

預訓練建立基礎的語言建模能力，以及選擇機制所使用的長上下文表徵。
監督式微調將行為塑造成企業工作負載所需的指令遵循、結構化推理和程式碼生成模式。
強化學習針對僅透過監督式範例最難誘導的行為：可靠的長上下文檢索，以及積極使用可用上下文而非預設為局部推理的程式開發行為。

最後一個階段至關重要。長上下文的失敗往往看起來很合理。模型可能會從鄰近的上下文中尋找答案，因為鄰近的證據更容易使用，即使決定性的證據出現在序列中更早的地方。它可能會產生一個在局部正確，但違反了其他地方定義的介面的程式碼修補。它可能會摘要先前的決策，而不是保留應該支配後續步驟的精確約束。SSA 的強化學習階段正是針對這些失敗模式設計的。

訓練資料強調具有高資訊密度和交叉引用結構的長篇來源。正是這種資料迫使選擇機制學習跨越長距離位置的 routing。目標不是基準測試的背誦，而是教導模型關注重要的內容，無論其位於何處。

訓練基礎設施：使百萬詞元實驗成為可能

長上下文訓練不僅僅是一個建模問題，更是一個只在大規模下才會顯現的系統問題。

在百萬詞元的序列長度下，較短上下文時不可見的失敗模式變得具有約束力：記憶體壓力、跨裝置的序列分割、梯度不穩定、數值精度以及核心效率。這些並非邊緣案例，它們是決定訓練能否運行的約束條件。

該系統在 1M 詞元及更長的長度下穩定訓練，在整個訓練管線中維持線性記憶體擴展，並在序列超出單一裝置限制時，使用分散式序列平行處理將序列分片到多個裝置上。

其結果不僅是讓長上下文訓練變得可能，更是讓它變得可迭代。

在密集注意力下，長上下文實驗的昂貴程度足以讓它們被視為保留運行。藉助 SSA 的線性擴展，它們變成了常規操作。開發迴圈改變了：更多的消融實驗、更多的評估、更快的回饋，以及對長上下文中真正重要的行為進行針對性修正。

這就是更深層的含義。SSA 不僅降低了推論的成本，它還降低了學習長上下文行為本身的成本。

評估功能性上下文，而非名義上下文

一個宣傳的上下文視窗並不能告訴你模型能使用多少上下文。問題在於模型能否檢索、連結並推理散布在該視窗中的證據。

我們從兩個軸向來評估 SubQ：

部署可行性：計算量減少和實際處理時間。
檢索能力：RULER 和 MRCR v2。

更多通用基準測試將在模型卡中發布（即將推出）。

大海撈針測試的是對單一目標的精確檢索。

RULER 則將其擴展到多跳檢索、聚合、變數追蹤和選擇性過濾。

MRCR v2 更進一步：模型必須定位並整合散布在上下文中多個證據片段，而相關的集合並未事先給定。

這更接近真實工作的樣貌。找到一個事實是不夠的。模型必須判斷哪些證據片段是重要的，並將它們組合成一個連貫的答案。

結果

計算與速度

SSA 的線性擴展意味著上下文長度加倍，注意力的計算成本也加倍，而非變成四倍。在 1M 詞元時，我們觀察到相較於標準平方級注意力，注意力浮點運算次數減少了 62.5 倍。

上下文長度	相較於標準注意力的 FLOP 減少
128K	8 倍
1M	62.5 倍

實際的處理速度是與產品更相關的結果。在 1M 詞元時，SSA 相較於密集注意力實現了 52.2 倍的預填充加速。這就是一個行為像互動式工具的長上下文系統，和一個感覺像離線批次作業的系統之間的差異。

上下文長度	輸入處理速度提升
128K	7.2 倍
256K	13.2 倍
512K	23.0 倍
1M	52.2 倍

RULER

RULER 測試的是超越簡單大海撈針的檢索和推理行為，包括多跳檢索、聚合、變數追蹤和選擇性過濾。

模型	RULER @ 128K
SSA / SubQ	95.0%
Opus 4.6	94.8%

對於企業工作流程而言，這很重要，因為多跳任務會複合錯誤。鏈條早期遺漏的一個引用，可能會污染下游的所有結論。

MRCR v2

MRCR v2 是要求最嚴格的檢索基準測試。它評估的是在長上下文中定位並整合多個非相鄰證據片段的能力。

模型	MRCR v2 分數
SSA / SubQ	65.9%
Gemini 3.1 Pro	26.3%
Opus 4.6	78.3%
Opus 4.7	32.2%
GPT 5.4	36.6%
GPT 5.5	74.0%

SubQ 得分 65.9%，穩健地落在 Opus 4.6 的 78% 範圍內，且領先於 GPT 5.4 的 39% 和 Gemini 3.1 Pro 的 23%。

這個結果是區分名義上下文與功能性上下文之間差異的最清晰證據。一個模型可能接受長篇輸入，卻仍然無法可靠地對該輸入進行推理。MRCR v2 浮現了這個差距，因為它要求模型檢索並整合證據，而不僅僅是處理詞元。

SWE-Bench Verified

SWE-Bench Verified 在真實的 GitHub 議題上評估端到端的軟體工程能力。它並非一個純粹的檢索基準測試，而是測試模型能否運用程式碼庫理解來定位錯誤、推理實作限制並產生修補程式。

模型	SWE-Bench Verified
SSA / SubQ	81.8%
Gemini 3.1 Pro	80.6%
Opus 4.6	80.8%
Opus 4.7	87.6%
GPT 5.4	未報告
GPT 5.5	未報告