BTCC / BTCC Square / TechFlowPost /
一篇論文,把儲存股打了下去

一篇論文,把儲存股打了下去

Published:
2026-03-26 01:24:20

作者:深潮 TechFlow

3 月 25 日,美股科技股普漲,那斯達克 100 指數飄紅,但有一類股票在逆勢流血:

閃迪收跌 3.50%,Micron 跌 3.4%,希捷跌 2.59%,西部數據跌 3.4%,希捷跌 2.59%,西部數據跌 3.4%,希捷跌 2.59%,西部數據跌 3.4%,希捷跌 2.59%,西部數據跌 3.4%,希捷跌 2.59%,西部數據跌 3.63%。 整個儲存板塊像在一場派對上突然被人拉了電閘。

兇手是一篇論文,或者更準確地說,是 Google Research 對一篇論文的正式推廣。

這篇論文到底做了什麼

理解這件事,需要先搞清楚一個 AI 基礎設施裡鮮被外界關注的概念:。

當你跟一個大語言模型對話,模型不會每次都從零開始理解你的問題。 它會把整段對話的上下文,以一種叫做"鍵值對"(Key-Value Pair)的格式存在內存裡,這就是 KV Cache,模型的短期工作記憶。

問題在於,KV Cache 的大小與上下文視窗的長度成正比增長。 當上下文視窗達到百萬 token 量級時,KV Cache 消耗的 GPU 記憶體甚至可能超過模型本身的權重。 對於一個同時服務大量用戶的推理集群而言,這是真實的、每天都在燒錢的基礎設施瓶頸。

這篇論文的原始版本,最早出現在 2025 年 4 月的 arXiv 上,將在 ICLR 2026 正式發表。 Google Research 將其命名為 TurboQuant,一個將 KV Cache 壓縮至 3 位元、記憶體減少至少 6 倍的無損量化演算法,無需任何訓練或微調,開箱即用。

具體的技術路徑是兩步走:

它不使用標準的笛卡爾坐標系來表徵向量,而是將向量轉換為極坐標——由"半徑"和一組"角度"構成——從而從根本上簡化了高維空間的幾何複雜性,使後續量化可以在更低的失真率下完成。

在 PolarQuant 完成主要壓縮之後,TurboQuant 使用僅 1 位元的 QJL 變換,對殘餘誤差進行無偏校正,從而保證內積估計的精確性——這對 Transformer 注意力機制的正確運作至關重要。

結果:在涵蓋問答、程式碼產生和摘要任務的 LongBench 基準測試中,TurboQuant 匹配甚至超越了現有最優基線 KIVI 的表現;在"大海撈針"檢索任務上,實現了完美召回率;在 NVIDIA H100 上,4 比特 TurboQuant 對注意力邏輯運算的加速 8 倍邏輯運算的加速 8 倍邏輯運算的加速 8 倍邏輯運算。

傳統量化方法有個原罪:每壓縮一塊數據,都需要額外存儲"量化常數"來記錄如何解壓,這個元數據的開銷往往高達每個數值額外 1 到 2 比特,看起來不多,但在百萬 token 的上下文下,這些 bits 會以令人絕望的速度累積。 TurboQuant 透過 PolarQuant 的幾何旋轉和 QJL 的 1 位元殘差校正,徹底消除了這項額外開銷。

市場為什麼慌了?

結論的直接性讓人很難忽視:一個需要 8 塊 H100 才能服務百萬 token 上下文的模型,理論上只需要 2 塊就夠了。 推理服務商可以用同樣的硬體同時處理 6 倍以上的並發長上下文要求。

這對儲存板塊的核心敘事是一刀刺向要害。

過去兩年,Seagate、西部數據、Micron 之所以被 AI 資本熱潮抬上神壇,底層邏輯只有一個:

TurboQuant 的出現,直接挑戰了這個敘事的前提。

富國銀行科技分析師 Andrew Rocha 的評論最為直接:「隨著上下文窗口越來越大,KV Cache 中的資料儲存呈爆炸式增長,對記憶體的需求隨之攀升。TurboQuant 正在直接攻擊這條成本曲線…如果它能被廣泛採用,將從根本上令人質疑的記憶體容量。」

RoIFp>

這件事真正值得爭論的部分

市場的反應是否過激了? 答案大機率是:有點。

多位分析師指出,這個 8 倍加速的對比基準,是用新技術與舊的 32 位元非量化系統相比,而非與目前實際部署中已普遍優化的系統比較。 真實的提升存在,但不像標題暗示的那樣戲劇性。

TurboQuant 的所有評測,所用模型的參數量最多在 80 億左右。 真正讓儲存供應商日夜焦慮的,是 700 億甚至 4000 億參數的超大模型,那裡的 KV Cache 才是真正的天文數字。 TurboQuant 在這些量級上的表現,目前仍是未知數。

截至目前,TurboQuant 不在 vLLM、llama.cpp、Ollama 和任何主流推理框架中。 是社群開發者自己從論文數學推導中復現了早期實現,一個早期復現者明確指出,QJL 的誤差校正模組如果實現不當,輸出會直接變成亂碼。

這是 2025 年 DeepSeek 時刻留下的集體肌肉記憶在發揮作用。 那次事件教會了整個市場一個殘酷的教訓:

況且,這次的訊號來自 Google Research,不是一家名不見經傳的大學實驗室,這家公司有足夠的工程能力將論文轉化為生產級工具,而且它本身就是全球最大的 AI 推理消費者之一。 一旦 TurboQuant 在內部落地,Waymo、Gemini、Google Search 的伺服器採購邏輯就會悄悄改變。

歷史反覆上演的那個劇本

這裡有一個經典爭論,值得認真對待:。

19 世紀經濟學家傑文斯發現,蒸汽機效率的提升,非但沒有減少英國的煤炭消耗,反而導致消耗大幅增加——因為效率提升降低了使用成本,反而刺激了更大規模的應用。

支持者的邏輯是:如果 Google 讓一個模型能在 16GB 顯存上運行,開發者不會就此收手,他們會用省下來的算力去運行 6 倍複雜的模型,處理更大的多模態數據,支持更長的上下文。 軟體效率最終解鎖的,是那些先前因成本過高而根本無法觸及的需求層。

但這個反駁有個前提:市場需要時間消化和重新擴張。 在 TurboQuant 從論文變成生產工具、從生產工具變成行業標準的這段時間裡,硬體需求的擴張能否足夠快地填補效率帶來的"缺口"?

沒有人知道答案。 市場正在為這個不確定性定價。

這件事對 AI 產業的真正意義

比儲存股的漲跌更值得關注的,是 TurboQuant 揭示的一個更深層趨勢。

AI 軍備競賽的主戰場,正從"堆算力"遷移到"極致效率"。

TurboQuant 如果能在大規模模型上證明自己的性能承諾,將帶來一個根本性的轉變:長上下文推理從"只有頂級實驗室才負擔得起的奢侈品",變成默認的行業標準。

而這場效率競賽的賽點,恰恰也是 Google 最擅長的領域,數學上近乎最優的壓縮演算法,底層是 Shannon 資訊理論的極限追逐,而不是暴力的工程堆砌。 TurboQuant 的理論失真率,只比資訊理論下界高約 2.7 倍的常數因子。

這意味著,類似的突破未來不會只有一個。 它代表的是一整條研究路徑正在成熟。

對儲存產業而言,更清醒的問題或許不是“這次會不會影響需求”,而是:

目前的答案是:還很寬,但沒有寬到可以對這類訊號置之不理的程度。

|Square

下載BTCC APP,您的加密之旅從這啟程

立即行動 掃描 加入我們的 100M+ 用戶行列