一篇論文，把儲存股打了下去

BTCC / BTCC Square / TechFlowPost /

一篇論文，把儲存股打了下去

立即建立BTCC帳戶，輕鬆買賣加密貨幣！

Author:

TechFlowPost

Published:

2026-03-26 01:24:20

作者：深潮 TechFlow

3 月 25 日，美股科技股普漲，那斯達克 100 指數飄紅，但有一類股票在逆勢流血：

閃迪收跌 3.50%，Micron 跌 3.4%，希捷跌 2.59%，西部數據跌 3.4%，希捷跌 2.59%，西部數據跌 3.4%，希捷跌 2.59%，西部數據跌 3.4%，希捷跌 2.59%，西部數據跌 3.4%，希捷跌 2.59%，西部數據跌 3.63%。整個儲存板塊像在一場派對上突然被人拉了電閘。

兇手是一篇論文，或者更準確地說，是 Google Research 對一篇論文的正式推廣。

這篇論文到底做了什麼

理解這件事，需要先搞清楚一個 AI 基礎設施裡鮮被外界關注的概念：。

當你跟一個大語言模型對話，模型不會每次都從零開始理解你的問題。它會把整段對話的上下文，以一種叫做"鍵值對"（Key-Value Pair）的格式存在內存裡，這就是 KV Cache，模型的短期工作記憶。

問題在於，KV Cache 的大小與上下文視窗的長度成正比增長。當上下文視窗達到百萬 token 量級時，KV Cache 消耗的 GPU 記憶體甚至可能超過模型本身的權重。對於一個同時服務大量用戶的推理集群而言，這是真實的、每天都在燒錢的基礎設施瓶頸。

這篇論文的原始版本，最早出現在 2025 年 4 月的 arXiv 上，將在 ICLR 2026 正式發表。 Google Research 將其命名為 TurboQuant，一個將 KV Cache 壓縮至 3 位元、記憶體減少至少 6 倍的無損量化演算法，無需任何訓練或微調，開箱即用。

具體的技術路徑是兩步走：

它不使用標準的笛卡爾坐標系來表徵向量，而是將向量轉換為極坐標——由"半徑"和一組"角度"構成——從而從根本上簡化了高維空間的幾何複雜性，使後續量化可以在更低的失真率下完成。

在 PolarQuant 完成主要壓縮之後，TurboQuant 使用僅 1 位元的 QJL 變換，對殘餘誤差進行無偏校正，從而保證內積估計的精確性——這對 Transformer 注意力機制的正確運作至關重要。

結果：在涵蓋問答、程式碼產生和摘要任務的 LongBench 基準測試中，TurboQuant 匹配甚至超越了現有最優基線 KIVI 的表現；在"大海撈針"檢索任務上，實現了完美召回率；在 NVIDIA H100 上，4 比特 TurboQuant 對注意力邏輯運算的加速 8 倍邏輯運算的加速 8 倍邏輯運算的加速 8 倍邏輯運算。

傳統量化方法有個原罪：每壓縮一塊數據，都需要額外存儲"量化常數"來記錄如何解壓，這個元數據的開銷往往高達每個數值額外 1 到 2 比特，看起來不多，但在百萬 token 的上下文下，這些 bits 會以令人絕望的速度累積。 TurboQuant 透過 PolarQuant 的幾何旋轉和 QJL 的 1 位元殘差校正，徹底消除了這項額外開銷。

市場為什麼慌了？

結論的直接性讓人很難忽視：一個需要 8 塊 H100 才能服務百萬 token 上下文的模型，理論上只需要 2 塊就夠了。推理服務商可以用同樣的硬體同時處理 6 倍以上的並發長上下文要求。

這對儲存板塊的核心敘事是一刀刺向要害。

過去兩年，Seagate、西部數據、Micron 之所以被 AI 資本熱潮抬上神壇，底層邏輯只有一個：

TurboQuant 的出現，直接挑戰了這個敘事的前提。

富國銀行科技分析師 Andrew Rocha 的評論最為直接：「隨著上下文窗口越來越大，KV Cache 中的資料儲存呈爆炸式增長，對記憶體的需求隨之攀升。TurboQuant 正在直接攻擊這條成本曲線…如果它能被廣泛採用，將從根本上令人質疑的記憶體容量。」

RoIFp>

這件事真正值得爭論的部分

市場的反應是否過激了？答案大機率是：有點。

多位分析師指出，這個 8 倍加速的對比基準，是用新技術與舊的 32 位元非量化系統相比，而非與目前實際部署中已普遍優化的系統比較。真實的提升存在，但不像標題暗示的那樣戲劇性。

TurboQuant 的所有評測，所用模型的參數量最多在 80 億左右。真正讓儲存供應商日夜焦慮的，是 700 億甚至 4000 億參數的超大模型，那裡的 KV Cache 才是真正的天文數字。 TurboQuant 在這些量級上的表現，目前仍是未知數。

截至目前，TurboQuant 不在 vLLM、llama.cpp、Ollama 和任何主流推理框架中。是社群開發者自己從論文數學推導中復現了早期實現，一個早期復現者明確指出，QJL 的誤差校正模組如果實現不當，輸出會直接變成亂碼。

這是 2025 年 DeepSeek 時刻留下的集體肌肉記憶在發揮作用。那次事件教會了整個市場一個殘酷的教訓：

況且，這次的訊號來自 Google Research，不是一家名不見經傳的大學實驗室，這家公司有足夠的工程能力將論文轉化為生產級工具，而且它本身就是全球最大的 AI 推理消費者之一。一旦 TurboQuant 在內部落地，Waymo、Gemini、Google Search 的伺服器採購邏輯就會悄悄改變。