開啟存儲下一個大機會！韓媒詳解黃仁勳“神秘推理上下文內存平台”

BTCC / BTCC Square / 528BTC /

Author:

Published:

2026-01-25 12:40:00

在1月5日的2026年國際消費電子展(CES)上,英偉達首席執行官黃仁勳發布了名為“推理上下文內存平台”(ICMS)的全新硬件,旨在解決人工智能推理階段爆炸式增長的數據存儲需求。此舉標誌著AI硬件架構的重心正從單純的算力堆疊向高效的上下文存儲轉移,

《韓國經濟日報》在1月24日的文章中介紹,黃仁勳在演講中展示了一個被稱為“推理上下文內存平台”(Inference Context Memory PlatFORM,簡稱ICMS)的神秘黑色機架。這並非普通的硬件更新,而是一個旨在解決人工智能推理階段數據瓶頸的關鍵創新。記者敏銳地捕捉到,這可能是繼HBM(高帶寬內存)之後,存儲行業的下一個爆發點。

這一平台的核心邏輯在於解決AI推理中的“KV緩存”(鍵值緩存)問題。隨著AI從單純的學習階段轉向大規模推理應用,數據量呈爆炸式增長,現有的GPU顯存和服務器內存架構已難以滿足需求。英偉達通過引入全新的數據處理單元(DPU)和海量SSD(固態硬盤),構建了一個龐大的緩存池,試圖打破這一物理限制。

這一技術變革對於韓國存儲巨頭三星電子和SK海力士來說,無疑是一個巨大的利好消息。報導認為,隨著ICMS的推廣,NAND閃存將迎來類似HBM的“黃金時代”。這不僅意味著存儲容量需求的激增,更預示著存儲架構的根本性變革——GPU將可能繞過CPU,直接與存儲設備進行高速通信。

KV緩存爆炸式增長引發存儲焦慮

韓媒文章指出,黃仁勳引入ICMS技術的。例如,當用戶向AI詢問關於G-Dragon的複雜主觀問題時,AI需要調用模型內部數據和歷史對話上下文(即KV緩存)進行權重分配和推理,以避免重複計算和幻覺。

隨著AI從單純的學習轉向推理,以及應用場景向多模態擴展,所需處理的數據量呈現不規則且爆炸式的增長。英偉達發現,僅靠昂貴的HBM或常規DRAM已無法容納海量的KV緩存,而現有的服務器內部存儲架構在應對未來推理時代時顯得捉襟見肘。因此,一種能承載海量數據且保持高效訪問的專用存儲平台成為剛需。

DPU驅動的9600TB巨量空間

據韓媒文章,ICMS平台的核心在於將DPU與超大容量SSD相結合。文章轉述英偉達介紹,該平台採用了新的“BlueField-4”DPU,充當數據傳輸的“行政後勤官”,以減輕CPU負擔。一個標準的ICMS機架包含16個SSD托架,每個托架配備4個DPU並管理600TB的SSD,使得單個機架的總容量達到驚人的9600TB。

這一容量遠超傳統GPU機架。相比之下,一套包含8個機架的VerARubin GPU平台,其SSD總容量約為4423.68TB。黃仁勳表示,通過ICMS平台,虛擬層面上將GPU的可用內存容量從以前的1TB提升到了16TB。同時,借助BlueField-4的性能提升,該平台實現了每秒200GB的KV緩存傳輸速度,有效解決了大容量SSD在網絡傳輸中的瓶頸問題。

開啟NAND閃存黃金時代

文章指出,ICMS平台主要利用的是SSD,這直接利好NAND閃存製造商。過去幾年,雖然AI火熱,但鎂光燈主要集中在HBM上,NAND閃存和SSD並沒有受到同等程度的關注。

英偉達將該平台定位為介於服務器內部本地SSD和外部存儲之間的“第3.5層”存儲。與昂貴且耗電的DRAM相比,由高性能DPU管理的SSD具備大容量、速度快且斷電不丟失數據的優勢,成為存儲KV緩存的理想選擇。

由於ICMS對存儲密度的極高要求,市場對企業級SSD和NAND閃存的需求將大幅攀升。此外,英偉達正在推進“Storage Next”(SCADA)計劃,旨在讓GPU繞過CPU直接訪問NAND閃存,進一步消除數據傳輸瓶頸。

SK海力士已迅速響應這一趨勢。據報導,SK海力士副總裁金天成透露,公司正與英偉達合作開發名為“AI-N P”的原型產品,計劃利用PCIe Gen 6接口,在今年年底推出支持2500萬IOPS(每秒讀寫次數)的存儲產品,並預計到2027年底將性能提升至1億IOPS。隨著各大廠商加速佈局,NAND閃存和SSD有望在AI推理時代迎來量價齊升的新周期。

以下是韓媒文章全文,由AI翻譯:

英偉達首席執行官黃仁勳在2026年國際消費電子展(CES)上發布了一個神秘的內存平台:“推理上下文內存平台”。今天,《科技與城市》欄目將深入探討它究竟是什麼。

關鍵詞:KV緩存

在5日(當地時間)於拉斯維加斯舉行的NVIDIA Live大會上,NVIDIA首席執行官黃仁勳在演講結尾談到了內存平台。我不禁豎起了耳朵。這會是下一個HBM嗎?

今日之星:黑色機架式 NVIDIA ICMS(推理上下文內存存儲)。圖片來源:NVIDIA

首席執行官黃仁勳指著的是VeraRubin人工智能計算平台一角的一個黑色機架。這個機架,也就是我們今天故事的主角,裡面存放著海量的存儲空間。

首先,讓我解釋一下黃仁勳引入這項技術的原因。我們應該從“KV緩存”說起,黃仁勳CEO在官方場合經常提到它。讀者朋友們,你們可能在最近關於GPU和AI硬件的文章中已經多次聽到過KV緩存這個名字。

這個關鍵詞在AI推理時代至關重要。它關乎AI理解對話上下文和高效計算的能力。我們舉個簡單的例子。假設你打開OpENAI的ChatGPT或Google Gemini,問一個關於韓國流行歌手G-Dragon的問題。

如果用戶問的是G-Dragon的音樂、時尚或事業等客觀信息,AI可以根據它學習到的信息回答。但是,聊了一會兒之後,用戶突然問:“那他為什麼會成為他那個時代的‘偶像’呢?”這就好比問了一個沒有明確答案的論述題。這時,AI就開始推理了。

這就是KV緩存的關鍵所在:鍵和值。首先是鍵。我們很容易理解,但人工智能使用鍵向量來清晰地識別對話上下文中問題中的“那個人”是誰,以及答案的主題和目標(鍵)。然後,它會利用模型內部關於G-Dragon以及在與用戶對話過程中收集到的各種數據(值)的中間計算結果,進行權重分配、推理,最終得出答案。

如果沒有KV緩存,如果每個問題都像第一次一樣重新計算,GPU將重複兩到三次工作,從而降低效率。這可能導致人工智能出現幻覺和錯誤答案。然而,KV緩存可以提高效率。基於“注意力計算”的推理,會重用從與用戶的長時間對話中獲得的各種數據並應用權重,速度更快,對話也更加自然。

圖片由 NVIDIA 提供

隨著人工智能行業從學習向推理轉型,這種鍵值緩存不再僅僅是輔助存儲器。此外,所需的容量也在不斷增加。

首先,隨著越來越多的人將生成式人工智能融入日常生活,數據量的不規則激增不可避免。隨著圖像和視頻服務的加入,對人工智能高級推理和想像力的需求將進一步增長,數據量還將呈爆炸式增長。

隨著人工智能發現新信息的能力不斷提升,它會在與用戶的互動過程中,在各種場景下創建大量有用的鍵值緩存(KV緩存)。

面對鍵值緩存的爆炸式增長,NVIDIA 也對 GPU 流量進行了管理。他們將 GPU 分為兩類:一類是大量生成鍵值緩存的 GPU,另一類是使用鍵值緩存的 GPU。然而,存儲空間不足以存儲所有這些緩存。

當然,服務器內部的內存容量很大。 GPU旁邊是HBM內存→如果不夠用,就用DRAM模塊→如果實在不行,甚至會在服務器內部使用SSD固態硬盤。然而,CEO黃仁勳似乎已經意識到,這種架構在未來的推理時代將難以駕馭。因此,他在CES上發布了這款黑盒子。

NVIDIA CEO 黃仁勳在 CES 2026 上推出 ICMS。圖片由 NVIDIA YouTube 提供。

DPU + 超大容量 SSD = KV 緩存存儲專用團隊

這台黑色服務器是“推理上下文內存平台”,簡稱ICMS。讓我們仔細看看它的規格。

首先,驅動ICMS的設備是DPU,即數據處理單元。讀者可能對GPU和CPU比較熟悉,但服務器的隱藏動力源——DPU也值得一看。

NVIDIA首席執行官黃仁勳發布了BlueField-4 DPU。圖片由NVIDIA提供。

DPU(數據處理單元)就像軍隊中的行政後勤官。如果說CPU是連長,那麼GPU就是計算突擊隊員。 DPU負責彈藥和食物的運送,甚至處理通信和移動,使CPU能夠做出適當的決策,而GPU則專注於攻擊。 NVIDIA的新型DPU“Bluefield-4”被賦予了一項新任務:ICMS。現在,讓我們仔細看看ICMS平台。這個機架總共包含16個SSD托架。

圖片來源:NVIDIA

每個托架配備四個 DPU,每個 DPU 管理 150TB 的 SSD。這意味著一個托架總共有 600TB 的緩存 SSD。

這是一個相當大的存儲容量。我們來比較一下。假設在 Blackwell GPU 服務器中,為了最大化 KV 緩存,我們在 SSD 放置區域安裝了八個 3.84TB 的通用緩存 SSD。這樣每台服務器就有 30.72TB 的 SSD,這意味著一個包含 18 台服務器的 GPU 機架的總 SSD 容量為 552.96TB。

也就是說,單個 ICMS 托架的緩存 SSD 容量可以超過一個 GPU“機架”所能容納的容量。一個機架中的 SSD 總數為 600TB x 16,即 9600TB。這比一套完整的 VeraRubin 8 個 GPU 機架(4423.68TB,552.96 x 8)的 SSD 容量高出一倍多。

圖片由 NVIDIA 提供

黃仁勳在CES演講中表示:“以前GPU的內存容量為1TB,但通過這個平台,我們獲得了16TB的存儲容量。”

仔細想想,他的話似乎相當準確。一個完整的VeraRubin平台由八個GPU機架組成。每個機架有72個GPU,共計576張存儲卡。將ICMS的總容量9600TB除以576張存儲卡,得出約16.7TB。

雖然人們仍然擔心服務器的物理距離和SSD的傳輸速度,但BlueField 4性能的提升緩解了這些問題。黃仁勳解釋說:“我們實現了與之前相同的每秒200GB的KV緩存傳輸速度。”

此外,現有的GPU服務器存在網絡瓶頸,限制了7.68TB和15.36TB等大容量SSD的充分利用。這項基於DPU的網絡改進似乎正是為了解決這些問題。

被視為“零”的NAND閃存的黃金時代即將到來嗎?

圖片由 NVIDIA 提供

NVIDIA 將此平台劃分為 3.5 個內存組。第一組是 HBM,第二組是 DRAM 模塊,第三組是服務器內部的本地 SSD,第四組是服務器外部的存儲。 ICMS深入研究了介於第三組和第四組之間的神秘領域。與昂貴或耗電的 DRAM 不同,SSD 比硬盤速度更快、容量更大,即使斷電也不會丟失數據(這得益於高性能 DPU),使其成為理想之選。

該平台顯然為三星電子和 SK 海力士提供了巨大的商機。僅一個機架就能增加 9,600 TB 的容量,這意味著他們可以銷售比現有 NVIDIA 機架多數倍的 NAND 閃存,而且這僅僅是按位計算。此外,這款產品的開發商是 NVIDIA,一家全球所有人工智能公司都夢寐以求的公司,因此商機更加巨大。

三星電子的服務器固態硬盤。即使人工智能時代已經到來,NAND閃存和固態硬盤的價格一直滯後,預計今年第一季度將出現大幅上漲。圖片由三星電子提供。

過去三年,儘管人工智能市場發展迅猛,但NAND閃存和固態硬盤(SSD)並未受到太多關注。這主要是因為與在NAND閃存發展中發揮關鍵作用的HBM相比,它們的利用率較低。 NVIDIA正從ICMS項目入手,籌備一個旨在進一步提升SSD利用率的項目。該項目是“Storage Next”(也稱為SCADA,即Scaled Accelerated Data Access,規模化加速數據訪問)計劃的一部分。目前,執行AI計算的GPU將直接訪問NAND閃存(SSD)來獲取各種數據,而無需經過CPU等控制單元。這是一個旨在消除GPU和SSD之間瓶頸的大膽設想。 SK海力士也已正式宣布正在開發AI-N P,以順應這一趨勢。 SK海力士副總裁金天成表示:“SK海力士正與NVIDIA積極開展名為‘AI-N P’的初步實驗(PoC)。”

他解釋說:“基於PCIe Gen 6、支持2500萬IOPS(每秒輸入/輸出操作數)的存儲原型產品有望在今年年底發布。”他還表示:“到2027年底,我們將能夠生產出支持高達1億IOPS的產品。”2500萬IOPS是目前固態硬盤速度的10倍以上。

來源:

前一篇

<< Aster股價上漲5%：趙長鵬的持股如何“消除”了市場對操縱市場的擔憂 >>