開啟存儲下一個大機會! 韓媒詳解黃仁勳“神秘推理上下文內存平台”
在1月5日的2026年國際消費電子展(CES)上,英偉達首席執行官黃仁勳發布了名為“推理上下文內存平台”(ICMS)的全新硬件,旨在解決人工智能推理階段爆炸式增長的數據存儲需求。 此舉標誌著AI硬件架構的重心正從單純的算力堆疊向高效的上下文存儲轉移,
《韓國經濟日報》在1月24日的文章中介紹,黃仁勳在演講中展示了一個被稱為“推理上下文內存平台”(Inference Context Memory PlatFORM,簡稱ICMS)的神秘黑色機架。 這並非普通的硬件更新,而是一個旨在解決人工智能推理階段數據瓶頸的關鍵創新。 記者敏銳地捕捉到,這可能是繼HBM(高帶寬內存)之後,存儲行業的下一個爆發點。
這一平台的核心邏輯在於解決AI推理中的“KV緩存”(鍵值緩存)問題。 隨著AI從單純的學習階段轉向大規模推理應用,數據量呈爆炸式增長,現有的GPU顯存和服務器內存架構已難以滿足需求。 英偉達通過引入全新的數據處理單元(DPU)和海量SSD(固態硬盤),構建了一個龐大的緩存池,試圖打破這一物理限制。
這一技術變革對於韓國存儲巨頭三星電子和SK海力士來說,無疑是一個巨大的利好消息。 報導認為,隨著ICMS的推廣,NAND閃存將迎來類似HBM的“黃金時代”。 這不僅意味著存儲容量需求的激增,更預示著存儲架構的根本性變革——GPU將可能繞過CPU,直接與存儲設備進行高速通信。
KV緩存爆炸式增長引發存儲焦慮
韓媒文章指出,黃仁勳引入ICMS技術的。例如,當用戶向AI詢問關於G-Dragon的複雜主觀問題時,AI需要調用模型內部數據和歷史對話上下文(即KV緩存)進行權重分配和推理,以避免重複計算和幻覺。
隨著AI從單純的學習轉向推理,以及應用場景向多模態擴展,所需處理的數據量呈現不規則且爆炸式的增長。 英偉達發現,僅靠昂貴的HBM或常規DRAM已無法容納海量的KV緩存,而現有的服務器內部存儲架構在應對未來推理時代時顯得捉襟見肘。 因此,一種能承載海量數據且保持高效訪問的專用存儲平台成為剛需。
DPU驅動的9600TB巨量空間
據韓媒文章,ICMS平台的核心在於將DPU與超大容量SSD相結合。 文章轉述英偉達介紹,該平台採用了新的“BlueField-4”DPU,充當數據傳輸的“行政後勤官”,以減輕CPU負擔。 一個標準的ICMS機架包含16個SSD托架,每個托架配備4個DPU並管理600TB的SSD,使得單個機架的總容量達到驚人的9600TB。
這一容量遠超傳統GPU機架。 相比之下,一套包含8個機架的VerARubin GPU平台,其SSD總容量約為4423.68TB。 黃仁勳表示,通過ICMS平台,虛擬層面上將GPU的可用內存容量從以前的1TB提升到了16TB。 同時,借助BlueField-4的性能提升,該平台實現了每秒200GB的KV緩存傳輸速度,有效解決了大容量SSD在網絡傳輸中的瓶頸問題。
開啟NAND閃存黃金時代
文章指出,ICMS平台主要利用的是SSD,這直接利好NAND閃存製造商。 過去幾年,雖然AI火熱,但鎂光燈主要集中在HBM上,NAND閃存和SSD並沒有受到同等程度的關注。
英偉達將該平台定位為介於服務器內部本地SSD和外部存儲之間的“第3.5層”存儲。 與昂貴且耗電的DRAM相比,由高性能DPU管理的SSD具備大容量、速度快且斷電不丟失數據的優勢,成為存儲KV緩存的理想選擇。
由於ICMS對存儲密度的極高要求,市場對企業級SSD和NAND閃存的需求將大幅攀升。 此外,英偉達正在推進“Storage Next”(SCADA)計劃,旨在讓GPU繞過CPU直接訪問NAND閃存,進一步消除數據傳輸瓶頸。
SK海力士已迅速響應這一趨勢。 據報導,SK海力士副總裁金天成透露,公司正與英偉達合作開發名為“AI-N P”的原型產品,計劃利用PCIe Gen 6接口,在今年年底推出支持2500萬IOPS(每秒讀寫次數)的存儲產品,並預計到2027年底將性能提升至1億IOPS。 隨著各大廠商加速佈局,NAND閃存和SSD有望在AI推理時代迎來量價齊升的新周期。
以下是韓媒文章全文,由AI翻譯:
英偉達首席執行官黃仁勳在2026年國際消費電子展(CES)上發布了一個神秘的內存平台:“推理上下文內存平台”。 今天,《科技與城市》欄目將深入探討它究竟是什麼。
關鍵詞:KV緩存
在5日(當地時間)於拉斯維加斯舉行的NVIDIA Live大會上,NVIDIA首席執行官黃仁勳在演講結尾談到了內存平台。 我不禁豎起了耳朵。 這會是下一個HBM嗎?

今日之星:黑色機架式 NVIDIA ICMS(推理上下文內存存儲)。 圖片來源:NVIDIA
首席執行官黃仁勳指著的是VeraRubin人工智能計算平台一角的一個黑色機架。 這個機架,也就是我們今天故事的主角,裡面存放著海量的存儲空間。
首先,讓我解釋一下黃仁勳引入這項技術的原因。 我們應該從“KV緩存”說起,黃仁勳CEO在官方場合經常提到它。 讀者朋友們,你們可能在最近關於GPU和AI硬件的文章中已經多次聽到過KV緩存這個名字。
這個關鍵詞在AI推理時代至關重要。 它關乎AI理解對話上下文和高效計算的能力。 我們舉個簡單的例子。 假設你打開OpENAI的ChatGPT或Google Gemini,問一個關於韓國流行歌手G-Dragon的問題。
如果用戶問的是G-Dragon的音樂、時尚或事業等客觀信息,AI可以根據它學習到的信息回答。 但是,聊了一會兒之後,用戶突然問:“那他為什麼會成為他那個時代的‘偶像’呢?”這就好比問了一個沒有明確答案的論述題。 這時,AI就開始推理了。
這就是KV緩存的關鍵所在:鍵和值。 首先是鍵。 我們很容易理解,但人工智能使用鍵向量來清晰地識別對話上下文中問題中的“那個人”是誰,以及答案的主題和目標(鍵)。 然後,它會利用模型內部關於G-Dragon以及在與用戶對話過程中收集到的各種數據(值)的中間計算結果,進行權重分配、推理,最終得出答案。
如果沒有KV緩存,如果每個問題都像第一次一樣重新計算,GPU將重複兩到三次工作,從而降低效率。 這可能導致人工智能出現幻覺和錯誤答案。 然而,KV緩存可以提高效率。 基於“注意力計算”的推理,會重用從與用戶的長時間對話中獲得的各種數據並應用權重,速度更快,對話也更加自然。

圖片由 NVIDIA 提供
隨著人工智能行業從學習向推理轉型,這種鍵值緩存不再僅僅是輔助存儲器。 此外,所需的容量也在不斷增加。
首先,隨著越來越多的人將生成式人工智能融入日常生活,數據量的不規則激增不可避免。 隨著圖像和視頻服務的加入,對人工智能高級推理和想像力的需求將進一步增長,數據量還將呈爆炸式增長。
隨著人工智能發現新信息的能力不斷提升,它會在與用戶的互動過程中,在各種場景下創建大量有用的鍵值緩存(KV緩存)。
面對鍵值緩存的爆炸式增長,NVIDIA 也對 GPU 流量進行了管理。 他們將 GPU 分為兩類:一類是大量生成鍵值緩存的 GPU,另一類是使用鍵值緩存的 GPU。 然而,存儲空間不足以存儲所有這些緩存。
當然,服務器內部的內存容量很大。 GPU旁邊是HBM內存→如果不夠用,就用DRAM模塊→如果實在不行,甚至會在服務器內部使用SSD固態硬盤。 然而,CEO黃仁勳似乎已經意識到,這種架構在未來的推理時代將難以駕馭。 因此,他在CES上發布了這款黑盒子。

NVIDIA CEO 黃仁勳在 CES 2026 上推出 ICMS。 圖片由 NVIDIA YouTube 提供。
DPU + 超大容量 SSD = KV 緩存存儲專用團隊
這台黑色服務器是“推理上下文內存平台”,簡稱ICMS。 讓我們仔細看看它的規格。
首先,驅動ICMS的設備是DPU,即數據處理單元。 讀者可能對GPU和CPU比較熟悉,但服務器的隱藏動力源——DPU也值得一看。

NVIDIA首席執行官黃仁勳發布了BlueField-4 DPU。 圖片由NVIDIA提供。
DPU(數據處理單元)就像軍隊中的行政後勤官。 如果說CPU是連長,那麼GPU就是計算突擊隊員。 DPU負責彈藥和食物的運送,甚至處理通信和移動,使CPU能夠做出適當的決策,而GPU則專注於攻擊。 NVIDIA的新型DPU“Bluefield-4”被賦予了一項新任務:ICMS。 現在,讓我們仔細看看ICMS平台。 這個機架總共包含16個SSD托架。

圖片來源:NVIDIA
每個托架配備四個 DPU,每個 DPU 管理 150TB 的 SSD。 這意味著一個托架總共有 600TB 的緩存 SSD。
這是一個相當大的存儲容量。 我們來比較一下。 假設在 Blackwell GPU 服務器中,為了最大化 KV 緩存,我們在 SSD 放置區域安裝了八個 3.84TB 的通用緩存 SSD。 這樣每台服務器就有 30.72TB 的 SSD,這意味著一個包含 18 台服務器的 GPU 機架的總 SSD 容量為 552.96TB。
也就是說,單個 ICMS 托架的緩存 SSD 容量可以超過一個 GPU“機架”所能容納的容量。 一個機架中的 SSD 總數為 600TB x 16,即 9600TB。 這比一套完整的 VeraRubin 8 個 GPU 機架(4423.68TB,552.96 x 8)的 SSD 容量高出一倍多。

圖片由 NVIDIA 提供
黃仁勳在CES演講中表示:“以前GPU的內存容量為1TB,但通過這個平台,我們獲得了16TB的存儲容量。”
仔細想想,他的話似乎相當準確。 一個完整的VeraRubin平台由八個GPU機架組成。 每個機架有72個GPU,共計576張存儲卡。 將ICMS的總容量9600TB除以576張存儲卡,得出約16.7TB。
雖然人們仍然擔心服務器的物理距離和SSD的傳輸速度,但BlueField 4性能的提升緩解了這些問題。 黃仁勳解釋說:“我們實現了與之前相同的每秒200GB的KV緩存傳輸速度。”
此外,現有的GPU服務器存在網絡瓶頸,限制了7.68TB和15.36TB等大容量SSD的充分利用。 這項基於DPU的網絡改進似乎正是為了解決這些問題。
被視為“零”的NAND閃存的黃金時代即將到來嗎?

圖片由 NVIDIA 提供
NVIDIA 將此平台劃分為 3.5 個內存組。 第一組是 HBM,第二組是 DRAM 模塊,第三組是服務器內部的本地 SSD,第四組是服務器外部的存儲。 ICMS深入研究了介於第三組和第四組之間的神秘領域。 與昂貴或耗電的 DRAM 不同,SSD 比硬盤速度更快、容量更大,即使斷電也不會丟失數據(這得益於高性能 DPU),使其成為理想之選。
該平台顯然為三星電子和 SK 海力士提供了巨大的商機。 僅一個機架就能增加 9,600 TB 的容量,這意味著他們可以銷售比現有 NVIDIA 機架多數倍的 NAND 閃存,而且這僅僅是按位計算。 此外,這款產品的開發商是 NVIDIA,一家全球所有人工智能公司都夢寐以求的公司,因此商機更加巨大。

三星電子的服務器固態硬盤。 即使人工智能時代已經到來,NAND閃存和固態硬盤的價格一直滯後,預計今年第一季度將出現大幅上漲。 圖片由三星電子提供。
過去三年,儘管人工智能市場發展迅猛,但NAND閃存和固態硬盤(SSD)並未受到太多關注。 這主要是因為與在NAND閃存發展中發揮關鍵作用的HBM相比,它們的利用率較低。 NVIDIA正從ICMS項目入手,籌備一個旨在進一步提升SSD利用率的項目。 該項目是“Storage Next”(也稱為SCADA,即Scaled Accelerated Data Access,規模化加速數據訪問)計劃的一部分。 目前,執行AI計算的GPU將直接訪問NAND閃存(SSD)來獲取各種數據,而無需經過CPU等控制單元。 這是一個旨在消除GPU和SSD之間瓶頸的大膽設想。 SK海力士也已正式宣布正在開發AI-N P,以順應這一趨勢。 SK海力士副總裁金天成表示:“SK海力士正與NVIDIA積極開展名為‘AI-N P’的初步實驗(PoC)。”
他解釋說:“基於PCIe Gen 6、支持2500萬IOPS(每秒輸入/輸出操作數)的存儲原型產品有望在今年年底發布。”他還表示:“到2027年底,我們將能夠生產出支持高達1億IOPS的產品。”2500萬IOPS是目前固態硬盤速度的10倍以上。