黃仁勳 GTC 演講全文：推理時代到來，2027 營收至少萬億美元，龍蝦就是新作業系統

BTCC / BTCC Square / TechFlowPost /

立即建立BTCC帳戶，輕鬆買賣加密貨幣！

Author:

TechFlowPost

Published:

2026-03-17 01:09:44

資料來源：華爾街見聞

2026 年 3 月 16 日，英偉達 GTC 2026 大會正式開幕，英偉達創始人兼 CEO 黃仁勳發表了主題演講。

在這場被視為「AI 產業年度朝聖」的大會上，黃仁勳闡述了英偉達從一家「晶片公司」向「AI 基礎設施和工廠公司」的蛻變。面對市場最關心的業績持續性與成長空間問題，黃仁勳詳細拆解了驅動未來成長的底層商業邏輯—「Token 工廠經濟學」。

業績指引極度樂觀，「2027 年至少 1 兆美元的需求」

過去兩年，全球爆炸需求量。隨著大模型從“感知”、“生成”進化到“推理”與“行動（執行任務）”，算力的消耗量急劇攀升。針對市場高度關注的訂單與營收天花板，黃仁勳給出了極為強勁的預期。

黃仁勳在演講中直言：

去年這個時候，我說過，我們看到了 5000 億美元的高確信度需求，覆蓋 Blackwell和 Rubin 直到 2026 年。現在，就在此時此地，我看到到 2027 年至少有 1 兆美元的需求（at least $1 trillion）。

黃仁勳的萬億預期一度推動英偉達股價漲超 4.3%。

不僅如此，他更是對這數字做出了補充：

這合理嗎？這就是我接下來要講的。事實上，我們甚至會供不應求。我確定，實際的計算需求會比這高得多。

黃仁勳指出，如今的英偉達系統已經證明了自己是全球「成本最低的基礎設施」。由於英偉達能運行幾乎所有領域的 AI 模型，這種通用性使得客戶投入的這 1 兆美元能夠被充分利用並維持長久的生命週期。

目前，英偉達 60%的業務來自排名前五的超大型雲端服務商，而另外 40%的業務則廣泛分佈於主權雲、企業、工業、機器人和邊緣運算等各個領域。

Token 工廠經濟學，每瓦性能決定商業命脈

為了解釋這 1 兆需求的合理性，黃仁勳向全球企業 CEO 展示了一套全新的商業思維。他指出，未來的資料中心不再是儲存文件的倉庫，而是生產 Token（AI 產生的基本單位）的「工廠」。

黃仁勳強調：

每一座資料中心、每一座工廠，從定義上來說都是受電力限制的。一座 1GW（吉瓦）的工廠永遠不會變成 2GW，這是物理和原子的定律。在固定的功率下，誰的每瓦 Token 吞吐量最高，誰的生產成本就最低。

黃仁勳將未來的 AI 服務分為四個商業層級：

免費層（高吞吐、低速度）
高速層（~每百萬 token 45 美元）
超高速層（~每百萬 token 150 美元）

他，他會越來越長；黃仁勳表示：

在這個 Token 工廠裡，你的吞吐量和 Token 生成速度，將直接轉化為你明年的精確收入。

黃仁勳強調英偉達的架構能夠讓客戶在免費層實現極高的吞吐量，同時在最高價值的推理層級上，將性能提升驚人的 35 倍。

Vera Rubin 兩年實現 350 倍加速，Groq 填補極速推理

在這個物理極限介紹其新的約束下，其控制有史以來最為複雜的系統計算。黃仁勳表示：

過去提到 Hopper，我會舉起一塊晶片，那很可愛。但提到 Vera Rubin，大家想到的是整個系統。在這個 100%液冷、完全消滅了傳統電纜的系統中，過去需要兩天安裝的機架，現在只需兩小時。

黃仁勳指出，透過極致的端到端軟硬體協同設計，Vera Rubin 在同一座 1GW 資料中心裡創造了驚人的資料跨越：

在短短兩年時間內，我們將 Token 的生成速率從 200 億，實現了 200 億，實現了 200 億的增長率 200 億，200 億。摩爾定律在同時期僅能帶來約 1.5 倍的提升。

為了解決極速推理（如 1000 Tokens/秒）條件下的頻寬瓶頸，英偉達給出了整合被收購公司 Groq 的最終方案：非對稱式的分離推理。黃仁勳解釋：

這兩款處理器的特性截然不同。 Groq 晶片擁有 500MB的 SRAM，而一顆 Rubin 晶片則擁有 288GB 的記憶體。

黃仁勳指出，英偉達透過 Dynamo 軟體系統，將需要海量計算和顯存的「預填充（Pre-fill）」階段交給 Vera Rubin，將需要海量計算和顯存的「預填充（Pre-fill）」階段交給 Vera Rubin，將對延遲極度傳遞到敏感的「對延遲」階段。黃仁勳也對企業算力配置給了建議：

如果你的工作主要是高吞吐，100%使用 Vera Rubin；如果你有大量高價值的編程級別的 Token 生成需求，拿出 25%的數據中心規模給 Groq。

據透露，由三星代工的 Groq LP30 晶片已在量產，預計第三季度出貨，而首個 Vera Rubin 機架已在微軟 Azure 雲端上運行。

此外，針對光互聯技術，黃仁勳展示了全球首款量產的共封裝光學（CPO）交換機 Spectrum X，並平息了市場對於「銅退光進」的路線之爭：

我們需要更多的銅纜產能，更多的能源纜線。

Agent 終結傳統 SaaS，「年薪+Token」成矽谷標配

除了硬體壁壘，黃仁勳把大量篇幅留給了 AI 軟體和生態的革命，特別是 Agent（智能體）的爆發。

他將開源專案 OpenClaw 形容為“人類歷史上最受歡迎的開源專案”，稱其僅用幾週時間就超越了 Linux 在過去 30 年取得的成就。黃仁勳直言，OpenClaw 本質上就是 Agent 電腦的「作業系統」。

黃仁勳斷言：

每一個 SaaS（軟體即服務）公司都會變成 AaaS（Agent-as-a-Service，智能體即服務）公司。毫無疑問，為了讓這種具備存取敏感資料和執行程式碼能力的智能體安全落地，英偉達推出了企業級的 NeMo Claw 參考設計，增加了策略引擎和隱私路由器。

對於普通職場人，這場變革同樣近在咫尺。黃仁勳描繪了未來的職場新形態：

在未來，我們公司的每位工程師都需要一個年度 Token 預算。他們的基本年薪可能是幾十萬美元，我會在此基礎上再拿出大約一半的金額作為 Token 額度給他們，讓他們實現 10x 的效率提升。這已經是矽谷的新招募籌碼了：你的 offer 裡帶多少 Token？

演講最後，黃仁勳也「劇透」了下一代運算架構 Feynman，它將首次實現銅線與 CPO 的共同水平擴展。更引人遐想的是，英偉達正在研發部署在太空的資料中心電腦“Vera Rubin Space-1”，徹底打開了 AI 算力向地球之外延伸的想像空間。

黃仁勳 GTC 2026 演講全文，全文翻譯如下（AI 工具輔助）：

主持人：歡迎英偉達創始人兼首席執行官黃仁勳上台。

黃仁勳，創辦人兼執行長：

歡迎來到 GTC。我想提醒大家，這是一場技術大會。能看到這麼多人一大早排隊入場，能看到在座的各位，我感到非常高興。

在 GTC，我們將聚焦在三大主題：技術、平台和生態系統。英偉達目前擁有三大平台：CUDA-X 平台、系統平台，以及我們最新推出的 AI 工廠平台。

在正式開始之前，我要感謝我們的預熱環節主持人——Conviction的 Sarah Guo、紅杉資本的 Alfred Lin（英偉達的第一位風險投資人），以及英偉達的第一位主要機構投資人 Gavin Baker。這三位對科技有深刻的洞見，在整個科技生態系中擁有極廣的影響力。當然，我還要感謝今天所有我親自邀請出席的貴賓們。感謝這支全明星團隊。

我同樣要感謝今天到場的所有企業。英偉達是一家平台公司，我們擁有技術、平台和豐富的生態系統。今天到場的企業代表了價值 100 兆美元產業中幾乎全部的參與者，共有 450 家公司贊助了本次活動，在此深表感謝。

本次大會共設有 1,000 場技術論壇、2,000 位演講嘉賓，將涵蓋人工智慧"五層蛋糕"架構的每一個層級——從土地、電力與機房等基礎設施，到晶片、平台、模型，以及最終推動整個產業騰飛的各類應用。

CUDA：二十年的技術累積

一切的起點，就在這裡。今年是 CUDA 誕生二十週年。

二十年來，我們始終致力於這項架構的研發。 CUDA 是一項革命性的發明——SIMT（單指令多執行緒）技術允許開發者以標量程式碼編寫程序，並將其擴展為多執行緒應用，其程式設計難度遠低於先前的 SIMD 架構。我們最近也新增了 Tiles 功能，幫助開發者更方便地編程張量核心（Tensor Core），以及當今人工智慧所依賴的各類數學運算結構。目前，CUDA 已擁有數千種工具、編譯器、框架和函式庫，在開源社群中存在數十萬個公開項目，並已深度整合到每個技術生態系統之中。

這張圖表揭示了英偉達 100%的戰略邏輯，我從最初就一直在講這張投影片。其中最難實現、也是最核心的要素，是圖表底部的"裝機量"。歷經二十年，我們已在全球累積了數億塊運行 CUDA的 GPU 和運算系統。

我們的 GPU 涵蓋所有雲端平台，服務幾乎所有電腦廠商和產業。 CUDA 龐大的裝置量，正是這個飛輪不斷加速的根本原因。裝機量吸引開發者，開發者創造新演算法並取得突破，突破催生全新市場，新市場形成新生態並吸引更多企業加入，進而擴大裝機量——這個飛輪正在持續加速。

英偉達庫的下載量正以驚人的速度增長，規模龐大且增速不斷提升。這個飛輪使我們的運算平台能夠支撐海量應用和層出不窮的新突破。

更重要的是，它也賦予了這些基礎設施極長的使用壽命。原因顯而易見：NVIDIA CUDA 上可運作的應用極為豐富，涵蓋 AI 生命週期的每個階段、各類資料處理平台，以及各種科學原理解算器。因此，一旦安裝了英偉達 GPU，其實際使用價值極高。這也是為何我們六年前發布的 Ampere 架構 GPU，其雲端價格反而在上漲。

這一切的根本原因在於：裝機量龐大，飛輪強勁，開發者生態廣泛。當這些因素共同發揮作用，加上我們持續更新軟體，計算成本就會不斷下降。加速運算在大幅提升應用效能的同時，隨著我們長期維護和迭代軟體，使用者不僅能在初期獲得效能躍升，還能持續享受運算成本的下降。我們願意為全球每一塊 GPU 提供長期支持，因為它們在架構上完全相容。

我們之所以願意這樣做，是因為裝機量如此龐大——每發布一次新的優化，便能惠及數百萬用戶。這種動態組合，使得英偉達架構在持續擴大覆蓋範圍、加速自身成長的同時，不斷壓低運算成本，最終刺激新的成長。 CUDA 是這一切的核心。

從 GeForce到 CUDA：二十五年的演進之路

而我們與 CUDA 的旅程，實際上早在二十五年前就已開始。

GeForce－相信在座有很多人是伴隨著 GeForce 長大的。 GeForce 是英偉達最成功的市場推廣計畫。我們從你們還買不起產品的時候就開始培養未來的客戶——是你們的父母代替你們成為了英偉達最早的用戶，年復一年地購買我們的產品，直到有一天，你們成長為優秀的計算機科學家，成為真正意義上的客戶和開發者。

這是由 GeForce 二十五年前奠定的基業。二十五年前，我們發明了可程式著色器——這是讓加速器實現可程式化的一項顯而易見卻意義深遠的發明，也是世界上第一款可程式加速器，也就是像素著色器。這五年後，我們創造了 CUDA——這是我們有史以來最重要的投資之一。當時公司財力有限，但我們將絕大部分利潤押注於此，致力於將 CUDA從 GeForce 延伸到每台電腦。我們之所以如此堅定，是因為我們深信其潛力。儘管初期歷經艱辛，公司堅守這項信念長達 13 代、整整二十年，如今 CUDA 已無所不在。

正是像素著色器推動了 GeForce 的革命。而大約八年前，我們推出了 RTX——為現代電腦繪圖時代對架構進行了全面革新。 GeForce將 CUDA 帶給了全世界，也正因如此，讓 Alex Krizhevsky、Ilya Sutskever、Geoffrey Hinton、Andrew Ng 等眾多學者發現，GPU 可以成為加速深度學習的利器，由此點燃了十年前人工智慧的大爆炸。

十年前，我們決定將可編程著色與兩個全新理念相融合：一是硬體光線追蹤（Ray Tracing），這在技術上極具挑戰；二是一個當時頗具前瞻性的想法——大約十年前，我們就預見到 AI 將徹底變革計算機圖形。正如 GeForce將 AI 帶給了全世界，AI 如今也將反過來重塑整個電腦圖形的實現方式。

今天，我要向大家展示未來。這是我們的下一代圖形技術，我們稱之為神經渲染（Neural Rendering）——3D 圖形與人工智慧的深度融合。這就是 DLSS 5，請看。

神經渲染：結構化資料與生成式 AI 的融合

這是不是令人嘆為觀止？計算機圖形就此煥發生機。

我們做了什麼？我們將可控的 3D 圖形（虛擬世界的真實基礎）與其結構化資料結合，再融入生成式 AI 和機率計算。一個完全確定性，另一個機率性卻高度逼真——我們將這兩種理念融為一體，透過結構化資料實現精準可控，同時進行即時生成。最終，內容美觀驚艷，又完全可控。

結構化資訊與生成式 AI 融合這一理念，將在一個又一個行業中不斷復現。結構化資料是可信任 AI 的基石。

結構化資料與非結構化資料的加速平台

現在我要帶大家看一張技術架構圖。

結構化資料－大家熟悉的 SQL、Spark、Pandas、Velox，以及 Snowflake、Databricks、Amazon EMR、Azure Fabric、Google BigQuery 等重要平台，都在處理資料框（Data Frame）。這些數據框就像巨型電子表格，承載著商業世界的全部信息，是企業計算的基本事實（Ground Truth）。

在 AI 時代，我們需要讓 AI 來使用結構化數據，並對其實現極致加速。過去，加速結構化資料處理是為了讓企業更有效率地運作。而未來，AI 將以遠超人類的速度使用這些資料結構，AI 智能體也將大量調用結構化資料庫。

非結構化資料方面，向量資料庫、PDF、視訊、音訊等構成了世界上絕大多數的資料形態－每年產生的資料中，約 90%是非結構化資料。過去，這些數據幾乎完全無法被利用：我們讀取它們，存入檔案系統，僅此而已。我們無法查詢，也難以檢索，原因在於非結構化資料缺乏簡單的索引方式，必須理解其意義與脈絡。而現在，AI 可以做到這一點——借助多模態感知與理解技術，AI 能夠讀取 PDF 文件、理解其含義，並將其嵌入可供查詢的更大結構之中。

英偉達為此創建了兩個基礎庫：

cuDF：用於資料框、結構化資料的加速處理
cuVS：用於儲存資料的加速處理
cuVS：用於儲存、語意資料和非結構化 start;">這兩個平台將成為未來最重要的基礎平台之一。
今天，我們宣布與多家企業達成合作。 IBM－SQL 語言的發明者，將使用 cuDF 加速其 WatsonX Data 平台。 Dell 與我們共同打造了 Dell AI 資料平台，整合 cuDF與 cuVS，並在 NTT Data 的實際專案中實現了大幅效能提升。 Google Cloud 方面，我們現在不僅加速 Vertex AI，還加速 BigQuery，並與 Snapchat 合作將其運算成本降低了近 80%。
加速計算帶來的好處是三位一體的：速度、規模、成本。這與摩爾定律的邏輯一脈相承——透過加速運算實現效能飛躍，同時持續優化演算法，讓所有人都能享受到持續下降的運算成本。
英偉達建構了加速運算平台，其上匯聚了眾多函式庫：RTX、cuDF、cuVS 等等。這些函式庫整合進全球雲端服務和 OEM 體系，共同觸達全球用戶。
與雲端服務商的深度合作
與主雲服務商的合作
Google Cloud：我們加速 Vertex AI和 BigQuery，與 JAX/XLA 深，我們加速 Vertex AI和 BigQuery，與 JAX/XLA. JAX/XLA 上皆表現優異的加速器。我們將 Base10、CrowdStrike、Puma、Salesforce 等客戶引進 Google Cloud 生態。
AWS：我們加速 EMR、SageMaker和 Bedrock，與 AWS 有深度整合。今年令我格外興奮的是，我們將把 OpenAI 引入 AWS，這將大幅推動 AWS 雲端運算的消耗成長，幫助 OpenAI 擴展區域部署和運算規模。
Microsoft Azure：英偉達 100 PFLOPS 超算是我們建構的第一台超級計算機，也是第一台部署在 Azure 上的超算，這奠定了與 OpenAI 合作的重要基礎。我們加速 Azure 雲端服務和 AI Foundry，合作推進 Azure 區域擴展，並在 Bing 搜尋上深度協作。值得一提的是，我們的**保密運算（Confidential Computing）**能力－確保即使是營運商也無法查看使用者資料和模型－英偉達 GPU 是全球首批支援保密運算的 GPU，可支援 OpenAI和 Anthropic 模式在全球各地區雲端環境中的保密部署。以 Synopsys 為例，我們加速其全部 EDA和 CAD 工作流程，並部署於 Microsoft Azure。
Oracle：我們是 Oracle 的第一個 AI 客戶，我為能夠第一次向 Oracle 解釋 AI 雲端的概念感到自豪。此後他們發展迅速，我們也為其引進了 Cohere、Fireworks、OpenAI 等眾多合作夥伴。
CoreWeave：全球第一個 AI 原生雲，專為 GPU 託管和 AI 雲端服務而生，擁有出色的客戶群，成長勢頭強勁。
Palantir + Dell：三方聯合打造了全新的 AI 平台，基於 Palantir 的本體論平台（Ontology Platform）和 AI 平台，可在任何國家、任何氣隙隔離環境下、完全不加速
英偉達與全球雲端服務商建立了這種特殊的合作關係－我們將客戶引入雲端，這是一種互利共贏的生態。
垂直整合，橫向開放：英偉達的核心策略
英偉達是全球第一家垂直整合、橫向開放的公司。
此模式的必要性非常簡單：加速運算不是晶片問題，也不是系統問題，其完整表述應為應用加速。 CPU 可以讓電腦整體運作得更快，但這條路已走到瓶頸。未來，只有透過應用或領域特定的加速，才能持續帶來效能飛躍和成本下降。
這正是英偉達必須深耕一個又一個庫、一個又一個領域、一個又一個垂直行業的原因。我們是一家垂直整合的計算公司，沒有其他路可走。我們必須理解應用，理解領域，深刻理解演算法，並能夠將其部署在任何場景下——資料中心、雲端、本地、邊緣甚至機器人系統。
同時，英偉達保持橫向開放，願意將技術整合進任何合作夥伴的平台，讓全世界都能享受到加速計算的紅利。
本屆 GTC 的與會者結構充分體現了這一點。本次與會者中，金融服務業的比例最高－希望來的是開發者，不是交易者。我們的生態系覆蓋了上游和下游供應鏈。無論是成立 50 年、70 年或 150 年的企業，去年都迎來了歷史最佳年份。我們正處於某件非常、非常重大的事情的起點。
CUDA-X：各行業的加速計算引擎
在各個垂直領域，英偉達均已深度佈局：
- 自動駕駛：覆蓋範圍廣泛，影響深遠？工廠、晶片廠、資料中心廠紛紛落地
- 娛樂與遊戲：即時 AI 平台支援翻譯、直播、遊戲互動，以及智慧購物代理
- 機器人：深耕十餘年，三大電腦架構（工具、模擬電腦、機載電腦、模擬電腦、本次展合本）備 start;">電信：約 2 兆美元規模的產業，基地台將從單一通訊功能演進為 AI 基礎設施平台，相關平台名為 Aerial，與諾基亞、T-Mobile 等企業均有深度合作
以上所有領域的核心，正是我們的 CUDA-X 庫－這就是英達的公司。這些庫是公司最核心的資產，讓運算平台得以在各行業發揮實際價值。
其中最重要的函式庫之一，是 cuDNN（CUDA 深度神經網路庫），它徹底革新了人工智慧，引發了現代 AI 的大爆炸。
（播放 CUDA-X 演示影片）
大家剛才看到的一切都是模擬－包括基於物理原理的求解器、AI 代理物理模型，以及物理 AI 機器人模型。一切均為仿真，沒有任何手工動畫或關節綁定。這正是英偉達的核心能力所在：透過對演算法的深刻理解與運算平台的有機結合，解鎖這些機會。
AI 原生企業與新計算時代
你們剛才看到了沃爾瑪、歐萊雅、摩根大通、羅氏、豐田等定義當今社會的行業巨頭，也有一大批大家從未聽說過的公司——我們稱之為 AI 企業。這份名單極為龐大，裡面有 OpenAI、Anthropic，以及眾多服務不同垂直領域的新創企業。
過去兩年，這一行業經歷了驚人的起飛。創投流入新創企業的資金規模達到 1,500 億美元，創人類歷史之最。更重要的是，單筆投資規模首次從數百萬美元躍升至數億甚至數十億美元。原因只有一個：這是史上第一次，每家這類公司都需要大量運算資源和大量 token。這個產業正在創造、產生 token，或為來自 Anthropic、OpenAI 等機構的 token 增值。
正如 PC 革命、互聯網革命、移動雲革命各自孕育出一批劃時代的企業，這一代計算平台變革同樣將誕生一批極具影響力的公司，成為未來世界的重要力量。
推動這一切的三大歷史性突破
過去兩年究竟發生了什麼？三件大事。
第一：ChatGPT，開啟生成式 AI 時代（2022 年底至 2023 年）
它不僅能感知和理解，還能產生獨特內容。我展示了生成式 AI 與電腦圖形的融合。生成式 AI 從根本上改變了運算的方式——運算從檢索式轉變為生成式，這深刻影響著電腦架構、部署方式和整體意義。
第二：推理 AI（Reasoning AI），以 o1 為代表
推理能力使 AI 能夠自我反思、規劃、分解問題－將它無法直接理解的問題拆解為可處理的步驟。 o1 讓生成式 AI 變得可信，能夠依據真實資訊進行推理。為此，輸入 context的 token 量和用於思考的輸出 token 量大幅增加，計算量隨之顯著提升。
第三：Claude Code，首個智能體模型
它能讀取檔案、編寫程式碼、編譯、測試、評估並迭代。 Claude Code 徹底革新了軟體工程——英偉達 100%的工程師都在使用 Claude Code、Codex和 Cursor 中的一種或多種，沒有一位軟體工程師不借助 AI 助力。
這是一個全新的拐點——你不再是問 AI"是什麼、在哪裡、怎麼做"，而是讓它"創建、執行、構建"，讓它主動使用工具、讀取文件、分解問題、付諸行動。 AI 從感知，到生成，到推理，再到如今真正能夠完成工作。
過去兩年，推理所需的計算量增長了約 10,000 倍，使用量增長了約 100 倍。我一直認為，過去兩年計算需求增加了 100 萬倍——這是所有人的共同感受，是 OpenAI 的感受，是 Anthropic 的感受。如果能獲得更多算力，就能產生更多 token，收入就會提升，AI 就會變得更聰明。推理拐點已然到來。
萬億美元的 AI 基礎設施時代
去年此時，我在這裡表示，我們對 Blackwell和 Rubin 在2026 年之前的需求和採購訂單有高度信心，規模約為 5,000 億美元。今天，在 GTC 一年後，我站在這裡告訴大家：展望到 2027 年，我看到的數字至少是 1 兆美元。而且我確信，實際的運算需求將遠不止於此。
2025：英偉達推理年
2025 年是英偉達的推理年（Year of Inference）。我們希望確保，在訓練和後訓練之外，也能在 AI 生命週期的每個階段都保持卓越，使已投資的基礎設施能夠持續高效運轉，且有效使用壽命越長，單位成本越低。
同時，Anthropic和 Meta 正式加入 NVIDIA 平台，與此共同代表了全球三分之一的 AI 算力需求。開源模型已接近前沿水平，無處不在。
英偉達是目前全球唯一一個能夠運行所有 AI 領域——語言、生物學、電腦圖形、電腦視覺、語音、蛋白質與化學、機器人等——所有 AI 模型的平台，無論邊緣還是雲端，無論何種語言。英偉達架構對所有這些場景均具備通用性，這使我們成為成本最低、置信度最高的平台。
目前，英偉達 60%的業務來自全球前五大超大規模雲端服務商，剩餘 40%遍佈區域雲、主權雲、企業、工業、機器人、邊緣運算等各個領域。 AI 的覆蓋廣度本身就是其韌性所在——這毫無疑問是全新的運算平台變革。
Grace Blackwell與 NVLink 72：大膽的架構革新
在 Hopper 架構還處於鼎盛時期，我們就決定徹底重新架構系統，將 NVLink 從8 路擴展為 NVLink 72，對計算系統進行全面重建。 Grace Blackwell NVLink 72 是巨大的技術押注，對所有合作夥伴而言都不容易，在此向所有人表示誠摯感謝。
同時，我們推出了 NVFP4——不只是普通的 FP4，而是一種全新類型的張量核心和計算單元。我們已經證明，NVFP4 可以在無精度損失的情況下實現推理，同時帶來巨大的性能提升和能源效率提升，並且同樣適用於訓練。此外，Dynamo和 TensorRT-LLM 等一系列新演算法相繼問世，我們甚至為優化核心而專門投入數十億美元建造了一台超級計算機，稱之為 DGX Cloud。
結果證明，我們的推理表現令人矚目。來自 Semi Analysis 的數據——這是迄今為止最全面的 AI 推理性能評測——顯示英偉達在每瓦 token 數和每 token 成本兩個維度上均遙遙領先。原本摩爾定律可能為 H200 帶來 1.5 倍的效能提升，但我們做到了 35 倍。 Semi Analysis的 Dylan Patel 甚至說：「黃仁勳保守了，實際上是 50 倍。」他說得沒錯。
我在此引用他的話："Jensen sandbagged（黃仁勳保守報數）。"
英偉達的每 token 成本是全球最低，目前無人能及。原因正極致協同設計（Extreme Co-design）。
以 Fireworks 為例，在英偉達更新全套軟體和演算法之前，其平均 token 速度約為每秒 700 個；更新後接近每秒 5,000 個，提升約 7 倍。這就是極致協同設計的力量。
AI 工廠：從資料中心到 token 工廠
資料中心過去是儲存檔案的地方，現在它是生產 token 的工廠。每一家雲端服務商、每一家 AI 公司，未來都將以"token 工廠效率"作為核心經營指標。
這是我的核心論點：
- 縱軸：吞吐量（Throughput）－在固定功率下每秒產生的 token 數
- 橫軸：越快的速度互動；越長，AI 越聰明
token 是新的大宗商品，一旦成熟，將分層定價：
- 免費層（高吞吐、低速度）
- Vera Rubin：下一代 AI 計算系統
  （播放 Vera Rubin 系統介紹影片）
  Vera Rubin 是一個完整的、端對設計的系統，start; style="text-align: start;">大型語言模型計算核心：NVLink 72 GPU 集群，處理前填充（Prefill）和 KV Cache
- 全新 Vera CPU：專為極高單線程性能設計，採用 LPDDR5 內存，兼具卓越能效，是全球唯一使用 LPDDR5 工具儲存系統：BlueField 4 + CX 9，針對 AI 時代的全新儲存平台，全球儲存產業 100%加入
- CPO Spectrum X 交換器：全球首款共封裝光學乙太網路交換機，已全面生產機架為折式套件： 144塊 GPU 組成單一 NVLink 域，前端運算、後端 NVLink 交換，形成一個巨型電腦
- Rubin Ultra：下一代超算節點，垂直設計，配合 Kyber 機架，支援更大規模 NVLink 互聯
start-align-aligner 已100%液冷，安裝時間從兩天縮短至兩小時，以 45°C 熱水冷卻，大幅降低資料中心冷卻壓力。這次 Satya（納德拉）已發文確認，首台 Vera Rubin 機架已在微軟 Azure 上線運行，我為此深感振奮。
Groq 整合：推理性能的極致延伸
我們收購了 Groq 團隊並獲得其技術授權。 Groq 是一種確定性資料流處理器（Deterministic Dataflow Processor），採用靜態編譯和編譯器調度，擁有大量 SRAM，專為推理單一工作負載最佳化，具備極低延遲和極高 token 生成速度。
然而，Groq 的記憶體容量有限（500MB 片上 SRAM），難以獨立承載大模型的參數和 KV Cache，限制了其大規模應用。
解決方案正是 Dynamo－一套推理調度軟體。我們透過 Dynamo 將推理管線解聚（Disaggregate）：
- **前填充（Prefill）及注意力機制的解碼（Decode）**在 Vera Rubin. 生成部分，在 Groq 上完成（需要極高頻寬和低延遲）
兩者透過乙太網路緊密耦合，借助特殊模式將延遲減少約一半。在 Dynamo 這項"AI 工廠作業系統"的統一調度下，整體效能提升 35 倍，並開啟了 NVLink 72 先前無法觸及的全新推理效能層級。
Groq與 Vera Rubin 的組合建議：
- 若工作負載以高吞吐為主，使用 100% Vera Rubin
- Groq LP30 由三星代工，目前已進入量產，預計 Q3 開始出貨。感謝三星的全力配合。
  推理性能的歷史性飛躍
  將此前技術進步量化：在 2 年時間內，1 吉瓦 AI 工廠的 token 生成速率將從 2,200萬 token/秒，提升 7億 token/秒，提升 7億 token/秒，提升 7億 token/秒，提升 7億 token/秒，提升 7億 token/秒，提升 7億 token/秒，提升 7億 token/秒，提升 7億 token/秒，提升 7億 token/秒，提升 7億 token/秒，提升 7億 token/秒，提升 7億 token/秒，提升 7億 token/秒，提升 7億 token/秒，提升。這就是極致協同設計的力量。
  技術路線圖
  - Blackwell：目前在產，Oberon 標準機架系統，銅纜擴展至 NVLink 72，可選光學擴展至 NVLink 576
  - Vera Rubin Ultra（即將推出）：新一代 Rubin Ultra，，35 4p style 135 晶片），精升 start;">Feynman（下一代）：全新 GPU，LP40 晶片（由英偉達與 Groq 團隊聯合打造，集成 NVFP4）；全新 CPU——Rosa（Rosalyn）；BlueField 5；CX 10；同時支援銅纜和 CPO 兩種擴展方式的 Kyber 機架

前一篇

<< NBA 球星德文布克宣布與 Kalshi 達成合作 >>

|Square

下載BTCC APP，您的加密之旅從這啟程

Download on the App Store GEI IT ON Google Play

立即行動 掃描加入我們的 100M+ 用戶行列

推薦

最新活動

黃仁勳 GTC 演講全文：推理時代到來，2027 營收至少萬億美元，龍蝦就是新作業系統

業績指引極度樂觀，「2027 年至少 1 兆美元的需求」

Token 工廠經濟學，每瓦性能決定商業命脈

Vera Rubin 兩年實現 350 倍加速，Groq 填補極速推理

Agent 終結傳統 SaaS，「年薪+Token」成矽谷標配

CUDA：二十年的技術累積

從 GeForce到 CUDA：二十五年的演進之路

神經渲染：結構化資料與生成式 AI 的融合

結構化資料與非結構化資料的加速平台

與雲端服務商的深度合作

垂直整合，橫向開放：英偉達的核心策略

CUDA-X：各行業的加速計算引擎

AI 原生企業與新計算時代

推動這一切的三大歷史性突破

萬億美元的 AI 基礎設施時代

2025：英偉達推理年

Grace Blackwell與 NVLink 72：大膽的架構革新

AI 工廠：從資料中心到 token 工廠

Vera Rubin：下一代 AI 計算系統

Groq 整合：推理性能的極致延伸

推理性能的歷史性飛躍

技術路線圖

|Square