BTCC / BTCC Square / TechFlowPost /
黃仁勳 GTC 演講全文:推理時代到來,2027 營收至少萬億美元,龍蝦就是新作業系統

黃仁勳 GTC 演講全文:推理時代到來,2027 營收至少萬億美元,龍蝦就是新作業系統

Published:
2026-03-17 01:09:44

資料來源:華爾街見聞

2026 年 3 月 16 日,英偉達 GTC 2026 大會正式開幕,英偉達創始人兼 CEO 黃仁勳發表了主題演講。

在這場被視為「AI 產業年度朝聖」的大會上,黃仁勳闡述了英偉達從一家「晶片公司」向「AI 基礎設施和工廠公司」的蛻變。 面對市場最關心的業績持續性與成長空間問題,黃仁勳詳細拆解了驅動未來成長的底層商業邏輯—「Token 工廠經濟學」。

業績指引極度樂觀,「2027 年至少 1 兆美元的需求」

過去兩年,全球爆炸需求量。 隨著大模型從“感知”、“生成”進化到“推理”與“行動(執行任務)”,算力的消耗量急劇攀升。 針對市場高度關注的訂單與營收天花板,黃仁勳給出了極為強勁的預期。

黃仁勳在演講中直言:

去年這個時候,我說過,我們看到了 5000 億美元的高確信度需求,覆蓋 Blackwell和 Rubin 直到 2026 年。 現在,就在此時此地,我看到到 2027 年至少有 1 兆美元的需求(at least $1 trillion)。

黃仁勳的萬億預期一度推動英偉達股價漲超 4.3%。

不僅如此,他更是對這數字做出了補充:

這合理嗎? 這就是我接下來要講的。 事實上,我們甚至會供不應求。 我確定,實際的計算需求會比這高得多。

黃仁勳指出,如今的英偉達系統已經證明了自己是全球「成本最低的基礎設施」。 由於英偉達能運行幾乎所有領域的 AI 模型,這種通用性使得客戶投入的這 1 兆美元能夠被充分利用並維持長久的生命週期。

目前,英偉達 60%的業務來自排名前五的超大型雲端服務商,而另外 40%的業務則廣泛分佈於主權雲、企業、工業、機器人和邊緣運算等各個領域。

Token 工廠經濟學,每瓦性能決定商業命脈

為了解釋這 1 兆需求的合理性,黃仁勳向全球企業 CEO 展示了一套全新的商業思維。 他指出,未來的資料中心不再是儲存文件的倉庫,而是生產 Token(AI 產生的基本單位)的「工廠」。

黃仁勳強調:

每一座資料中心、每一座工廠,從定義上來說都是受電力限制的。 一座 1GW(吉瓦)的工廠永遠不會變成 2GW,這是物理和原子的定律。 在固定的功率下,誰的每瓦 Token 吞吐量最高,誰的生產成本就最低。

黃仁勳將未來的 AI 服務分為四個商業層級:

  • 免費層(高吞吐、低速度)
  • 高速層(~每百萬 token 45 美元)
  • 超高速層(~每百萬 token 150 美元)

他,他會越來越長; 黃仁勳表示:

在這個 Token 工廠裡,你的吞吐量和 Token 生成速度,將直接轉化為你明年的精確收入。

黃仁勳強調英偉達的架構能夠讓客戶在免費層實現極高的吞吐量,同時在最高價值的推理層級上,將性能提升驚人的 35 倍。

Vera Rubin 兩年實現 350 倍加速,Groq 填補極速推理

在這個物理極限介紹其新的約束下,其控制有史以來最為複雜的系統計算。 黃仁勳表示:

過去提到 Hopper,我會舉起一塊晶片,那很可愛。 但提到 Vera Rubin,大家想到的是整個系統。 在這個 100%液冷、完全消滅了傳統電纜的系統中,過去需要兩天安裝的機架,現在只需兩小時。

黃仁勳指出,透過極致的端到端軟硬體協同設計,Vera Rubin 在同一座 1GW 資料中心裡創造了驚人的資料跨越:

在短短兩年時間內,我們將 Token 的生成速率從 200 億,實現了 200 億,實現了 200 億的增長率 200 億,200 億。 摩爾定律在同時期僅能帶來約 1.5 倍的提升。

為了解決極速推理(如 1000 Tokens/秒)條件下的頻寬瓶頸,英偉達給出了整合被收購公司 Groq 的最終方案:非對稱式的分離推理。 黃仁勳解釋:

這兩款處理器的特性截然不同。 Groq 晶片擁有 500MB的 SRAM,而一顆 Rubin 晶片則擁有 288GB 的​​記憶體。

黃仁勳指出,英偉達透過 Dynamo 軟體系統,將需要海量計算和顯存的「預填充(Pre-fill)」階段交給 Vera Rubin,將需要海量計算和顯存的「預填充(Pre-fill)」階段交給 Vera Rubin,將對延遲極度傳遞到敏感的「對延遲」階段。 黃仁勳也對企業算力配置給了建議:

如果你的工作主要是高吞吐,100%使用 Vera Rubin;如果你有大量高價值的編程級別的 Token 生成需求,拿出 25%的數據中心規模給 Groq。

據透露,由三星代工的 Groq LP30 晶片已在量產,預計第三季度出貨,而首個 Vera Rubin 機架已在微軟 Azure 雲端上運行。

此外,針對光互聯技術,黃仁勳展示了全球首款量產的共封裝光學(CPO)交換機 Spectrum X,並平息了市場對於「銅退光進」的路線之爭:

我們需要更多的銅纜產能,更多的能源纜線。

Agent 終結傳統 SaaS,「年薪+Token」成矽谷標配

除了硬體壁壘,黃仁勳把大量篇幅留給了 AI 軟體和生態的革命,特別是 Agent(智能體)的爆發。

他將開源專案 OpenClaw 形容為“人類歷史上最受歡迎的開源專案”,稱其僅用幾週時間就超越了 Linux 在過去 30 年取得的成就。 黃仁勳直言,OpenClaw 本質上就是 Agent 電腦的「作業系統」。

黃仁勳斷言:

每一個 SaaS(軟體即服務)公司都會變成 AaaS(Agent-as-a-Service,智能體即服務)公司。 毫無疑問,為了讓這種具備存取敏感資料和執行程式碼能力的智能體安全落地,英偉達推出了企業級的 NeMo Claw 參考設計,增加了策略引擎和隱私路由器。

對於普通職場人,這場變革同樣近在咫尺。 黃仁勳描繪了未來的職場新形態:

在未來,我們公司的每位工程師都需要一個年度 Token 預算。 他們的基本年薪可能是幾十萬美元,我會在此基礎上再拿出大約一半的金額作為 Token 額度給他們,讓他們實現 10x 的效率提升。 這已經是矽谷的新招募籌碼了:你的 offer 裡帶多少 Token?

演講最後,黃仁勳也「劇透」了下一代運算架構 Feynman,它將首次實現銅線與 CPO 的共同水平擴展。 更引人遐想的是,英偉達正在研發部署在太空的資料中心電腦“Vera Rubin Space-1”,徹底打開了 AI 算力向地球之外延伸的想像空間。

黃仁勳 GTC 2026 演講全文,全文翻譯如下(AI 工具輔助):

主持人:歡迎英偉達創始人兼首席執行官黃仁勳上台。

黃仁勳,創辦人兼執行長:

歡迎來到 GTC。 我想提醒大家,這是一場技術大會。 能看到這麼多人一大早排隊入場,能看到在座的各位,我感到非常高興。

在 GTC,我們將聚焦在三大主題:技術、平台和生態系統。 英偉達目前擁有三大平台:CUDA-X 平台、系統平台,以及我們最新推出的 AI 工廠平台。

在正式開始之前,我要感謝我們的預熱環節主持人——Conviction的 Sarah Guo、紅杉資本的 Alfred Lin(英偉達的第一位風險投資人),以及英偉達的第一位主要機構投資人 Gavin Baker。 這三位對科技有深刻的洞見,在整個科技生態系中擁有極廣的影響力。 當然,我還要感謝今天所有我親自邀請出席的貴賓們。 感謝這支全明星團隊。

我同樣要感謝今天到場的所有企業。 英偉達是一家平台公司,我們擁有技術、平台和豐富的生態系統。 今天到場的企業代表了價值 100 兆美元產業中幾乎全部的參與者,共有 450 家公司贊助了本次活動,在此深表感謝。

本次大會共設有 1,000 場技術論壇、2,000 位演講嘉賓,將涵蓋人工智慧"五層蛋糕"架構的每一個層級——從土地、電力與機房等基礎設施,到晶片、平台、模型,以及最終推動整個產業騰飛的各類應用。

CUDA:二十年的技術累積

一切的起點,就在這裡。 今年是 CUDA 誕生二十週年。

二十年來,我們始終致力於這項架構的研發。 CUDA 是一項革命性的發明——SIMT(單指令多執行緒)技術允許開發者以標量程式碼編寫程序,並將其擴展為多執行緒應用,其程式設計難度遠低於先前的 SIMD 架構。 我們最近也新增了 Tiles 功能,幫助開發者更方便地編程張量核心(Tensor Core),以及當今人工智慧所依賴的各類數學運算結構。 目前,CUDA 已擁有數千種工具、編譯器、框架和函式庫,在開源社群中存在數十萬個公開項目,並已深度整合到每個技術生態系統之中。

這張圖表揭示了英偉達 100%的戰略邏輯,我從最初就一直在講這張投影片。 其中最難實現、也是最核心的要素,是圖表底部的"裝機量"。 歷經二十年,我們已在全球累積了數億塊運行 CUDA的 GPU 和運算系統。

我們的 GPU 涵蓋所有雲端平台,服務幾乎所有電腦廠商和產業。 CUDA 龐大的裝置量,正是這個飛輪不斷加速的根本原因。 裝機量吸引開發者,開發者創造新演算法並取得突破,突破催生全新市場,新市場形成新生態並吸引更多企業加入,進而擴大裝機量——這個飛輪正在持續加速。

英偉達庫的下載量正以驚人的速度增長,規模龐大且增速不斷提升。 這個飛輪使我們的運算平台能夠支撐海量應用和層出不窮的新突破。

更重要的是,它也賦予了這些基礎設施極長的使用壽命。 原因顯而易見:NVIDIA CUDA 上可運作的應用極為豐富,涵蓋 AI 生命週期的每個階段、各類資料處理平台,以及各種科學原理解算器。 因此,一旦安裝了英偉達 GPU,其實際使用價值極高。 這也是為何我們六年前發布的 Ampere 架構 GPU,其雲端價格反而在上漲。

這一切的根本原因在於:裝機量龐大,飛輪強勁,開發者生態廣泛。 當這些因素共同發揮作用,加上我們持續更新軟體,計算成本就會不斷下降。 加速運算在大幅提升應用效能的同時,隨著我們長期維護和迭代軟體,使用者不僅能在初期獲得效能躍升,還能持續享受運算成本的下降。 我們願意為全球每一塊 GPU 提供長期支持,因為它們在架構上完全相容。

我們之所以願意這樣做,是因為裝機量如此龐大——每發布一次新的優化,便能惠及數百萬用戶。 這種動態組合,使得英偉達架構在持續擴大覆蓋範圍、加速自身成長的同時,不斷壓低運算成本,最終刺激新的成長。 CUDA 是這一切的核心。

從 GeForce到 CUDA:二十五年的演進之路

而我們與 CUDA 的旅程,實際上早在二十五年前就已開始。

GeForce-相信在座有很多人是伴隨著 GeForce 長大的。 GeForce 是英偉達最成功的市場推廣計畫。 我們從你們還買不起產品的時候就開始培養未來的客戶——是你們的父母代替你們成為了英偉達最早的用戶,年復一年地購買我們的產品,直到有一天,你們成長為優秀的計算機科學家,成為真正意義上的客戶和開發者。

這是由 GeForce 二十五年前奠定的基業。 二十五年前,我們發明了可程式著色器——這是讓加速器實現可程式化的一項顯而易見卻意義深遠的發明,也是世界上第一款可程式加速器,也就是像素著色器。 這五年後,我們創造了 CUDA——這是我們有史以來最重要的投資之一。 當時公司財力有限,但我們將絕大部分利潤押注於此,致力於將 CUDA從 GeForce 延伸到每台電腦。 我們之所以如此堅定,是因為我們深信其潛力。 儘管初期歷經艱辛,公司堅守這項信念長達 13 代、整整二十年,如今 CUDA 已無所不在。

正是像素著色器推動了 GeForce 的革命。 而大約八年前,我們推出了 RTX——為現代電腦繪圖時代對架構進行了全面革新。 GeForce將 CUDA 帶給了全世界,也正因如此,讓 Alex Krizhevsky、Ilya Sutskever、Geoffrey Hinton、Andrew Ng 等眾多學者發現,GPU 可以成為加速深度學習的利器,由此點燃了十年前人工智慧的大爆炸。

十年前,我們決定將可編程著色與兩個全新理念相融合:一是硬體光線追蹤(Ray Tracing),這在技術上極具挑戰;二是一個當時頗具前瞻性的想法——大約十年前,我們就預見到 AI 將徹底變革計算機圖形。 正如 GeForce將 AI 帶給了全世界,AI 如今也將反過來重塑整個電腦圖形的實現方式。

今天,我要向大家展示未來。 這是我們的下一代圖形技術,我們稱之為神經渲染(Neural Rendering)——3D 圖形與人工智慧的深度融合。 這就是 DLSS 5,請看。

神經渲染:結構化資料與生成式 AI 的融合

這是不是令人嘆為觀止? 計算機圖形就此煥發生機。

我們做了什麼? 我們將可控的 3D 圖形(虛擬世界的真實基礎)與其結構化資料結合,再融入生成式 AI 和機率計算。 一個完全確定性,另一個機率性卻高度逼真——我們將這兩種理念融為一體,透過結構化資料實現精準可控,同時進行即時生成。 最終,內容美觀驚艷,又完全可控。

結構化資訊與生成式 AI 融合這一理念,將在一個又一個行業中不斷復現。 結構化資料是可信任 AI 的基石。

結構化資料與非結構化資料的加速平台

現在我要帶大家看一張技術架構圖。

結構化資料-大家熟悉的 SQL、Spark、Pandas、Velox,以及 Snowflake、Databricks、Amazon EMR、Azure Fabric、Google BigQuery 等重要平台,都在處理資料框(Data Frame)。 這些數據框就像巨型電子表格,承載著商業世界的全部信息,是企業計算的基本事實(Ground Truth)。

在 AI 時代,我們需要讓 AI 來使用結構化數據,並對其實現極致加速。 過去,加速結構化資料處理是為了讓企業更有效率地運作。 而未來,AI 將以遠超人類的速度使用這些資料結構,AI 智能體也將大量調用結構化資料庫。

非結構化資料方面,向量資料庫、PDF、視訊、音訊等構成了世界上絕大多數的資料形態-每年產生的資料中,約 90%是非結構化資料。 過去,這些數據幾乎完全無法被利用:我們讀取它們,存入檔案系統,僅此而已。 我們無法查詢,也難以檢索,原因在於非結構化資料缺乏簡單的索引方式,必須理解其意義與脈絡。 而現在,AI 可以做到這一點——借助多模態感知與理解技術,AI 能夠讀取 PDF 文件、理解其含義,並將其嵌入可供查詢的更大結構之中。

英偉達為此創建了兩個基礎庫:

  • cuDF:用於資料框、結構化資料的加速處理
  • cuVS:用於儲存資料的加速處理
  • cuVS:用於儲存、語意資料和非結構化 start;">這兩個平台將成為未來最重要的基礎平台之一。

    今天,我們宣布與多家企業達成合作。 IBM-SQL 語言的發明者,將使用 cuDF 加速其 WatsonX Data 平台。 Dell 與我們共同打造了 Dell AI 資料平台,整合 cuDF與 cuVS,並在 NTT Data 的實際專案中實現了大幅效能提升。 Google Cloud 方面,我們現在不僅加速 Vertex AI,還加速 BigQuery,並與 Snapchat 合作將其運算成本降低了近 80%。

    加速計算帶來的好處是三位一體的:速度、規模、成本。 這與摩爾定律的邏輯一脈相承——透過加速運算實現效能飛躍,同時持續優化演算法,讓所有人都能享受到持續下降的運算成本。

    英偉達建構了加速運算平台,其上匯聚了眾多函式庫:RTX、cuDF、cuVS 等等。 這些函式庫整合進全球雲端服務和 OEM 體系,共同觸達全球用戶。

    與雲端服務商的深度合作

    與主雲服務商的合作

    Google Cloud:我們加速 Vertex AI和 BigQuery,與 JAX/XLA 深,我們加速 Vertex AI和 BigQuery,與 JAX/XLA. JAX/XLA 上皆表現優異的加速器。 我們將 Base10、CrowdStrike、Puma、Salesforce 等客戶引進 Google Cloud 生態。

    AWS:我們加速 EMR、SageMaker和 Bedrock,與 AWS 有深度整合。 今年令我格外興奮的是,我們將把 OpenAI 引入 AWS,這將大幅推動 AWS 雲端運算的消耗成長,幫助 OpenAI 擴展區域部署和運算規模。

    Microsoft Azure:英偉達 100 PFLOPS 超算是我們建構的第一台超級計算機,也是第一台部署在 Azure 上的超算,這奠定了與 OpenAI 合作的重要基礎。 我們加速 Azure 雲端服務和 AI Foundry,合作推進 Azure 區域擴展,並在 Bing 搜尋上深度協作。 值得一提的是,我們的**保密運算(Confidential Computing)**能力-確保即使是營運商也無法查看使用者資料和模型-英偉達 GPU 是全球首批支援保密運算的 GPU,可支援 OpenAI和 Anthropic 模式在全球各地區雲端環境中的保密部署。 以 Synopsys 為例,我們加速其全部 EDA和 CAD 工作流程,並部署於 Microsoft Azure。

    Oracle:我們是 Oracle 的第一個 AI 客戶,我為能夠第一次向 Oracle 解釋 AI 雲端的概念感到自豪。 此後他們發展迅速,我們也為其引進了 Cohere、Fireworks、OpenAI 等眾多合作夥伴。

    CoreWeave:全球第一個 AI 原生雲,專為 GPU 託管和 AI 雲端服務而生,擁有出色的客戶群,成長勢頭強勁。

    Palantir + Dell:三方聯合打造了全新的 AI 平台,基於 Palantir 的本體論平台(Ontology Platform)和 AI 平台,可在任何國家、任何氣隙隔離環境下、完全不加速

    英偉達與全球雲端服務商建立了這種特殊的合作關係-我們將客戶引入雲端,這是一種互利共贏的生態。

    垂直整合,橫向開放:英偉達的核心策略

    英偉達是全球第一家垂直整合、橫向開放的公司。

    此模式的必要性非常簡單:加速運算不是晶片問題,也不是系統問題,其完整表述應為應用加速。 CPU 可以讓電腦整體運作得更快,但這條路已走到瓶頸。 未來,只有透過應用或領域特定的加速,才能持續帶來效能飛躍和成本下降。

    這正是英偉達必須深耕一個又一個庫、一個又一個領域、一個又一個垂直行業的原因。 我們是一家垂直整合的計算公司,沒有其他路可走。 我們必須理解應用,理解領域,深刻理解演算法,並能夠將其部署在任何場景下——資料中心、雲端、本地、邊緣甚至機器人系統。

    同時,英偉達保持橫向開放,願意將技術整合進任何合作夥伴的平台,讓全世界都能享受到加速計算的紅利。

    本屆 GTC 的與會者結構充分體現了這一點。 本次與會者中,金融服務業的比例最高-希望來的是開發者,不是交易者。 我們的生態系覆蓋了上游和下游供應鏈。 無論是成立 50 年、70 年或 150 年的企業,去年都迎來了歷史最佳年份。 我們正處於某件非常、非常重大的事情的起點。

    CUDA-X:各行業的加速計算引擎

    在各個垂直領域,英偉達均已深度佈局:

    • 自動駕駛:覆蓋範圍廣泛,影響深遠 ? 工廠、晶片廠、資料中心廠紛紛落地
    • 娛樂與遊戲:即時 AI 平台支援翻譯、直播、遊戲互動,以及智慧購物代理
    • 機器人:深耕十餘年,三大電腦架構(工具、模擬電腦、機載電腦、模擬電腦、本次展合本)備 start;">電信:約 2 兆美元規模的產業,基地台將從單一通訊功能演進為 AI 基礎設施平台,相關平台名為 Aerial,與諾基亞、T-Mobile 等企業均有深度合作

    以上所有領域的核心,正是我們的 CUDA-X 庫-這就是英達的公司。 這些庫是公司最核心的資產,讓運算平台得以在各行業發揮實際價值。

    其中最重要的函式庫之一,是 cuDNN(CUDA 深度神經網路庫),它徹底革新了人工智慧,引發了現代 AI 的大爆炸。

    (播放 CUDA-X 演示影片)

    大家剛才看到的一切都是模擬-包括基於物理原理的求解器、AI 代理物理模型,以及物理 AI 機器人模型。 一切均為仿真,沒有任何手工動畫或關節綁定。 這正是英偉達的核心能力所在:透過對演算法的深刻理解與運算平台的有機結合,解鎖這些機會。

    AI 原生企業與新計算時代

    你們剛才看到了沃爾瑪、歐萊雅、摩根大通、羅氏、豐田等定義當今社會的行業巨頭,也有一大批大家從未聽說過的公司——我們稱之為 AI 企業。 這份名單極為龐大,裡面有 OpenAI、Anthropic,以及眾多服務不同垂直領域的新創企業。

    過去兩年,這一行業經歷了驚人的起飛。 創投流入新創企業的資金規模達到 1,500 億美元,創人類歷史之最。 更重要的是,單筆投資規模首次從數百萬美元躍升至數億甚至數十億美元。 原因只有一個:這是史上第一次,每家這類公司都需要大量運算資源和大量 token。 這個產業正在創造、產生 token,或為來自 Anthropic、OpenAI 等機構的 token 增值。

    正如 PC 革命、互聯網革命、移動雲革命各自孕育出一批劃時代的企業,這一代計算平台變革同樣將誕生一批極具影響力的公司,成為未來世界的重要力量。

    推動這一切的三大歷史性突破

    過去兩年究竟發生了什麼? 三件大事。

    第一:ChatGPT,開啟生成式 AI 時代(2022 年底至 2023 年)

    它不僅能感知和理解,還能產生獨特內容。 我展示了生成式 AI 與電腦圖形的融合。 生成式 AI 從根本上改變了運算的方式——運算從檢索式轉變為生成式,這深刻影響著電腦架構、部署方式和整體意義。

    第二:推理 AI(Reasoning AI),以 o1 為代表

    推理能力使 AI 能夠自我反思、規劃、分解問題-將它無法直接理解的問題拆解為可處理的步驟。 o1 讓生成式 AI 變得可信,能夠依據真實資訊進行推理。 為此,輸入 context的 token 量和用於思考的輸出 token 量大幅增加,計算量隨之顯著提升。

    第三:Claude Code,首個智能體模型

    它能讀取檔案、編寫程式碼、編譯、測試、評估並迭代。 Claude Code 徹底革新了軟體工程——英偉達 100%的工程師都在使用 Claude Code、Codex和 Cursor 中的一種或多種,沒有一位軟體工程師不借助 AI 助力。

    這是一個全新的拐點——你不再是問 AI"是什麼、在哪裡、怎麼做",而是讓它"創建、執行、構建",讓它主動使用工具、讀取文件、分解問題、付諸行動。 AI 從感知,到生成,到推理,再到如今真正能夠完成工作。

    過去兩年,推理所需的計算量增長了約 10,000 倍,使用量增長了約 100 倍。 我一直認為,過去兩年計算需求增加了 100 萬倍——這是所有人的共同感受,是 OpenAI 的感受,是 Anthropic 的感受。 如果能獲得更多算力,就能產生更多 token,收入就會提升,AI 就會變得更聰明。 推理拐點已然到來。

    萬億美元的 AI 基礎設施時代

    去年此時,我在這裡表示,我們對 Blackwell和 Rubin 在2026 年之前的需求和採購訂單有高度信心,規模約為 5,000 億美元。 今天,在 GTC 一年後,我站在這裡告訴大家:展望到 2027 年,我看到的數字至少是 1 兆美元。 而且我確信,實際的運算需求將遠不止於此。

    2025:英偉達推理年

    2025 年是英偉達的推理年(Year of Inference)。 我們希望確保,在訓練和後訓練之外,也能在 AI 生命週期的每個階段都保持卓越,使已投資的基礎設施能夠持續高效運轉,且有效使用壽命越長,單位成本越低。

    同時,Anthropic和 Meta 正式加入 NVIDIA 平台,與此共同代表了全球三分之一的 AI 算力需求。 開源模型已接近前沿水平,無處不在。

    英偉達是目前全球唯一一個能夠運行所有 AI 領域——語言、生物學、電腦圖形、電腦視覺、語音、蛋白質與化學、機器人等——所有 AI 模型的平台,無論邊緣還是雲端,無論何種語言。 英偉達架構對所有這些場景均具備通用性,這使我們成為成本最低、置信度最高的平台。

    目前,英偉達 60%的業務來自全球前五大超大規模雲端服務商,剩餘 40%遍佈區域雲、主權雲、企業、工業、機器人、邊緣運算等各個領域。 AI 的覆蓋廣度本身就是其韌性所在——這毫無疑問是全新的運算平台變革。

    Grace Blackwell與 NVLink 72:大膽的架構革新

    在 Hopper 架構還處於鼎盛時期,我們就決定徹底重新架構系統,將 NVLink 從8 路擴展為 NVLink 72,對計算系統進行全面重建。 Grace Blackwell NVLink 72 是巨大的技術押注,對所有合作夥伴而言都不容易,在此向所有人表示誠摯感謝。

    同時,我們推出了 NVFP4——不只是普通的 FP4,而是一種全新類型的張量核心和計算單元。 我們已經證明,NVFP4 可以在無精度損失的情況下實現推理,同時帶來巨大的性能提升和能源效率提升,並且同樣適用於訓練。 此外,Dynamo和 TensorRT-LLM 等一系列新演算法相繼問世,我們甚至為優化核心而專門投入數十億美元建造了一台超級計算機,稱之為 DGX Cloud。

    結果證明,我們的推理表現令人矚目。 來自 Semi Analysis 的數據——這是迄今為止最全面的 AI 推理性能評測——顯示英偉達在每瓦 token 數和每 token 成本兩個維度上均遙遙領先。 原本摩爾定律可能為 H200 帶來 1.5 倍的效能提升,但我們做到了 35 倍。 Semi Analysis的 Dylan Patel 甚至說:「黃仁勳保守了,實際上是 50 倍。」他說得沒錯。

    我在此引用他的話:"Jensen sandbagged(黃仁勳保守報數)。"

    英偉達的每 token 成本是全球最低,目前無人能及。 原因正極致協同設計(Extreme Co-design)。

    以 Fireworks 為例,在英偉達更新全套軟體和演算法之前,其平均 token 速度約為每秒 700 個;更新後接近每秒 5,000 個,提升約 7 倍。 這就是極致協同設計的力量。

    AI 工廠:從資料中心到 token 工廠

    資料中心過去是儲存檔案的地方,現在它是生產 token 的工廠。 每一家雲端服務商、每一家 AI 公司,未來都將以"token 工廠效率"作為核心經營指標。

    這是我的核心論點:

    • 縱軸:吞吐量(Throughput)-在固定功率下每秒產生的 token 數
    • 橫軸:越快的速度互動; 越長,AI 越聰明

    token 是新的大宗商品,一旦成熟,將分層定價:

    • 免費層(高吞吐、低速度)
    • Vera Rubin:下一代 AI 計算系統

      (播放 Vera Rubin 系統介紹影片)

      Vera Rubin 是一個完整的、端對設計的系統,start; style="text-align: start;">大型語言模型計算核心:NVLink 72 GPU 集群,處理前填充(Prefill)和 KV Cache

    • 全新 Vera CPU:專為極高單線程性能設計,採用 LPDDR5 內存,兼具卓越能效,是全球唯一使用 LPDDR5 工具儲存系統:BlueField 4 + CX 9,針對 AI 時代的全新儲存平台,全球儲存產業 100%加入
    • CPO Spectrum X 交換器:全球首款共封裝光學乙太網路交換機,已全面生產機架為 折式套件: 144塊 GPU 組成單一 NVLink 域,前端運算、後端 NVLink 交換,形成一個巨型電腦
    • Rubin Ultra:下一代超算節點,垂直設計,配合 Kyber 機架,支援更大規模 NVLink 互聯

    start-align-aligner 已100%液冷,安裝時間從兩天縮短至兩小時,以 45°C 熱水冷卻,大幅降低資料中心冷卻壓力。 這次 Satya(納德拉)已發文確認,首台 Vera Rubin 機架已在微軟 Azure 上線運行,我為此深感振奮。

    Groq 整合:推理性能的極致延伸

    我們收購了 Groq 團隊並獲得其技術授權。 Groq 是一種確定性資料流處理器(Deterministic Dataflow Processor),採用靜態編譯和編譯器調度,擁有大量 SRAM,專為推理單一工作負載最佳化,具備極低延遲和極高 token 生成速度。

    然而,Groq 的記憶體容量有限(500MB 片上 SRAM),難以獨立承載大模型的參數和 KV Cache,限制了其大規模應用。

    解決方案正是 Dynamo-一套推理調度軟體。 我們透過 Dynamo 將推理管線解聚(Disaggregate):

    • **前填充(Prefill)及注意力機制的解碼(Decode)**在 Vera Rubin. 生成部分,在 Groq 上完成(需要極高頻寬和低延遲)

    兩者透過乙太網路緊密耦合,借助特殊模式將延遲減少約一半。 在 Dynamo 這項"AI 工廠作業系統"的統一調度下,整體效能提升 35 倍,並開啟了 NVLink 72 先前無法觸及的全新推理效能層級。

    Groq與 Vera Rubin 的組合建議:

    • 若工作負載以高吞吐為主,使用 100% Vera Rubin
    • Groq LP30 由三星代工,目前已進入量產,預計 Q3 開始出貨。 感謝三星的全力配合。

      推理性能的歷史性飛躍

      將此前技術進步量化:在 2 年時間內,1 吉瓦 AI 工廠的 token 生成速率將從 2,200萬 token/秒,提升 7億 token/秒,提升 7億 token/秒,提升 7億 token/秒,提升 7億 token/秒,提升 7億 token/秒,提升 7億 token/秒,提升 7億 token/秒,提升 7億 token/秒,提升 7億 token/秒,提升 7億 token/秒,提升 7億 token/秒,提升 7億 token/秒,提升 7億 token/秒,提升 7億 token/秒,提升。 這就是極致協同設計的力量。

      技術路線圖

      • Blackwell:目前在產,Oberon 標準機架系統,銅纜擴展至 NVLink 72,可選光學擴展至 NVLink 576
      • Vera Rubin Ultra(即將推出):新一代 Rubin Ultra,,35 4p style 135 晶片),精升 start;">Feynman(下一代):全新 GPU,LP40 晶片(由英偉達與 Groq 團隊聯合打造,集成 NVFP4);全新 CPU——Rosa(Rosalyn);BlueField 5;CX 10;同時支援銅纜和 CPO 兩種擴展方式的 Kyber 機架

|Square

下載BTCC APP,您的加密之旅從這啟程

立即行動 掃描 加入我們的 100M+ 用戶行列