AWS 為 Nvidia AI 芯片打造定製冷卻技術
亞馬遜的雲計算部門亞馬遜網絡服務 (AWS) 設計了一套定制的冷卻系統,以控制 Nvidia 強大的新型人工智能 (AI) 芯片的溫度。
週三, AWS宣布它開發了行內熱交換器 (IRHX),這是專為配備高性能 Nvidia GPU 的數據中心設計的定制液體冷卻系統。
這類芯片用於訓練大型人工智能模型,例如如今非常流行的聊天機器人或圖像生成器,是世界上最耗電的硬件之一。 它們在人工智能工作負載中的日益普及,給傳統的冷卻解決方案,尤其是空氣冷卻帶來了壓力。
亞馬遜沒有將可擴展的冷卻解決方案留給市場,而是發揮創造力,解決了這個問題。 IRHX 適用於數據中心改造和新建應用,無需進行大規模重新設計。 它通過在服務器排附近循環冷卻液來實現這一點,從而為緊密排列的 GPU 散熱。
AWS 計算和機器學習服務副總裁 Dave Brown解釋標準冷卻解決方案無法滿足他們的需求。 他說,這些方案會浪費太多數據中心佔地面積並且用水效率低下。 雖然此類系統可能適用於小型供應商的幾個機櫃,但他指出,這些系統缺乏支持 AWS 規模所需的液體冷卻能力。
AWS 推出搭載 Nvidia Blackwell GPU 的 P6e 實例
AWS 也剛剛介紹P6e 實例利用 Nvidia 的 GB200 NVL72,這是一個密集的超級計算平台,包含 72Blackwell GPU將它們整合到一個機架中。 這些設計旨在應對大型 AI 模型和生成 AI 任務的計算密集型特性。
迄今為止,只有微軟和 COREWeave 等公司提供這種新一代 GPU 集群。 現在,AWS 客戶可以訪問云端最新、最先進的定制 GPU 機器學習訓練基礎設施,該基礎設施由最新一代水冷式 NVIDIA A100 Tensor Core GPU 提供支持。
IRHX 將這些集群保持在安全的溫度,從而提供最佳性能,避免過熱。 通過將 IRHX 直接融入其數據中心設計,AWS 無需等待改造整個結構以進行液體冷卻,也無需支付昂貴的建設費用。
布朗在 P6e 發布會上指出,通過將 GB200 NVL72 系統與亞馬遜的 IRHX 相結合,客戶可以大規模利用無與倫比的計算能力。 它還將使開發人員、研究人員和公司能夠比過去更快、更高效地訓練更大規模的 AI 模型。
亞馬遜鞏固其在雲基礎設施領域的領先地位
在正在建設的數據中心中,亞馬遜力推內部部署冷卻技術,這進一步揭示了亞馬遜為擁有更多基礎設施而採取的更廣泛舉措。 近年來,AWS 投入巨資開發芯片、存儲系統和網絡設備為其云服務提供支持。
這些進步使亞馬遜能夠進一步減少對第三方供應商的依賴,並在運營績效和成本之間取得平衡。
這一策略已初見成效。 2025年第一季度,AWS 創下了自成立以來的最高營業利潤率,如今已成為亞馬遜整體盈利的主要引擎。 IRHX 的推出拓展了 AWS 在雲行業的創新領導力和基礎設施佈局。
其他科技巨頭也在採取類似舉措。 例如,微軟就打造了自己的AI芯片和定製冷卻系統Sidekicks。 谷歌和Meta也在研究構建針對AI工作負載的硬件和系統的方法。
然而,亞馬遜擁有一個關鍵優勢——其遍布全球的數據中心,以及多年來大規模構建和部署定制硬件的經驗。 IRHX 可以通過精簡其 AI 就緒型基礎設施,使其更加高效、可持續和可擴展,從而進一步增強其優勢。
KEY 差異線幫助加密貨幣品牌快速突破並佔據頭條新聞