AWS和NVIDIA宣布,AWS將支援NVIDIA在2024年GTC大會上推出的新一代NVIDIA Blackwell GPU平台。

AWS將提供NVIDIA GB200 Grace Blackwell Superchip超級晶片和B100 Tensor Core GPU,並延續雙方長期的策略合作夥伴關係,旨在為客戶提供安全、先進的基礎設施、軟體及服務,助力客戶啟動新一代生成式AI的能力。

NVIDIA與AWS將持續提供各自的領先技術,包括具備NVIDIA最新多節點系統的下一代NVIDIA Blackwell平台和AI軟體,以及AWS的Nitro系統、具備領先安全性的AWS Key Management Service(AWS KMS)金鑰管理服務、千萬億位元級的Elastic Fabric Adapter(EFA)網路和Amazon EC2 UltraCluster超大規模叢集等技術。基於上述技術打造的基礎設施和工具,使客戶能夠在Amazon EC2上以更快速度、更大規模、更低成本地對其建構和執行數萬億參數的大型語言模型(LLMs)進行即時推論,效能相較於配備前一代NVIDIA GPU的EC2執行個體有顯著改進。

AWS執行長Adam Selipsky表示:「我們雙方的深入合作可以追溯到13年前,當時我們共同推出了世界上第一個AWS上的GPU雲端執行個體,而今天我們為客戶提供了最廣泛的NVIDIA GPU解決方案。NVIDIA的下一代Grace Blackwell處理器是生成式AI和GPU運算領域的標誌性事件。當結合AWS強大的EFA網路、Amazon EC2 UltraClusters的超大規模叢集功能,以及我們獨有的AWS Nitro高級虛擬化系統及其安全功能時,我們就能夠使客戶更快、更大規模且更安全地建構和執行具有數萬億參數的大型語言模型。」

NVIDIA創辦人暨執行長黃仁勳表示:「人工智慧正在以前所未有的速度推動新應用、新商業模式和跨產業的創新。我們與AWS的合作正在加速新的生成式AI能力的發展,並為客戶提供前所未有的運算能力,以開創無限可能。」

AWS將提供配置GB200 NVL72的NVIDIA Blackwell平台,它配備72顆Blackwell GPU和36顆Grace CPU,透過第五代NVIDIA NVLink互連。當與AWS強大的EFA網路、AWS Nitro高級虛擬化系統和Amazon EC2 UltraClusters超大規模叢集等技術結合時,客戶能夠輕鬆擴展至數千個GB200超級晶片。NVIDIA Blackwell在AWS上的應用,使得該平台能加速針對資源密集型和數萬億參數語言模型等的推論工作負載。

基於先前搭載NVIDIA H100的Amazon EC2 P5執行個體的成功(客戶可透過Amazon EC2 Capacity Blocks for ML功能短期使用這些執行個體),AWS計畫提供配備B100 GPU的新Amazon EC2執行個體,並支援在Amazon EC2 UltraClusters中部署,以加速超大規模生成式AI的訓練和推論。GB200也將在NVIDIA DGX Cloud上可用,此為在AWS上雙方共同開發的AI平台,為企業開發者提供了建構和部署先進生成式AI模型所需的專用基礎設施和軟體。在AWS上推出的基於Blackwell的DGX Cloud執行個體將加速前沿生成式AI和超過一萬億參數的大語言模型的開發。

隨著AI技術應用越來越廣泛,企業需要確保整個訓練過程中,資料都被安全地處理。保護模型權重的安全至關重要,模型權重是模型在訓練過程中學習到的參數,影響模型做出預測的能力。確保模型權重的安全,對客戶來說是保護智慧財產權、防止模型被篡改以及維護模型的完整性。

AWS的AI基礎設施和服務已經具備安全性,客戶能夠控制並確保資料不會與合作廠商模型提供者共用。AWS Nitro系統和NVIDIA GB200的結合能阻止未授權個體存取模型權重,進而把AI安全性提升到新的高度。GB200支援對GPU之間的NVLink連接進行物理加密,以及對Grace CPU到Blackwell GPU的資料傳輸進行加密,同時EFA也能夠對伺服器之間的分散式訓練和推論過程的資料進行加密。GB200還將受益於AWS Nitro系統,該系統將主機CPU/GPU的I/O功能卸載至專門的硬體上,以提供更加一致的效能,其增強的安全性可以在用戶端和雲端全程保護客戶的程式碼和資料處理過程中的安全。這一獨有的功能已經獲得了領先的網路安全公司NCC Group的獨立驗證。

透過在Amazon EC2上使用GB200,AWS客戶能夠使用AWS Nitro Enclaves和AWS KMS,在其EC2執行個體旁建立一個可信賴的執行環境。AWS Nitro Enclaves允許客戶使用AWS KMS控制的金鑰來加密訓練資料和權重。從GB200執行個體內部可以載入安全區(enclave),並且可以直接與GB200超級晶片通訊。這使AWS KMS能夠以加密安全的方式直接與安全區通訊,並直接傳遞金鑰資訊。然後,安全區可以將該資訊傳遞給GB200,這樣做能夠保護客戶執行個體中的資料,防止AWS操作人員存取金鑰、解密訓練資料或模型權重,進而賦予客戶對資料最大的控制權。

在2023年AWS re:Invent大會上宣布的「Ceiba專案」,是NVIDIA與AWS合作建造的世界上最快的AI超級電腦之一。這台專為NVIDIA自身的研究和開發而打造的超級電腦,獨家託管在AWS上。此超級電腦首創擁有20,736顆GB200 GPU,採用新型NVIDIA GB200 NVL72配置建構,其特有的第五代NVLink將連接10,368顆NVIDIA Grace CPU。系統透過AWS第四代EFA網路進行擴展,為每個超級晶片提供高達800 Gbps的低延遲、高頻寬網路傳輸量,能夠處理高達414 exaflops的AI運算量,與之前計畫在Hopper架構上建構Ceiba相比,效能提升了6倍。NVIDIA的研發團隊將利用Ceiba推動大型語言模型、圖形(圖像/影片/3D生成)與模擬、數位生物學、機器人技術、自動駕駛汽車、NVIDIA Earth-2氣候預測等領域的AI技術,以幫助NVIDIA推動未來生成式AI的創新。

AWS與NVIDIA聯手,透過Amazon SageMaker與NVIDIA NIM推論微服務的整合,提供了高效能、低成本的生成式AI推論解決方案,並作為NVIDIA AI企業版的一部分提供。客戶可以利用此組合在Amazon SageMaker中快速部署和執行已預編譯且對NVIDIA GPU進行優化的基礎模型,縮短生成式AI應用的推出時間。

AWS與NVIDIA也在電腦輔助的藥物開發領域進行合作拓展,推出了新的NVIDIA BioNeMo基礎模型,用於生成化學與蛋白質結構預測,以及理解藥物分子與目標的相互作用。這些新模型將在Amazon HealthOmics上提供,此服務專為醫療保健和生命科學組織設計,提供儲存、查詢以及分析基因組與轉錄組等組學資料的功能。

Amazon HealthOmics和NVIDIA醫療保健團隊還合作推出生成式AI微服務,以推動藥物開發、醫療技術和數位健康領域的發展,該服務提供一個GPU加速的新雲端服務目錄,涵蓋生物學、化學、成像和醫療保健資料,以便醫療業者能夠在AWS上使用生成式AI的最新成果。

Tags: