Amazon Web Services(AWS)和NVIDIA(輝達)宣佈了一項多方合作,致力於建構全球最具可擴展性且隨需付費的人工智慧(AI)基礎設施,以便訓練日益複雜的大型語言模型(LLM)和開發生成式AI應用程式。

借助於NVIDIA H100 Tensor Core GPU支持的下世代Amazon Elastic Compute Cloud(Amazon EC2)P5執行個體,以及AWS最先進的網路和可擴展性,此次合作將提供高達20 exaFLOPS的運算效能來協助建構和訓練更大規模的深度學習模型。P5執行個體將是第一個利用AWS第二代Amazon Elastic Fabric Adapter(EFA)網路技術的GPU執行個體,可提供3200 Gbps的低延遲和高頻寬網路輸送量。因此客戶能夠在Amazon EC2 UltraCluster中拓展多達2萬個NVIDIA H100 GPU,滿足隨需訪問超級電腦的AI效能需求。

「AWS和NVIDIA合作已超過12年,為人工智慧、機器學習、圖形、遊戲和高效能運算(HPC)等各種應用提供了大規模、低成本的GPU解決方案。」AWS執行長Adam Selipsky表示,「AWS在交付基於GPU的執行個體方面擁有無比豐富的經驗,每一代執行個體都大幅強化可擴展性,如今眾多客戶將機器學習訓練工作負載拓展到1萬多個GPU。借助第二代EFA,客戶能夠將其P5執行個體拓展到超過2萬個H100 GPU,為包括新創公司、大企業在內的所有規模客戶提供所需的超級運算能力。」

「加速運算和人工智慧已經到來,而且適逢其時。加速運算提升效能的同時,降低了成本和功耗,讓企業事半功倍。生成式AI已促使企業重新思考產品和商業模式,力求成為顛覆者,而不是被顛覆。」NVIDIA創辦人暨執行長黃仁勳表示,「AWS是NVIDIA的長期合作夥伴,也是首家提供NVIDIA GPU的雲端服務提供者。我們很高興能夠結合各自的專長、規模和業務範圍,協助客戶利用加速運算和生成式AI抓住未來的大好機遇。」

新的P5執行個體建構於AWS和NVIDIA十多年來在AI和HPC基礎設施交付方面的合作基礎之上,也立足於雙方在P2、P3、P3dn和P4d(e)前四代執行個體方面的合作。P5執行個體是基於NVIDIA GPU的第五代AWS產品,與最初部署的NVIDIA GPU(始於CG1執行個體)已相隔近13年。

P5執行個體非常適合對日益複雜的LLM和電腦視覺模型進行訓練和運行推理,並應用於要求嚴苛的運算密集型生成式AI應用程式,包括問題回答、代碼生成、影片圖像生成和語音辨識等領域。

對於致力於以可擴展和安全的方式將AI賦能的創新推向市場的企業和新創公司而言,P5執行個體是不二之選。P5執行個體採用8個H100 GPU,能夠在一個Amazon EC2執行個體中實現16 petaFLOPs的運算效能、640 GB的高頻寬記憶體和3200 Gbps的網路效能(比上一代執行個體高出8倍)。P5執行個體效能的提升使機器學習模型訓練時間加快了6倍(將訓練時間從數天縮短到數小時),額外的GPU記憶體可幫助客戶訓練更龐大更複雜的模型。預計P5執行個體的機器學習模型訓練成本將比上一代降低40%。相比靈活性較差的雲端產品或昂貴的本地端系統,它為客戶提供了更高的效率。

P5執行個體部署在EC2 UltraCluster的超大規模叢集中,該叢集由雲端最高效能的運算、網路和儲存系統組成。每個EC2 UltraCluster都是世界上功能最強大的超級電腦之一,助力客戶運行最複雜的多節點機器學習訓練和分散式HPC工作負載。它們採用PB級無阻塞網路,基於EFA,這種針對Amazon EC2執行個體的網路介面使客戶能夠在AWS上運行需要在大規模高級節點間通訊的應用程式。EFA的客製化作業系統繞過硬體介面,並與NVIDIA GPUDirect RDMA整合,可降低延遲、提高頻寬使用率,進而提升執行個體間通訊效能,這對於在數百個P5節點上拓展深度學習模型的訓練至關重要。藉由P5執行個體和EFA,機器學習應用程式可以使用NVIDIA Collective Communications Library(NCCL)拓展到多達2萬個H100 GPU。因此,客戶可以透過AWS的隨需彈性和靈活拓展能力,獲得本地HPC叢集的應用效能。除了這些出色的運算能力外,客戶可以使用業界最廣泛最深入的服務組合,比如物件導向儲存的Amazon S3、針對高效能檔案系統的Amazon FSx,以及用於建構、訓練和部署深度學習應用的Amazon SageMaker。P5執行個體將在今後幾周提供有限預覽版。欲瞭解詳情,請參考https://pages.awscloud.com/EC2-P5-Interest.html。

借助新的P5執行個體, Hugging Face和Pinterest等客戶將能夠大規模建構和訓練最龐大的機器學習模型。基於其它幾代Amazon EC2執行個體的合作將助力新創公司、大企業和研究人員無縫拓展來滿足各自的機器學習需求。

Hugging Face的使命是將優秀的機器學習普及化。「作為發展最快速的機器學習開源社群,我們如今在針對NLP、電腦視覺、生物學和強化學習等領域的平臺上提供逾15萬個預訓練模型和2.5萬個資料集。」Hugging Face技術長暨聯合創辦人Julien Chaumond表示,「鑒於大型語言模型和生成式AI技術的顯著進步,我們正與AWS合作,以建構和貢獻未來的開源模型。我們希望在結合EFA的EC2 UltraCluster叢集中透過大規模Amazon SageMaker使用P5執行個體,加快為所有客戶提供新的基礎AI模型。」

如今,全球超過4.5億人透過Pinterest尋找視覺靈感,以購買符合自己品味的個性化產品、尋求可實體化的創意,並發現最有才華的創作者。「我們廣泛使用深度學習技術,比如對上傳到我們平臺上的數十億張照片進行標記和分類,以及讓用戶獲得從靈感到付諸行動的視覺搜尋能力。」Pinterest架構師David Chaiken表示,「我們使用P3和最新的P4d等AWS GPU執行個體建構和部署這些應用場景。我們希望使用由H100 GPU、EFA和Ultracluster加持的Amazon EC2 P5執行個體,加快產品開發,為我們的客戶提供同理心AI(Empathetic AI)體驗。」

為可擴展、高效能AI採用新的伺服器設計
在H100 GPU發佈之前,NVIDIA和在熱力、電機和機械領域擁有專業知識的AWS工程團隊合作設計了伺服器,以利用GPU提供大規模AI,重點關注AWS基礎設施的能源效率。在某些AI工作負載下,GPU的能效通常是CPU的20倍,對於LLM而言,H100 GPU的能效比CPU高300倍。

雙方的合作包括開發系統散熱設計、整合安全和系統管理、與AWS Nitro硬體加速虛擬機器管理程式一起實現安全性,以及針對AWS客製化EFA網路結構的NVIDIA GPUDirect™優化技術。

在AWS和NVIDIA專注於伺服器優化的基礎上,兩家公司已開始合作開發未來的伺服器設計,以借助新一代系統設計、冷卻技術和網路可擴展性提高擴展效率。

Tags: