亞馬遜旗下公司Amazon Web Services(AWS)近日在紐約峰會上宣布Amazon Elastic Compute Cloud(EC2)P5執行個體正式可用。這是一款下世代GPU執行個體,由最新的NVIDIA H100 Tensor Core GPU驅動,可以滿足客戶在執行人工智慧、機器學習和高效能運算工作負載時對高效能和高擴展性的需求。與上一代基於GPU的執行個體相比,Amazon EC2 P5執行個體可以將訓練時間縮減6倍(從幾天縮短到幾小時),幫助客戶節省高達40%的訓練成本。

Amazon EC2 P5執行個體提供8個NVIDIA H100 Tensor Core GPU,具有640 GB高帶寬GPU記憶體,同時提供第三代AMD EPYC處理器、2TB系統記憶體和30 TB本地NVMe儲存。 Amazon EC2 P5執行個體還提供3200 Gbps的聚合網路頻寬並支援GPUDirect RDMA,進而能夠繞過CPU進行節點間通訊,實現更低的延遲和高效的橫向擴展效能。

AWS和NVIDIA在今年3月宣布了一項多方合作,打造全球最具可擴展性且按需付費的人工智慧基礎設施,以便訓練日益複雜的大語言模型和開發生成式AI應用程式。

當時,AWS預發布了由NVIDIA H100 Tensor Core GPU驅動的Amazon EC2 P5執行個體,可為打造和訓練更大規模的機器學習模型提供高達20 exaFLOPS的算力。AWS和NVIDIA合作十多年來成果豐碩,推出了包括支援視覺運算、人工智慧和高效能運算集群的各種GPU執行個體,如CG1執行個體(2010年)、G2(2013年)、P2(2016年)、P3(2017年)、G3(2017年)、P3dn(2018年)、G4(2019年)、P4(2020年)、G5(2021年)和P4de(2022年)執行個體。

現在,機器學習模型的規模已經達到數萬億參數,這種複雜性大大增加客戶訓練模型所需的時間。例如,最新的大語言模型訓練時間長達數月之久。類似的趨勢也出現在高效能運算領域。隨著高效能運算客戶資料收集準確度的提高以及資料集達到EB級規模,客戶已在尋找解決日益複雜應用程式的更快方法。

Amazon EC2 P5執行個體非常適合訓練和執行越來越複雜的大語言模型和電腦視覺模型,以滿足最苛刻的運算密集型生成式AI應用的需求,包括問答、程式碼生成、影片和圖像生成、語音識別等。與上一代基於GPU的執行個體相比,Amazon EC2 P5執行個體在這些應用中的訓練時間縮短了6倍。那些可以在工作負載中使用較低精度FP8資料類型的客戶,例如使用Transformer模型架構的語言模型,將透過NVIDIA Transformer Engine的支援獲得高達6倍的效能提升。

高效能運算客戶透過使用Amazon EC2 P5執行個體可以更大規模地部署在藥物開發、地震分析、天氣預報和金融建模等高需求的應用程式。此外,對於使用基於動態規劃(Dynamic Programming)算法進行基因組測序或加速資料分析等應用的客戶,Amazon EC2 P5將透過新的DPX指令集提供支援。

Amazon EC2 P5執行個體為多節點分佈式訓練和緊密耦合的高效能運算工作負載提供先進的橫向擴展功能,其使用的第二代Elastic Fabric Adapter(EFA)網路設備提供高達3200 Gbps的網路速度,是Amazon EC2 P4d執行個體的8倍。

為了滿足客戶對大規模和低延遲的需求,Amazon EC2 P5執行個體部署在第二代Amazon EC2 UltraClusters中,該集群目前可在超過2萬個NVIDIA H100 Tensor Core GPU上為客戶提供更低的延遲。作為雲端最大規模的機器學習基礎設施之一,Amazon EC2 UltraClusters中的Amazon EC2 P5執行個體可提供高達20 exaFLOPS的聚合運算能力。

Amazon EC2 UltraClusters使用了Amazon FSx for Lustre,這是一種完全託管的共享儲存,建立在常用的高效能並行文件系統上。客戶透過Amazon FSx for Lustre,可以按需要大規模快速處理海量資料集,並實現亞毫秒級延遲。 Amazon FSx for Lustre的低延遲和高吞吐量特性經過優化,可在Amazon EC2 UltraCluster上為深度學習、生成式AI和高效能運算工作負載提供支援。

Amazon FSx for Lustre可以為Amazon EC2 UltraCluster中的GPU和機器學習加速器持續提供資料,進而加速最苛刻的工作負載,包括大語言模型訓練、生成式AI推理,以及基因組學和金融風險建模等高效能運算負載。

Amazon EC2 P5執行個體現已在以下區域正式可用:美國東部(北維吉尼亞)和美國西部(奧勒岡)。

Tags: