亞馬遜(Amazon)旗下Amazon Web Services(AWS)在2024年re:Invent全球大會上,宣布基於AWS Trainium2的Amazon Elastic Compute Cloud(Amazon EC2)Trn2執行個體正式可用,並推出全新的Amazon EC2 Trn2 UltraServers,讓用戶以卓越的性價比訓練和部署最新的人工智慧(AI)模型,以及未來的大型語言模型(LLM)和基礎模型(FM)。此外,AWS還揭露了新一代AWS Trainium3晶片的計畫。

• 與目前基於GPU的EC2 P5e和P5en執行個體相比,Amazon EC2 Trn2執行個體的性價比提升30-40%。它配備16個Trainium2晶片,可提供高達20.8 Petaflops浮點運算力的效能,非常適合訓練和部署具有數十億參數的大型語言模型。
• 全新推出的Amazon EC2 Trn2 UltraServers伺服器機型配備64個相互連接的Trainium2晶片,採用NeuronLink超高速互連技術,可提供高達83.2 Petaflops浮點運算力,其運算、記憶體和網路能力是單一執行個體的四倍,能夠支援訓練和部署超大規模的模型。
• AWS攜手Anthropic正打造名為Project Rainier的EC2 UltraCluster,使用數十萬顆Trainium2晶片,所達到的超級運算力比他們目前一代領先AI模型訓練所需運算力高出五倍以上。
• AWS揭露了新一代AI晶片Trainium3的計畫,幫助客戶更快速地建構更大規模的模型,並在部署時提供更好的即時效能。

AWS運算與網路服務副總裁David Brown表示:「AWS Trainium2是專為支援大型、前沿的生成式AI工作負載而設計的,能夠滿足訓練和推論的需求,並在AWS上提供卓越的性價比。隨著模型參數接近萬億,我們意識到客戶需要一種創新的方法來高效訓練和運行規模龐大的工作負載。在AWS上,全新的Amazon EC2 Trn2 UltraServers提供超快速的訓練和推論效能,幫助各類企業以更快的速度和更低的成本訓練和部署世界上最大的模型。」

隨著模型規模的不斷擴大,客戶希望縮短訓練時間和推論延遲,這對運算和網路基礎設施提出了更高的要求。AWS已提供廣泛的Amazon EC2加速執行個體選擇,包括基於GPU和機器學習晶片的執行個體。然而,即使是目前最快的加速執行個體,客戶仍希望實現更高的效能和更大的可擴展性,以更低的成本更快地訓練這些日益複雜的模型。隨著模型複雜性和資料量的增加,因為平行處理的限制,單純擴大叢集規模已無法有效縮短訓練時間。同時,即時推論的需求也超出了單執行個體架構的負載能力。

與目前基於GPU的EC2執行個體相比,Amazon EC2 Trn2的性價比提升30%至40%。單個Trn2執行個體使用了16個Trainium2 晶片,透過NeuronLink超快速高頻寬、低延遲的晶片之間的互連,可提供高達20.8 Petaflops浮點運算力,非常適合訓練和部署數十億參數的模型。

對於需要更強運算力的超大型模型,Amazon EC2 Trn2 UltraServers使客戶能夠突破單個Trn2執行個體的限制進行擴展,進而減少訓練時間,加快產品上市的速度,實現快速反覆運算以提高模型準確性。作為全新的EC2產品,Trn2 UltraServers利用NeuronLink超高速互連將四個Trn2伺服器連接為一個巨型伺服器。客戶透過全新Trn2 UltraServers,可以在64個Trainium2晶片上擴展他們的生成式AI工作負載。在推論工作負載方面,客戶可以使用Trn2 UltraServers提升生產環境中萬億參數模型的即時推論效能。AWS正在與Anthropic共同建構一個名為Project Rainier的EC2 UltraCluster運算叢集,該叢集由Trn2 UltraServers組成,能夠在數十萬個Trainium2晶片之間透過第三代低延遲的PB級EFA網路進行分散式模型訓練,其運算能力比Anthropic目前一代領先AI模型訓練所需運算力高出5倍以上。該專案完成後,預計將成為全球最大可用的AI運算叢集,供Anthropic建構和部署未來模型使用。

Anthropic專注於AI安全和研究,致力於打造可靠、可判斷和可控的AI系統。Anthropic的旗艦產品Claude是全球數百萬使用者信賴的大型語言模型。作為Anthropic與AWS深化合作的一部分,Anthropic已開始優化Claude模型,以在亞馬遜最先進的AI硬體Trainium2上運行。Anthropic將使用數十萬個Trainium2晶片,該規模是其之前叢集的五倍以上,為在Amazon Bedrock上使用Claude的客戶提供卓越的效能表現。

Databricks Mosaic AI使企業能夠建構和部署高品質的代理系統。該系統基於資料湖原生架構,用戶可以輕鬆、安全地使用企業資料客製化模型,從而提供更準確和特定領域的輸出。受益於Trainium的高效能和成本效益,客戶能夠以較低的成本在Mosaic AI上擴展模型訓練。隨著全球客戶對Mosaic AI需求的不斷增長,Trainium2的推出將為Databricks及其客戶帶來強大優勢。作為全球最大的資料和AI公司之一,Databricks計畫使用Trainium2為客戶提供更好的效能,並將總體擁有成本(TCO)降低多達30%。

Hugging Face是全球領先的AI開發者開源平台,擁有超過200萬個模型、資料集和AI應用程式,其用戶社群涵蓋了超過500萬名研究人員、資料科學家、機器學習工程師和軟體開發人員。在過去幾年中,Hugging Face與AWS合作,幫助開發人員透過Optimum Neuron開源庫體驗AWS Inferentia和AWS Trainium的效能與成本優勢。該開源庫已整合到Hugging Face Inference Endpoints中,並在新的HUGS自行部署服務中進行了優化,用戶可以在AWS Marketplace使用。隨著Trainium2的發布,Hugging Face用戶將享受更高的效能,進而更快地開發和部署模型。

poolside致力於建構一個由AI驅動的世界,以推動有經濟價值的工作和科學進步。他們相信,軟體發展將成為神經網路中第一個達到人類智慧水準的重要能力。為此,poolside正在打造基礎模型、API和助理應用,以將生成式AI的優勢帶給開發者。而實現這一目標的關鍵在於他們建構和運行產品所用的基礎設施。借助AWS Trainium2,poolside的客戶將獲得優於其他AI加速器的性價比來擴展服務。此外,poolside計畫使用Amazon EC2 Trainium2 UltraServers訓練未來的模型,這將比使用Amazon EC2 P5執行個體預計可節省40%的成本。

AWS揭露了新一代AI訓練晶片AWS Trainium3的計畫。Trainium3是AWS首款採用3奈米工藝製造的晶片,在效能、能效和密度上樹立了新標準。搭載Trainium3的UltraServers效能預計將是Trn2 UltraServers的四倍,使客戶在建構模型時能夠更快地反覆運算,並在部署時提供卓越的即時效能。首批基於Trainium3的執行個體預計將在2025年末上線。

AWS Neuron SDK包括編譯器、執行庫和工具,幫助開發者優化模型以在Trainium上運行。它讓開發者具有在Trainium晶片上優化模型以獲得最佳效能的能力。它與JAX和PyTorch等熱門框架原生整合,使客戶在Trainium上使用現有程式碼和工作流程時只需進行少量程式碼修改。同時,Neuron支援Hugging Face模型庫中超過10萬個模型。透過Neuron Kernel Interface(NKI),開發人員可以直接使用裸機的Trainium晶片,編寫運算核心以最大限度地提升運算密集型工作負載的效能。

AWS Neuron旨在簡化使用JAX等熱門框架在Trainium2上訓練和部署模型,同時儘量減少程式碼更改和對特定供應商解決方案的依賴。Google支援AWS透過其原生的OpenXLA整合,使客戶能夠使用JAX進行大規模訓練和推論,提供簡單靈活的程式碼路徑,幫助使用者快速上手Trn2執行個體。隨著業界廣泛的開源合作,以及Trainium2的推出,Google預計JAX在機器學習社群的應用將顯著增加,這將成為整個機器學習生態系統的重要里程碑。

目前,Amazon EC2 Trn2執行個體在美國東部(俄亥俄)區域已正式可用,其他區域也即將推出。Amazon EC2 Trn2 UltraServers目前可供預覽。

Tags: