在去年六月舉行的AMD Advancing AI活動中,AMD董事長暨執行長蘇姿丰博士將代理式AI(Agentic AI)形容為「全新的使用者類型」:這類系統能夠持續運作,並不斷存取資料、應用程式與各項服務,以進行決策並完成複雜任務。

這類系統雖仰賴高效能GPU即時生成洞察,但其周邊基礎設施同樣至關重要。隨著代理式AI應用持續增加,高效能CPU負責協調工作流程、處理與傳輸資料,並管理模型在運行過程中所涉及的各項作業。

雖然GPU擅長AI訓練以及許多推論任務所需的高吞吐量平行運算,但現代AI部署仍仰賴平衡的系統架構。CPU、GPU、網路與軟體各司其職,共同實現大規模運算所需的整體效能。

在此環境下,CPU負責協調工作負載、管理記憶體與資料傳輸,並支援與生產環境AI模型並行的企業級應用程式。因此,在現代AI基礎設施的整體效能表現中,CPU的效能與效率比以往更加關鍵。

根據最新發布的數據,搭載第5代AMD EPYC CPU的系統,與同級NVIDIA Grace Superchip系統相比,每核心效能預計可提升高達2.1倍。此外,在SPECpower基準測試中,與同級NVIDIA Grace Superchip系統相比,AMD EPYC CPU系統的每瓦運算效能預計可提升高達2.26倍。

同樣重要的是,x86 CPU架構為客戶帶來廣泛且成熟的軟體產業體系優勢,多數企業工作負載都已能在地端(on-prem)和雲端環境中原生運作,無需像導入Arm架構系統時常需進行程式碼重構、重新編譯或維護多套程式碼庫。

在AI資料中心中,CPU與GPU的關係恰似總教練與一群敏捷運動員之間的分工合作。

CPU就像總教練負責制定戰術、因應對手變化、掌握時間,並確保所有運動員朝正確方向推進。GPU則是運動員,專注在特定環節以極高效率完成單一戰術中的特定動作。

伺服器CPU專為處理複雜工作任務與協調系統中的GPU而設計。CPU從記憶體載入資料,為GPU準備就緒,協調資料的即時傳遞,並處理GPU執行任務所需的指令和資料。而GPU憑藉其數量眾多的精簡核心,能以極高速度反覆執行簡單且重複的運算任務。

訓練是GPU和高吞吐運算能力大顯身手的領域。類神經網路高度仰賴大規模資料網格的運算,而AI訓練需要GPU團隊反覆處理這些資料,以供系統學習。

在訓練期間,CPU負責管理並提供資料給GPU,以確保其維持最佳運作效率。CPU同時負責執行作業系統、管理記憶體並排程任務。儘管工作量繁重,但對CPU而言仍能輕鬆應對。

隨著AI工作的重心轉向推論,CPU的角色也從單純的組織者,轉變為更注重結果的管理者。GPU仍負責處理大部分繁重的類神經網路數學運算,CPU則承擔更繁重的思考任務,包括收集資料、傳遞資訊、解讀結果並決定最終行動。在推論階段中,CPU的角色更為關鍵,需要同時進行控制、協調和複雜的決策。

這彰顯架構設計的重要性。AMD是小晶片(chiplet)設計的領導者,這種模組化方法賦予AMD靈活調整運算能力、I/O、記憶體頻寬與功耗配置,從核心企業應用程式和虛擬化,到GPU編排與多步驟代理式AI工作流程,提供合適規模的運算能力。

隨著代理式AI的問世,人工智慧能夠在最少人為干預下,進行規劃、決策並採取行動,CPU因此必須具備前所未有的處理能力。在AI代理的世界中,CPU投入更多時間與邏輯運算來評估結果,而不像傳統推論一般僅限於一問一答。許多情況下,CPU甚至會將問題再次交回GPU,在調整指令後重新運算,直到最終結果產生。

除了既有職責外,代理式AI系統的CPU需管理工具調用(tool calls)、API請求與記憶體查詢。在理想情況下,CPU在執行這些任務的同時,仍需保持GPU持續運作。隨著CPU在AI代理、企業應用與資料湖(data lakes)之間移動資料,代理式AI的興起將顯著提升對CPU運算週期的需求。

CPU作為總教練,不僅在最後兩分鐘指揮比賽,更透過不斷嘗試新戰術以求得分。CPU所做的每項決策都影響GPU的使用效率、整體運算吞吐量,以及對於AI服務供應商來說至關重要的總體持有成本。

代理式AI正擴展AI的潛力,再次印證了每位資料中心架構師熟知的真理:最佳AI成效來自於平衡的系統。GPU將持續驅動運算效能,但CPU對於編排、效率和整體資料中心整合,將變得日益關鍵,以便在不增加空間或功耗的前提下,容納更多AI系統。

AI效能正愈發由系統層級定義,AMD憑藉其獨特優勢,能夠最佳化從CPU、GPU到網路與開放軟體堆疊的整體架構,以最大化叢集層級的每系統瓦特效能。AMD EPYC CPU與AMD Instinct GPU緊密整合,透過AMD ROCm軟體堆疊結合整個系統,實現高效的GPU管理。

AMD在此基礎上持續發展。代號為“Venice”的下一代AMD EPYC CPU將為即將推出的“Helios”機架級AI架構挹注動能,預計將進一步擴展AMD在AI與通用運算工作負載上的效能、密度與能源效率領先地位。

AI正全面加速運算需求,並驅動全球伺服器更新週期。憑藉AMD EPYC處理器,AMD正提供客戶所需的CPU基礎,以支援下一階段的擴展需求,並為所有高效能GPU提供「教練」般的協調能力。

Tags: