英特爾在今年五月宣布了一款可擴充且易於存取的推論工作站(代號Project Battlematrix),旨在透過簡化採用Intel Arc Pro B系列GPU,並搭配新的推論最佳化軟體堆疊,加速英特爾的GPU與AI策略。

此全新軟體堆疊在設計時考量了易用性與遵循產業標準,是專為Linux環境打造的全新容器化解決方案,經過最佳化後,可透過多個GPU擴充和PCIe P2P資料傳輸,提供卓越的推論效能。此外,它也包含了企業級的可靠性與管理功能,例如ECC、SRIOV、遠測(telemetry)和遠端韌體更新。

英特爾今日分享LLM Scaler container 1.0版本的最新進展。這個版本對於早期客戶的支援至關重要,其中包含以下內容:

– vLLM:
。 針對長輸入長度(>4K)的TPOP效能最佳化:在32B KPI模型上,40K序列長度的效能提升高達1.8倍;在70B KPI模型上,40K序列長度的效能提升高達4.2倍
。 相較上次發布相比,效能進行最佳化,8B-32B KPI模型的輸出吞吐量提升約10%
。 逐層在線量化以減少所需的GPU記憶體
。 vLLM中的PP(pipeline parallelism)支援(實驗性)
。 torch.compile(實驗性)
。 推測解碼(實驗性)
。 支援嵌入、重新排序模型
。 強化多模態模型支援
。 最大長度自動偵測
。 資料平行支援

– OneCCL基準測試工具啟用

– XPU管理員:
。 GPU功耗
。 GPU韌體更新
。 GPU診斷
。 GPU記憶體頻寬

英特爾這次的發布遵循在五月發布產品時所規劃的時程。接下來,英特爾計畫在第三季末推出LLM Scaler的強化版本,並新增額外功能,同時,也預計在第四季全面發布完整功能集。

Tags: