400W 調降至 250W TDP，NVIDIA 端出 PCIe 版本的 A100 運算卡

大家對於 Ampere GPU 架構用在 GeForce 顯示卡的期待程度遠高於運算卡，但 NVIDIA 至今仍未對 GeForce 顯示卡部分的 Ampere GPU 架構有太多資訊，而稍早他們在 ISC 2020 活動中公佈了採用 Ampere GPU 架構的 A100 PCIe 運算卡。

同樣為 GA100 的 A100 運算卡，但與早前 SXM4 版本的 A100 不同；NVIDIA 這次公佈的 PCIe 版本的 A100 運算卡 TDP 只有 250W，相較於 SXM4 版本的 400W，整個功耗降低了 150W。

就規格來說，不管是 SXM4 版本，或者是 PCIe 版本的 A100 在規格的差異並沒有太大，其中一個差異只有在 NVLink 部分。SXM4 和 PCIe 的 A100 均為 NVLink 3 規格，但 SXM4 版本的 NVLink 3 頻寬可以達到 600GB/s（12 Links），而 PCIe 版本則只有 300GB/s（6 Links）。

PCIe 版本的 A100 與 SMX4 版本的效能差異在 10% 左右。

NVLink 通道數差異以及 GPU 基本時脈差異可能是 PCIe 版本的 A100 功耗可以下調至 250W 的其中原因；當然，單卡（被動式散熱）在 Server 內的最大解熱能力為 250W，若超過這個數字，有相當大的可能無法解熱而讓運算能力下滑。

	P100	V100	A100
Architecture	Pascal	Volta	Ampere
Process Node	TSMC 16nm FinFET	TSMC 12nm FFN	TSMC 7N
GPU	GP100	GV100	A100
Transistor Count	15.3B	21.1B	54.2B
TDP	300W	300 / 350W	400W
FP32 CUDA Cores	3584	5120	6912
Boost Clock	1480MHz	1530MHz	～ 1410MHz
Memory Clock	1.4Gbps HBM2	1.75Gbps HBM2	2.4Gbps HBM2E
Memory Bus Width	4096 bit	4096 bit	5120 bit
Memory Bandwidth	720GB/s	900GB/s	1.6TB/s
VRAM	16GB	16GB / 32GB	40GB
Single Precision	10.6 TFLOPs	15.7 TFLOPs	19.5 TFLOPs
Double Precision	5.3 TFLOPs (1/2 FP32 rate)	7.8 TFLOPs (1/2 FP32 rate)	9.7 TFLOPs (1/2 FP32 rate)
INT8 Tensor	-	-	624 TOPs
FP16 Tensor	-	125 TFLOPs	312 TFLOPs
TF32 Tensor	-	-	156 TFLOPs
Interconnect	NVLInk 1 4 Links（160GB/s）	NVLink 2 6 Links（300GB/s）	NVLink 3 12 Links（600GB/s）
Interface	SXM	SMX2 / SXM3	SXM4

另一方面，我們也從規格中確定 NVIDIA 會從 Ampere 架構開始導入 PCIe Gen4 規格，以這樣的情況來說，NVIDIA 之後在 Ampere 架構的 GeForce 顯示卡展示機有非常大的可能從 Intel 轉換至 AMD 平台，畢竟 Intel 現有平台仍未支援 PCIe Gen4。

擁有 542 億電晶體數量的 GA100 採用 TSMC 7nm 製程，最大記憶體容量為 40GB HBM2e，並且擁有 6912 CUDA Cores（FP32）。

情報資訊