睽違 2 年,Turing 架構的 GeForce RTX 20 系列終於迎來接替者,也就是 Ampere 架構的 GeForce RTX 30 系列顯示卡。
不同於 Turing 架構與 Volta 架構並存,這次 NVIDIA 的 Turing 架構方面直接進行整併,讓 GA100 作為 NVIDIA A100 Tensor GPU,而 GeForce 方面則率先端出 GA102 與 GA104 滿足高階玩家的需求;GA102 為 GeForce RTX 3090 與 GeForce RTX 3080,而 GA104 則是 GeForce RTX 3070。
整個 GeForce RTX 30 系列優先登場的是 GeForce RTX 3080 10GB GDDR6X 顯示卡,解禁時間是 9 月 16 日晚間 21:00,跟著是 24GB GDDR6X 記憶體的 GeForce RTX 3090 在 9 月 24 日,以及 10 月 15 日上市的 GeForce RTX 3070 8GB GDDR6X 顯示卡。
GeForce RTX 30 系列也開始支援 HDMI 2.1 規範,讓玩家可以透過顯示卡輸出 8K60 或 4K120 的影像至電視或是螢幕上。另外,這次 Ampere 架構的 GeForce RTX 30 系列也加入 AV1 硬體解碼(8 / 10 bit)技術。
NVIDIA GeForce RTX 3080 Founders Edition
老大哥 GA100 採用 TSMC 的 7nm 製程外,目前 GeForce RTX 3090、RTX 3080 以及 RTX 3070 的 GA10x 系列都為 Samsung Electronics 8nm 的 8N 製程(N 代表 NVIDIA 客製化製程);雖然號稱 為 8nm 製程,但嚴格來說,Samsung Electronics 8nm 製程為 10nm 製程改良版,但 NVIDIA 在這樣的製程下,讓 628.4mm2 的 GPU 塞入多達 28 億顆電晶體(GA102),算是一個相當驚人的設計。
Ampere 架構的 GeForce RTX 3090、RTX 3080 以及 RTX 3070 導入 GDDR6X 記憶體(目前供應商為 Micron),這讓介面訊號從之前的 NRZ 變換為 PAM4,符元也從 1 bit 提升至 2 bit,在同樣頻率下讓介面頻寬直接翻倍。
也有人會說為何不使用 HBM2 或者是 HBM2e 記憶體,當然 NVIDIA 也能如此做,但前提是你是否能接受高昂的售價,畢竟 HBM2 或是 HBM2e 記憶體成本並不便宜,再加上封裝不易, GeForce RTX 30 系列成本勢必會被拉高,最後還是反應到終端售價上,並不見得划算。
更重要的是,GeForce RTX 屬於遊戲用顯示卡,有沒有必要導入 HBM2 或 HBM2e 記憶體,AMD Radeon 顯示卡好像給出了一些回答。
這次 GeForce RTX 30 系列顯示卡開始支援 PCIe Gen4 頻寬,但就我們的測試來看,PCIe Gen4 與 PCIe Gen3 在遊戲中的差異(不論是 1080p,或者是 4K 遊戲)並沒有太大差異;文章後面會有 PCIe Gen3 與 PCIe Gen4 數據的差異比較提供參考。
PCIe Gen4 x16 可以提供高達 32GB/s 的峰值頻寬。
完整的 GA102 擁有 10752 CUDA Cores,84 個第二代 RT Cores 以及 336 第三代 Tensor Cores,用至今最強大的消費級 GPU 來形容它當然沒有任何問題。
不過,GeForce RTX 3080 10GB 為 GA102-200,因此其 CUDA Cores、RT Cores 以及 Tensor Cores 數量分別是 8704、68 與 272;可以見到 272 Tensor Cores 數量上較 Turing 架構的 GeForce RTX 2080 Super 的 384 少,但透過 Sparse Matrix(稀疏矩陣)的支援,讓第三代 Tensor Cores 在效能方面較第二代 Tensor Cores 提高 2 倍之多。
RT Cores 與 Tensor Cores 升級外,可以見到 Ampere 架構的 CUADA Cores 數量也有非常明顯的提升,GeForce RTX 2080 Super 的 3072 與 GeForce RTX 3080 的 8704。
CUDA Cores 數量翻倍的原因在於 NVIDIA 調整 INT32 整數運算單元與 FP32 運算單元的數據執行路徑,讓 INT32 加上 FP32 處理能力,因此 FP32 峰值效能可以達到 Turing 架構的 2 倍之多,且在單一時脈週期下可以執行 128 個 FMA 預算。
另一方面,Ampere 架構的 Programmable Shader 也從 Turing 架構的 11 TLFOPs 提升至 30 Shader TFLOPs。
GeForce RTX 2080 Super | GeForce RTX 3080 10GB | |
---|---|---|
GPU Codename | TU104 | GA102 |
GPU Architecture | Turing | Ampere |
GPCs | 6 | 6 |
TPCs | 24 | 34 |
SMs | 48 | 68 |
CUDA Cores / SM | 64 | 128 |
CUDA Cores / GPU | 3072 | 8704 |
Tensor Cores / SM | 8(2nd Gen) | 4(3rd Gen) |
Tensor Cores / GPU | 384(2nd Gen) | 272(3rd Gen) |
RT Cores | 48(1st Gen) | 68(2nd Gen) |
GPU Boost Clock | 1815MHz | 1710MHz |
Peak FP32 TFLOPs(non-Tensor) | 11.2 | 29.8 |
Peak FP16 TFLOPs(non-Tensor) | 22.3 | 29.8 |
Peak BF16 TFLOPs(non-Tensor) | NA | 29.8 |
Peak INT32 TFLOPs(non-Tensor) | 11.2 | 14.9 |
Peak FP16 Tensor TFLOPs with FP16 Accumulate | 89.2 | 119 / 238 |
Peak FP16 Tensor TFLOPs with FP32 Accumulate | 44.6 | 59.5 / 119 |
Peak BF16 Tensor TFLOPs with FP32 Accumulate | NA | 59.5 / 119 |
Peak TF32 Tensor TFLOPs | NA | 29.8 / 59.5 |
Peak INT8 Tensor TOPs | 178.4 | 238 / 476 |
Peak INT4 Tensor TOPs | 356.8 | 476 / 952 |
Memory | 8GB GDDR6 | 10GB GDDR6X |
Memory Interface | 256-bit | 320-bit |
Memory Clock | 15.5Gbps | 19Gbps |
Memory Bandwidth | 496GB/s | 760GB/s |
ROPs | 64 | 96 |
Pixel Fill-rate(Gp/s) | 116.2 | 164.2 |
Texture Units | 192 | 272 |
Texel Fill-rate(Gp/s) | 348.5 | 465 |
L1 Data Cache / Shared Memory | 4608KB | 8704KB |
L2 Cache | 4096KB | 5120KB |
Register File Size | 12288KB | 17408KB |
TGP | 250W | 320W |
Transistor Count | 13.6B | 28.3B |
Die Size | 545mm2 | 628.4mm2 |
Process Node | TSMC 12nm FFN(FinFET NVIDIA) | Samsung 8nm(8N NVIDIA Custom Process) |
RT Cores、Tensor Cores 很重要,但我們覺得 Ampere 更有趣的在於 RTX IO 的加入。
傳統的資料讀寫從 NIC、PCIe、CPU 到系統記憶體再到 GPU 以及 GPU 記憶體,而 RTX IO 部分則可以跳過 CPU 與系統記憶體,讓儲存資料從 NIC、PCIe 直接到 GPU 以及 GPU 記憶體。
對於遊戲玩家來說,RTX IO 可以大幅減緩遊戲從 SSD 中讀取出來與寫入進去的時間,更能讓遊戲主機的 CPU 使用率降低,因為使用 GPU 進行壓縮或解壓縮能力都會高於使用 CPU。
目前 RTX IO 仍未開放,因為它需要配合 Microsoft Window 10 的 DirectStorage。
降低延遲是一個相當重要的議題,特別是對於 Esports 玩家群,因此 NVIDIA 推出所謂的 NVIDIA Reflex 低延遲 Esports 技術(Low Latency Esports Technology)用以改善系統延遲的困擾。
傳統系統反應流程是從輸入裝置、CPU、渲染隊列(Render Queue)、GPU 到顯示器,每一個裝置都有自己的工作時間與反應時間,在這樣的情況下勢必提升了玩家從輸入到獲得回應的反應時間。輸入裝置以及顯示器的反應時間是固定且無法更動,因此透過 NVIDIA Reflex Low Latency Technology 中的 GPU 的作用就是取代傳統系統反應流程中的渲染隊列以及 CPU Backpressure 等待時間。CPU(CPU Bound)也有辦法跳過渲染隊列與 CPU Backpressure,但僅限定於低畫質設定條件,使用 NVIDIA GeForce RTX 30 系列(GPU Bound)開啟 Reflex 模式雖然反應時間會較 CPU 高些許,但 Reflex 模式是讓 GPU 處在高畫質設定條件,兩者都能將反應時間降低,但玩家所體驗到的是完全不同級別的遊戲畫質。
目前支援 NVIDIA Reflex Low Latency Technology 的遊戲有 Apex Legends、Call of Duty:Warzone、Call of Duty:Black Ops Cold War、Call of Duty:Modern War、Destiny 2、Fortnite、KovaaK 2.0 以及 Valorant。
這次 NVIDIA 有針對 Latency 部分推出所謂的 Latency & Display Analysis Tool(LCAT)進行測試分析,但時間關係,我們沒有針對這部份做進一步測試。
LCAT 以外,NVIDIA 也提供 Power Capture Analysis Tool(PCAT)讓媒體可以了解顯示卡(Total Board Power)實際功耗。PCAT 是個相當有趣的測試小物,一般我們可以使用電流勾表去量測 PCIe 8 Pin 的電流,但 PCIe 插槽部分卻沒有辦法,而 NVIDIA 這次提供 PCAT 可以更簡單的知道每一組 PCIe 8 Pin(最多 3 組)以及 PCIe 插槽供電狀況。
這次 NVIDIA GeForce RTX 3080 Founders Edition 搭配 AMD X570 晶片的 ROG Crosshair VIII Impact 與 Ryzen 9 3900XT 進行測試,主要是為了解 PCIe Gen4 與 PCI Gen3 間是否有差異,但就如前面提到,實際上的差異很小,小到可以不用特別選購 PCIe Gen4 平台。
NVIDIA GeForce RTX 3080 Founders Edition 的 Default Clock 為 1440MHz,Boost Clock 則是設定在 1710MHz;同時,我們也找了 GeForce RTX 2080 Super Founders Edition 與 GeForce RTX 3080 Founders Edition 進行比較。
GeForce RTX 2080 Super Founders Edition | GeForce RTX 3080 Founders Edition | ||
---|---|---|---|
Time Spy | 11537 | 16932 | 31.86% |
Time Spy Extreme | 5485 | 8574 | 36.03% |
Fire Strike | 21249 | 29555 | 28.10% |
Fire Strike Extreme | 12580 | 19380 | 35.10% |
Fire Strike Ultra | 6885 | 10984 | 38.46% |
Port Royal | 6885 | 11554 | 40.41% |
遊戲方面,我們提供 3840 x 2160 以及 1920 x 1080 等 2 種解析度的測試數據;測試條件基本上是將遊戲 benchmark 選項設定在最高條件下進行所有測試。
GeForce RTX 2080 Super Founders Edition(Avg. FPS) | GeForce RTX 3080 Founders Edition(Avg. FPS) | ||
---|---|---|---|
Assassin's Creed Odyssey | 40 | 63 | 36.5% |
Borderlands 3 | 34.77 | 60.55 | 42.58% |
Tom Clancy's The Division | 43.3 | 73.3 | 40.93% |
Tom Clancy's The Division 2 | 42 | 72 | 41.67% |
Metro Exodus | 31.32 | 50.05 | 37.42% |
Metro 2033 Redux | 32.67 | 56.67 | 42.35% |
Far Cry 5 | 62 | 96 | 35.42% |
Hitman 2 | 51.16 | 79.26 | 35.45% |
Horizon Zero Dawn | 43 | 76 | 43.42% |
Shadow of the Tomb Raider | 45 | 70 | 35.71% |
World War Z | 178 | 220 | 19.1% |
GeForce RTX 2080 Super Founders Edition(Avg. FPS) | GeForce RTX 3080 Founders Edition(Avg. FPS) | ||
---|---|---|---|
Assassin's Creed Odyssey | 72 | 101 | 28.71% |
Borderlands 3 | 90.90 | 163 | 44.23% |
Tom Clancy's The Division | 109.5 | 169.99 | 35.58% |
Tom Clancy's The Division 2 | 108 | 133.24 | 18.94% |
Metro Exodus | 48.64 | 75.35 | 35.45% |
Metro 2033 Redux | 125.83 | 178.67 | 29.57% |
Far Cry 5 | 98 | 92 | -6.52% |
Hitman 2 | 94.48 | 101.66 | 7.06% |
Horizon Zero Dawn | 91 | 136 | 33.1% |
Shadow of the Tomb Raider | 92 | 123 | 25.2% |
World War Z | 222 | 227 | 2.2% |
透過主機板 BIOS 設定,我們將 PCIe x16 進行 Gen4 與 Gen3 頻寬的切換,以了解 NVIDIA GeForce RTX 3080 Founders Edition 在 PCIe Gen3 x16 與 PCIe Gen4 x16 的差異
PCIe Gen3 x16 | PCIe Gen4 x16 | ||
---|---|---|---|
Time Spy | 16917 | 16932 | 0.09% |
Time Spy Extreme | 8598 | 8574 | -0.28% |
Fire Strike | 29297 | 29555 | 0.87% |
Fire Strike Extreme | 19759 | 19380 | -1.96% |
Fire Strike Ultra | 10987 | 10984 | -0.03% |
Port Royal | 11466 | 11554 | 0.76% |
PCIe Gen3 x16(Avg. FPS) | PCIe Gen4 x16(Avg. FPS) | ||
---|---|---|---|
Borderlands 3 | 60.98 | 60.55 | -0.71% |
Tom Clancy's The Division | 75.5 | 73.3 | -1.64% |
Tom Clancy's The Division 2 | 70 | 72 | 2.78% |
Metro Exodus | 51.32 | 50.05 | 2.54% |
Metro 2033 Redux | 57.33 | 56.67 | -1.16% |
Far Cry 5 | 95 | 96 | 1.04% |
Hitman 2 | 78.75 | 79.26 | 0.64% |
Horizon Zero Dawn | 73 | 76 | 3.95% |
Shadow of the Tomb Raider | 71 | 70 | -1.43% |
World War Z | 217 | 220 | 1.36% |
PCIe Gen3 x16(Avg. FPS) | PCIe Gen4 x16(Avg. FPS) | ||
---|---|---|---|
Borderlands 3 | 137.94 | 163 | 15.34% |
Tom Clancy's The Division | 164 | 169.99 | 3.52% |
Tom Clancy's The Division 2 | 131 | 133.24 | 1.68% |
Metro Exodus | 78.64 | 75.35 | -4.37% |
Metro 2033 Redux | 183 | 178.67 | -2.42% |
Far Cry 5 | 99 | 92 | -7.61% |
Hitman 2 | 103.35 | 101.66 | -1.66% |
Horizon Zero Dawn | 134 | 136 | 1.47% |
Shadow of the Tomb Raider | 123 | 123 | 0% |
World War Z | 225 | 227 | 0.88% |
3DMark 裡面的 PCIe Express 測試是可以清楚見到 PCIe Gen4 x16 與 PCIe Gen3 x16 的頻寬差異,但就遊戲測試來看,兩者的差異性真的可以將它們忽略不提。
相較於測試分數,功耗一直不是我們太在意的一個點,但這次因為有 NVIDIA 的 PCAT 工具,讓我們能更輕鬆的針對顯示卡的功耗來做一個觀察。
這一代顯示卡在 Furmark 下似乎有所限制,因此我們該用 3DMark TimeSpy Extreme 的壓力測試模式進行相關測試;設定上為 25 圈,透過 PCAT 與 Frameview 1.1 監測出資料並得到以下數據。
從數據來看,NVIDIA GeForce RTX 3080 10GB Founders Edition 在壓力測試下的大功耗可以達到 352W(Peak),瞬間最低功耗則是在 290W。
除了顯示卡功耗外(Total Graphics Power, TPG),我們也順便抓了 2 組 PCIe 8 Pin 供電的電流值。
雖然一般建議是 750W 的電源供應器,但我們覺得至少選購 850W 的電源供應器較為合宜。
溫度方面,同樣以 3DMark TimeSpy Extreme 設定 25 個迴圈進行壓力測試,GPU 最高溫度會來到 79 度,而這時候的風扇轉速最高可以達到 2000 轉左右;需要特別注意的是,我們是在開放空間進行相關測試,因此數據可能會與安裝在機殼內有著一定差異在。
效能力壓 Turing 架構的 GeForce RTX 2080 Super 是無法爭論的事情,至於 GeForce RTX 2080 Ti,這張卡似乎不是同等級別的產品,畢竟在這之後還有一張 GeForce RTX 3090 存在著。
當然,你可以說 GeForce RTX 3090 是直接與 Titan RTX 抗衡,只是 Titan RTX 並不是 GeForce 遊戲卡。
作為 GeForce RTX 30 系列的主力,GeForce RTX 3080 的功耗相較於 GeForce RTX 2080 Super 並不會高出太多,加上以一張可以在 3840 x 2160 解析度下,可以順暢執行特效全開的遊戲用顯示卡來說,它絕對超值。更不要說 NVIDIA DLSS、Reflex 以及 AMD Radeon 陣營在下一代產品加入 Ray Tracing 功能。
至於 Samsung 8N 製程,個人倒覺得這都是小事情,效能與價格能夠讓消費者買單,這應該才是產品的重點。
直接說結論,導入第二代 RT Cores、第三代 Tensor Cores 的 NVIDIA GeForce RTX 3080 Founders Edition 是一張相當優異的顯示卡,不管是效能或者是外觀設計,甚至是其獨特的散熱風流設計,但可惜 Founders Edition 首輪開賣名單中沒有台灣,只能選購其他品牌(AIC)所推出的 GeForce RTX 3080 顯示卡。