DLSS 3 是 GeForce RTX 40 系列最大優勢，NVIDIA Ada Lovelace 架構與特色介紹

DLSS 3 真的很強，同時 Ada Lovelace 架構也有很多特色。

NVIDIA GeForce RTX 40 系列在 9 月 20 日正式發表，而 NVIDIA 則是與全球媒體在 9 月 21 日闡明更多 Ada Lovelace GPU 架構的細節與 GeForce RTX 40 系列的特色。

新一代 GeForce RTX 40 系列採用 Ada Lovelace 架構，現階段發表了 GeForce RTX 4090 24GB GDDR6x，確定會在 10 月 12 日發售，緊接其後會是 GeForce RTX 4080 16GB GDDR6x 與 GeForce RTX 4080 12GB GDDR6x，發售時間目前暫定在 11 月份。

目前 Ada Lovelace 架構中，旗艦的 GeForce RTX 4090 採用 AD102 晶片，16GB 與 12GB 的 GeForce RTX 4080 系列分別使用 AD103 與 AD104 晶片。

NVIDIA 明確提到 Ada Lovelace 架構擁有新的 Streaming Processors、RT Core、Tensor Core、Optical Flow Accelerator 與 Video Engine。

Video Engine 部分，GeForce RTX 40 系列與 GeForce RTX 30 系列相比較的話，新一代顯示卡擁有 2x NVENC（第 8 代）與 1x NVDEC（第 5 代）；GeForce RTX 30 系列為 1x NVENC（第 7 代）與 1x NVDEC（第 5 代）。主要不同在與 NVENC，這也讓 GeForce RTX 40 系列可以在 8K 60Hz 部分更為強悍。

GeForce RTX 40 系列也擁有 H.264、H.265 與 AV1 格式的編解碼能力。

回到 Ada Lovelace 架構上，跟著來看看它與 2020 年發表的 Ampere 架構差異到底有多大。

Ada Lovelace 推進到 TSMC 4nm 製程，與 Ampere 架構的 Samsung 8nm 製程有著非常大的不同。

首先在 GPCs（Graphics Processing Clusters），AD102 從原先 GA102 的 7 組提升至 12 組，至於每 1 組 GPCs 是由 6 組 TPCs（Texture Processing Clusters）組成，再來就是每個 TPCs 整合 2 個 SMs（Streaming Multiprocessors），每組 SMs 整合第 3 代 RT Core、128KB L1 快取與 4 個 TMUs（Texture Mapping Units），同時 4 個集群（clusters）各擁有 16 FP32 CUDA Cores、16 個同步 FP32 + INT32 CUDA Cores、4 load / store units 與帶有 warp-scheduler 和 threat-dispatch 功能的 L0 快取；當然，這裡面更重要的是第 4 代 Tensor Cores。

總結來說，Ada Lovelace 每組 SM 擁有 128 CUDA Cores、4 個 Tensor Cores 與 1 個 RT Core；每 GPC 擁有 12 SMs，也就是 1,536 CUDA Cores、48 個 Tensor Cores 和 12 個 RT Cores。因此，12 個 GPCs 可以提供多大 18,432 CUDA Cores、576 個 Tensor Cores 與 144 RT Cores；此外，每組 GPU 擁有 16 RPOs，也就是說 AD102 擁有多達 192 ROPs。

Ada Lovelace 仍舊維持 PCIe 4.0 x16 與 384 bit 記憶體介面。

效能提升當然也會迫使功耗往上增加，可是與 Ampere 相比較的話，在同樣功耗的前提下，可以見到 Ada Lovelace 表現是有相當 2x 幅度的增加；AD102 aka GeForce RTX 4090 預設 TGP 為 450W。

Ada Lovelace 架構 GPU 的新功能包含 SER（Shader Execution Reordering）、DMM（Displace micro-mesh）、OMM（Opacity micro-masks）、FP8 Inferencing、Optical Flow Accelerator 與 DLSS 3。

在眾多新功能裡面，DLSS 3 的加入可以說是個革命性的特色。

DLSS 3 具有 DLSS 2 的所有功能與 AI super-resolution，但它新加入的 AI frame-generation 特色讓同等質量的條件下，可以將幀速率提高近一倍。另一方面，DLSS 3 可以不投過圖形渲染管道的前提下，簡單透過 AI 生成整個畫面。

DLSS 3 引入了一項革命性的新功能，該功能有望在同等質量的情況下將幀速率提高近一倍，稱為 AI 幀生成。雖然它具有 DLSS 2 的所有功能及其 AI 超分辨率（以最小的質量損失將較低分辨率的幀放大到原始分辨率）； DLSS 3 可以簡單地使用 AI 生成整個幀，而不涉及圖形渲染管道。因此，使用 DLSS 3 的每個交替幀都是 AI 生成的，而不是先前渲染幀的副本。

只能在 Ada Lovelace 架構 GPU 實現的原因，主要在於 Optical Flow Accelerator（OFA）硬體，透過它創建所謂的光流場預測下一個畫面的外觀。OFA 同時也確保 DLSS 3 演算法不會被快速變化的 3D 場景中的靜態對象所混淆，這很大程度是仰賴第 4 代 Tensor Cores 的 FP8 所帶來的效能提升。

DLSS 3 最後一個要素就是 Reflex。透過降低 rendering queue to zero，Reflex 在 DLSS 3 幀時間中扮演則著至關重要的作用，並且確保渲染隊列不會混淆 upscaler。OFA 與第 4 代 Tensor Cores 的結合，是 Ada Lovelace 擁有 DLSS 3 的原因，這也是 Ampere 以及其他舊架構無法運行的主因。

情報資訊