NVIDIA 深耕 AI 人工智慧多年,隨著 GeForce RTX 50 系列將於 2025 年 1 月 30 日上市,特地為技術編輯們上了不少的課,講述透過人工智慧神經網路,能夠為 3D 畫面品質、繪製速度帶來怎樣的效能提升。

Editor’s Day 一向是筆者最喜歡的活動,正所謂「知其然,知其所以然」,在驚嘆人工智慧提升畫面品質、幀數的同時,更對背後其原理所震懾。NVIDIA 以 RTX Neural Rendering 作為課程內容開場,但基於好奇心作祟,筆者已在 CES 2025 舉行期間先行撰寫,請各位動動手指移駕觀賞:

延伸閱讀:CES 2025:NVIDIA RTX Neural Rendering 是什麼?

皮膚、頭髮缺一不可

在光柵化成像年代,皮膚和毛髮是相當不容易完整呈現的部分,因為皮膚具有半透明的特徵,需一層層多次透過著色器運算,毛髮則是受限於激增的三角形數量,使得上述 2 樣東西在光柵化的後期,才出現次表面散射(subsurface scattering)和廠商專有的頭 ∕ 毛髮演算法。

進入光線、路徑追蹤即時成像之後,這 2 個大魔王依舊困擾著繪圖廠商與創意工作人員。NVIDIA 這次提出的解方為 RTX Skin 和線性掃描球體(linear-swept sphere),RTX Skin 可以看做是次表面散射在光線、路徑追蹤的實作,並加上 RTX Neural Radiance Cache 加速運算;頭髮部分則是以 2 個球體中央求取線性掃描的方式,取代過往大量的三角形,減少運算量。

▼ RTX Skin 可以在光線、路徑追蹤即時成像,模擬皮膚的半透明狀態。
RTX Skin

▼ 使用線性掃描球體取代傳統三角形去建構頭髮,除了能夠減少三角形數量之外,頭髮形狀也會更接近真實狀態。
linear-swept spheres

光線、路徑追蹤成像,其中包含 BVH 遍歷工作:將畫面當中的三角形以相鄰遠近的方式,建立出樹狀資料結構,接著就會開始檢測從攝影機反向射出的光線,與該資料結構中的哪個三角形相交。RTX Mega Geometry 會依據畫面中三角形的 LOD(level of detail)細節層次分組,分別執行「快取」或是「壓縮」該樹狀結構,一旦畫面有所更動,就能夠更快地依據畫面變化更新 BVH。

▼ RTX Mega Geometry 會根據 LOD 細節層次將三角形分組,以便快取或是壓縮 BVH 樹狀結構。
RTX Mega Geometry

▼ 在 RTX Mega Geometry 展示之中,能夠讓畫面中填充更多的三角形。
RTX Mega Geometry

▼ 這隻虛擬龍形生物透過及大量的三角形,建構其身軀與頭部,並在此前提下依舊能夠即時運算完成。
RTX Mega Geometry

▼ RTX Remix 推出已屆滿 1 週年,為年紀較長的遊戲注入光線、路徑追蹤成像新生命。
RTX Remix

DLSS 4 多幀生成

玩家追求畫面品質、幀率速度、反應速度是永無止盡的,特別是當光線、路徑追蹤成像要即時提供 60FPS 以上的畫面產出速度,已超越摩爾定律所能給予的運算能力極限。DLSS 於焉誕生,雖然在剛開始會有不少的畫面破圖問題,但自從 DLSS 2 之後畫面品質穩定上升,DLSS 3 則是依靠著 GeForce RTX 40 系列內建的光流加速器(Optical Flow Accelerator),以及 DLSS 3.5 的光線重建 Ray Reconstruction,持續推動 DLSS 向前進步。

▼ 畫面品質、幀率速度、反應速度 3 者間相互拉扯,DLSS 的推出讓這些面向不再顧此失彼。

到了 DLSS 4,首先就是將內建模型從卷積神經網路 CNN(convolutional neural network)轉換至目前如 ChatGPT 等多種聊天機器人所使用的 Transformer(所有 Geforce RTX 系列顯示卡均可支援)。

NVIDIA 表示,原先所使用的 CNN 已經過數年的最佳化處理,自家內部有一台伺服器 24×7 不斷地進行訓練,已達畫質上限;轉換至 Transformer 之後,雖然參數數量變更為 2 倍,但是卻可以提供更好的畫質,過去鐵絲網品質不佳、高速旋轉物體殘影……等缺失迎刃而解。

▼ Transformer 的畫質表現更佳,且 NVIDIA 表示其仍有繼續加強畫質的空間。
Ray reconstruction use transformer model

隨著 GeForce RTX 50 系列內建更強大的張量核心 Tensor Core,DLSS 4 更在此系列顯示卡上提供 DLSS 多幀生成 Multi Frame Generation,可以根據 1 張畫面往前推導出 2 張、3 張畫面。搭配 DLSS Super Resolution 使用時,最高相當於每 16 個畫素,僅有 1 個畫素是採用傳統方式繪製,其餘 15 個像素均透過 AI 生成。

▼ DLSS Multi Frame Generation 為 GeForce RTX 50 系列顯示卡限定功能,可以依據 1 個畫面,推導出 2〜3 張未來畫面。
DLSS Multi Frame Generation

▼ DLSS Super Resolution 和 Multi Frame Generation 一同使用時,15/16 的畫面像素均使用 AI 生成。

NVIDIA 明白表示,其實很早就可以實作 Multi Frame Generation,但是當時生成畫面畫質不佳,幀生成速度不穩定導致 frame pathing 反而讓操作體驗下降。GeForce RTX 50 系列除了上述功能之外,更加入 Flip Metering 精準測量幀生成時間,因此才讓 Multi Frame Generation 得以面市。

▼ GeForce RTX 50 系列硬體內建 Flip Metering 功能,因此才可以較為精準地控制畫面時間。
Flip Metering

▼ DLSS 4 與使用傳統繪製方式的效能相比,其效能提升幅度高達 9 倍。
DLSS 4 performers up to 9x

▼ DLSS 4 功能集與 GeForce RTX 系列顯示卡的對應關係,Multi Frame Generation 要求最新 GeForce RTX 50 系列、Frame Generation 則要求 GeForce RTX 40 系列以上,其餘功能自 GeForce RTX 20 系列起均能支援。

▼ NVIDIA APP 也將獲得更新,新增 DLSS Override 功能,經官方驗證沒問題的遊戲作品,可以強制變更其 DLSS 設定,無需從遊戲介面中調整。
NVIDIA APP override

Reflex 2 降低延遲達 75%

最後則是已有些時日不曾提起的 Reflex 功能,本次也順理成章的升級成 Reflex 2。

Reflex 是在 CPU 和 GPU 之間仔細控制渲染佇列 render queue,避免過長的佇列影響反應速度、過短的佇列降低效能。Reflex 2 則是根據使用者的滑鼠移動作為回饋,探索移動攝影機角度之後,哪些畫面像素仍可使用;由於需要重新繪製的像素變少了,相對而言也降低了畫面輸出的延遲,NVIDIA 表示 Reflex 2 最高可以降低 75% 延遲。

▼ 將原本應用在 VR 的技術應用於 Reflex 2,最高可以降低 75% 的反應延遲延遲。
Reflex 2