TensorRT加速Stable Diffusion、RTX Video Super Resolution 更新發布。

生成式人工智慧(AI) 是個人電腦運算技術史上最重要的趨勢之一,促進遊戲、創作、影像、生產力、開發等領域的發展。

GeForce RTX和NVIDIA RTX GPU,具備專用的AI處理器Tensor核心,直接為超過一億台 Windows PC 和工作站帶來生成式AI所需的動能。

日前宣布供資料中心使用的 TensorRT-LLM,也即將登陸 Windows 平台,讓生成式AI在PC上的表現快上四倍。TensorRT-LLM能為如 Llama 2 和 Code Llama 這一類最新大型語言模型(LLM)加速推論效能。

另外,NVIDIA還發布了協助開發人員加速 LLM 運作的工具,包括使自訂模型能夠相容於TensorRT-LLM 的腳本、TensorRT 最佳化的開源模型,以及展示 LLM 反應速度和品質的開發人員參考專案等。

TensorRT 加速技術現在亦可用於 Automatic1111 所發布之熱門 Web UI 圖形化界面中的 Stable Diffusion。與先前最快的執行速度相比,它可為生成式人工智慧擴散模型加速高達兩倍。

此外,RTX Video Super ResolutionVSR1.5 版本同樣包含於最新發布的 Game Ready 驅動程式中,也將會加入於十一月初發布的下一版本 NVIDIA Studio 驅動程式。

使用 TensorRT 增強 LLM 的能力

LLM創造出許多新的提高生產力應用案例 ,例如參與聊天、彙整文件和網路內容、起草電子郵件和部落格的內容 ,也是人工智慧新管道和其他軟體的核心,可自動分析資料與生成大量內容。

NVIDIA 用於加速人工智慧推論的 TensorRT-LLM 函式庫讓開發人員與終端使用者可以運用LLM的優勢 ,在支援 RTX 的 Windows PC 上運行速度可提高四倍。

在處理批量較大的情況下,這種加速功能將讓用戶在使用更複雜的 LLM 時獲得更好的體驗,例如利用寫作和編碼助手同時輸出多種自動完成的結果。這能加快處理效能、提高品質,讓用戶可以選擇最好的結果。

將 LLM 功能與其他技術進行整合之際,TensorRT-LLM 加速技術同樣大有裨益,例如在檢索增強生成(RAG)中,LLM 搭配向量庫或向量資料庫使用,RAG 使得 LLM 能夠根據特定資料集(例如用戶的電子郵件或網路上的文章)產生回應,以提供更有針對性的答案。

在實際應用中,當有人問 LLaMa 2 基礎模型「《心靈殺手2(Alan Wake 2)》這款遊戲裡使用了 NVIDIA 的哪些技術」時,它給出的回答是「遊戲尚未發布」,即很好地說明了這一點。

使用 RAG 與近期載入向量庫中的 GeForce 新聞報導內容,並在 TensorRT-LLM 加速技術的協助下,可更快速地生成更準確的答案。

相反,使用 RAG 與近期載入向量庫中的 GeForce 新聞報導內容,並連接到同一個 Llama 2 模型時,不僅能生成正確答案 ,即NVIDIA DLSS 3.5、NVIDIA Reflex 和全光線追蹤,而且在 TensorRT-LLM 加速技術的協助下,生成答案的速度更快,展現出速度加上熟練度將為用戶提供更聰明的解決方案。

TensorRT-LLM將開放在 NVIDIA 開發者網站下載。TensorRT 最佳化開源模型及使用 GeForce 新聞內容訓練的 RAG 演示範例,可在 ngc.nvidia.com 及 GitHub.com/NVIDIA 上取得。

自動加速

Stable Diffusion 這一類擴散模型,廣泛被用於想像和創造各式精美、新穎的藝術作品。影像生成需要反覆進行調整運算,可能得經過數百次調整才能獲得完美的輸出結果。當在效能較不足的電腦來進行這項作業時,則可能需增加長達數小時的等待時間。

TensorRT 藉由層融合、精確校準、核心自動調整及其他功能以加速人工智慧模型,顯著提高推論效率和速度,這使得它成為執行即時應用和資源密集型任務時不可或缺的工具,現在 TensorRT 又將執行 Stable Diffusion 的速度提升一倍。

Stable Diffusion with TensorRT 加速技術相容於 Automatic1111 所推出最受用戶歡迎的 WebUI 圖形化介面,能夠協助用戶更快地反覆進行調整運算、減少等待電腦輸出結果的時間,更迅速地產生出最終影像畫面。在 GeForce RTX 4090 上,它的運行速度比在搭載 Apple M2 Ultra 的 Mac 電腦上的最高執行速度快上七倍。該擴充功能今日已開放下載。

在 Stable Diffusion 執行管道的 TensorRT 展示內容中,為開發人員介紹了如何準備擴散模型及使用 TensorRT 進行加速的參考實作內容。有興趣加速執行擴散處理管道,讓應用程式更飛快進行推論的開發人員,則可以從這方面著手。

影片看起來更細膩銳利

人工智慧所有用戶在 PC 進行許多日常作業時,可以享受到更好的體驗。人們最常在 PC 上觀看 YouTube、Twitch、Prime Video、Disney+ 等許多來源的串流影片,而人工智慧與 RTX 將再次提升這些串流影片的畫質。

RTX VSR 是人工智慧像素處理領域的一項突破性技術,能夠減少或消除壓縮影片時產生的失真,提高串流影片內容的畫質。它還能讓影像邊緣更銳利,呈現更豐富的細節。

RTX VSR 1.5 版現已正式發布,其利用最新版本的模型進一步提高影像品質,消除以原始解析度播放內容的失真,並加入支援 Turing 架構的 RTX GPU(包括專業版 RTX 和 GeForce RTX 20 系列 GPU)。

重新訓練 VSR 人工智慧模型,有助於它學會準確辨識微妙細節和壓縮失真之間的差異。因此經過人工智慧強化的影像,在放大影像解析度的過程中能更準確地保留細節。更細膩的細節得以更加清晰可見,整體影像看起來更清晰銳利。1.5 版的新功能是消除以顯示器原始解析度播放影片所產生的失真。最早發布的版本僅在放大影像解析度時,讓畫面看起來更精美。但現在,舉例而言,將 1080p 解析度的影片串流到 1080p 解析度的顯示器上播放時,由於減少了嚴重的失真,整體畫面將顯得更加流暢。

RTX VSR 消除以原始解析度播放影片所產生的失真。

RTX VSR 1.5 版本已加入最新版本的 Game Ready 驅動程式,今日開放所有 RTX 用戶下載,同時將在預計於十一月初推出的 NVIDIA Studio 驅動程式中提供。

RTX VSR 是 NVIDIA 軟體、工具、函式庫及 SDK 裡的一員,如上述提及的其他項目,再加上 DLSS、Omniverse、AI Workbench 等眾多其他軟體,將共同協助讓消費者享用到將四百多款支援人工智慧的應用程式和遊戲。

人工智慧時代就在我們眼前。RTX 將助力推動人工智慧時代發展的每一步。

Tags: