NVIDIA(輝達)今天宣布 NVIDIA Maxine 平台,為開發人員提供雲端 GPU 加速人工智慧(AI)視訊會議軟體套件以強化視訊串流 – 視訊串流也是第一大的網路流量來源。

NVIDIA Maxine 是雲端原生的視訊串流 AI 平台,讓服務供應商得以將新的 AI 功能導入每天舉行超過 3,000 萬次的網路會議中。視訊會議服務供應商可透過在雲端的 NVIDIA GPU 上運行該平台,為用戶提供全新的 AI 效果,包括眼神校正、超解析度、雜音消除、臉部補光等。

由於資料是在雲端而不是在本地設備上處理,因此終端用戶無需任何專用的硬體設備即可享受全新功能。

NVIDIA 副總裁暨加速運算總經理 Ian Buck 表示:「視訊會議已經成為我們日常生活的一部分,協助數百萬人工作、學習、娛樂,甚至就診。NVIDIA Maxine 整合了我們最先進的視訊、音訊和對話式 AI 功能,而這讓我們保持聯繫的平台帶來突破性的效率和全新功能。」

Maxine 平台大大降低了視訊通話所需的頻寬,AI 軟體無需串流處理整個螢幕的畫素,而是分析通話中每個人的關鍵臉部特徵點(facial points),然後為另一端視訊中的臉孔進行智慧重新動畫處理。相較於透過網路來回傳輸,這樣就能以更低的傳輸量串流視訊。

透過運行在 NVIDIA GPU 上的新型 AI 視訊壓縮技術,開發人員可以降低視訊頻寬消耗至 H.264 串流視頻壓縮標準要求的十分之一。這為服務供應商降低了成本,並為終端用戶提供更流暢的視訊會議體驗,讓用戶能在電腦、平板電腦和手機上以更少的數據傳輸量享受更多 AI 服務。

Maxine 中將包含 NVIDIA 研究人員的全新突破,讓視訊會議更像是面對面的對話。視訊會議服務供應商將能運用 NVIDIA 在生成對抗網路(GAN)研究的優勢,為用戶提供各種新功能。

例如,臉部對齊可自動調整臉部,使人們在通話過程中看起來彼此相對;眼神校正可幫助模擬眼神接觸,即使鏡頭未與用戶的螢幕對齊也可達到效果。視訊會議自今年年初以來增長了 10 倍,這些功能可幫助人們在對話中保持互動,而非一直盯著攝影鏡頭。

開發人員也可以添加功能,讓通話者選擇自己的動畫替身,並且能即時地透過他們的聲音和情緒音調自動產生逼真的動畫。自動邊框選項使視訊源(video feed)可以跟著說話者,而且即使當他們離開螢幕前也可達到效果。

透過 NVIDIA Jarvis SDK 提供的對話式 AI 功能,開發人員可以整合使用了最先進 AI 語言模型的虛擬助手,以進行語音辨識、語言理解和語音生成。虛擬助手可以做筆記、設置執行項目,並且以擬人的聲音回答問題。其他對話式 AI 服務,例如翻譯、隱藏字幕和逐字稿,有助於確保參與者了解通話中正在討論的內容。

視訊會議的需求在任何特定時間都難以預測,數百或數千名用戶可能試圖加入同一個會議。NVIDIA Maxine 透過在 NVIDIA GPU 上的 Kubernetes 容器叢集中運行的 AI 微服務(microservices),協助開發人員根據即時需求拓展其服務。用戶可以同時啟用多個 AI 功能,同時維持在應用程式的延遲要求內。

視訊會議服務供應商可以透過在雲端的 NVIDIA GPU 上運行 AI 推論作業負載,以 Maxine 向數十萬名用戶提供最先進的 AI 功能。Maxine 平台的模組化設計讓開發人員能輕鬆地選擇 AI 功能,並將其整合至視訊會議解決方案中。

Maxine 平台整合多個 NVIDIA AI SDK 和 API 技術。除了 NVIDIA Jarvis 外,Maxine 平台還利用 NVIDIA DeepStream 高吞吐量音訊和視訊串流 SDK 及 NVIDIA TensorRTTM SDK,以進行高效能深度學習推論。

Maxine 平台的 NVIDIA SDK 中提供的 AI 音訊、視訊和自然語言功能,是透過在 NVIDIA DGXTM 系統中經數十萬小時的訓練開發而成,而 NVIDIA DGX 系統是引領全球的平台,可用於訓練、推論和資料科學作業負載。

打造音訊與視訊應用和服務的電腦視覺 AI 開發人員、軟體合作夥伴、新創公司和電腦製造商,可以申請早期試用 NVIDIA Maxine 平台。