「不可思議」的 GPU 叢集助力開發,用於自動輔助駕駛與全自動駕駛的人工智慧。
想要解決當代最棘手的運算難題之一,需要使用非常強大的運算能力。
特斯拉 (Tesla) 人工智慧部門資深總監 Andrej Karpathy 於 CVPR 2021 大會中,宣布自家用於訓練自動輔助駕駛與自動駕駛功能的深度神經網路超級電腦。該叢集使用 720 個節點,每個節點搭載 8 個 NVIDIA A100 Tensor 核心 GPU (共 5,760 個 GPUs),以 1.8 exaflops 的運算效能表現引領業界。
Karpathy 表示:「這是一台令人難以置信的超級電腦。我相信針對其每秒浮點運算,這將是全球排名第五的超級電腦。」
特斯拉在其開發週期的核心,為汽車產業提供前所未有的運算水準,讓自動駕駛車的工程師們能夠以最先進的技術,高效率地完成傾注畢生心血的工作。
NVIDIA A100 GPU 提供各種規模的加速能力,以支援全球運算效能最高的資料中心。採用 NVIDIA Ampere 架構的 A100 GPU,其效能表現較前一代提升 20 倍,且可以分割多達七個 GPU 執行個體,並依照不斷變化的需求進行調整。
GPU 叢集是特斯拉垂直整合自動駕駛的其中一部分,其透過超過百萬輛在路上行駛的汽車來完善和建立新功能,並持續改進。
從汽車到資料中心
特斯拉的開發週期始於汽車。以「影子模式 (shadow mode)」運行的深度神經網路,在不實際控制車輛的情況下,會在汽車的行駛過程中悄悄進行感知並做出預測。
此時這些預測內容與錯誤或誤判的情況會被記錄下來,接著,特斯拉的工程師使用這些執行個體,建立一個複雜且多元場景的訓練資料集,讓深度神經網路 (DNN) 更加完善。
特斯拉收集了約一百萬個以 36 FPS 錄製的十秒鐘畫面,累計出高達 1.5PB 的資料量。接著,深度神經網路在資料中心反覆執行這些場景,直到未出現任何錯誤。最後,再將訓練完的深度學習神經網路送回車輛,並再次展開這個過程。
Karpathy 表示:「這種以大量資料來訓練深度神經網路的方式,需要使用『龐大的運算量』,這也是為什麼特斯拉使用高效能的 A100 GPU 來建立和部署當前的超級電腦。」
持續反覆運算
除了全面且完整的訓練外,特斯拉的超級電腦亦提供自動駕駛車的工程師們,擁有在開發過程中進行實驗和反覆運算所需的效能。
Karpathy 表示,特斯拉目前部署的深度神經網路結構,可以讓二十名工程師同時在一個網路上工作,並區隔不同的功能以進行同步開發。
接著,這些深度神經網路能以較過去快速反覆運算的速度還要更快的方式,運行訓練資料集。
Karpathy 表示:「電腦視覺是我們進行研發及實現自動輔助駕駛的基本要素。要讓它真正發揮作用,就得訓練一個大型的神經網路並進行大量實驗。這正是我們在運算領域投入許多心力和資金的原因。」