英偉達的深度學習玩法:Tesla P100、Drive PX2與DGX-1
在今年4月初開幕的圖形處理器技術大會上,NVIDIA展示了針對VR虛擬現實和深度學習應用的最新技術和產品。
在今年4月初開幕的圖形處理器技術大會(The Nvidia GPU technology Conference, 簡稱GTC)上,NVIDIA展示了針對VR虛擬現實和深度學習應用的最新技術和產品。
在開場的主題演講中,NVIDIA聯合創始人兼CEO黃仁勛在反復重申“一個全新的計算模型”這樣的字眼。他指出,“消費市場需要的計算機可再也不是那種馬馬虎虎就能打發的一般產品。大家都愿意享受超級計算速率帶來的快感,特別是基于GPU加速帶來的計算體驗”。
當然,超級計算時代的到來并非只是想想就能實現的,基于這樣的目標,NVIDIA在今年的GTC大會上推出了包括GPU芯片Tesla P100(基于全新Pascal平臺架構上打造)、DRIVE PX2(用于自動駕駛汽車的開發平臺)和用于深度學習研究的超級計算機DGX-1(使用Tesla P100芯片建造,運算速度可達170萬億次)在內的一系列新技術和新產品。
NVIDIA Tesla P100圖形處理器芯片
為深度學習應用搭建的全新解決方案
基于NVIDIA全新計算平臺Pascal打造的Tesla P100 GPU芯片集成了NV Link總線,16GB HBM2顯存,內建3584個CUDA,224個紋理單元,16GB HBM2顯存,帶寬可達到720GB/s,擁有基于16nm FinFET工藝打造的最大GPU核心。
NVIDIA Tesla P100圖形處理器芯片
此外,Tesla P100芯片也是繼2014年發布,基于Kepler架構平臺打造的Tesla K80之后,Tesla系列GPU產品的首次重大升級。
不過既然這是一款針對深度學習打造的GPU芯片,那么這里還必須要提一下Tesla P100芯片使用的NVIDIA旗艦GP100核心。GP100的性能一公布,給車云菌的感覺就是NVIDIA這次回歸了GK110大核心時代注重雙精度運算的設計,而且比之前更加變態。它每組SM單元中有64個FP32單元,但有32個FP64單元,FP64與FP32比例是1:2。這樣的設計意味著GP100的FP32 CUDA核心可以同時執行2個FP16半精度運算,因此FP16浮點性能高達21.6TFLOPS。
NVIDIA GP100核心架構示意圖
GPU并行運算的特性很適合深度學習。據車云菌了解,NVIDIA在Tesla P100之外還推出了基于GP100核心的DGX-1深度學習超級計算機,由8顆GP100核心及2顆16核Xeon E5處理器組成,深度計算性能達到了170TFLOPS,號稱比250臺X86服務器還要強大。
NVIDIA 超級計算機DGX-1 售價高達$129000,真心不便宜
在過去的兩年里,每次GTC大會的主題演講環節,黃仁勛都會將話題的重點放在深度學習和神經網絡研究上,并適時推出相關的新技術和新產品,而這些為NVIDIA之后進行人工智能的研究奠定了基礎。今年也不例外。除了基于Pascal全新架構平臺打造的Tesla P100芯片外,NVIDIA還發布了兩款Maxwell計算平臺下的全新GPU芯片—Tesla M40/M4,是為深度學習應用而特別打造的。
顯而易見的是,使用通用的架構平臺,相同的算法,這樣便于進行高效的深度學習研究。而如果按照傳統的解決辦法,程序是不同的專家寫的,不同的算法導致的實驗結果可能也會千差萬別。因此,要長期進行深度學習研究,NVIDIA的這兩款芯片封裝了固定的算法,并且提供了海量數據和強大的計算能力供你使用。
NVIDIA的Tesla M40芯片擁有8倍更快的caffe性能
因此,如果只考慮深度學習訓練,NVIDIA的Tesla M40/M4還是相對比較合適的(百度的深度學習研究院就用的這一款),相對于K40單精度浮點運算性能是4.29Tflops,M40可以達到7Tflops。
驅動自動駕駛汽車發展的深度學習
深度學習有成千上萬種潛在的應用領域,在自動駕駛技術上的研究算得上是現下最熱門的一個。盡管基于深度學習打造的自動駕駛汽車平臺仍處于概念階段,但NVIDIA一直都在同主機廠和軟件開發商合作,設計開發不僅能夠模仿人類駕駛員同時還可以在復雜情況下做決定的自動駕駛平臺。
DRIVE PX 2是NVIDIA最新開發的用于自動駕駛汽車的硬件計算平臺。相比之前把后備箱塞得滿滿當當的工控機,DRIVE PX 2在體積上已經大大縮小。
NVIDIA DRIVE PX 2自動駕駛開發平臺
我們不妨先看看DRIVE PX 2的一些基本性能參數:
1.基于16nm FinFET工藝,功耗高達250W ,采用水冷散熱設計。支持12路攝像頭輸入、激光定位、雷達和超聲波傳感器;
2. CPU部分:兩顆新一代NVIDIA Tegra處理器,當中包括了8個A57核心和4個Denver核心;
3. 首發NVIDIA的新一代GPU架構Pascal(即帕斯卡,宣稱性能是上一代的麥克斯韋構架的10倍),單精度計算能力達到8TFlops,超越TITAN X,有后者10倍以上的深度學習計算能力。
那么既然有了如此強大的性能,NVIDIA的DRIVE PX 2平臺到底如何在自動駕駛汽車上發揮作用呢?這里要重點講一下它在高精度地圖繪制上發揮的優勢。DRIVE PX 2能夠將外部傳感器獲取的圖像數據加工處理后制成單個的高精度點云。系統將所有DRIVE PX 2平臺的點云數據上傳至云端服務器,經過DGX-1處理后,可融合為一副完整的高精度地圖。所以,車內的DRIVE PX 2,云端的DGX-1配合發揮作用,形成了NVIDIA完整的自動駕駛技術平臺解決方案。
前面車云菌已經為大家簡單介紹了DGX-1的架構和參數,那么它的性能到底有多強,我們通過下面這個例子就能直觀地了解到。
將DGX-1和一枚因特爾的雙核Xeon處理器作比較。這枚雙核Xeon的運算速度為3 teraflop,但DGX-1的運算速度為170 teraflop。那么這意味著如果用這枚雙核Xeon芯片來訓練Alexnet網絡結構模型的話,它需要150個小時,但DGX-1卻只要兩個小時就夠了。
此外,車云菌還了解到,NVIDIA將為自動駕駛汽車,打造名為“NVIDIA DIGITS”的端到端深度學習訓練平臺。該平臺依靠DRIVE PX 2進行部署,通過網絡讓每一輛車都構建自己的深度學習網絡。在此基礎之上要建立“NVIDIA DRIVENet”的深度神經網絡。它包括3個卷積碼層,3700萬個神經元,而信息在整個網絡流經一次,會產生400億次操作。
參加今年首屆Roborace大獎賽的無人駕駛賽車渲染圖
而涉及到具體應用層面,黃仁勛在GTC大會的主題演講環節還透露稱,參加今年首屆Roborace 的無人駕駛賽車,將使用英偉達的 DRIVE PX 2 作為計算平臺。明年,Drive PX 2還將被沃爾沃用于在瑞典哥德堡的實地自主駕車實驗中。
車云小結
我們不妨看看最近恩智浦、高通和NVIDIA這三大芯片供應商在汽車領域都有哪些動作:
這個月16號,恩智浦NXP推出了一款用于模塊化量產自動駕駛汽車的計算平臺BlueBox,它的主要功能是將之前彼此隔離的單個傳感器節點和處理器進行功能上的結合。而隨著Android Auto重大更新的發布,芯片供應商高通也宣布未來將聯手谷歌開發搭載有安卓操作系統的內嵌式車載娛樂信息系統平臺,使用高通專為車機系統打造的驍龍820A和602A高性能處理器。當然NVIDIA今年也推出了DRIVE PX 2, Tesla P100以及超級計算機DGX-1,則是在深度學習領域火力全開。
這么看來,盡管自動駕駛技術還沒有發展到Level 3這個階段,各大芯片廠商已經陸續亮劍,祭出了各自的殺手锏。但產品的出發點還有所不同,優勢領域亦各有差異,但芯片之爭,已經開始。最后要吐個槽,雖然主打GPU的NVIDIA確實在深度學習應用上有優勢,但業界一直吐槽他家的產品真是太貴了,價格一點都不親民。你怎么看呢?
最后,記得關注微信公眾號:鎂客網(im2maker),更多干貨在等你!
硬科技產業媒體
關注技術驅動創新
