英偉達發布新一代自動駕駛芯片Orin、深度學習推理引擎TensorRT 7,GPU已賣15億塊

巫盼 6年前 (2019-12-18)

今年的英偉達GTC,黃仁勛都說了啥?

今天,英偉達GTC大會在蘇州召開,黃仁勛再次一身皮衣亮相,口頭禪從去年的買買買,變為“The more you buy,The more you save”,兩個多小時的主題演講中,“推銷”了從云端到邊緣各個不同場景下的軟硬件產品。

現場,黃仁勛系統地介紹了各個軟件平臺的新進展,并發布了面向自動駕駛的新一代處理器Orin,以及“實現最大飛躍”的深度學習編譯器TensorRT 7。

從云到邊緣,英偉達的新重點

從AlexNet到BERT,計算機實現從圖像到自然語言處理上的突破。而AI也正在從云端擴展到邊緣計算端。

從云到邊緣,英偉達正在為了每個場景打造一個平臺,包括用于訓練的DGX,用于超大規模云的HGX,用于邊緣的EGX,以及用于終端的AGX。

以面向終端的AGX為例,自動駕駛和機器人是英偉達的兩個重點。

· 自動駕駛:發布DRIVE AGX Orin

現場,英偉達發布了用于自動駕駛和機器人的軟件定義平臺——NVIDIA DRIVE AGX Orin。該平臺內置全新Orin系統級芯片,Orin由170億個晶體管組成,集成了NVIDIA新一代GPU架構和Arm Hercules CPU內核以及全新深度學習和計算機視覺加速器,每秒可運行200萬億次計算,是上一代Xavier系統級芯片性能的7倍。

Orin可處理在自動駕駛汽車和機器人中同時運行的大量應用和深度神經網絡,并且達到了ISO 26262 ASIL-D等系統安全標準。

值得注意的是,Orin支持可編程,并且有豐富的工具和軟件庫支持,與之前的Xavier處理器兼容,支持從L2到L5級別的自動駕駛。

而且由于Orin和Xavier均可通過開放的CUDA、TensorRT API及各類庫進行編程,因此開發者能夠在一次性投資后使用跨多代的產品。

英偉達創始人兼首席執行官黃仁勛表示:“打造安全的自動駕駛汽車,也許是當今社會所面臨的最大計算挑戰。實現自動駕駛汽車所需的投入呈指數級增長,面對復雜的開發任務,像Orin這樣的可擴展、可編程、軟件定義的AI平臺不可或缺。”

硬件之外,英偉達還發布了一套使用主動學習、聯邦學習和遷移學習來訓練深度神經網絡的工具。以聯邦學習為例,可以讓多個組織和公司在不移動或共享數據的情況下進行合作,英偉達將訓練模型發送給各個合作伙伴,每個合作伙伴在自己的數據上訓練模型。

現場,英偉達宣布和滴滴達成合作,滴滴將使用NVIDIA GPU和其他技術開發自動駕駛和云計算解決方案。

· 機器人:發布全新Isaac SDK

今年3月的GTC會議上,英偉達就著重強調了機器人業務。今天,黃仁勛在現場發布了全新版本Isaac軟件開發套件(SDK),為機器人提供更新的AI感知和仿真功能。

Isaac SDK包括Isaac Robotics Engine(提供應用程序框架),Isaac GEM(預先構建的深度神經網絡模型、算法、庫、驅動程序和API),用于室內物流的參考應用程序以及訓練機器人Isaac Sim的第一個版本(提供導航功能)。

為了加快AI機器人的開發速度,全新Isaac SDK包括各種基于攝像頭的感知深度神經網絡,包括:

對象檢測——識別用于導航、交互或操控的對象;

自由空間分割——檢測和分割外部世界,例如確定人行道在哪里,以及機器人可以在哪里行駛;

3D姿態估計——了解目標的位置和方向,從而實現諸如機械臂拾取物體的任務;

2D人體姿態估計——將姿態估計應用于人,這對于與人互動的機器人(例如配送機器人)和協作機器人(專門設計用于與人合作)非常重要。

以新推出Isaac Sim機器人為例,它可以將所生成的軟件部署到在現實世界中運行的真實機器人中。通過仿真,開發人員可以在極端情況下(即困難或異常情況下)對機器人進行測試,以進一步加強對它的訓練。這有望大大加快機器人的開發速度,從而實現綜合數據的訓練。

另外,Isaac SDK還支持多機器人仿真。這使開發人員可以將多個機器人放入仿真環境中進行測試,以便它們學會彼此相關的工作。

發布TensorRT 7,減少會話AI推理延遲

英偉達在去年的GTC China上發布了支持自動低精度推理的TensorRT 5,今天英偉達發布了TensorRT 7,內置新型深度學習編譯器,支持各種類型的RNN、CNN和Transformer,相較于TRT 5只支持30種變換,TRT 7可以支持1000多種不同的計算變換和優化。

TRT 7可為開發者設計的大量RNN配置自動生成代碼,逐點融合LSTM單元,甚至可跨多個時間步長進行融合,并且盡可能做自動低精度推理。

借助TRT 7,全球各地的開發者都可以實現會話式AI應用,大幅減少推理延遲。舉個例子,通常情況下,一套端到端的自然語言理解流程可能由幾十種模型構成,比如RNN、CNN、自編碼器等等,TRT 7可對所有模型進行編譯,使其在英偉達GPU上運行?;谟ミ_T4的推理會話AI只需要0.3秒,而CPU的推理延遲卻高達3秒。

GPU加CUDA,從火星著陸到基因測序,無所不能

如今,英偉達已經售出了15億塊GPU,在使用的每塊GPU都兼容CUDA。英偉達的CUDA平臺具有豐富的庫、工具和應用程序。僅在去年,英偉達發布了500多個SDK和庫,通過優化軟件棧,英偉達提高了GPU的性能,讓深度學習訓練在三年內提高了4倍,深度學習推理在一年內提高了2倍。

HPC應用方面,NASA在英偉達GPU上通過FUN3D軟件運行火星著陸情景模擬,產生高達150TB的數據,英偉達借助DGX-2上運行的Magnum IO GPU Direct Storage技術,可“實時”對這些數據進行可視化處理。

另外,由于GPU的訓練成本只有傳統CPU的十分之一,并且可支持更大規模的模型訓練,英偉達發布了深度推薦系統,百度以及阿里均有采用。

CUDA方面,英偉達發布了由CUDA加速的Parabricks基因組分析工具包,可實現30到50倍的加速,目前華大基因已經采用Parabricks來進行基因變異檢測,除此之外,CUDA新增加了對5G vRAN應用的支持。

和騰訊合作,推出云游戲服務

在游戲方面,微軟出品的游戲《我的世界》支持RTX,可以實時完成預烘焙全局光線和一般反射的燈光效果。同時,黃仁勛還宣布了其他6款GeForce RTX 游戲。

隨著谷歌、微軟入局云游戲,英偉達也將眼光投向了云游戲,現場英偉達宣布與騰訊合作推出START云游戲服務,由英偉達提供GPU支持。

硬件方面,英偉達為PC筆記本提供的Max-Q設計,可將高性能GPU集成到輕薄筆記本中,數據顯示,今年,GeForce RTX MAX 筆記本電腦是增長速度最快的游戲平臺。

3D內容創作上,黃仁勛介紹了英偉達的OMNIVERSE的進展,發布面向建筑行業(AEC)的OMNIVERSE,在工作流中增加實時協作功能。

最后:

這一年,英偉達也明顯越來越重視邊緣以及端側產品,也一改以往售賣硬件“又貴又大”的規則,推出了性價比超高、便宜好用的小型嵌入式芯片產品。

曾經主導云端AI芯片市場的英偉達,在面對競爭對手的突圍后,正在用云端加邊緣一體化的解決方案吸引更多客戶,并且愈加強調他們在軟硬件上的優勢。

最后,記得關注微信公眾號:鎂客網(im2maker),更多干貨在等你!

鎂客網


科技 | 人文 | 行業

微信ID:im2maker
長按識別二維碼關注

硬科技產業媒體

關注技術驅動創新

分享到