阿里巴巴達摩院XR實驗室負責人 譚平:AR/VR技術將促使信息世界和物理世界合二為一
AR/VR技術將會促使信息世界和物理世界合二為一。
2021年12月10日,由廣東省游戲產業協會、廣東省虛擬現實產業技術創新聯盟、深圳市科學技術協會、深圳市互聯網文化市場協會指導,陀螺科技主辦,深圳市科技開發交流中心、恒悅創客魔方協辦,行業頭部媒體游戲陀螺、VR陀螺、陀螺電競、陀螺財經、陀螺傳媒聯合主辦的2021未來商業生態鏈接大會暨第六屆金陀螺獎頒獎典禮(簡稱“FBEC2021”)在深圳大中華喜來登酒店6樓宴會廳盛大開幕!
在中國力量·2021 5G XR產業峰會現場,阿里巴巴達摩院XR實驗室負責人 譚平:以“XR技術漫談”為主題發表了演講。
以下為演講實錄:
我是阿里巴巴的譚平,現在負責的是XR實驗室這一塊的工作。今天非常榮幸能有這樣的機會來和行業里面的各位朋友,來分享一下我們對于XR這一塊的思考。
今天先從始作俑者ROBLOX講起。ROBLOX是今年在美國上市的游戲公司,它的招股書中把“元宇宙”這個詞寫了進去,引來了非常多的討論。這個公司是什么樣的一個情況?
Roblox是一個游戲公司,在美國有非常大量的用戶,特別是青少年用戶。據統計,美國16歲以下的青少年可能一半都玩過他們的游戲。
這個游戲的特點是什么?它是一個開放的游戲平臺,用戶可以在平臺上創建自己的游戲,比如說你可以創建一個賽車游戲,或者創建一個射擊類的游戲,這個游戲被創建出來之后再把它分發出去,讓大家在上面來玩。用戶創造的游戲里面,最火的游戲日活已經到了千萬級。Roblox是一個可以創造游戲的游戲平臺,因此可以被稱為是“元游戲”。他們公司在招股書里修飾了一下,把游戲世界說成是宇宙,于是就成了“元宇宙”。
但從我們的角度來看,這件事情之所以引起社會對于AR、VR如此的關注,如此多互聯網巨頭都投身于這個領域中,是因為它遠遠不止游戲。
最近著名科學家錢學森的幾封信件在網上流傳得非常廣泛。我們大家一起看一下。我特別想強調中間的這封信件。錢學森老先生在90年代的時候就斷言,虛擬現實技術是計算機技術革命之后的又一項技術革命,它將引發一系列全世界的變革,一定會是人類歷史中的大事情。他把虛擬現實技術提到一個如此的高度,它當然不會僅僅只是游戲。
在我看來,AR/VR技術將會促使信息世界和物理世界合二為一。所謂的信息世界,是過去在PC、手機上構建出來的互聯網世界,而物理世界是我們今天生活的、活生生的三維世界。隨著技術的進一步發展,三維建模和數字孿生這樣的技術會將真實世界逐步地數字化、虛擬化,使得整個真實世界有一個數字化的版本。AR和VR技術將進一步融合虛擬和現實,使得人從感官上可以不用再去區分什么是真實,什么是虛擬,兩個世界會達到高度的融合。未來機器人的進一步發展可能讓我們在虛擬世界里面做一些改變以后,直接改造或者改變真實的物理世界,通過機器人把虛擬世界的變化閉環到真實世界當中去,這是一個非常重大的事件。
AR/VR眼鏡的工作基礎是對于空間的感知和空間的理解。
左邊有一幅AR眼鏡,用戶戴著它,從左邊可以看到汽車的后部,當用戶走到前面,從側面觀察的時候可以看到汽車的側面,這樣會給用戶造成一個錯覺,似乎這個地方有一輛汽車在這里擺著,實際上這里什么都沒有。這一系列都是視覺的錯誤效果,本質上這是基于空間位置的一項顯示技術。在絕大多數的AR/VR眼鏡上會有傳感器,比如用相機和陀螺儀來做空間位置的追蹤,會有微投影儀來顯示畫面,把畫面呈現出來給用戶就可以實現虛實融合的效果。
我們團隊過去在這些方向上有一些積累。在空間內容的獲取方面,我們設計了一款專屬設備,配有激光雷達和彩色相機,通過設備可以對于真實的物理空間進行掃描,構建出VR模型,然后可以應用到VR看房、VR看店中。我們曾與一個品牌的店鋪合作,將他們的店鋪虛擬化,用戶可以在里面漫游,可以查看商品的詳情,甚至直接下單。
之前設備是要用激光雷達的,隨著技術的進一步發展,最新的技術成果是可以逐步擺脫激光雷達的依賴,可以用純視覺方案來構建三維的VR模型。這里給大家展示了一個從單張圖像直接通過機器學習的方法,通過人工智能的方法來獲得三維信息。
最左邊是一張輸入的圖,中間是一個深入的圖,不同顏色代表不同的距離,再右邊是深度圖轉換成為三維點云來渲染的形式。這樣的技術使得未來VR內容的生產能夠擺脫對于專業設備的依賴,使得這件事情能夠更加普惠,讓普通人用一般的全景相機甚至未來用手機可以大量、低成本來生產VR的內容,加速內容的制造。
剛才所講的VR內容,更多還停留在可視化的層面。在非常多的應用里面還需要模型的語義和結構。如果是一個建筑物的話,它的承重墻在哪里,它的門和窗戶在哪個地方。這塊我們研究了BIM建模,通過對CDA圖紙的分析和處理來構建BIM模型,可以應用于智慧園區和安防運維的項目上。
最左邊是去年結合疫情的需求,以這樣的技術來做的VR展會。右邊是用這個技術來做VR看樓,可以讓用戶看到自己的房型里面采光、視線,實現更加精細化的戶型選擇。在這個方向,我們也一直在持續做技術方面的探索。去年我們發布了世界上第一個大規模真實CAD圖紙的數據集,并且提供了大量的標注數據。在CAD數據集上有詳細地標注出來什么是門、什么是窗、什么是家具、什么是承重墻這樣的結構,電線和水管等等分別在什么地方。
基于這樣的數據可以做一些最新人工智能的圖紙識別來幫助整個BIM建模的過程提效。當然這一塊的技術可提升的空間依然非常大,即便是在一些相對簡單的結構上,今天的識別率依然只有80%。在這方面希望未來有更多的同行加入其中,與我們一起推動技術的進步,我們把數據集開源出來了,希望能夠促進數據的進步。
另外一個就是剛才講的空間??臻g構建出來以后,一個很重要的事情就是如何進行空間定位。左邊是跟寶馬汽車的合作的案例,例如車開到商場以后,回來以后找不到了。這個案例是什么呢?車現在很智能的,車有傳感器,開到地庫去,它知道自己停在哪個位置,車把位置推送到用戶的手機,用戶的手機做AR導航就可以把你帶回去。當然,先要對車庫進行三維的建圖,建圖完成之后還要定位。
右邊是一個概念視頻。設想AR的技術普惠以后,戴上眼鏡參觀阿里巴巴的西溪園區,可以進行打卡、合影和應用。
下面是和北京的一家美術館進行合作的AR觀展體驗。我自己讀理工科出身,看到藝術家的作品經常很困惑,借助AR/VR的技術,戴上AR眼鏡以后可以看到更豐富的藝術解釋,可以幫助我們這些人來理解藝術家的理念。
在視覺定位方向,我們也在探索前沿在技術。最新的工作是大幅度壓縮模型的尺寸。比如說剛才講到要在車庫里面找車,AR導航需要構建車庫的地圖。這里放了一個例子,左邊單棟樓宇的模型,在過去傳統方法來講要有一個2G的內存才能把樓宇的模型放下來,這對于端上的體驗來講是不太友好的,即便做云端的串流,用戶從這棟樓跑到另外一棟樓就要下載2G的內容,很痛苦。我們做了一個方法把模型壓縮到10M大小的情況下依然能保持一個良好的體驗,希望對我們產品的進一步應用能有幫助。
我們在虛擬人上面也有一些工作。這是一個虛擬人的案例,這個案例是阿里巴巴的一個公益項目,數字人小莫。小莫非常多才多藝,可以把我們說話的語音和文本變成手語的表達,這對于聽障礙人士是非常有幫助的事情。因為我們可以通過聽廣播和看電視來獲得大量的信息,但對于聽障人士是非常困難的,虛擬人能把文字信息變成手語來方便聽力障礙人士獲得信息。
我們還有一個工作:把手語的視頻轉化成為文字或者語言,方便我們理解聽障人士想表達什么,促進大家更方便地交流。在這個方向上,我們也有一些前沿學術的進展。最左邊這里是用了非常少的RGB相機做動態人物的三維案例,這里用了四個相機,從四個相機的畫面里面可以把人物細節的三維模型構建出來,未來可以用到通訊場景當中。右邊是用真人來驅動高寫實的虛擬人的表情案例,我們可以用一個真人來驅動這樣虛擬的形象,并且將這樣的虛擬形象應用于各種各樣的場景。比如一些客服等等應用。
AR/VR技術正在加速普及。各種應用不斷出現,相關技術也快速迭代。相信一個更加美好的互聯網時代即將到來。我今天的分享就講到這里,謝謝大家!
最后,記得關注微信公眾號:鎂客網(im2maker),更多干貨在等你!
硬科技產業媒體
關注技術驅動創新
