眼擎科技代勇:拋棄傳統ISP成像架構,讓視覺成像能力將全方位超越人眼
在其看來,日常生活中,如若不能解決弱光、逆光、反光等環境中的自適應成像問題,AI視覺產品便無法大規模落地、進行產業化。
4月25日,由硬科技第一產業媒體鎂客網主辦,蘇州市科學技術局指導,蘇州工業園區人工智能產業協會、蘇州國際科技園、蒲公英孵化器協辦的“M-TECH主題論壇——AI創新帶來的智能革命”在蘇州南園賓館圓滿落幕。
現場,眼擎科技商務總監代勇帶來了主題演講《成像引擎芯片:AI視覺的最后一公里》。過程中,其詳細結構了當前成像技術的痛點——在傳統的攝像頭領域,最大的痛點就是不能像人眼一樣,能夠適應各種各樣的復雜光線。
以下為代勇演講的要點摘錄:
1、很多計算機視覺系統的識別率可以達到99.9%,甚至更高。但是,這里面有一個重要的前提——所有圖像的成像效果是正常的;
2、在傳統攝像頭領域,它最大的痛點是不能像人眼一樣,能夠適應各種各樣的復雜光線。不管是手機還是攝像頭,它的成像能力比人臉至少差30倍以上;
3、日常生活中,如若不能解決弱光、逆光、反光等環境中的自適應成像問題,AI視覺產品便無法大規模落地、進行產業化;
4、成像分為三個年代,第一個是以美國柯達公司為代表的30年代,那時候的成像是光和化學的轉化;第二個是以日本成像架構為代表的數碼時代;第三個則是以AI為代表的成像時代;
5、以前,傳統的成像設備為了“人看圖像”而做的研發,現在,給機器看的視覺時代開始了;
6、當你要做一個原創芯片產品的時候,一定要做心理準備——前三年甚至更長時間,就是老老實實的做技術研發,然后兩年的市場推廣,才很有可能迎來接下來兩年的大規模收割。
7、中國以前做芯片,大部分是從中低端產品開始做起,比如說有一個數字控制芯片,我們做的是美國或者歐洲價格的十分之一,性能差一點,可靠性差一點沒有關系,最后有市場,所以我們看到的市場就是做進口替代的生意。
以下為代勇演講全文:
今天很親切看到合作伙伴和朋友從深圳和北京來到今天的現場。
我們現在可以看到,從視覺來看,我們所熟知的AI公司,如商湯和曠視等等,就像在做人類大腦的事情,即認知分析層面的事情。而眼擎科技要解決的是“AI視覺成像的最后一公里”,做類似于“人眼”的東西。
AI視覺里面,今天看到許多媒體報道,很多計算機視覺系統的識別率可以達到99.9%,甚至更高。但是,這里面有一個重要的前提——當這些產品在實驗室里,所有圖像的成像效果是正常的。
在現實生活中,我們自己有很深的感受,就比如淘寶的買家秀和賣家秀。
在賣家秀的照片中,層次分明、顏色豐富、光線很正常。但是買家秀的照片,往往很黑、沒有細節。這時候就出現問題了,AI算法該怎么識別呢?
其實,在這方面,包括語音在內,都可以看到比較大的問題。當語音算法非常優秀的時候,最受制約的就是前端的麥克風,后者比算法落后了十年。
為什么有這個問題?就有一個現象——在傳統的攝像頭領域,它最大的痛點是不能像人眼一樣,能夠適應各種各樣的復雜光線。不管是手機還是攝像頭,它的成像能力比我們人臉至少差30倍以上。
前一段時間,Uber自動駕駛汽車在美國道路上行駛的時候撞死行人,這個事已經眾所周知了。雖然事故的原因仍在調查,但在公布的視頻里,在撞人的一瞬間,這個行人非常不湊巧的是從大燈的暗光部走到亮光部,對于傳統的攝像頭就意味著亮度不夠。
我們自己開車也有一個體驗,因為道路有路燈,汽車有大燈,人在那兒肯定能看到這個行人。但是,當機器的眼睛的能力不夠時,就做不到這一點。
因此我們認為在AI視覺的產業中,如若不能解決弱光、逆光、反光等環境中的自適應成像問題,AI視覺產品便無法大規模落地、進行產業化。
還原一下,從歷史的成因來看,成像分為三個年代:
一個時代是以美國柯達公司為代表的30年代,那時候是光和化學的轉化;
80年代,日本開始做起來,整個成像產業進入了日系統治時代,我們可以看到今天所有的設備、攝像機都是日系的。還有一個奇怪的現象,當日本開始數碼時代之后,美國和歐洲都沒有踏足成像技術。目前,所有成像ISP技術的核心全部是日本的。同樣,成像技術的架構革新能不能適應AI時代的需要,如果日本不做,大家就一直要等待;
到2018年,以AI為代表的時代來臨,很多興起的產業都是在中國。我們認為,數碼相機ISP架構是沒有辦法解決高動態范圍內復雜的光線問題。
為什么會這樣?傳統的ISP架構有一個致命缺陷,那就是基于8位的數據處理導致大量RAW 數據信息丟失,從而讓圖像細節丟失嚴重。喜歡玩單反的朋友們都知道,很多專業的攝影師,其實在拍照的時候,是不用JPG格式的圖片的,更多是是基于后期的軟件修圖,最后把照片調的非常漂亮。在日系成像架構里,傳統的ISP架構有一個非常不好的地方,它所有出來的RAW數據,第一步進入ISP處理的時候,直接就把16位的裁成8位,,RAW數據是一個單獨的數據流,如果是16位的信息被ISP裁成8位,那么JPG格式照片比原始RAW數據信息少256倍。就是通俗理解的,這個圖片在傳統的架構上給到算法識別的時候,這個圖像的信息少了接近200多倍,這就導致了圖片出現問題,為什么圖像的質量那么差,那么不清晰,為什么逆光拍的不清楚。這個里面有一個大概的結構,包括鏡頭、CMOS傳感器,還有成像引擎,我們就是要專門解決這個問題。
眼擎科技是一家致力于研發比人眼更強的成像引擎公司。我們可以看到左邊的圖片,這是實驗室現場圖景,很黑,但是經過成像引擎的處理之后,在現場沒有任何輔助光源的前提下,我們可以把照片中物體的顏色進行還原,讓成像很清楚。
左邊有一個短視頻,沒有成像引擎的時候,整個場景都是很黑的,但是我們開啟成像引擎的時候,就可以把圖像的顏色和亮度,物體的細節就都可以被看清楚。
通過努力,我們可以做到在實時的弱光、逆光等復雜光纖環境下,讓設備的成像能力超越人眼,并且幫助算法進行正常的識別。目前成像引擎暗光能力比人眼高8倍,降噪能力比攝像頭高64倍,逆光能力比攝像頭高32倍。未來三年,眼擎科技的使命就是讓視覺成像能力將全方位超越人眼。
我們怎么做到呢?剛才講傳統ISP核心的問題,就是不管圖像信息多豐富,我進來先給你裁剪成8位數據,信息量就少了200多倍。我們第一天就徹底拋棄了日系的傳統架構,在成型引擎架構中,當一個CMOS 14~20位RAW數據進來的時候,我們直接基于Raw數據進行處理,最后在把它壓縮成8位的JPG圖像,保留所有圖像細節信息讓AI機器可以識別出來,不管是什么樣的光線環境下,都可以很好的處理。
這里跟大家分享一下:AI的革新帶給成像產業的變革是什么?
以前傳統的成像設備都是基于“人看圖像”在做研發,現在,給機器看的視覺時代開始了。首先,AI視覺不需要美化圖像,需要的是高精度的視覺測量儀器,即圖像準不準,顏色準不準。另外,顏色是AI視覺測量世界的根本依據,包括信噪比也是衡量顏色準確度的關鍵指標。
我們眼擎科技的產品是eyemore×42成像芯片,是AI機器的視覺中樞。比較傳統的成像能力,我們在有20倍的算力提升、20+算法以及500多種光線場景的驗證數據。
明年,我們會做到28納米,2020年我們會做成一個14納米的SOC,這樣的話,我們的算力將更加強大,功能更加豐富。
做一個芯片挺難的,更難的是怎么把芯片賣出去。從第一天開始,我們就深刻認識單獨做一個芯片很難形成一個產業,當一個客戶有一個新場景的時候,最先用的是開發套件驗證性能和場景,然后,會用你的模組進行小批量試產,等到規模穩定之后才考慮用你的芯片,后面還有IP授權,行業定制等模式,這是我們建立起來的完整商業模式。
我們是一個“3+2+2”模式,怎么說呢?當你要做一個原創芯片產品的時候,一定要做心理準備——前三年甚至更長時間,就是老老實實的做技術研發,然后兩年的市場推廣,才很有可能迎來接下來兩年的大規模收割。
我們成立于2014年,幾年來專注做一件事情,就是開發超越人眼的成像引擎。我們今年是第四年,市場推廣的第二年,我們徹底拋棄傳統的ISP成像架構,從解決復雜光線下的成像品質角度起步,形成單點突破,最終超越人眼。
分享一個案例,4月20日我們發布了針對自動駕駛和輔助駕駛的DX120汽車成像方案,產品系統整個都是車規級要求的。我們第一天做的時候就是從非常成熟的產業角度去做的這個事情。其中,120dB是什么概念呢?這個是個歐洲車規標準,這個動態范圍基本與我們人眼的能力等同,我們先將汽車的視覺能力提升到和人能力等同,以后路上汽車也可以很安全的看路而行。
視覺其實是一個很直觀的事情,可能大家不是做這一塊的,就不了解我們的技術,在這就分享一個在深圳道路實測的視頻。右邊是我們的DX120拍的,過隧道非常典型的場景,有逆光,還有道路漆黑,左邊對比的情況下,大家看不清楚的時候,其實可以看到DX120 視頻流中圖像的層次,輪廓和車牌都可以看得很清楚,這就是我們講的120dB的概念。
這個是北京實驗室拍的,很多人都知道逆光是很頭疼的事情,你想拍清楚人的時候,背景過度曝光,左邊就是可以看到人和背景,同時也可以看得非常清楚。
產業布局也是一樣的,我們的技術會重點放在自動駕駛、安防、工業檢測、無人零售和機器人、深度相機六個領域。
2018年,我們的市場策略是針對行業領域樹立標準,同時兼顧戰略客戶、行業標桿客戶和落地客戶的市場戰略,歡迎大家跟我們建立合作。
這是我們產業布局的分布。芯片產業現在比較有意思,以前受制于產業格局的局限,所有的東西都是CPU一家獨大,現在所有的算法基于GPU,它的重要性就被體現出來了。當GPU的算力達到很高標準,算法很豐富的時候,前端攝像頭這個眼睛的成像能力好壞,就成了“最后一公里”的關鍵問題,也是我們現在在做的事情。
最后跟大家分享一個中興的事情。很多朋友問我,說中國航母都造出來了,火箭也造出來了,為什么一個芯片會這么困擾大家?
中國人做芯片只能做很簡單的,比如說有一個數字控制芯片,我們做的是美國或者歐洲價格的十分之一,性能差一點,可靠性差一點沒有關系,最后有市場,所以我們看到的市場就是做進口替代的生意。以前想做芯片其實沒有空間,現在AI的興起,對AI芯片需求逐漸多樣化,全球都在統一起跑線上,大家才有機會,我們第一天起就很清楚要做這個領域屬于自己的原創數字的高端芯片,將來成為成像引擎芯片產業的領導者
這個是我們的創業團隊,創始人是朱繼志,1998年在北大電子系畢業,他后來在中興做了十年的視頻圖像產品研發和管理,接著在國內最大的芯片分銷商做了八年,負責包括汽車、手機、工業等芯片推廣,所以我們在視覺、芯片都有比較資深的經驗。另外,我們CTO余博士專注成像領域技術20年,在圖像領域和成像算法研發都有豐富的經驗。
也希望更多合作伙伴能夠與我們一起探索AI視覺時代的新成像市場。
我的演講到此結束!謝謝大家。
最后,記得關注微信公眾號:鎂客網(im2maker),更多干貨在等你!
硬科技產業媒體
關注技術驅動創新
