MIT人工智能實驗室發力!讓機器人告訴你5秒后的世界
這周MIT人工智能實驗室在視覺預測領域取得突破性進展,讓機器預測下一秒的世界。
面對握手、擁抱、kiss……,基于經驗和直覺,我們總是能在動作完成之前給予對方正確的回應,那機器人可不可以做到呢?答案是可以的!
就在這周 ,MIT的計算機科學及人工智能實驗室(CSAIL)的研究者們在視覺預測領域取得了一項突破性進展,使得預測交互行為算法的精確性得到了前所未有的提高。
在經過大量視頻的情景訓練后,他們研究的系統能夠預測兩個人是否會擁抱,接吻,握手或者擊掌。下一階段,它還能預測視頻中5秒鐘后會出現的對象。
“人類能夠通過自身經驗去自動學習行為預測,這也使我們對能否讓計算機獲得這種常識產生興趣。”CSAIL的博士生Carl Vondrick說。對于研究團隊的成果,Vondrick表示:“我們想要展示的是,僅僅通過觀看大量視頻,計算機就能獲得足夠的知識來連續預測其周圍的環境。”
工作原理
值得一提的是,在這次研究開發中,CSAIL團隊并沒有采取過往“預測型計算機視覺研究”中運用較為普遍的兩種方法,而是自行開發出一種能夠預測“視覺表征”的算法,該算法利用了深度學習技術(人工智能的一個分支),即運用“神經網絡”系統來教計算機觀察大量數據從而自動找出模型。
對于這種算法,Vondrick給出的解釋是:“不是說一個像素值為藍色,下個為紅色,等等這樣,視覺表征揭示了更大規模的圖片的信息,比如某個人臉像素的采集。”
在具體的運作過程中,每一個預測表征的這種算法網絡,都會被自動歸類為四種行為(擁抱,握手,擊掌或者kiss)之一,然后系統會融合所有行為于一體給出最終預測結果。例如,三個網絡預測kiss,另一個可能是擁抱。
當被問到為何自行開發算法的時候,Vondrick表示:“未來有著天然的不確定性,所以去開發一個運用這些表征來預測所有可能性的系統帶來的自我挑戰非常令人興奮。”
成果展現
在運用算法進行了600個小時無標簽視頻訓練后,研究團隊拿出一個新的視頻來對此系統進行測試。
在視頻中的人物離完成四種動作之一還有1秒鐘的時候,系統的預測準確度達到了43%,比之前的測試結果高出了7個百分點。
文章一開始也說過,除了預測兩個人的動作之外,這個算法還有一個目標——預測接下來5秒出現的對象?,F在讓我們來看看它所呈現的結果。
在第二項研究中,該算法展示了來自某個視頻的框架,并預測5秒后會出現的物體。例如某人打開微波爐看見的是一個咖啡杯。對于該物體的預測結果,算法給出的預測準確性是測試基準的30%,盡管研究者們提醒說平均精確度只有11%。千萬不要看不起這數值哦,畢竟根據測試,人類受試者的預測準確性也是能達到71%而已。
未來目標
雖然到目前為止,CSAIL團隊開發的這種算法在實際運用中的預測還不夠精確,但Vondrick還是很樂觀的表達了自己的態度:“可能會出現一些重大進展,使我們離視覺預測在現實世界中的利用更近一些。”在他的未來展望中,此種算法的未來版本將能夠用于所有事情,從制定更優行動計劃的機器人,到發生人員跌落或傷亡時能夠通知急救人員的安全相機。
最后,記得關注微信公眾號:鎂客網(im2maker),更多干貨在等你!
硬科技產業媒體
關注技術驅動創新
