文字直接轉視頻,科學家用機器學習算法實現這種操作
AAAI 2018大會上,研究團隊將對該研究進行詳細的報告。
近日,《Science》雜志公布了一項新的機器學習算法,該算法可根據文本或者碎片式的信息來重建完整的視頻,如根據證人描述重現事故現場。
據了解,該算法是一種小型神經網絡,即一系列小型計算元素層。其主要的工作分為兩個階段:一是通過文本生成視頻的“主旨”,即一個模糊的背景圖片上加注一些重要的標注;二通過綜合“主旨”和文本內容產生一個短視頻。此外,在訓練過程中,第二部分的網絡會對新增加的視頻內容進行反復的對比,以提升性能。
目前,研究人員采用了十種生活場景對其訓練,包括在草地上打高爾夫、在海上玩風箏沖浪等,算法生成的圖像還比較粗糙,呈現VHS錄像的顆粒感畫面?,F在,可達到高準確率的視頻約為32幀,持續時間為1秒,大小為64×64像素。研究人員之一,杜克大學的計算機科學家Yitong Li解釋道,“更高的分辨率會降低其準確度。”
雖然當前算法生成的視頻尚十分粗糙,但是這項研究實現了文本直接轉視頻技術上的質的飛躍。“這是一個非常難的問題,而他們的方法非常有趣,只要兩個階段。所以,對于他們現在取得的成就和突破,我感到非常高興。”馬里蘭大學計算機科學家Hamed Pirsiavash評價道。
比利時魯汶大學計算機科學家Tinne Tuytelaars也對此贊不絕口:“這是我所知道的第一部如此棒的文字轉視頻作品,它不完美,但至少看起來像是真正的視頻。這真的很好。”
最后,記得關注微信公眾號:鎂客網(im2maker),更多干貨在等你!
硬科技產業媒體
關注技術驅動創新
