看Deepmind機器人尬舞,邊玩邊學AI技術

巫盼 8年前 (2017-07-13)

Deepmind通過增強學習讓木偶學習行走、跑跳。

在自然界中,無論是動物,還是人類,都可以靈活而隨心所欲地做出一些動作,比如猴子在樹上自由自在得擺動,或是NBA球員虛晃過對手,帥氣地投出籃球。但是在AI 研究領域,想要讓機器人掌握這些動作(物理上就是一種復雜的電機控制)卻不是一件容易的事,而這是AI研究領域的重要組成部分。

近日,Deepmind公布了智能電機的相關研究成果,展示了機器人學習如何控制和協調身體來解決在復雜環境中的任務。這一研究涉及不同領域,包括計算機動畫和生物力學。

接下來我們帶領大家邊玩邊學。

在復雜環境中產生動作行為

上一個小視頻,先睹為快

此刻,想必你已經忍俊不禁了吧。視頻中,我們可以直觀感受到木偶的動作是笨拙的。

此處采用的是增強學習,但不同于Deepmind此前開發的Atari或Go,這里,需要準確描述復雜行為。具體來說,就是獎勵機制的不同,在Atari和Go的開發過程中,設計人員將得分作為獎勵,就可以依照預期來優化系統。但是在連續的控制任務(如運動)中,獎勵信號的選擇就沒有那么容易,常常會出現獎勵信號的選擇不當,從而導致優化結果與設計師期望不符。

由此,自然就會想到慎重選擇獎勵信號,以此來實現優化,但是如果謹慎設計獎勵,也就等同于回避了增強學習的核心問題:系統如何直接從有限的獎勵信號中自主學習,讓木偶實現豐富而有效的動作行為。

研究團隊表示,為了讓系統有自我學習的能力,他們選擇直面增強學習中的核心問題。于是團隊以環境本身具有足夠的豐富性和多樣性為研究的主要背景,從兩方面實現學習:

一:預設一系列不同難度級別的環境,引導木偶學習和找到解決困難的方案;

看Deepmind機器人尬舞,邊玩邊學人工智能

二:因為過擬合,獎勵機制和動作細節都具有一定的誤差,從而每一次運動都有些微不同。發現不同方案之間的特殊性能差距,也將幫助系統有效學習。

看Deepmind機器人尬舞,邊玩邊學人工智能

為了使操控的木偶面對不同的地形有效的學習,研究團隊還開發了增強學習算法。

首先,團隊開發了強大的策略梯度算法,如信任區域策略優化(TRPO)和近端策略優化(PPO),其中,他們選擇將每次更新的參數綁定到信任區域以確保算法的穩定性。

其次,對于像廣泛使用的A3C算法以及相關算法,他們將其分配運用在許多并行的代理環境和實例中。

這樣,面對復雜的環境,通過自主學習,木偶自然就會有豐富而有效的行為表現。

通過對抗模仿人類行為

再來看看下面的“群魔亂舞”

視頻中這些小人們是不是已經不忍直視,不過專業的角度來看,技術上已經很棒了。

據了解,構建可編程人形木偶的問題可以追溯到幾個世紀以前。在1495年,達芬奇以裝甲騎士的形式構建了一個人形自動機。騎士能夠通過曲柄傳遞的力量揮動,坐起來,打開和關閉其下巴。不像大多數鐘表只能產生沿著單極循環的運動,機械騎士可以重新編程以改變其運動,從而能夠及時改進手臂運動方向或交替運動順序。

現如今,在此系統中,最優控制和增強學習能夠用來設計人形木偶的行為,并且神經網絡能夠存儲動作行為和靈活檢測多種運動模式,將這幾種技術融合,可實現運動控制。但研究團隊表示,依靠純增強學習(RL),會使運動行為過于刻板,不符合設計期望。

通常,在計算機動畫相關文獻中使用的替代性方案是采取運動捕捉數據,將其加載到控制器中。在視覺上,采取這一方案的方法都產生了讓人滿意的運動表現,然而,其中有些方法產生的狀態序列僅僅是理論上的,物理上并不適用。還有一些方法需要設計大量的組成因素,如成本函數。

而此處,為了從運動捕捉數據中進行仿制學習,研究團隊采用生成對抗模仿學習(GAIL),這是模仿學習中最近的一項突破,簡言之,該方法就是以類似于生成對抗網絡的方式產生模仿策略。與已存在的模仿學習相比,該方法的主要優點是模仿與演示數據之間相似度的衡量不是基于預先設計好的度量值。

看Deepmind機器人尬舞,邊玩邊學人工智能

具體操作上,主要就是先訓練低級別控制器,通過使用GAIL的擴展來從運動捕捉數據中生成行為信號,接著將低級別控制器嵌入更大的控制系統中,其中高級別控制器通過RL學習調制低級別控制器來解決新任務。

顯然,通過對抗模仿學習,人偶會有更加靈活的身手。

強大的模仿能力

據悉,該系統的具體實現主要基于一種生成模型的神經網絡架構,它能夠學習不同行為之間的關系。

看Deepmind機器人尬舞,邊玩邊學人工智能

首先,給其一個基本動作,通過訓練,該系統可以自動對最基本動作進行編碼,并且基于基本動作及對抗學習,系統自動微小改變來創新一個新動作。同時,研究團隊還表示他們的系統可以在不同類型的行為之間切換。

總結

實現系統的靈活性和適應性是AI研究的關鍵因素,Deepmind研究團隊直面困難,專注于開發靈活的系統,雖然目前系統模型依然粗糙,但是我們還是很期待后期進一步的優化和改進后的成果。

最后,記得關注微信公眾號:鎂客網(im2maker),更多干貨在等你!

鎂客網


科技 | 人文 | 行業

微信ID:im2maker
長按識別二維碼關注

硬科技產業媒體

關注技術驅動創新

分享到