號稱能夠理解自然語言的聊天機器人,在圖靈測試下被分分鐘打臉
都說聊天機器人已經能夠與人正常交流了,可事實真是如此嗎?
近日,針對聊天機器人“自然語言理解”的“威諾格拉德模式挑戰賽”(Winograd Schema Challenge)落下帷幕。而在結果展示中,聊天機器人們的表現顯得不盡如人意,令人唏噓!
一次人工智能熱,各巨頭紛紛“入水”
事實上,“聊天機器人”這個概念從上個世紀八十年代就出現了,而世界上第一個聊天機器人“阿爾貝特”也誕生于那個時代,但相較于現在的聊天機器人而言,那時的機器人還不能歸屬于“智能”一列。
自AlphaGo引領“人工智能”熱潮后,人們對聊天機器人的深度挖掘與探索也由此展開,其中當屬佼佼者的主要是谷歌、Facebook、微軟、蘋果、亞馬遜等企業巨頭。
現在,iOS用戶在無聊的時候,可以隨時掏出iPhone手機,然后對Siri進行各種調戲;而安卓用戶也可以在多個谷歌應用內呼喚谷歌助手;打開Windows,就會有Cortana(小娜)為你提供各項服務;Facebook也為自家產品配備了聊天機器人,更是推出了針對商家的聊天機器人Slackbot;此外,人們懶癌發病的時候,只要對著亞馬遜Echo喊話就可以控制家電。對于現下這種局面,只能說聊天機器人真可謂無所不在。
一場挑戰賽,打破聊天機器人泡沫
當前,不管是國外還是國內,越來越多的聊天機器人被相繼推向市場,伴隨著在圖像和語言識別領域取得的巨大進展,人們很容易產生機器在理解語言方面已經十分厲害的錯覺。然而現實給了人們重重一擊。
近日,一場名為“威諾格拉德模式挑戰賽”(Winograd Schema Challenge)的競賽落下帷幕。這場競賽是圖靈測試的變種,要求人工智能回答關于語句理解的一些常識性問題,由加拿大多倫多大學的計算機科學家赫克托·萊維斯克(Hector Levesque)發起。
以問題“市議員們拒絕示威者的游行許可,因為他們害怕暴力”為例,按照威諾格拉德模式挑戰賽的風格,該問題包含了幾個重要的部分:
首先,具有同類語義的兩個名詞(本題里指的是:市議員們和示威者 )
第二,有一個指代以上兩個名詞的模糊代詞(本題里指的是:他們)
第三,有一個特別的單詞,當這個單詞被換成另外一個單詞時,那么模糊代詞的意義就會改變(本題里,如果把“害怕”換成“主張”,那么句子里的“他們”的意思就會發生改變)
基于此,計算機需要回答的問題就是:這個具有模糊含義的代詞指的是什么,并給出兩個選項讓計算機選擇。
根據研究,在人類胡亂選擇的情況下,該問題答對的概率是45%,而這次競賽的結果顯示,人工智能最好的結果也只是48%,那高出來的3個百分點完全可以忽略不計了,最為值得思考的是,這個成績的擁有者還使用了最前沿的機器學習方法,如果這個成績真的代表了當前聊天機器人的水平,那離理想中的“聊天機器人”還遠著呢!
面對現狀,探索聊天機器人未來趨勢
有心人會發現,在上述比賽中,谷歌、Facebook等巨頭并沒有加入,雖然他們正在將注意力轉向自然語言理解,并多次暗示已取得了非常大的進展,但有個事實不得不提,此前在Facebook聊天機器人的用戶體驗上,有用戶問它是否能夠推送科技新聞,而其反饋的卻是一則澳洲樹袋熊的新聞,這兩者完全相差了十萬八千里。因而,在自然語言理解上,科技巨頭也有很長的一段路要走。
不管是競賽結果,還是用戶體驗,目前聊天機器人的水平還不能完全達標,而對于未來的發展趨勢,它們還需要解決幾個問題:
首先是對自然語言的理解。既然是聊天機器人,就得會“聊天”,而聊天這一技術活兒的基礎就是對語言和句子的理解。這是當前最需要解決的問題,也是最難解決的問題,畢竟手動編碼輸入這些知識需要花費的時間不可想象,而且用數據統計的方法來學習真實世界的知識對于計算機來說也十分困難,但為了打造出一個真正意義上的“聊天機器人”,這個問題將是接下來研究員們所關注的重點。
其次是對語言的記憶。在一段自然談話中,人們常常以一個字或幾個字來指稱此前所說的一件事,從而就會出現模糊指代。這種時候,聊天機器人就必須能夠清楚理解這個詞的指代對象,這就需要它們通過深度學習,從而按照語義的邏輯關系正確帶入指代對象,畢竟沒有人希望自己在交流的時候還需要將每件事重復解釋十幾遍的。
最后是聊天機器人的語音識別技術。的確,如今機器人的識別技術已經很先進了,譬如聊天機器人小娜就已經學會了30多種語言。但在這里,有個細節需要我們注意一下,那就是口音的問題,比如一個泰國人通過說英語與小娜進行交流(小娜還不會泰語),在嚴重的口音干擾下,聊天機器人真的能夠聽得懂用戶在說什么嗎?
最后,記得關注微信公眾號:鎂客網(im2maker),更多干貨在等你!
硬科技產業媒體
關注技術驅動創新
