機器人也會造假、有偏見?原因在這

韓璐 9年前 (2016-09-03)

報假新聞、推不雅視頻?機器學習算法這是怎么了?

前段時間,Facebook將人類編輯解雇,并讓人工智能擔任熱門榜單的編輯。然而,在上任之后,該機器學習算法連續幾天將幾條不實新聞以及不雅視頻推上熱門榜單,其中包括宣稱??怂剐侣劤吹袅酥鞒秩薓egyn Kelly并稱其為“叛徒”,沒過多久此則新聞就得到了當事人及相關人員辟謠。

此外,在今年3月23日,微軟悄悄的推出了一款聊天機器人Tay。Tay最初是以一個清新可愛的少女形象出現,但是由于她的算法設定是通過學習網友的對話來豐富自己的語料庫,很快她被網友充斥著激烈偏見的話語“帶壞”,變成了一個徹底的仇視少數族裔、仇視女性、沒有任何同情心的種族主義者。

種種現象看來,機器學習也不是那么的完美,這到底是如何造成的?而且,在智能汽車領域,研究人員意圖將機器學習運用到人工智能車載系統上,并讓其學會車主的駕駛習慣。但是,在看了上面的例子之后,為了打造更好的機器學習算法,我們應該做些什么?

為何機器學習總是出錯?

簡單來說,機器學習的原理就是用大量的數據對算法進行訓練,從而達到理解人、學習人的目的。從中我們可以知道,這其中最重要的就屬算法的“學習”過程。

以Tay的偏見為例,關于這個,在一個月前,谷歌的一個數據庫貌似給出了答案。

兩年前,谷歌的幾個研究員啟動了一個神經網絡項目,目標是找出單詞相鄰組合的各種模式,而所要使用的語料庫來自谷歌新聞文本中的300萬個單詞。雖然結果很復雜,但團隊人員發現可以用向量空間圖來展示這些模式,其中大約有300個維度。

在向量空間中,具有相似意義的單詞會占據同一塊位置,而單詞間的關系,可以通過簡單的向量代數來捕捉。例如,“男人與國王就相當于女人與王后”,可以使用符號表示為“男人:國王::女人:王后”。相似的例子有,“姐妹:女人::兄弟:男人”等等。這種單詞之間的關系被稱為“單詞嵌入”。

最后,蘊含了諸多單詞嵌入的數據庫被稱為Word2vec。之后的幾年內,大量研究人員開始使用它幫助自己的工作,比如機器翻譯和智能網頁搜索。

但是有一天,波士頓大學的Tolga Bolukbasi的和幾位來自微軟研究院的人員發現,這個數據庫存在一個很大的問題:性別歧視。

比如說,你在數據庫里詢問“巴黎:法國::東京:x”時,系統給你的答案是x=日本。但是,如果問題變為“父親:醫生::母親:x”時,給出的答案是x=護士;再比如問題“男人:程序員::女人:x”,答案為 x=主婦。

這種答案在一定程度上已經算是一種性別歧視了。而據分析,個中原因是Word2vec語料庫里的文本本身帶有性別偏見,之后的向量空間圖隨之也受到影響。

由此我們可以看出,機器學習之所以會出錯,某種程度上還是歸于“學習資料”的“不太正經”,以及算法那種什么都學的性質。

這種錯誤是否可以避免?

講真,以當前的技術來講,這種現象是很難杜絕的。如果要杜絕這種情況的出現,那不僅涉及到技術層面,還有社會道德層面。

先看社會道德層面。機器學習算法的數據來源于人們的語言、行為習慣等,以軟銀計劃打造的人工智能汽車為例。7月份,軟銀與本田達成合作,聯手打造一輛能夠閱讀駕駛員情緒并與之交流的汽車,在行駛過程中,系統中的機器學習算法可以學習駕駛員的駕駛習慣,從而在無人駕駛模式開啟時,能夠給予駕駛者最舒服、毫無違和感的的駕駛體驗。但是,如果該駕駛員有不良駕駛習慣,那將會對算法的學習提供錯誤的示范。

這僅僅是駕駛習慣,而在語言方面,其中可能包括暴力、侮辱等等字眼,相比于駕駛習慣,這些更難以約束。因而,在學習對象都不能“正經”的情況下,又怎么將機器學習算法調教完美?

再看技術層面,這也得從數據方面下手。如果想要好好的訓練算法,研究人員就得剔除數據中的不良信息和隱藏的邏輯,再讓算法分別識別。但從這里我們就可以了解到,這是對于研究人員而言,將是一項極其繁重、極具難度的工作。而且,摳字眼還是比較簡單的了,最難搞的還是字里行間的邏輯關系,一不小心就是一個大坑。不管是人類,還是機器,對于這種識別都是一個難以跨越的坎兒。

以此種種來看,機器學習固有它的好處,但我們還是不能過于依賴,尤其是涉及到一些復雜的工作,比如開車、聊天等情形。不過,雖然當前這個問題很難解決,但隨著人工智能技術的發展,說不定哪天研究人員就能想到一個法子,從而徹底解決這個問題。

最后,記得關注微信公眾號:鎂客網(im2maker),更多干貨在等你!

鎂客網


科技 | 人文 | 行業

微信ID:im2maker
長按識別二維碼關注

硬科技產業媒體

關注技術驅動創新

分享到