在深度學習之上,百度還需做些什么?

韓璐 9年前 (2016-07-20)

再次爆出“賭博網站深夜推廣上線”丑聞,基于深度學習的百度搜索引擎,這次又是哪里出錯了呢?

近日,百度“深夜賭博網站”事件占據了各大網絡媒體的頭條。百度的解釋是他們在搜索引擎中一直為之自豪的機器學習似乎出現了bug,但事實真的如此嗎?

在深度學習之上,百度還需做些什么?

事件回顧:賭博網站深夜推廣上線,國家介入調查

據報道,此前如果在夜間(21:00—9:00之間),在百度搜索框內輸入“新葡京”、“威尼斯”等關鍵詞,頁面就會跳出一些推廣網站,但在逐一打開后就分別顯示為“澳門新葡京賭場”、“明升亞洲網投”、“威尼斯人娛樂賭場”、“太陽集團”等4家網站子。而這些網站的子欄目中均涉及賭博電子游藝項目,并介紹了如何存款及提現;另外,有時打開的一個頁面看起來很正常,但殺毒軟件也會發出警告,提示為賭博欺詐網站。

回想此前的“魏則西”事件,只能說百度用于搜索引擎的深度學習算法還不夠完善,以至于給自己挖了一個又一個的坑!

在深度學習之上,百度還需做些什么?

最大禍首:“深度學習算法”的滯后性

在網站審核方面,據百度官方回應,他們每天采取“機器+人工”的方式來對4.7億條推廣內容進行審核,其中包括對推廣內容以及網站內容的審核,而這里的機器可能就是指“深度學習算法”。

一般來講,基于人工質量評估員對網站的評測數據、敏感詞匯庫以及對于網站點擊率、跳出率、停留時間等數據的監測等等,深度學習可以進行大量的數據訓練,從而產生自己的一套方法,進而對網站的內容等方面進行審核,區分哪些是高質量的網站,哪些是低質量的網站,在此基礎上,深度學習算法著實為人工審核節省了不少的時間與繁瑣的過程。百度搜索引擎中深度學習算法的應用應該大類相同。

但從結果,我們也可以看出,“深度學習算法”在內容審核方面出現了滯后性,對于“敏感詞匯”的辨識度以及網站名稱與內容的匹配度還沒有達到人類那樣的精確,比如說讓俄羅斯總統普京躺槍的“新普京”等。

在深度學習之上,百度還需做些什么?

添加“剔除”功能,或可有助于避免類似事件

據百度官方回應,這些推廣網站多數早在4月就進行了開戶,雖如此,但直到6月25日突然開始推廣,期間一直沒有進行任何相關的推廣工作,因而,這些網站一上線就打的百度一個措手不及,從而沒有及時進行處理。

針對這種突發狀況的發生,百度應該引起重視,并采取措施,做好一個防范準備,比如在算法的設置上添加一個“剔除”異常網站等鏈接的功能。拿這次事件作例,從開戶到推廣,此次所涉及的網站已然沉寂了兩個月之久,這種現象不僅顯得異常,從側面也顯得這些網站鏈接毫無價值。既然如此,何不干脆從數據庫移出去?

題外話:百度還需要接受監管

據百度非企渠道業務員劉明(化名)透露,以今年一季度為例,有百度推廣業務代理商為完成任務,給非企渠道業務員的回扣達80%;且其所展示的企業資質大多造假,多家賭博網站在百度的推廣費用一晚累計超過30萬元。

面對如此局面,百度需要面對的問題不僅是自家搜索引擎深度學習算法的漏洞,還有社會輿論和國家相關主管部門的監督和管理。

在深度學習之上,百度還需做些什么?

擴展閱讀:深度學習在百度搜索的應用

在百度,深度學習被成功地用于包括搜索引擎優化、圖像識別、語音識別和廣告點擊率預估等在內的多個產品,并大幅度地提升了這些產品的準確度。

此前,百度技術委員會理事長陳尚義曾表示,在引入深度學習后,他們用GPU的訓練系統來實現深度神經網絡。而在此基礎上,百度的新一代搜索顯現了四個特征:一是搜索結果精準展現;二是擁有更智慧的交互體驗;三是全面的信息網絡;最后提供了更加豐富的搜索模式。

具體來講,就是當我們在詞條框中輸入關鍵詞之后,系統會根據關鍵詞提供精準的、全方面的詳細信息,比如搜一下北京故宮,頁面就會出現百科普及、門票購買渠道以及路線查詢等信息,包含了我們可能需要了解的所有東西。此外,基于深度學習的語音識別以及“以圖搜圖”等功能,大大提升了搜索效率,也為人們信息的搜索提供了不少便利。

最后,記得關注微信公眾號:鎂客網(im2maker),更多干貨在等你!

鎂客網


科技 | 人文 | 行業

微信ID:im2maker
長按識別二維碼關注

硬科技產業媒體

關注技術驅動創新

分享到