自然語言處理,計算機與人類“談心”的關鍵

韓璐 9年前 (2016-11-18)

自然語言處理不達標,機器人就不能真正了解人類,智能服務也就不能做到完美。

自然語言處理,計算機與人類“談心”的關鍵

2011年,日本多個機構發起的一項機器人項目,以東京大學入學考試難度為目標,以檢驗人工智能可在多大程度上模擬人類思考以及解決問題的能力。在去年和今年的考試中,機器人“Torobo-kun”分別獲得了511分和525分,總分為950分。照著當前的成績,Torobo-kun有80%的可能被512所私立大學和23所國立大學和公立大學錄取,可惜的是,離東京大學至少獲得 80% 分數的要求還差得很遠。

根據對比,在兩次考試中,Torobo-kun在數學和物理方面有了明顯的進步,而英語和國語的成績還是一團糟。在鎂客君看來,相比于英語和國語,數學和物理對自然語言的理解要寬松一點,所以,對于機器人在這兩門功課的進步,其實并沒有多大的驚喜,而要想機器人能夠考上東京大學,主要還是看英語和國文等需要深透理解的科目,而在這其中,自然語言處理是關鍵。

自然語言處理,計算機與人類“談心”的關鍵

什么是自然語言處理?

自然語言處理(Natural Language Processing,簡稱NLP),還有人稱之為自然語言理解(Natural Language Understanding ,簡稱NLU)。對此,鎂客君覺得這兩者有著一個根本的區別,自然語言處理只是對語言的一種字面意思的處理和理解,而真正的“理解”是一個很難講明的東西,正如“一千個讀者就有一千個哈姆雷特”一般,當讀完整本書,我們會用一些詞去形容哈姆雷特,只是自然語言的處理并不能達到這個程度。因而,在自然語言的相關技術之上,鎂客君更傾向于稱之為自然語言處理。

在人工智能領域,自然語言處理一個重要方向。簡單來講,自然語言處理就是用計算機來處理、理解以及運用人類語言(如中文、英文等),它屬于人工智能的一個分支,是計算機科學與語言學的交叉學科。

自然語言處理,計算機與人類“談心”的關鍵

一般來講,自然語言處理得步驟主要分為6步:

1、獲取原始文本;

2、對文本進行預處理;

3、分詞:將文章按詞組分開。該步驟只針對中文,西方字幕語言已經用空格做好了分詞;

4、詞法分析:對于英文,有詞頭、詞根、詞尾的拆分,名詞、動詞、形容詞、副詞、介詞的定性,多種詞意的選擇。比如DIAMOND,有菱形、棒球場、鉆石3個含義,要根據應用選擇正確的意思;

5、語法分析:通過語法樹或其他算法,分析主語、謂語、賓語、定語、狀語、補語等句子元素;

6、語義分析:通過選擇詞的正確含義,在正確句法的指導下,將句子的正確含義表達出來。

自然語言處理,計算機與人類“談心”的關鍵

NLP主要的應用方向

從應用角度看,NLP的前景是相當的廣泛,尤其是現在信息泛濫的時代,比如:

文本分類和聚類:主要是將文本按照關鍵字詞做出統計,建造一個索引庫,這樣當有關鍵字詞查詢時,可以根據索引庫快速地找到需要的內容;

信息抽取:直接從自然語言文本中抽取事實信息,一種更有力的信息獲取工具;

機器翻譯:顧名思義,就是語言之間的轉換,典型案例有百度翻譯、谷歌翻譯;

信息檢索和過濾:在大流量的信息中尋找關鍵詞,屬于網絡瞬時檢查的應用范疇;

語音識別及文語轉換:將人類的語音轉換為文字,并理解其中的含義,諸如亞馬遜Alexa或一些家居機器人。

此外,除了這些,手寫體和印刷體字符識別、輿情分析和觀點挖掘等也屬于自然語言處理的應用范疇。

自然語言處理,計算機與人類“談心”的關鍵

NLP研究進展的難處

目前,專注于自然語言處理的公司和團隊也是相當多的,大的有谷歌、蘋果、百度等等,小的有斯坦福大學自然語言處理研究小組、卡內基梅隆大學語言技術研究院和中科院計算機所自然語言處理研究組等等。不過,雖然參與者眾多,但在前進的過程中,依然有一些難題阻擋在那里,而相對于西方寓言,中文等語言的處理更是難上一層樓。以中文為例,自然語言處理都遇到了哪些難題?

令人費解的多層次語義

此前,曾有這樣一個段子,在兩場比賽中,中國隊皆打敗了美國隊,中國媒體在報道的時候分別以“中國隊大勝美國隊”、“中國隊大敗美國隊”來作為標題,而美國人卻對第二句話做出了錯誤的理解。在中國人看來,第二句話是說中國隊戰勝了美國隊,而在那些不了解中文或一知半解的人哪里,這句話有可能會被理解為“中國隊輸給了美國隊”,這就是一種歧義。

在這方面,連中文學習都是依靠數據庫的計算機而言,它們也跟那些外國人一樣,都只能算是一知半解,極有可能get不到正確的意思。

連貫的上下文理解

有時候,人們在理解一句話的時候需要上下聯系,比如說話人所處的環境,或是文本中的前后文等,這些都是正確理解一句話所需要考慮的因素。

比如今年“威諾格拉德模式挑戰賽”(圖靈測試的一個變種)中的一個題目:市議員們拒絕示威者的游行許可,因為他們害怕暴力。針對“他們”這個詞的指定對象,如果是人類的話,通過前后文的理解,很快就知道這是在指“市議員們”,不過,對于計算機而言,這就有些困難了。據數據顯示,人類胡亂選擇的正確率是45%,而經過慎重考慮的計算機最后的正確率也只比人類高了那么一丟丟的3%??梢?,在遇到這種情況時,計算機的自然語言處理還不能達到令人滿意的程度。

自然語言處理,計算機與人類“談心”的關鍵

在自然語言處理方面,研究者們還有許多的問題需要解決,比如訓練數據的缺乏、成語俗語的處理等等,這些都需要研究者們花費大量時間去解決。在此基礎之上,由于計算機不能夠正確理解人類的語言,一些人工智能產品的落地也相應的受到了限制,比如一些個聊天機器人、語音助理等等。

最后,記得關注微信公眾號:鎂客網(im2maker),更多干貨在等你!

鎂客網


科技 | 人文 | 行業

微信ID:im2maker
長按識別二維碼關注

硬科技產業媒體

關注技術驅動創新

分享到