瞄準技術與時機,谷歌正式公布云自然語言API!
在自然語言理解方面,谷歌放出了一個大招!
近日,谷歌正式向公眾發布其Beta版的云自然語言API(Cloud Natural Language API),這是繼公測版的云語音API(Cloud Speech API)、云視覺(Vision API)以及云翻譯API(Translate API)后,谷歌機器學習API陣營的又一新成員??梢詾橛脩籼峁┒嗥脚_、多語言服務。
Beta版的云自然語言API主要有三項功能:情感分析、實體識別以及語義分析,可以為用戶提供多平臺、多語言服務。
情感分析(Sentiment analysis)
又稱傾向性分析,它是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程,主要目的是識別用戶對事物或人的看法、態度。
在擁有情感詞典的基礎上,計算機通過對評價詞語、評價對象等信息的提取,然后根據詞典上對應的情感信息等,就能夠分析得出文本中的情感分類(消極、積極、主觀、客觀等)或對評價對象未來趨勢的一種預測,比如通過人們對于股票信息的一種文字表達進行分析,可對未來這只股票的買入量來進行預測。
然而凡事總有意外,并不是所有詞匯都能夠夠在詞典中找到,比如“藍屏”這一間接意味著不滿的詞語。面對這種情況,機器學習就該上場了。在機器學習基礎上,在一堆由人工標注或本身有明顯區分標注(用星星表示的滿意度等)的評論中,利用算法對系統進行大量的數據訓練,從而讓系統學會分類和歸納。
實體識別(Entity Recognition)
此項功能也是基于機器學習實現的,指在文本里自動識別并標出任務、機構、地點、事件等等名詞或句子。
以它的一個子任務“命名實體識別”(Named Entity Recognition,簡稱NER)為例,該識別是指從文本中識別具有特定類別的實體,例如人名、地名、機構名等。
在這項功能上,機器學習算法的應用類似于數學中的“統計學”。以“Barack H. Obama is the 44th President of the United States”這句話來分析,其中 Barack H. Obama是人名,United States是國家名。通過對每個詞制定標簽,用以表明某個特定類型。以此類推,在用機器學習算法進行大量訓練之后,系統也就可以在文本中抽取那些特定類別的名詞。
此外,針對這項功能的實用性,英語真的是比中文更具有可實施性,主要有這些原因:一是中文沒有類似英文文本中空格之類的顯式標示詞的邊界標示符,而命名實體識別的第一步就是確定詞的邊界,即分詞;二是英文中的那些特定名詞的首字母一般都會大寫,而中文一般是沒有什么特殊表示的。
語義分析
在已經于市場推出的自然語言處理API中,以上兩個功能已經不具有什么新鮮感了,而這第三點就是谷歌這次的主打“產品”。
通過語義分析,系統可以識別文本中的各個部分,在用機器學習算法進行了大量訓練的前提下,系統可以按照邏輯關系將這些部分組成一個“依存關系分析樹”。在此基礎上,系統就可以對人們的話語進行正確的理解,從而給予正確的反饋。
不管是對于一個API這樣的程序接口,還是一個人工智能機器人,語義分析功能都是極其重要的一個組成部分。想象一下,當你對系統說出或打出“我想要給我的吉他買一個箱子,所以它必須得很結實”這句話,并要求它反饋一些網購頁面的時候,你肯定不希望它給我們展示吉他的購買頁面,再比如之前蘋果Siri犯的那個“救護車”的錯誤,相信我,如果你在需要緊急呼叫救護車的時候,系統卻回答說以后稱呼你為救護車,那將真的可能造成一個無法挽回的錯誤。
谷歌掌握了一個公布的好時機
在目前的市場上,像谷歌這種具有語義分析功能的API還沒有大范圍普及,而谷歌對于云自然語言API的推出時機掌握的也相當不錯。
就在前幾日,一場針對聊天機器人自然語言理解的挑戰賽剛剛落幕,而對于此次比賽的結果確實不盡如人意。成績最好的兩個團隊,在運用了最前沿的機器學習算法之后,其聊天機器人答對的概率也只比人類蒙著眼睛選的正確率高了那么幾個百分點,實在是有些拿不出手。
在此等事實的打擊下,多數研究團隊會將目光放在“如何提高自然語言理解準確性”上面。而在自然語言理解方面,谷歌的研究人員一直在進行努力,并曾多次暗示自己已經取得了不小的進步,再加上此次競賽谷歌的缺席,更是讓其技術蒙上了一層面紗。在這種種因素的推動下,谷歌此時推出了云自然語言API,不管是對其技術好奇的,還是急于提升自家機器人自然語言理解能力的,都不免會對其放入更多地關注。
其次,正如上面所說,在市場上面,由于具有語義分析功能的API還沒有大范圍普及。依仗著自家人工智能技術在全球的信譽,谷歌選擇在此時推出API,無疑會在市場上引起一陣風潮。若是用戶體驗方面真的能有很好的效果,谷歌在名譽與利益方面勢必會贏得一場大的勝利!
最后,記得關注微信公眾號:鎂客網(im2maker),更多干貨在等你!
硬科技產業媒體
關注技術驅動創新
