一文讀懂中國智能語音語義產業問題、格局與趨勢
兩項技術,兩大應用,三類公司,三種模式。
語音識別作為人工智能發展最早、且率先商業化的技術,近幾年來隨著深度學習技術的突破,識別準確率大幅提升,帶動了一波產業熱潮。繼科大訊飛、捷通華聲之后,行業內又涌現出思必馳、云知聲、出門問問等后起之秀,在教育、客服、電信等傳統行業之外,開辟出了車載、家居、醫療、智能硬件等語音技術應用新天地。
與此同時,自然語言處理(NLP)作為人機交互技術的重要一環,也為此提供了助力。Siri的推出打開了語音交互的先河,不僅催生了一批語音語義創業公司,還激發了百度、搜狗等大型互聯網公司在語音語義技術上的投入。
由于NLP和語義理解技術能夠讓機器理解人的意圖和需求,并把相應內容反饋給用戶,因此在客服行業得到了廣泛應用,有效降低了人力成本,提高了企業運營效率。
那么,中國智能語音語義產業主要涉及哪些技術?技術發展水平如何?存在哪些問題?有哪些應用領域、玩家和商業模式?行業格局和未來發展趨勢又將如何呢?本文將為您一一解答。
一、技術篇:語音識別和NLP技術仍不成熟
智能語音語義包含語音合成、語音識別和自然語言處理(NLP)三項主要技術。
語音合成技術發展最早,應用已較為普遍,除了合成音仍偏機械之外,基本不存在太大技術問題;語音識別在2012年卷積神經網絡(CNN)應用之后,準確率大幅提升,已經在C端、B端得到了廣泛應用,但效果和體驗還不夠理想;NLP技術雖然在搜索引擎中早有應用,但在人機交互領域仍屬于淺層處理。
語音識別“魯棒性“問題顯著
在生物學中,有個術語叫做“魯棒性”,是指系統在擾動或不確定的情況下,仍能保持它的特征行為。這一問題在語音識別領域也存在。
語音識別整個過程包含語音信號處理、靜音切除、聲學特征提取、模式匹配等多個環節。由于語音信號的多樣性和復雜性,系統只能在一定限制條件下才能獲得滿意效果。在真實使用場景中,考慮到遠場、方言、噪音、斷句等問題,準確率會大打折扣。目前業內普遍宣稱的97%識別準確率,更多的是人工測評結果,只在安靜室內的進場識別中才能實現。
要解決語音識別魯棒性問題,需要在技術和產品兩方面進行優化。一方面,在語音增強、麥克風陣列以及說話人分離等多項技術領域持續投入,并結合后端語義,促進對上下文的理解,從而提升識別效果;另一方面,需要從產品設計上進行優化,比如通過進一步交互,使語音識別變得更為準確。
語義分析仍是淺層處理
NLP技術大致包含三個層面:詞法分析、句法分析、語義分析,三者之間既遞進又相互包含。
圖:NLP分析技術
詞義消歧是NLP技術的最大瓶頸。機器在切詞、標注詞性、并識別完后,需要對各個詞語進行理解。由于語言中往往一詞多義,人在理解時會基于已有知識儲備和上下文環境,但機器很難做到。雖然系統會對句子做句法分析,可以在一定程度上幫助機器理解詞義和語義,但實際情況并不理想。
目前,機器對句子的理解還只能做到語義角色標注層面,即標出句中的句子成分和主被動關系等,它屬于比較成熟的淺層語義分析技術。未來要讓機器更好地理解人類語言,并實現自然交互,還是需要依賴深度學習技術,通過大規模的數據訓練,讓機器不斷學習。當然,在實際應用領域中,也可以通過產品設計來減少較為模糊的問答內容,以提升用戶體驗。
由于人工智能技術對數據依賴性極高,因此,這一領域的技術進步和產業化推進是一種協同關系——通過工程化的方法提升技術效果和體驗,從而促進產業化應用,再根據實際應用中的數據和反饋,反過來推動技術實現突破。那么,智能語音語義在產業化方面都有哪些應用領域,又存在哪些問題?
二、應用篇:C端提升體驗,B端提升效率
以問答和聊天為服務形式,智能語音語義在多個使用場景和行業領域都有廣泛應用,我們可以簡單從C端和B端兩個方向分別來看。
圖:語音識別/NLP技術應用領域
C端應用方面,主要用于移動設備、汽車、家居三大場景,用來變革原有人機交互方式;B端則針對垂直行業需求,提升人工效率,比如幫助醫生做電子病歷錄入,或代替部分人力工作,比如回答大部分簡單重復的客服問題。由于兩大領域解決的問題不同,因此遇到的挑戰也各不相同。
C端應用:變革交互方式,需求和體驗是關鍵
智能語音為C端提供了一種全新的交互方式,但應用和普及又跟具體場景和需求掛鉤。目前,三大場景中,移動設備中的智能手機,以及車內語音交互應用最為廣泛。家居領域中,雖然各種家電企業也在廣泛布局,但實際使用情況并不理想。
移動設備
智能語音語義在智能手機和可穿戴設備中的應用不盡相同??纱┐髟O備雖然沒有屏幕或屏幕較小,更適合語音交互,但大多(比如智能手表)都是非生活必需品,本身銷量就很有限,再加上一些可穿戴設備并沒有太多交互需求,因此實際應用量較少。
智能手機中的各類應用軟件大多都配備了語音功能,但相比觸摸和文字交互,使用率也不算高。很多人仍然沒有經常使用語音的習慣,或者還沒有使用語音的意識。究其原因,主要由于語音交互在效果和效率上都不夠理想。
從效果上看,語音在開放場景下識別準確率并不高。對于用戶來講,結果不可預期,產生錯誤后糾錯成本很高,所以寧愿打字。再者,用戶在手機端對于打字和觸摸已經非常習慣,因此缺乏改變習慣的動力。
從效率上看,語音在智能手機和各類軟件上的應用主要以輸入、搜索和調取服務為主,輸入信息量并不大,而且大多移動應用都是基于觸摸和文字做的交互設計,有文字推薦、按鍵選擇等友好設置,因此原有交互方式本身已經非常便捷,語音交互效果不好,容易出錯,并不能很好地提升效率。
目前,除了重度文字使用者,比如作家、記者、編輯等,對語音輸入和轉化有著剛性需求,其他人使用語音更多還是在無法打字或不方便觸摸時,比如走路、開車等情況下。不過,隨著語音識別和交互體驗不斷提升,會有越來越多的人在移動端使用語音。
汽車
由于人在車內雙手和雙眼被占用,而需求又十分明確,因此智能語音成了這一場景下最合適的交互方式。
智能語音在車內的應用主要以車載導航為主,輔以查詢和用車。對于業界熱炒的“以語音為入口連接各種服務,從而構建車聯網生態”的暢想,目前看來還距離較遠。核心困難在于,整個行業尚未找到車內場景下用戶的剛性、高頻需求?;蛟S等到自動駕駛汽車普及之后,人的雙手雙眼以及大腦解放出來,才有條件搭建包含各種服務的車內生態。
對于涉足汽車領域的語音企業來說,當前最重要的是,把導航等剛性需求的體驗做到位,再去考慮如何延伸服務。
家居
在家居場景下,智能語音應用主要圍繞智能電視、音箱、家用機器人展開,解決的需求包括搜片、聽歌、提醒、簡單交互、應用調取等。
亞馬遜Echo面世,帶動了語音交互在家居領域應用的熱潮。從2014年下半年至今,Alexa平臺應用數從最初20多個增加到7000多個,并在過去半年內以每月1000個左右的速度增加。據CIRP報告估計,截止2016年11月,Echo累計銷量超過510萬臺,2016年Q1-Q3共銷售約200萬臺,較前三季度增長18%(2015Q2-Q4數據來源于Mary Meeker《2016互聯網趨勢報告》)。
圖:亞馬遜Echo銷量估計,來源:MaryMeeker, 2016 Internet Trends Report
除了音箱、臺燈等小家電智能產品,家用機器人也成了創業者爭相押注的對象。擬生物形態智能產品的火熱某種程度上承載著人類對于機器人的美好愿望,但創業者還是要從價值和實用性角度考量其產品形態的設計邏輯。最終哪種形態的智能產品會“笑到最后”,還得市場說了算,但語音會成為家居交互主流這一點,已經毋庸置疑。
值得一提的是,一些傳統家電,如空調、冰箱、洗衣機、抽油煙機等,也開始配備語音交互功能,事實上并不理性。無論是控制開關、調節設置,還是對話溝通,從現有技術水平所能解決的需求和效率來看,都價值有限,或許等到語音交互成本下降,效率提升,才有可能在各種家電終端上普及。不過更多行業人士傾向于認為,智能家電的語音控制要么通過一個中樞設備來進行,要么通過房屋前裝分體式設計來實現。
除了以上三大領域,商用服務機器人的逐漸成熟,有望為語音語義在商場、醫院等各類服務場所開辟新的應用領地,點餐機、訂票機等傳統形態服務設備也將會以語音這種全新的交互方式服務大眾,市場之廣闊,可想而知。
B端應用:提升效率、解放人力,深耕垂直行業是根本
智能語音語義在B端的應用主要集中于客服、教育、醫療、旅游等領域。
客服
客服作為勞動密集型行業,對于一些大公司來說,成本依然很高。智能機器人客服的出現可以在很大程度上解決簡單、重復性工作,幫助企業節省人工和坐席成本,提升運營效率。
由于客服問題主要聚焦在特定產品或單一垂直領域,因此需要企業擁有完整的結構化知識庫,幫助機器人更好地查詢和匹配問答內容。目前,按照行業平均水平,機器人客服可以解決70%左右問題,其余由人工處理。
機器人客服是主要戰場。從成立較早的智臻智能(小i機器人)、捷通華聲,到后來的圖靈機器人、智齒科技、驀然認知,以及從云客服轉型智能客服的UDesk等,都希望在智能客服市場分得一杯羹。
由于業務量大、付費能力強,且知識庫完整,金融、電信、航空公司等大型客戶成了智能客服的主要應用群體。要更好地滿足這些群體的需求,各家公司需要針對不同行業對算法和技術做相應的改進和優化,在實際應用中,用更大的數據量去提升產品體驗和效果。
教育
教育領域,包括中英文口語評測,以及部分教育機器人的交互功能??拼笥嶏w作為智能語音和教育市場的龍頭企業,通過為一些全國性考試提供技術支持,已經成為中英文口語測評方面的主要玩家。2016年底,科大訊飛與新東方聯合成立東方訊飛,用新東方的數據+訊飛的技術,推動教育、培訓、學習的智能化進程,智能語音測評技術有望在其中發揮重要作用。
在訊飛的廣泛布局之下,脫胎于老牌語音公司思必馳,后被網龍(HK 00777)全資收購的馳聲科技,也通過2B2C的模式,在培訓、出版、考試服務、教育軟硬件等領域持續發力,欲通過中高考口語考試解決方案、人機英語對話模擬考輔系統打入學校市場。
體制之外,以英語流利說為代表的口語評測應用也廣受C端用戶好評。依靠四年時間積累的3000萬用戶數據、500萬小時練習錄音,流利說于2016年推出可替代口語老師的自適應移動英語課堂“懂你英語”,加上輔助在線答疑及外教上課,有望領先一步實現自適應口語學習的商業化落地。
智能語音在教育領域的價值,一方面在于提高教師工作效率,另一方面在于幫助學生提升學習效果。通過大量語音數據的積累,并和后端大數據分析、機器學習相結合,智能語音有望在機器輔助學習和自適應學習方面發揮重大作用,為教育行業帶來顛覆性變革。
醫療
醫療領域的應用目前主要是電子病歷錄入。醫生在臨床診斷時使用專業麥克風,可將診斷信息實時轉化成文字,錄入醫院HIS(Hospital Information System)系統,方便后續查詢和問答,提高醫生工作效率。
由于專業性強、識別難度高,國外語音巨頭Nuance最早主要是通過后臺人工轉寫,而隨著語音識別技術有了突破性進展,國內智能語音在國內醫療領域的應用也開始起步,訊飛和云知聲是該領域典型代表。
訊飛正在和安徽省立醫院、上交大附屬第六醫院南院以及北大口腔醫院等合作,讓醫生使用定制麥克風,通過定向和降噪,先將語音轉成文字,再用NLP技術對文字進行結構化處理(比如分段),醫生只需再做簡單修改即可形成電子病歷。此外,訊飛還在醫療影像翻譯、醫療大數據分析方面展開布局,欲將AI技術廣泛用于智慧醫療領域。
云知聲的智能醫療語音錄入系統也已經在協和醫院、西京醫院試點使用。同時,其醫療語音技術還上線了“平安好醫生”20多個科室,讓醫生通過語音方式,更便捷地與患者進行線上溝通。
當前,語音在醫療領域的應用還處于語音轉文字的初級階段,在實際使用中的部分識別錯誤還需要醫生手動修改。不過,以語音為入口所積累的大量醫療數據會在未來產生巨大價值。此外,隨著醫療技術和語音分析技術的進步,通過聲音診斷病情也將成為可能。南加州大學已經開發出一套新的機器學習工具,可以通過患者的特定語音特征,輔助醫生診斷抑郁癥等心理疾病。
金融
由于金融行業帶有明顯的客戶服務屬性,加上完整而龐大的業務及數據積累,因此成為智能語音語義的重要應用陣地。當前,一些商業銀行已經通過使用語音識別技術,實現了語音導航、語音交易、業務辦理等基礎服務。
除了在線客服和呼叫中心,智能語音技術還被應用于語音/語義分析、大數據挖掘、身份認證等領域。捷通華聲的智能語音分析系統就通過將語音數據轉化為文本,而后建立語義索引、自動提取特征關鍵詞,再對文本數據進行自動分類,生成結構化的客服大數據,為銀行等金融機構提供客服質檢、大數據挖掘與分析服務。
此外,隨著聲紋識別技術的進步,智能語音也將被應用于金融領域的身份認證,通過語音認證實現業務辦理、支付等功能,未來有望和指紋、虹膜、人臉等其他生物特征識別方式一起使用。
除了上述四大領域,智能語音語義技術也逐漸滲透到安防、旅游、法律等行業,在效率效果提升、解放人力等方面發揮越來越重要的作用。
三、業務模式及行業格局篇:巨頭優勢明顯,創業公司垂直突圍
從業務和規模來看,語音語義類公司大致可分為三類:大型互聯網公司、行業技術巨頭、創業公司。
圖:智能語音語義行業業務模式對比
大型互聯網公司
由于互聯網公司擅長直接服務用戶,因此不會輕易涉足教育、金融等傳統垂直行業,而是會把重心放在消費類產品和應用上,其模式主要包括2C和2B2C兩種,最終都會落地到消費領域。
技術巨頭
技術類公司中,科大訊飛一直以來都是做2B業務,向教育、電信、客服、政府等垂直行業輸出語音合成和識別技術,經過十多年積累,訊飛已經積累了相當大的市場份額。近兩年,訊飛一方面在智能車載、智能家居、智能機器人等新興市場加大布局,另一方面也在努力向消費端傾斜,通過訊飛語音輸入法、錄音寶等產品打入C端市場,逐漸加強品牌認知度。因此,其商業模式既有2B、2C,也有2B2C。
技術類創業公司
其他技術類創業公司大多以2B或2B2C為主。比如,云知聲的智能醫療業務完全2B,而智能車載和智能家居則是2B2C。值得注意的是,出門問問作為一家擁有智能語音語義技術的公司,獨樹一幟地選擇了2C模式,通過智能手表、智能后視鏡以及智能語音助手等產品和應用,直接切入消費級市場。
NLP技術公司也包括2C和2B兩種模式。語音助手和聊天機器人等2C產品,無論是技術還是產品都不成熟,因此并不適合創業公司做。圖靈機器人從最早的蟲洞語音助手,轉型到2B的語義平臺和操作系統,也說明了這一問題。聊天機器人由于使用場景和需求尚不明確,目前仍是微軟等大公司在探索和嘗試。相較2C,2B對于創業公司來說是一條更現實的路,可以在技術發展早期段彌補產業薄弱環節。
整體格局
截止當前,在智能語音語義領域,除了訊飛擁有多年技術積累,在某些前沿技術上處于領先水平,其他互聯網公司和創業公司在技術上并沒有本質差別,技術本身已經不足以成為其核心競爭力,大多公司很難單純依賴技術建立成熟可靠的商業模式。
要想更好地實現商業化,這些公司只能通過往上下游延伸來創造價值。上游可以把語音和搜索引擎結合起來,為垂直行業提供內容和服務,下游可以把語音和硬件產品相結合,依靠產品銷售實現營收。哪怕是訊飛這樣擁有前沿技術的大公司,也在向垂直行業和產品延伸,來挖掘新的利潤增長點。
教育、金融、客服等領域需要和行業進行高度定制,大型互聯網公司不會輕易涉足,因此會成為技術類公司的主要陣地。但是在智能車載、智能家居、智能機器人等2B2C甚至2C的領域,技術類創業公司則要面對互聯網公司的直接競爭。因為,互聯網企業具有天然的C端優勢。
首先,無論是通過自有2C產品,還是借助合作,大型互聯網公司依靠其龐大的用戶量、大量真實場景下的數據積累、以及背后強大的搜索引擎和完整的知識庫,可以極大提高語音識別在真實環境下的識別準確率,以及語義分析和理解能力。
其次,互聯網公司擁有豐富的C端產品經驗,加上對用戶消費數據的迭代,能夠更好地提升產品體驗。對于體驗至關重要的消費端,一旦產品或應用形成良好的行業口碑,快速的走量也會水到渠成。
當然,巨頭的優勢并不能阻擋創業公司的成長機會,通過深耕垂直領域和細分賽道,實現自我造血和快速成長,創業公司也有機會在這一新興產業中逐漸做大。接下來,隨著語音識別和NLP技術的逐步成熟,智能汽車、智能家居、智能機器人產業的日漸完善,定會有一批優秀的技術類公司在智能語音產業的浪潮中順勢而起。
?【編者按】本文轉載自 愛分析
最后,記得關注微信公眾號:鎂客網(im2maker),更多干貨在等你!
硬科技產業媒體
關注技術驅動創新
