智能語音加速落地,離線方案如何實現破局突圍?

IM2Maker 4年前 (2021-07-02)

TimesVoice的目標是在成本可以接受的前提下,追求最好的用戶體驗,同時無需收集專門的語料,即可支持對自定義命令詞的快速定制。

方興未艾 -智能語音交互風起云涌

人工智能技術發展到今天,智能語音已經成為公認的最重要的人機交互方式之一,是人工智能的核心技術,也是最早在人們的日常生活中得到落地和應用的技術之一。特別是近十年來隨著深度學習在語音識別領域的使用,機器語音識別的準確率得到了長足的發展,已經達到或者超過了人類水平。

2015年亞馬遜智能音箱Echo和2016年谷歌的GoogleHome相繼推出以來,各種以語音交互作為人機交互方式的終端設備得到了快速的落地和普及,這其中既有經歷了2017年“百箱大戰“的智能音箱這樣的全新產品形態,也有集成在手機、車載等設備的語音助手,同時也在逐步滲透到空調、洗衣機、油煙機等白電和各種各樣的小家電中。

智能語音加速落地,離線方案如何實現破局突圍?

縱觀國內外人工智能企業,以智能語音為主要方向的也占據了相當的比例,與機器視覺、自然語言處理等賽道并駕齊驅。這其中既有BAT等互聯網巨頭,也包括科大訊飛、思必馳、云知聲等一眾國內語音領域的領跑者和獨角獸。

相應的,智能語音整體市場容量也水漲船高。根據ReportLinker預測,到2024年全球智能語音市場規模將得到215億美金,覆蓋了智能家電、智能家居、可穿戴設備、智能音箱、語音助手等生活類場景,以翻譯機、錄音筆、會議寶為代表的辦公場景,和車載語音等各類消費級應用。

各有千秋離線在線方案百家爭鳴

在智能語音識別中,技術方案路線分為離線方案和在線方案兩個大的類別。所謂離線語音識別,它無需聯網,完全在本地運行,因而可以不受網絡環境影響,不需要app,也不需要后臺服務器。設備可以根據用戶的語音指令做出快速的響應,相對而言具有更低的成本和功耗。另外不可忽視的是,在目前這樣一個數據爆炸的時代,不聯網意味著用戶數據可以完全可以在本地進行處理和存儲,使得用戶的隱私安全可以得到更好保障。

智能語音加速落地,離線方案如何實現破局突圍?

當然,由于終端設備功耗和成本的限制,計算和存儲資源有所局限,無法完成復雜的語義理解,基本上還是只能識別和處理預先設定的命令詞詞條或著短語,數量一般在200個以內,且每個命令詞長度一般在2-6個字。

相對應的,在線方案由于對語音的處理和識別在云端進行,對于命令詞的長度和條數沒有限制,也可以處理較為復雜的語義理解和交互對話。但是,在線方案需要依賴網絡環境,相應延時較大,整體方案成本較高。用戶數據和隱私安全,也是一個不容忽視的隱患。

正是由于離線方案和在線方案有著鮮明的互補特點,離線語音和在線語音各自也有著明確的應用場景。以智能音箱、語音助手為代表的終端中,由于其作為家庭智能控制中心的地位,以及與云端進行內容交互的天然需求,在線方案是不二的選擇。隨著2017年智能音箱市場的風起云涌,各大廠商逐漸從作為入口的音箱硬件本身的比拼,進入到背后的內容、流量和生態的較量,也很快形成了以亞馬遜、谷歌、阿里、百度、小米等巨頭公司來主導的競爭格局。

當然,即便是在這樣的場景中,也會有本地處理的需求。比如說,對麥克風采集的語音數據進行前端的處理和降噪,以及通過喚醒詞將設備喚醒進入到工作模式,像亞馬遜的“Alexa”,以及“小度小度”、“天貓精靈”、“小愛同學“,對這些耳熟能詳的喚醒詞的識別,就是在設備的本地來實時完成的。

與集中但品類有限的“入口”和“內容交互”類設備相比,離線語音背后代表著更為廣大的潛在市場機會。各種品類的白電或者小家電,都可以通過語音代替傳統的按鍵或者遙控器來進行控制,而諸如兒童玩具、可穿戴設備也有越來越多的語音交互的需求。此外,也可以與圖像和視覺相結合,應用在更多的多模態交互場景中。因為這只是一種更加貼近于人類自然的方式進行人機交互,只涉及人機交互方式的智能化變革和升級,而不是創造新的產品形態,因此幾乎可以跟所有品類的產品應用相疊加發生化學反應,這其中的想象空間是非常之巨大的。

霧里看花離線語音面臨推廣困局

任何一個新技術或者新產品的推廣和普及,市場的培育和用戶習慣的養成,肯定是需要一個時間過程的,更何況人機接口這種最基本的使用方式,更加不可能是一朝一夕就可以改變的。這個過程的發展,必須要在合適的場景中,以足夠好的用戶體驗作為基礎,而可以接受的成本和可復制的商業模式,則是真正能夠推廣落地的驅動力。上述四個環節,可以說是缺一不可,但又存在相互依賴和制衡的關系。

發掘到真正需要解放雙手的場景,而不是為了語音控制而創造的偽需求,當然是最重要的基礎。實際上,讓用戶可以擺脫“永遠找不到”的遙控器或者繁瑣的手機app,也不用在不愿、不方便起身的時候去操控開關按鈕,這種要求在我們日常的日常辦公和生活起居中,的確是廣泛存在的。

有了客觀存在的需求,接下來就需要把產品的用戶體驗做好,最終通過語音交互的方式,帶給用戶交互化繁為簡而不是相反的體驗。想象一下,如果粗暴的丟給用戶幾十上百個命令詞,亦或聽不懂、聽不清、甚至聽錯用戶的指令,很快難逃被束之高閣的命運。好在隨著技術的成熟,無論是多麥陣列的各種聲學前端處理技術,還是后端的關鍵字識別和ASR語音識別,在技術上都已經相對成熟。

智能語音加速落地,離線方案如何實現破局突圍?

多麥陣列的語音聲學前處理流程圖

到此為止,一切看上去都很完美。然而,事實上,自2017年陸續有專用的智能語音芯片問世以來,整個離線語音市場的發展似乎一直不慍不火。在一些品類的產品中雖然得到了陸續的試水,但更多的是作為一種附加的產品賣點甚至是噱頭而存在,與預期的成為主要的人機交互方式,還存在著很大的距離,似乎離真正的市場爆發前夜,還若即若離。

人工智能新技術的落地的前提是成本可以落地。因為在大多數場景真正落地的時候,還是會面臨很大的成本壓力,特別是對價格極度敏感的消費類產品尤為重要。對廣泛的端側設備來說,算力和存儲的兩頭,一頭是成本及背后的市場接受度,另一頭則是性能及背后的用戶體驗。很多時候,這個蹺蹺板的平衡點,并不是那么容易找到的。

另一個重要的障礙是可復制性,或者說把智能語音方案做成標準化產品的可行性。眾所周知,只有當一種產品成為“標準品”之后,才有可能真正大規模去推廣和應用。而智能語音本身的特點決定了,不僅僅是不同品類,就算是相同品類的不同品牌,它們的控制命令也會各不相同,往往需要進行有針對性的定制?;谀壳爸髁鞯募夹g,可以產品化的效果往往需要大量的語料作為訓練的基礎,而這些都意味著高昂的成本和以周為單位的交付周期。這幾萬元到幾十萬元不等的開發費用,毫無疑問會成為阻礙智能語音在很多應用上落地的鴻溝。

突出重圍時擎聲瀚攜手技術破局

所謂解鈴還須系鈴人,要想突破困局,最終還是要依賴于技術的進步。時擎科技與聲瀚科技近日聯合發布的,基于時擎科技AT1611芯片,搭載聲瀚科技最新一代本地語音識別引擎的TimesVoice離線語音方案,就在努力嘗試去解決上述兩個難題。

據了解,TimesVoice的目標是在成本可以接受的前提下,追求最好的用戶體驗,同時無需收集專門的語料,即可支持對自定義命令詞的快速定制。從客戶需求到形成產品級標準的語音方案,只需要幾個小時的時間,幾乎做到了“立等可取”,也不需要額外的定制開發費用。大大縮短了設計導入的時間周期和開發成本,讓很多品類的設備插上語音的翅膀成為了可能。

智能語音加速落地,離線方案如何實現破局突圍?

時擎科技是一家專注于端側自然人機交互的芯片公司,致力于為各類端側應用提供高能效比和高性價比的芯片和解決方案。他們針對端側應用場景的特點和算法需求,研發了Timesformer系列DSA智能處理器,可以友好高效地支持各類DSP或者神經網絡的端側語音、圖像和視覺算法。

聲瀚科技則專注于智能語音技術的自主研發與應用,致力于將高端的語音識別技術真正融入到人們的日常生活里。聲瀚科技連續數年上榜國內語音識別技術十強榜單,其語音識別方案已經成功進入海爾、美的等國內家電龍頭企業的產品中。

AT1611是時擎科技2020年推出的一款端側智能處理芯片,搭載了其自研的TimesformerBlaster100智能處理器,具備百GOPS的人工智能算力和多核心的DSP處理能力,同時支持MB級的片上高速SRAM,具有靈活可擴展的DRAM和NorFlash等豐富的存儲資源。時擎和聲瀚團隊在長達半年多的時間內,組成了技術聯合攻關團隊,緊密配合,充分發揮了AT1611靈活強大的DSA處理性能和豐富存儲資源,成功地將聲瀚科技包括了完整的多麥克風前端處理在內的最新一代語音識別引擎無縫落地在AT1611芯片上。

智能語音加速落地,離線方案如何實現破局突圍?

時擎科技AT1611芯片

談及這次合作研發的過程,時擎科技研發副總裁仇健樂表示,聲瀚科技提供的端側算法和模型之前運行在應用處理器上,得益于時擎特有的DSA處理器和靈活的芯片架構設計,經過雙方團隊的緊密配合,對運算和存儲資源做到了寸土必爭、錙銖必較,才讓聲瀚的算法和時擎的芯片渾然一體,最終在在性價比方面體現出競爭優勢。

智能語音加速落地,離線方案如何實現破局突圍?

時擎科技研發副總裁仇健樂

目前,TimesVoice快速定制語音方案已經開始小試牛刀,在短短一個月內,完成了電動車、跑步機、按摩椅等多個“非典型”智能語音場景的設計導入,而這些場景的噪音和應用環境各有不同,命令詞更是千差萬別,在傳統的基于語料收集進行訓練的方案中,至少需要3個月到6個月的研發時間。

在人工智能行業中,技術和市場很多時候就像一個人的兩條腿,不斷通過Tick-tock式的迭代演進,我們有理由相信,智能語音技術將會一步一個腳印地,逐步滲透到我們生活的方方面面,真正迎來爆發的那一天。

最后,記得關注微信公眾號:鎂客網(im2maker),更多干貨在等你!

鎂客網


科技 | 人文 | 行業

微信ID:im2maker
長按識別二維碼關注

硬科技產業媒體

關注技術驅動創新

分享到