微軟Azure云服務:可通過學習掌握人類情感密碼

鎂客 10年前 (2015-11-13)

以后能夠更愉快的和Cortana美女對話了?

想象一下,有這樣一種服務,在你的房子煙霧報警器響起時,能幫忙屋里的呼救聲傳達出去;它能記得住每個經過房子周圍的人;并且通過識別你的聲音就能為你開門,甚至識別出你的情緒變化。是不是覺得不可思議?去年5月在Microsoft's Build的開發者會議中,微軟介紹了正在牛津大學開發中的Azure項目:一組基于云計算的機器學習服務。

這些服務能執行一系列的圖像處理和識別任務,提供語音合成和語音識別服務,甚至是將自然語言轉換成計算機命令的應用程序。服務同樣可應用于微軟的Cortana私人助理和Skype的翻譯服務,這意味著它同時能識別六種語言并進行實時通話(包括50種語言的文字信息)。五月的一個周一,微軟升級了面部識別系統API,并借由Movmber基金會推出了一個“11月不刮胡子”籌款活動:參與者通過面部毛發識別API,可以識別是否有胡子,胡子增長情況并為其分配一個評級(以及添加一個小胡子“標簽”的面部毛發的事件窗)。

同樣的,微軟為這些基于網絡請求的RESTful接口添加額外的聲音,文本和圖像服務,包括一系列新將人工智能應用于處理視頻內容等全新體驗。接下來的某個周二晚上,來自微軟劍橋研究院的負責人Chris Bishop,以及微軟技術和研究部門高級項目經理Ryan Galgon共同在倫敦的微軟未來規劃會議上,作為該會議的主題之一,就這些新這些服務做了簡單介紹。新的API細節也將于今天早上在一篇博客文章中公布。它們包括:

情感識別:這是Azure的基礎服務,可用于一套新的公共測試服務,可以處理圖像,收集面部圖像用以描繪不同的人類情感。這項服務可以將情感分類顯示在一個圖像上。Azure可以使用元數據應用于圖像識別人們的快樂或者悲傷情緒,也可以用于收集特定事件數據對人們造成的反應。

拼寫檢查:基于Web API的拼寫檢查器,可以集成到任何移動網絡或云應用中檢查單詞拼寫錯誤,但也有它做不到的地方,比如當字母大寫時,或上下文銜接中的拼寫錯誤等問題。Galgon介紹,因為在云端,無法即時更新,所以不能根據拼寫的變化或使用場景而改善其拼寫規則。“例如,直到最近,拼寫檢查器還會認為“Lyft”是拼寫錯誤的“lift”,Galgon解釋道。拼寫檢查服務項目可以根據上下文以確定恰當拼寫的實現。

視頻處理:根據技術開發Microsoft's Hyperlapse視頻處理工具,今年年底前該服務可以上線使用。它可以處理大量的視頻,在視頻中識別獨特的臉和追蹤它們。它還可以在視頻中檢測運動的人或對象本身。使用這些檢測功能,機器學習算法可以編輯視頻,基于一組參數執行穩定圖像操作,并通過視頻剪輯去除過多的攝影機運動。

語音識別:Azure已經能相當熟練的將語音轉換為文本信息,但是新的語音識別功能(也在今年年底)將允許應用程序執行一個身份檢查功能:是誰在說話。Galgon表示,語音識別不是為了替代身份驗證工具。但它可以用來檢測用應用程序的變化,增加額外的身份驗證措施,這項應用需求更少,安全要求也更嚴格,它可以用來識別具體用戶,例如,識別人在一次電話會議中講話或視頻的字幕。

自定義情報識別服務(CRIS):一個可創建私密數據的工具,CRIS允許開發人員構建語音識別服務的應用程序以滿足更多要求,無論它們在何處被使用或是誰在使用它們。Galgon表示,例如,CRIS服務可以用來處理語音,即使在體育館廣場,有很大的回聲巷口空間或有球迷歡呼的背景噪音等環境下依然可以識別出特定的語音信息。在另一個實例運用中,CRIS在教室中正確識別出了一個五歲孩子的語音,并將它轉換為零差錯文本。

除了面部毛發特性,微軟也做了額外的調整。性別和年齡檢測功能已得到改進,并將“微笑預測”工具添加到面部圖像應用程序接口。

最后,記得關注微信公眾號:鎂客網(im2maker),更多干貨在等你!

鎂客網


科技 | 人文 | 行業

微信ID:im2maker
長按識別二維碼關注

硬科技產業媒體

關注技術驅動創新

分享到