秒殺Siri,推個性定制合成語音,BabelOn終成霸主?

韓璐 8年前 (2017-06-23)

美科技公司BabelOn推出語音合成新技術,超越siri等數字聲音,實現多語言個性化聲音合成。

語音合成,即合成人的聲音,已經不是什么新鮮的事物。近來,舊金山一家叫BabelOn的公司正在推陳出新。該公司表示,他們的特定硬件和軟件組合可以從視覺和聲音兩方面分析出人類發聲的特點,合成你想要的任何語言版本的效果。

最初,該公司希望將該技術用于改進譯制影片或本地化視頻游戲的配音,但后來,他們表示希望最終能夠實時翻譯演講,比如說Skype通話。微軟已經做了一段時間,即實時翻譯Skype語音電話,但是BabelOn承諾,它的翻譯聲音聽起來就像你本人說的,而不是一個匿名的Siri或Cortana等數字聲音。

秒殺Siri,推個性定制合成語音,BabelOn終成霸主?

時機造就BLIP

聯合創始人Daisy Hamilton的父母早期就注意到了電影行業需要更好的各種語言配音的需求,后來在語音合成和智能系統領域的專家的幫助下,他們獲得了核心專利,這是第一個類似的視覺和聲音翻譯的過程和系統。

隨后,他們試圖用軟件為這種新技術構建一個原型,但很快碰壁,因為支持這項核心技術的其他技術和設備都無法實現,那時還是2004年,運動捕捉技術連曇花一現都算不上。很快他們意識到沒有必要推進技術,因為當時不可能取得進展。直到2011年,Hamilton認識到時機成熟??v然明白支持該核心技術的其他技術和硬件設備十分復雜,困難重重,BabelOn公司依然決定開始將核心技術的擴展和整個系統的研發付諸實踐。

合成過程的核心部分是創建一個BabelOn語言信息配置文件(BLIP)。據悉,在該公司的舊金山工作室里,通過讓參與者閱讀各種情感狀態的特定文本,個人的BLIP就可以在約兩小時的時間內創建。并且聲音一旦錄制,系統就能夠根據相應情感需求來復制腳本,將個人的聲音轉換成其他語言,生成相應版本的語音,而無需重新找母語者錄制。

秒殺Siri,推個性定制合成語音,BabelOn終成霸主?

核心優勢:捕捉技術

在語言開發方面,該公司專注于英語、法語、西班牙語、德語、葡萄牙語、普通話、日語和印地語,其他語言也將根據需求上線。

在硬件上,BabelOn是與勞倫斯利弗莫爾國家實驗室合作開發的,該實驗室是一個專注于開發科學和技術的聯邦機構。Hamilton沒有提供許多其他細節,但表示,希望最終可以在舊金山以外的地方設立多個工作室。

值得關注的是,不同于傳統的語音捕捉技術,BabelOn并不單單只捕捉聲信號這一項因素,該公司的定制硬件還可以捕捉和分析呼吸,聲信號如何在你的胸部和喉嚨、嘴巴移動以及各種其他關鍵因素。

秒殺Siri,推個性定制合成語音,BabelOn終成霸主?

技術發展前景與潛在問題

Hamilton表明,雖然目前完全處理腳本需要幾個小時的時間,但是,隨著進一步的改善,系統將會在近期實現實時工作。不言而喻,這將大大擴展在電影和游戲領域的功能,并且可以用自己的聲音,使多語言對話變得更加個性化,更具表現力。

但也存在很多潛在的危險,其中最重要的是有人的聲音被“偷走”,并以她不同意的方式使用。所以安全因素將成為向消費者推廣該技術過程中的一巨大障礙,即使Hamilton已經就此做出一定的努力,但仍需要進一步優化和大量的努力。

總結

該技術本身很有趣,但有一點需要我們注意:這是BabelOn的早期,我們還沒有看到這個軟件的應用,而且公司目前還沒有客戶端,所以具體應用效果尚未可知。不過就應用前景和公司透露的信息來看,該項技術依然是值得關注和期待的。

最后,記得關注微信公眾號:鎂客網(im2maker),更多干貨在等你!

鎂客網


科技 | 人文 | 行業

微信ID:im2maker
長按識別二維碼關注

硬科技產業媒體

關注技術驅動創新

分享到