谷歌的AI語音合成系統,幾乎與真人聲音無法區分?
對于完全相同的單詞,Tacotron 2可以根據語境來發音。它還可以根據標點符號的不同而有所區分,也可以在讀到大寫單詞的時候加重語氣。
12月28日,據國外媒體WCCF Tech報道,谷歌表示,其最新版本人工智能(AI)語音合成系統Tacotron 2輸出的聲音幾乎與真人聲音無法區分。該系統是谷歌的第二代語音轉文本技術,它有兩個神經網絡,用于輸出完美的語音。
第一個深度神經網絡負責將文本轉換成頻譜圖(以視覺方式呈現音頻頻率,通常是PDF格式),然后將這個頻譜圖載入到第二個深度神經網絡WaveNet(來自Alphabet的AI研究實驗室DeepMind)中,WaveNet讀取頻譜圖并生成相似的音頻元素。
語音轉文本并不是一種新技術,對于Mac用戶來說,它已經存在了相當長的一段時間。然而,谷歌聲稱其文本轉語音技術優于大多數,幾乎無法與人類聲音區分開來。
對于完全相同的單詞,Tacotron 2可以根據語境來發音。它還可以根據標點符號的不同而有所區分,也可以在讀到大寫單詞的時候加重語氣。
在國際上,目前的智能語音技術格局已經被Nuance、谷歌、蘋果、微軟等IT巨頭壟斷。在國內市場,科大訊飛、百度、思必馳等智能語音解決方案也各顯特色,展現了較好的中文語音信息處理技術。
但是智能語音技術仍然有語義理解不夠深入,無法理解人類講話習慣、音調、音速,無法理解上下文語境等痛點。
谷歌的文本到語音系統,聲稱能夠將文本的意思準確理解、斷句,然后再準確的以語音形式輸出。如果谷歌Tacotron 2真如其所講的那樣輸出準確,與人類聲音難以區分,此系統真可謂是個黑科技了。
最后,記得關注微信公眾號:鎂客網(im2maker),更多干貨在等你!
硬科技產業媒體
關注技術驅動創新
