搜索

谷歌的AI語音合成系統，幾乎與真人聲音無法區分？

Lotusun 8年前 (2017-12-28)

對于完全相同的單詞，Tacotron 2可以根據語境來發音。它還可以根據標點符號的不同而有所區分，也可以在讀到大寫單詞的時候加重語氣。

12月28日，據國外媒體WCCF Tech報道，谷歌表示，其最新版本人工智能（AI）語音合成系統Tacotron 2輸出的聲音幾乎與真人聲音無法區分。該系統是谷歌的第二代語音轉文本技術，它有兩個神經網絡，用于輸出完美的語音。

第一個深度神經網絡負責將文本轉換成頻譜圖（以視覺方式呈現音頻頻率，通常是PDF格式），然后將這個頻譜圖載入到第二個深度神經網絡WaveNet（來自Alphabet的AI研究實驗室DeepMind）中，WaveNet讀取頻譜圖并生成相似的音頻元素。

語音轉文本并不是一種新技術，對于Mac用戶來說，它已經存在了相當長的一段時間。然而，谷歌聲稱其文本轉語音技術優于大多數，幾乎無法與人類聲音區分開來。

對于完全相同的單詞，Tacotron 2可以根據語境來發音。它還可以根據標點符號的不同而有所區分，也可以在讀到大寫單詞的時候加重語氣。

在國際上，目前的智能語音技術格局已經被Nuance、谷歌、蘋果、微軟等IT巨頭壟斷。在國內市場，科大訊飛、百度、思必馳等智能語音解決方案也各顯特色，展現了較好的中文語音信息處理技術。

但是智能語音技術仍然有語義理解不夠深入，無法理解人類講話習慣、音調、音速，無法理解上下文語境等痛點。

谷歌的文本到語音系統，聲稱能夠將文本的意思準確理解、斷句，然后再準確的以語音形式輸出。如果谷歌Tacotron 2真如其所講的那樣輸出準確，與人類聲音難以區分，此系統真可謂是個黑科技了。

最后，記得關注微信公眾號：鎂客網（im2maker），更多干貨在等你！

鎂客網

科技 | 人文 | 行業

微信ID：im2maker

長按識別二維碼關注

硬科技產業媒體

關注技術驅動創新

Lotusun作者

Lotusun作者

171篇

文章總數

最新文章

盜火者陳明燁：用極客精神拓展機器感知的邊界

瑞海吳寧海：行業+AI，發現電力領域新藍海

智周萬物何小祥：深挖用戶需求，打造一個完整的物聯網倉儲系統

國產自研處理器新進展，小米澎湃S2處理器正式量產

中國集成電路基金完成約1200億元的二期募資

国产综合欧美精品第21页_98超碰人人与人人_日本高清中文字幕_2021在线国产精品