DeepMind再現黑科技:讓人工智能變身“作曲家”

巫盼 9年前 (2016-09-10)

時隔多日,DeepMind終于出新產品了。

DeepMind再現黑科技:讓人工智能變身“作曲家”

昨天,Google的DeepMind研究實驗室公布了一項最新成果——WaveNet。這是一項語音合成系統,它能夠模仿人類的聲音,且生成的原始音頻質量優于目前的文本轉語音系統(text to speech,簡稱TTS)。

在過去幾年,深度神經網絡的應用大幅度提高了計算機自然語言理解能力。然而,運用計算機生成語音(語音合成,或者TTS系統)仍然主要依靠拼接式TTS——先錄制單一說話者的大量語音片段,建立一個大型數據庫,然后將語音片段合成完整的話語。這種語音合成方式不僅過程繁瑣,也很難對聲音加以修飾,從而無法表達強調或者情感。而這一難題的解決則需要運用一種參量改頻式(Parametric)TTS。

在這種TTS系統中,生成數據所需要的所有信息被存儲于模型的參數中,語音所傳達的內容及語音特征可以通過模型的輸入信息得以控制。然而,目前參量改頻式TTS生成的語音聽起來還不如拼接式TTS模型生成的語音自然?,F有的參量改頻式模型通常將輸出的信息交給信號處理算法處理,從而生成音頻信號。

WaveNet的出現改變了這種方式,它直接用音頻信號的原始波形建模,并且是一次處理一個樣本。通過這種方式生成的語音不但聽起來更加自然,而且使用原始波形還能為任何聲音建模,包括模仿任何人的聲音,還能生成音樂。在測試中,WaveNet通過分析古典音樂,生成了一段鋼琴曲。

不過,雖然DeepMind宣稱,通過人耳測試,該技術使得模擬生成的語音與人類聲音之間的差異縮小了一半。但是,由于WaveNet需要強大的計算能力,近期也無法應用到真實世界場景。

最后,記得關注微信公眾號:鎂客網(im2maker),更多干貨在等你!

鎂客網


科技 | 人文 | 行業

微信ID:im2maker
長按識別二維碼關注

硬科技產業媒體

關注技術驅動創新

分享到