IBM語言學家研發動聽的機器語言,提升用戶體驗
有感情的計算機聲音最好聽。
對于一個小說愛好者而言,可以聽小說在十年之前可以說是十分令人期待的事。那時候還是初中生的小編第一次從學習機中聽到了小說,但是不可不說,聲音相當地機械,難聽至極,毫無感情,一點聽下去的欲望都沒有,之后就再也沒有想過讓機器“說話”。
之后,慢慢地隨著語音系統的發展,越來越多的設備加入了語音播報,直到現在人工智能設備幾乎可以和人使用語音進行特定的交流。聲音的質量也一直的改善,如何讓用戶聽得舒服是工程師們不懈的追求。
2009年,六個IBM語言學家、工程師、營銷人員聚在一起,一起思考人工智能程序Watson將文本轉換為語音時應該使用什么樣的聲音才會受到用戶的喜歡。進過十八個月的努力,最終他們精心制作出了一款聲音,雖說不是那么地人性化,但是也不像《2001太空漫游》中HAL 9000的聲音那么冰冷,也算是好聽了。
語音系統已經成為現在智能設備不可或缺的功能,人們需要語音控制來簡化操作。當然這樣的設備已經出現不少,越來越多的機器在學習聆聽、理解、甚至是說話,直接通過語音和人進行交流。汽車、玩具、家電等都已經家入其中,比如家庭陪伴機器人Pepper和Jibo,亞馬遜的語音設備Echo等等。
像這樣可以理解人類語音命令并且做出回應的軟件一般被叫做“會話代理”,在不斷開發的過程當中,還發明了新的技術——人機交互設計,不僅僅是科學性上的極大進步,更體現了濃濃的藝術性。
現在已經很普遍的語音播報就是天氣預報和交通導航,即使做得再人性化也很難和人的聲音一模一樣,這其中的關鍵就是語調和情緒的表現,或是說韻律的展示,但是想讓人工智能表現出和人一樣豐富的情緒,對于現在的技術而言還幾乎是不可能的事情。
合成語音的方法有很多,要想效果達到最好,就需要使用人類語言,生成擁有很多不同說話方式的數據庫,每個數據庫都保存有人類配音數十至上百小時,盡可能多的擁有更為豐富的素材。
在電影《她》當中,男主角就愛上了人工智能Samantha,他們之間正是通過這種語音來交流的。其中電影里面也充分體現了計算機語言加入情緒的重要性以及困難程度。
現代語音合成技術的奠基人、蘇格蘭計算機科學家、卡內基梅隆大學語言技術研究所教授Alan Black表示:即使現在語音合成系統已經取得了巨大的進步,但是依舊不能夠像人類那樣完美,是做不到像人類一樣“帶著感情說話”的。
當然對于一些玩具或是娛樂產品的公司來講,語音系統不完善并不能造成什么影響,只要達到娛樂效果就可以了。但是對于一些需要以此作為聯系,與人類進行合作或是工作的語音系統來講,就是一個需要解決的極大困難了。
對此,IBM制作了一個電視廣告,作曲家鮑勃·迪倫和Watson同時出鏡,但是當Watson一開口時,鮑勃·迪倫就嚇得退場了,因為人工智能的聲音實在是太恐怖了。IBM此舉就是想告訴人們,他們的目標就是并不需要機器語言那么地像人類,但是也不能過于嚇人,過于難聽,達到這樣的程度就可以了。
IBM研究院的研究員Andy Aaron表示:機器的出錯率依舊是最大的挑戰,團隊的部分成員在一年多的時間中建立了一個非常龐大的正確發音的數據庫,才能正確地讀出單詞,將出錯率最大程度地降低至零。
曾經,IBM還專門聘請過25名配音員,專門尋找那種很特別的人類聲音,在這個基礎上再來開發Watson的語音系統。在挑選出最合適的聲音之后再進行調整,甚至是提升頻率,最終有點像小孩子的聲音,不過這個有個性的聲音最后遭到了一致反對。
其實最想要的聲音就是那種緩慢、平穩而令人愉悅的聲音,這使得工程師的工作更像是藝術家,必須使得最終得出的聲音即使一聽就聽出來是計算機的聲音,但是卻透露這樂觀、還包含著活潑,這才是最好聽的。
隨著計算機語音技術的不斷發展,應用范圍肯定會越來越廣。以色列公司Imperson之前一直做的都是娛樂型的對話角色,現在正在往政治方向發展,比如讓虛擬競選者和民眾進行互動對話,即使都知道是假的,但是依舊會讓民眾產生親切感。
聲音的大小、質感等都會在無形當中產生很大的影響,將聲音做到“好聽”,無疑會給產品本身增色不少,我們期待更好的語音系統,更動聽的聲音。
最后,記得關注微信公眾號:鎂客網(im2maker),更多干貨在等你!
硬科技產業媒體
關注技術驅動創新
