深度|當所有的語音都可以被識別和搜索,將對你意味著什么
如果你能夠聽聽人類迄今記錄在案的語料庫,你會認為我們是一個奇怪的物種。
我們將開始記錄和自動轉錄我們談話的大部分內容。我們說過的話,不是消融在記憶里,而是固化成文本整合為一個記錄,以供引用、搜索和挖掘。這將發生在我們意愿和允許的標準之內。它會實現,它能實現。這來得比我們想象得要快。
這將使得難以置信的事情成為可能?;叵肽闼阉鬣]件的所有原因。突然間你自己說過的話能以同樣的方式搜索回顧?!附o我看看去年一月前我和 Michael的對話。媽媽推薦的那家餐館的地址是什么?我何時首次提到Rob的現任?哪些人出席了那次會議?」喬治梅森大學經濟學家、一本即將出版的關于進化心理學的書的合作者Robin Hanson猜測說,我們可能會養成給我們說的話加關鍵字習慣來幫助我們事后回顧?;蛘?,當你講話的時候,一個軟件代理將搜索你此前的談話尋找相關內容。當你需要它們的那一刻,那些細節就會浮現。
我們說出來的大部分內容將會公開并成為網絡的一部分?,F在沒法保存的大量的專業知識、意見、抖機靈和文化將變得和現在任何文章和評論線程一樣有跡可循。你可以隨收聽飛行員的談話、理發店的談話或者研究生院的大型會議。你可以搜索你公司名字被提及的每個瞬間。你可以聽到父子相承的故事,同事間的解釋。人們會因為健談而成為網紅。廣告人、律師和學者將深度挖掘這一紀錄??梢云疯b的詞匯數量將爆炸式增長——這不過是因為人們說的比他們寫的多得多得多。
在電腦的幫助下,你可以追蹤說話者的話語,或者標記出你最常用的短語,來找出那些你比一般人用得多的那些不太常用的短語,來看看還有誰和你說話方式類似。你可以檢測到,哪些人在和你記錄一樣的內容——在音樂會或者電視節目上,并且自動整理你的評論。
如果你能夠聽聽人類迄今記錄在案的語料庫,你會認為我們是一個奇怪的物種。
谷歌員工Bill Schilit曾經從事過谷歌圖書語料庫的最初挖掘工作,他說,你甚至可以通過引用來發現科學學科之間的聯系?!缚茖W領域存在著這樣一個問題,不同的人用不同的名詞來描述同一件事情,但引用可以打通不同學科之間的術語」,他說。他介紹了一個項目,谷歌觀察了不用領域研究者的引用情況。在每份文件中,他們會抽出引用前面的那個句子——就是帶出引文的那個句子——然后對兩種語境進行比較,這樣他們就能發現引文所指了:對不同作者而言,它意味著什么,不同學科的作者怎么稱呼同一件事情。
但是這些對我們是好是壞呢?Nicholas Carr在他的書《淺薄》中指出,旨在增強我們大腦的新技術實際上會讓他們惡化。我們越是依賴工具,我們就越少鍛煉大腦。這是在說,我們大腦的一部分工作原理像肌肉一樣:用進廢退。 Carr 援引了針對倫敦出租車司機的關于何為知識的研究,如果他們要拿到運營執照他們就必須通過嚴格的考試,考察他們對街道地圖和景點的了解。當出租車司機了解更多關于倫敦街道的知識,他們大腦負責空間信息的部分就越來越發達。而且,大腦這一部分占據了此前其他大腦灰質的空間。
矛盾的是,長期記憶似乎并不是以同樣的方式運行的;它并不會「裝滿」。它將記憶的需求卸載到記錄上,可能并不是在為其他更重要的思考騰出空間。我們可能只是在剝奪大腦有用的部分。Carr寫道:「當一個人不能在長期記憶中鞏固事實、想法或經驗,他就不能『清空』大腦,也不能為其他功能騰出空間……當我們開始使用互聯網來作為個人記憶的替代品,繞過了鞏固的內在過程,我們是在冒著沒有好好利用大腦的風險?!?/p>
接下來的擔憂是雙重的——如果你停止鍛煉大腦中負責回憶語言或名字或「那天足球比賽后你和布萊恩聊天時他向你推薦的那本書的名字」的部分,有可能這部分就會萎縮。更可怕的是,如果你越來越依賴記錄來存儲事件和想法,你就會決定越來越少地用你的長期記憶來承擔這部分工作。所以,你的思維會變得越來越無趣。
如果這就聽起來令人恐懼,不妨再想想,如果生活在一個一切都記錄在案的社會里會怎樣。英國科幻電視劇《黑鏡》(Black Mirror)就虛構了一個世界,類似谷歌眼鏡的音頻視頻記錄設備簡直無處不在。地獄也不過如此。在機場安檢時,特工要求你高速重播過去24小時的經歷,這樣他們可以看清所有和你互動的人臉。在聚會上,人們不再進行新的對話,而是將注意力聚焦在「回放」(redo)過去的經歷,并要求朋友分享經歷。孤身一人時,他們并不會像往常一樣,在腦海中追憶那些模糊的、非線性的往昔,而是播放視頻,并放大那些他們一開始曾忽略掉的細節。他們似乎還生活在過去,就像被困住了一樣。過去則因保存在過于完美和公開的記錄中,而顯得扭曲不堪和光怪陸離。在這部電視劇里最生動、最黑暗的片段,我們看到一對夫妻在激情地做愛,卻發現,最美好的性愛只存在于他們正用眼部植入屏幕觀看的「回放」中;在現實中,他們卻像兩頭被毒品吸干的僵尸,在冰冷的床鋪上毫無感情地機械聳動。
這些對未來的想象,有的像天堂,有的像地獄。但最有可能出現的現實,卻躺在天堂和地獄之間——當真有某種像「記錄」的東西出現時,并不會重塑我們生活和相愛的基本模式。它并不會把我們的大腦變成漿糊,也不會把我們變成超人。我們將會一直扮演著那個慣常的、沉悶的自己,有時虛偽,偶爾坦率。是的,我們將會擁有新的能力——然而,我們的欲望會比能力改變得更加緩慢。
語音識別久已成為人工智能研究的一座圣杯。 貝爾實驗室(Bell Labs)的工程師J.R.Pierce在1969年寫到:「它也許就像是將水變成汽油,從海水中提取金子,治愈癌癥或者去月球這些計劃一樣吸引人」。他認為我們提出這個問題并拿出資金研究它并不因為它是簡單的甚或是有用的,而僅僅是因為和電腦進行對話會是一件偉大的事情。它會像是一部科幻小說,機器會因此看起來像是活過來。
事實上,語音識別之中似乎包含了人類理解的所有困難。畢竟,為了分析一個含混的音節,我們不僅需要關于語言的知識而且需要關于世界的知識,但這反而讓它更迷人。語音識別的發展進程大體上代表了人工智能的進程。它也因此成為了一個基準和獎勵。
最早的工作系統將他們自己限定在一個簡單的詞匯上,比如說,依次發出從「0」到「9」的讀音,然后通過尋找他們音波中獨有的特征來分辨詞語。你也許預料到,隨著詞匯量增加,不同詞語間的音波的區別變得更含糊了——這種方法崩潰了。研究者們意識到他們需要某種更穩定的方法。
他們終于在上個世紀70年代發現了一些門道。具體是是將語句在多個層面上同時組成結構。具體點說,他們想象識別系統在每個時間點上會在語調,音節,單詞,語句等各層面會處于某種特定狀態。而它的工作是預測每個層面接下來的狀態。為了達到這個目的,它運用了大概率表。它的原理基本上是:「如果出現狀態A,那么狀態B發生的概率是0.1%,狀態C發生的概率是11%,狀態D發生的概率是30%」諸如此類。這些表格是研究人員通過訓練系統對標定數據(這些手工錄入的數據已經確認為真)的識別能力得到的。其中的機巧在于如果單詞層面的預測是模糊的(也許是因為背景環境太嘈雜,或者是說話者語音失真),其他層面的預測能夠被用來幫助排除錯誤的概率,達到正確的選項。這是一個巨大的進步。這就像是從一次用一條線索去理解一個字謎發展到在縱橫字謎表去理解它:每條線索都能提示其他的謎語,這相當于簡化并分解了整個謎題。
這個方法與以指數速度發展的訓練數據(training data)和計算能力共同導致了過去四十年中語音識別中的大部分進展。它讓我們獲得了可用卻易錯的聽寫軟件,比如說第一版的Siri——Dragon Naturally Speaking,以及那些可以讓你用語音在給定選擇項中做出選擇(「賬單查詢」或是「計劃檢修」)的樹型自動語音系統。但是在2010左右,這個過程看起來仿佛總是漸進式的——像是語音識別領域中沒有可供發現的重大觀念了。這個領域像是進入了穩定階段。深度學習開始吸引人們的注意力。
Geoffrey Hinton和他的工作伙伴們(他們有段時間在多倫多大學工作,現在就職于Google)曾對深層神經網絡模型(deep neural nets)進行試驗。神經網絡模型的工作原理類似于大腦的電腦程序:它們由層層的像神經元一樣的單元構成,這些單元可以接收來自其他單元的信息并對這些信息作簡單的函數計算(像求和或是求平均值),之后基于函數產出值選擇是否給網絡中更深層次的的單元傳遞刺激。網絡模型可通過向最底單元層鍵入輸入值并且檢視最高單元層輸出值來訓練;如果輸出值不是期望值,你可以通過一個簡單的學習算法去調整單元間的聯結( 「突觸」)到你想要的強度。經過數百萬的案例訓練之后,你的網絡模型也許能夠成功的將你手頭上問題的重要特征進行編碼,并成為一個出色的組織者。
大部分神經網絡模型是沒有特定狀態的。意思是針對特定輸入值的輸出值僅取決于輸入值。這限制了它們在模塊化語音識別中的效用。但是Hinton實驗室里的Alex Graves好奇如果用輸出值取決于一系列輸入值的神經網絡模型來處理語音識別問題會怎樣,這個想法造就了 「遞歸神經網絡模型」(recurrent neural nets)。這種模型效用顯著。Grave的RNNs被給予遠少于這個領域中主流多層預測系統擁有的語言信息,但它不久后或將趕上并超越那些老方法。
當我向Hinton問到這么簡單的程序怎么能如此有效的識別語音時,他說這個問題讓他想到了他喜歡的達芬奇的某些素描,這些素描描繪了騷亂的水流流過水閘的場景:畫中的水流奔涌,渦旋中泛起白色的泡沫,完全是一幅混亂的場景。但是Hinton說: 「水流的行為卻能夠被極其簡潔的納維—斯托克斯方程描述?!?幾個簡單的原理產出了所有的復雜性。他認為同樣的事發生在神經網絡模型學習識別語音時。 「你不必手工將許多復雜的語音現象鍵入到系統中」,Hinton說到。
Hinton和他的同事們在Google從事計算機科學的基礎研究,用他的話來說是: 「檢驗學習算法順利運行的空間?!顾麄兊陌l現會有許多應用成果,但是語音識別會首當其沖,并且不僅是因為它是學習算法合適的試驗場所,Hinton告訴我說: 「重要的是談話是和事物互動的最自然的方式?!?/p>
目前,谷歌、蘋果、亞馬遜與微軟都對記錄并轉述我們所說的話沒有興趣。他們感興趣于聲音可以作為一個交互界面。例如Amazon Echo會坐在那里等著你發出指令;尋找歌曲或找一些其他瑣事,說比打字容易得多,尤其是當你可以在房間里任何角落這樣做的時候。當計算機變得更小,小到了我們的手腕上或鼻梁上,也許有一天到了我們的耳朵里,鍵盤就不再實用了——但是我們仍然需要一種方法去告訴計算機怎么做。那么為何我們不說出來呢?為什么不就說:「Okay,Google,帶我回家」呢?
這就是未來可見的事情。語音識別技術被AI的基本研究——因為它是一個模型問題——和谷歌的需求與它要為新設備開發更好的語音界面所驅動。無論人類是否刻意推動,科技會很快發展到一個引爆點——記者Matt Thompson叫做語奇點(Speakularity)——到那時「記錄語音立即可檢索并可讀是一個心照不宣的期盼?!苟ㄒ灰粋€問題,就是我們決定要記錄什么。
不在此處:科幻電視劇《黑鏡》描述了「一對在床上的戀人,都在用著植入技術,重溫著過去的某個時刻」。
如果你聽了人類所說的一切的記錄,你會認為我們真是個奇怪的種族。你會聽到所有的喋喋不休的電臺,配音演員的多次錄音,你還會發現記者采訪他們的對象,機長對電塔的控制員——而這些僅是聲音之海的一滴水而已,「為了質量的目標而記錄」。你不知道人類的生活聲音真正是怎樣的,或者我們真的在談論什么。
Megan Robbins是加利福尼亞大學河濱分校的助教,他比任何人聽到的談話都要多。他的研究基于一個設備,叫做ERA(電子激活錄音),設計來「自然背景下抽樣行為」。研究目標同意整天戴這個設備。它在一個小時后有規律的啟動五次,記錄30秒戴著它的人所說的和所聽到的。目標可以回聽所有記錄,并任意刪除,再把它交給Robbins以研究。
有了EAR,Robbins可以成為研究日常生活的科學家。比如說,她可以聽一對夫婦怎么指稱自己:他們是說 「他/她和我」還是 「我們」 ?她可以聽人們笑,并且試著理解為什么。一個研究發現: 「絕大多數的笑不是發生在幽默刺激出現時?!勾篌w上來說,笑是一種用來發送信息的社交工具,像是: 「我覺得你的地位比我高,」或是 「我想和你交往?!?/p>
Robbins目前在使用EAR研究夫妻是怎樣應對癌癥診斷結果的。他們會談些什么?他們會討論癌癥么?他們會笑的少一些么?Robbins說: 「你絕不會想到從事對乳腺癌患者發笑頻率的研究的?!沟怯辛擞涊d一個小時又一個小時談話的文字副本和錄音帶,許多關于我們基本行為的問題被揭示了。統計表明,7%的癌癥患者會對著他們的視頻剪輯發笑,這和大學生的概率相當。他們討論癌癥的頻率也和常人接近。Robbins解釋說人們的日常生活似乎有某種穩定性——即便是當你被確診患了癌癥。 「不繼續每天的習慣活動對人們來說真的很困難 ?!?/p>
她解釋到人們的談話平均起來有40%是關于他們的日常生活的。她的學生研究助理,以前對聽人們談話的錄音很激動,「現在卻心碎的發現日常生活有時很世俗。它就是由看電視和關于你晚飯會吃什么的談話這種事情構成的,當然還有關于電視的談話?!?Robbins說她驚訝于普通人每天會看多少電視?!高@是一個幾乎完全被心理學所忽視的話題,但是在EAR研究中卻顯示出重要性……它只是在面對癌癥的夫婦談話中才占第二位?!?/p>
人們通常不會討論的一件事就是EAR?!缸晕覉蟾鎸λ麄兊纳顩]有造成任何影響。他們通常忘記了他們正戴著它?!?事實上,你可以在文字副本上查詢提及到EAR的談話。引人注目的是,僅在兩個半小時后,他們就放下姿態?!干钜琅f如常,」 Robbins說到。
我們也許會認為人們意識到被錄音時將不會進行一場平常的談話,因為他們會忙于表演。但是任何曾對一個人錄過音的人都知道一直關注于自己說話的樣子能讓人精疲力盡所以這種自我意識監管不可能持續很久。Robbins的數據幫助驗證了這樣的直覺:不過一段時間之后,你就會回到日常狀態。
Hanson認為一旦語音轉錄普及,「日?!?也將仍會是對其恰當的形容詞。他不覺得它將會像一些人認為的那樣改變世界?!敢坏┠阕⒁獾轿覀兊氖澜绾?000年前是多么的不同,那就很難對這些感到很興奮?!?他說到。
他解釋道:1000年前,人們幾乎沒有隱私。住宅稠密,房間狹小且沒有鎖,房子里沒有門廳,其他人能聽到你xxoo的聲音。當你外出時,你幾乎不會獨行;你在小群體里閑逛。大多數住在小城鎮里,那里每個人都認識其他人,每個人都會說別人的閑話。那時的生活方式和現今的生活方式迥異,然而我們卻適應了這種變換?!肝冶仨氁业揭恍┍容^起來變化很小的事情?!顾f到。比如人們總是能夠區分親密朋友和普通朋友;他們總能決定要相信誰;他們總是有辦法親密交談 ;他們總是能說謊。
他說:「即便我們那些身為糧秣征收員的祖先也很擅長向別人隱瞞信息。按規定,糧秣征收員應該分享食物,但是他們私藏大量食物。他們在回營地的路上胡吃海喝,他們在營地中也私藏,他們會選擇性的把特定的食物給特定的人?!辜幢闶窃?0個人的營隊中(里面每個人一生中會見到幾個其他營隊),并且每個人晚上會待在同一個營房中——即便是在那樣的環境下,我們的祖先也能夠偷漏食物,并且利用語言和肢體語言獲取利益。
對人們的談話進行錄音只會給我們一個繪制我們既有能力的新維度。被持續錄音的人們會通過掌握什么在腳本上什么不在腳本上而讓自己適應這個事實。他們會像在孩子身邊談話的父母;他們會變成花言巧語、推諉搪塞的大師。他們會使用諷刺,或會扮鬼臉,或會露齒而笑,或會向后點頭,或會假笑,抑或向某處凝望,這樣他們就能不發一語的進行交流。
這聽起來讓人疲憊,但是我們已然流暢的適應了私密、小團體以及公共范圍的談話——不信去一個辦公室看看,派對也行。我們總是在詢問和回答關于我們聽眾的微妙的問題,然后根據答案調整我們的談話。(Jack能聽到嗎?Jack的老婆能聽到么?)
Hanson認為:「這并不意味著我們說的每件事現在都一目了然了。我們直白的說出來的話語中有一個層面…..但是我們總是在多個層次同時交談?!?/p>
每當我們考慮一種新技術的時候,我們傾向于管窺蠡測,仿佛世間的一切都必須從這個技術的角度來加以解讀。我們生活在一個杞人憂天的社會中。但事實上我們大腦的硬件幾乎沒什么改變,而大腦軟件在一代代的傳承中變化也非常緩慢。
全紀錄不會把我們的大腦變成漿糊。是的,我們會花更少的精力來把精彩言論存入長期記憶。腳本將會把我們從記住談話中的某些細節中解放出來。但是我們不必就因此擔心失去記憶細節的能力——就像我們不必擔心因為發明了日歷就失去了計劃的能力,或者發明了筆就失去了記憶的能力。我們將會以其他的方式擴展我們的長期記憶(比如說研讀借由腳本得以實現的大量新資料。)我們的大腦適應了書寫、圖書館以及網絡。他們會適應全紀錄的。而且無論怎么說,人們不像關注他們的儀表那樣關注他們的言辭。比起記錄獨白,他們更有可能停下來自拍。
生活也不會變成《黑鏡》里描述的那樣,因為要配合劇情就需要所有的場景和臺詞都緊扣最新科技。當然,全紀錄會加劇我們的自戀、懷舊、急躁和偏執。它甚至會讓我們一股腦墮落和麻木。但即便此前這樣的情況發生過,無論是由于智能手機、電視、鏡子還是烈酒,不管怎么說畢竟我們成功做回了自己。
最后,記得關注微信公眾號:鎂客網(im2maker),更多干貨在等你!
硬科技產業媒體
關注技術驅動創新
