用一顆攝像頭打破AI錄音筆固有形態,搜狗AI錄音筆E2創新出發

韓璐 5年前 (2020-11-13)

論一顆攝像頭帶給AI錄音筆的變化。

時隔7個月左右,搜狗新一代AI錄音筆E2也正式上市。

相較于上一代的E1,E2可以說是從內到外發生了變化,而相較于S1,兩者的差別進一步被縮小,E2更是帶來了創新性的功能。

最近一段時間,鎂客網也拿到了一部“E2”,并進行了數天的深度測評:

用一顆攝像頭打破AI錄音筆固有形態,搜狗AI錄音筆E2創新出發

體積縮小、屏幕變大……改頭換面的E2

在拿到E2包裝盒的一瞬間,如果忽略外殼產品圖下面大大的“E2”兩字,我或許會認為這是S1的升級版“S2”,之所以有這樣的感覺,實在是因為E2在外觀上與S1可以說是近乎一樣。

當然,在打開包裝盒后,兩者之間的差別也是一眼就可看出,同時,E2與上一代E1的差別也可謂天差地別。

用一顆攝像頭打破AI錄音筆固有形態,搜狗AI錄音筆E2創新出發

這一次,搜狗為E2配備的全面屏分辨率為340*800,足有3.46英寸,比之原先的1.54英寸大了一倍多,比之S1 3.5英寸的大屏不遑多讓。需要注意的是,雖然屏幕大了,但是E2整體機身的大小比E1只小不大。

猶記得在E1的設計上,諸如錄音鍵、多功能M鍵和電源鍵是排布在機身正面,并排于屏幕下方,而這一次,E2全面屏的設計,也使得這些功能件被安排分散在了機身左右側。

用一顆攝像頭打破AI錄音筆固有形態,搜狗AI錄音筆E2創新出發

圖 | 搜狗AI錄音筆E2機身右側

具體來看,機身左側為音量加減鍵以及電源鍵,右側排列的是錄音鍵、多功能M兼以及SIM卡槽,至于機身底部,則是充電口與3.5mm耳機孔。這其中,SIM卡槽的存在,意味著E2可以獨立聯網使用。

E2機身頂部與E1一樣,依舊是采用鏤空樣式,除了揚聲器,還配備2顆10mm心型哈曼指向麥,機身正面左右兩側對稱分布了6個小細孔,內置6顆全向數字麥,從而形成8麥陣列,實現15m超遠拾音和360°拾音。

就在屏幕的頂部中間,我們還能看到一個麥克風指示燈,它能夠顯示三種顏色,綠色閃爍代表錄音正常,黃色亮起表示噪聲太大,紅色亮起則意味著講話聲太大。

值得說道的是,E2的背面帶了點新花樣——一顆800萬像素攝像頭,以及一個閃光燈,這也是E2此次在功能上最大的升級,具體如何,我們留到后面細說。

E2整體包裝以白色為主,除了機身主體,另外還有Type-C接口充電(數據)線、取卡針以及一份說明書。

用一顆攝像頭打破AI錄音筆固有形態,搜狗AI錄音筆E2創新出發

圖 | 搜狗AI錄音筆E2配件展示

E2機身則以黑色為主,配以紅色、金色細節設計。因為整體材料以塑料為主,因此E2在重量上并沒有什么負擔,小巧便攜到足以一手掌控,隨踹隨走、隨用隨拿。與此同時,后殼大面積采用TPU材料,這也使得E2具備了減震和防滑的能力,于日常使用十分友好。

此外,E2機身內存為32G,實際內存為29G左右,電池容量為2000mAh,能夠持續錄音10小時以上,對于學生、記者等用戶群體聞言,這一存儲空間和續航能力已經是綽綽有余。當然,若實在文件過多,用戶也可以選擇將部分文件上傳至云端,如此也可在手機端、PC端和網頁端做到多屏共享,實現多人、異地的內容同步。

依舊強悍的智能降噪能力,滿足多樣化場景需求

AI錄音筆最為基礎的功能就是“錄音”,但是在某些時候,“錄音”這一簡單的事情卻不會那么簡單能夠做到,比如遭遇周邊環境音干擾,又或者對話者音量過低等等,這些都能夠成為致使錄音文件失效的因素。

在這一點上,E2很好的延續了E1、S1的強大基因。首先在面向的特定場景方面,E2與兩位前輩一樣,皆基于clairVoice8麥克風陣列算法提供四種錄音模式,分別是會議、采訪、聽課和音樂:

會議和采訪模式中,用戶只需將E2平放在桌面,即可實現360°拾音;

聽課模式中,將E2的頂端指向聲源,可做到定向拾音;

音樂模式中,同樣是將E2的頂端指向聲源,可做到高保真拾音,與此同時,搜狗也貼心的為用戶提供了MP3等5種錄音格式選擇。

另外,利用pureVoice AI降噪算法,E2也提供三種降噪模式(音樂模式不支持該功能),分別是真實音質(保留真實人聲和環境音)、人聲增強(過濾環境音,顯著增強人聲)、純凈人聲(深度刪除環境音,僅保留人聲),讓用戶在使用過程中能夠依據自身需求進行選擇。

用一顆攝像頭打破AI錄音筆固有形態,搜狗AI錄音筆E2創新出發

圖 | 搜狗AI錄音筆E2錄音模式與降噪方式

選定錄音模式和降噪方式之后,用戶短按錄音鍵即可一鍵開始錄音,過程中可隨時更換語種,以及暫定或繼續錄音。當錄音結束并保存本地之后,用戶可點擊機身屏幕主頁面的“錄音文件”查看錄音情況,若先前忘記選擇降噪方式,用戶也可點擊錄音詳情頁下方的“降噪方式”,打開“純凈人聲降噪”以聽取降噪處理之后的錄音。

針對這一功能,鎂客網也以一段會場采訪錄音做了實驗,在“純凈人聲降噪”功能關閉的情況下,錄音中周邊稀稀落落的交談聲和偶爾的碗碟碰撞聲能夠清晰聽到,但當打開降噪功能后,我們能夠聽到的只剩下純凈的人聲,對于之后錄音轉換文字的整理還是能夠提供一些幫助的。

除了聽聲識字,E2還學會了“看圖說話”

相比于傳統錄音筆,AI錄音筆最大的特色在于語音識別與轉寫、中外文互譯。

實時轉寫方面,E2當前共支持包括中文在內的11種語言和11種方言,覆蓋基礎的英文、韓語、日語、德語,以及粵語、四川話、南京話、貴州話等等。

過程中,用戶也可以根據實際情境任意切換語言或語種,從而保證錄音的完整性和準確度。

值得一提的是,因為前面提到的攝像頭,實時轉寫也多了一個功能——圖片實時拍攝與插入。基于這一功能,用戶將能夠同步記錄聲音與畫面。而在實時轉寫結束后,用戶也可以將該錄音文件中的圖片進行“文字提取”處理,不過該功能的啟用需要一個前提,即錄音文件已經作轉寫處理。

用一顆攝像頭打破AI錄音筆固有形態,搜狗AI錄音筆E2創新出發

圖 | 圖文提取gif

官方介紹稱,OCR技術共可識別13種圖片語言。而在實時轉寫之外,用戶也可以打開E2的攝像機拍攝文檔、路標等,做到“拍照秒變文字”?;谶@一功能,即使以后走出過門語言不通,只要E2在手,也不怕因為不會讀、看不懂文字而抓耳撓腮了。

至于轉寫的速度,鎂客網以一段時長39分鐘的錄音進行測試,原始錄音文件以中文為主,間雜少許英文詞匯,轉換過程總共不超過3分鐘。為了進一步提高轉換文字的精準度和可讀性,減少不必要的口語化詞匯等等,用戶也可以點擊左下角的“智能整理”,選擇區分講話人(機主可提前錄入自己的聲紋信息以加強區分精準度)、智能輔助校正、隱藏空錄音等功能。

依據E2的官方介紹,它一共可精準識別8種專業領域數據,覆蓋財經貿易、醫療、IT科技、政府、文化體育、工業制造、建筑、教育,在“轉寫確認”界面,用戶可依據實際情境進行選擇。

當然,與E1和S1一樣,M鍵在實時轉寫過程中也承擔著“劃重點”的作用,若是有遺漏,也可在錄音文件轉寫之后回聽錄音,并利用M鍵一鍵標記重點。

用一顆攝像頭打破AI錄音筆固有形態,搜狗AI錄音筆E2創新出發

圖 | 搜狗AI錄音筆E2重點標志

除了用戶自行標記重點,系統在轉寫錄音的過程中也會智能提取重點,并排列成摘要,供用戶后期查閱和快速定點回聽。只不過相較于用戶自己所標注的,系統的重點提煉在精準性上還存在那么一點欠缺。

整體來看,錄音文件轉寫在識別精準度上較之實時轉寫有所提升,雖然還存在些許誤差,不過尚在接受范圍內。當然,如果強迫癥患者實在看不下去,也是可以邊回聽邊進行編輯調整的。出于對觀感、編輯便利性以及效率的考慮,用戶在編輯的過程中也可以點擊“智能控制”調整字體大小以及錄音播放倍速。

此外,若用戶急需在眾多保存的錄音中找到某一段,也可長按M鍵喚醒智能語音助手,經由語音交互找出自己想要的錄音記錄。

用一顆攝像頭打破AI錄音筆固有形態,搜狗AI錄音筆E2創新出發

圖 | 搜狗AI錄音筆E2智能助手

翻譯方面,E2提供四種模式,分別是對話翻譯、自由對話翻譯、同聲傳譯和拍照翻譯,前三者可以提供63種語言互譯服務,最后一個涉及到OCR識別,因此只能提供13種語言的互譯,覆蓋全球200多個國家和地區。

離線狀態下,E2支持8種語言的中外互譯,只需提前下載離線包即可。

用一顆攝像頭打破AI錄音筆固有形態,搜狗AI錄音筆E2創新出發

圖 | 搜狗AI錄音筆E2離線翻譯包

對話翻譯模式中,錄音鍵和M鍵將各自承擔一種語言的錄入工作,在具體的應用過程中,需要用戶長按按鍵以采集對應語種,繼而由系統識別并翻譯成另一種語種。對于兩個語言不通的交流者而言,利用錄音筆進行逐個轉寫或許會耗費些時間,但能有效避免交談過程中因語音來回交叉而帶來的錯亂問題,保證內容的準確性。

在上一代,對話翻譯模式僅支持中文與其他語言的翻譯,升級到現在,63種語言之間的互譯已經不成問題。

用一顆攝像頭打破AI錄音筆固有形態,搜狗AI錄音筆E2創新出發

圖 | 搜狗AI錄音筆E2可翻譯語種(部分)

自由對話翻譯模式中,將錄音筆兩段分別指向雙方講話人,系統即可自動識別雙方講話狀態并錄音、中英互譯,無須手動操作即可滿足跨語言采訪、交流等長時間交流的需要。當然,保持更為嚴謹一點的態度,用戶也可以在對話界面右上角的設置中打開“手動打斷”按鈕,屆時哪方說話就點擊哪方的對話框,一段結束之后,再由另一方點擊自己這邊的錄入框以錄入語音。

或許會有人覺得,這樣一來的翻譯方式不就與對話翻譯模式類似嗎?其實不然,不管是錄入方式的便利程度,以及雙方對于交流內容的理解程度都是不一樣的。換一種說法,前者更適合應用于與陌生人的對話,譬如問路等場景,后者更適用于合作伙伴、朋友之間的交流互動。

視頻 | 自由對話翻譯

相比于對話翻譯,同聲傳譯不需要用戶在過程中長按某個鍵,點擊屏幕頂端即可調換翻譯方向。若中途需要暫停/繼續,只需短按一下錄音鍵即可,適用于單方面的發言錄入,譬如演講、上課等等。

從測試結果來看,在發音正常的情況下,E2的識別和翻譯準確度接近完美,些微差錯也在可接受范圍內。

至于拍照翻譯,正如字面意思,只需要打開攝像頭對著文檔拍一張照片,上傳成功之后即可實時翻譯成另外一種語言。如若需要的話,用戶也可以點擊界面的“純文本”按鈕,從而直接查看文本信息,而不是對著照片查看比螞蟻還小的譯文。

用一顆攝像頭打破AI錄音筆固有形態,搜狗AI錄音筆E2創新出發

圖 | 拍照翻譯gif

總結

眾所周知,錄音筆市場一直都是相對小眾的,主要受眾群體集中在新聞媒體、政府、事業單位等。

依據中國報告網數據,國內錄音筆市場呈現行業發展緩慢、替代風險大等特點,一句話概括,因為手機等數碼產品的沖擊等因素,國內錄音筆市場長時間處于“供過于求”的境遇。

對于這一點,搜狗CEO王小川也予以承認,他此前曾提到,以前錄音筆是專業小眾市場,記者用的多一些,注入AI后,重新煥發活力,會有更大的想象空間。

而從目前的情勢來看,顯然,在AI能力的加持下,錄音筆領域的競爭正在從剛性需求轉向消費分級。此時,搜狗創新性的為AI錄音筆增加一顆攝像頭,在顛覆過往錄音筆傳統形態的同時,也為錄音筆未來的升級增添了更多的可能性。

最后,記得關注微信公眾號:鎂客網(im2maker),更多干貨在等你!

鎂客網


科技 | 人文 | 行業

微信ID:im2maker
長按識別二維碼關注

硬科技產業媒體

關注技術驅動創新

分享到