科普時間:OCR是人工智能的基礎之一
作為計算機視覺領域的一個分支,OCR對于人機交互相當具有重要性。
在人機交互方面,大多人想到的都是語音交互,畢竟這是人類之間運用率最高的交流方式,且語音識別、自然語言理解等技術目前也發展的相當不錯。
但是,我們也不得不忽視這樣一個事實:我們每天都被文字所包圍,像每天辦公的文件、上課的板書、商品的介紹等等都是由文字組成的,并且這些文字在某一程度上也是語音交互的基礎,而這其中關乎一個關鍵的技術——OCR (Optical Character Recognition),光學字符識別。
什么是OCR?
OCR是指光學設備(掃描儀、數碼相機等)檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識別方法將形狀翻譯成計算機文字的過程,其本質就是利用光學設備去捕獲圖像并識別文字,將人眼的能力延伸到機器上。此概念是在1929年由德國科學家Tausheck最先提出來的,后來美國科學家Handel也提出了利用技術對文字進行識別的想法。
在20世紀50年代,IBM就開始利用OCR技術實現各類文檔的數字化,到了80年代,平板掃描儀的誕生更是讓OCR進入了商用階段,但不管是哪個階段,那時的OCR設備對于文字背景的要求非常之高,也需要很好的成像質量。
OCR的工作原理
一般來講,OCR的工作原理包括四個部分:
影像輸入:通過光學設備將圖片轉入計算機后,系統會對圖片進行一些處理,包括字符格式的分離、二值化處理、圖像降噪、傾斜校正、文字特征抽取等等,以提升圖片的精確度;
對比識別:根據字符的不同特征,將之與數據庫進行對比,并利用對比后的識別文字與其可能的相似候選字群眾,根據前后的識別文字找出最合乎邏輯的詞,再作出更正,以加強比對的正確性;
人工校正:目前為止還沒有一款軟件的文字識別時百分之百的,所以還需要用戶親自校正,確保輸出的準確性;
影像輸出:結果輸出到txt、doc、exl等格式。
現實中,OCR的發展其實已經相當完善了,不過,隨著人們需求的變更,此種OCR已經不能滿足人們的要求。而在當前,自然環境OCR是人們最為關注的點。
自然環境OCR進展
相比于傳統的OCR,自然環境OCR最難的部分在于文本檢測(將文字從圖片中提取出來),因為它具有極大的多樣性和明顯的不確定性。如文字中包含多種語言,每種語言含有多種字母,每個字母又可以有不同的大小、字體、顏色、亮度、對比度、排列和對齊方式等;因拍攝圖像的隨意性,文字區域還可能會產生變形、模糊斷裂等現象。另外,背景也是一大干擾因素,如文字區域附近有非常復雜的紋理;非文字區域有著跟文字區域非常相似的紋理,比如窗戶、樹葉、柵欄、磚墻等。
文本檢測首先要從圖像中切割出可能存在的文字,即候選連通區域,目前被采取最多的方法是MSER(最大平穩極值區域)。當然,也有團隊在此基礎上開發出了自己的一套算法,比如微軟研究院在傳統檢測方法ER(極值區域)和MSER基礎之上采用了對比極值區域CER(Contrasting Extremal Region),CER是跟周圍的背景有一定對比度的極值區域,在低對比度的圖像上比MSER效果更好,而且獲得的候選連通區域數量遠小于ER,提高了算法的效率,并且,為了提高所獲得連通區域的質量,微軟又增加一個算法環節去增強CER。最后,微軟采取了一套基于淺層神經網絡的文字/非文字分類算法,進一步提高了對于連通區域字符的辨認率。
在此基礎之上,微軟研究院的成果也得到了世界的驗證。2014年8月,在瑞典首都斯德哥爾摩舉辦的國際模式識別大會(ICPR)上,微軟亞洲研究院團隊公布的研究成果在自然場景文字檢測的標準數據集(ICDAR-2013測試集)上取得了92.1%的檢測精度和92.3%的召回率。據了解,此前業界最好技術的檢測精度是88.5%,而召回率只有66.5%。
OCR的應用前景
不管是傳統OCR,還是自然環境OCR,其參與者還是不少的。在國內,涉足OCR的企業主要有漢王、文通、百度等,國外的像ABBYY、IRIS、Google、微軟等等。此外,市面上也有不少OCR產品,傳統的OCR產品有尚書、漢王等,自然環境OCR的有百度翻譯、Google翻譯,實用性相當的不錯。
論起OCR的應用前景的話,僅看其隸屬于計算機視覺領域的一個分支,再聯系到當前人工智能的發展,其前景可想而知。再往細講,除了翻譯、智能購物意外,OCR未來最大的發展潛力在于人機交互。
眾所周知,人機交互一直是研究者追求的東西,但是目前也僅僅做到了語音交互和肢體交互。文字代表了人類的所有智慧與思想,如果機器人能夠進行文字識別,那它將能夠進一步獲取知識、學習人類,進而與人類進行更為自然的交互,或是協助人類工作,提高效率。
最后,記得關注微信公眾號:鎂客網(im2maker),更多干貨在等你!
硬科技產業媒體
關注技術驅動創新
