百度大腦OCR技術全分享 文字、票據檢測識別應用表現行業第一
OCR技術的應用創新,為整個產業“智能化”升級帶來有效助力。
在對“降本增效”的絕對追求下,OCR技術的應用創新,為整個產業“智能化”升級帶來有效助力。10月31日,百度大腦開放日OCR文字識別專場在上海召開,百度AI技術生態部產品經理為開發者們詳細介紹了百度大腦最新的開放能力,百度視覺技術部韓鈞宇深入分享了百度大腦OCR文字識別方向的最新技術與趨勢,并邀請華夏保險上海分公司、快合財稅等企業通過實際案例講述了是如何基于百度大腦OCR技術,進行企業內部智能化升級的全新思路。百度OCR產品經理進一步分享了交通、教育、醫療等更多行業應用的案例并進行了實際的產品演示?;顒蝇F場座無虛席,互動活躍。
百度大腦OCR技術持續保持業界第一
據介紹,百度大腦AI開放平臺面向廣泛的企業和開發者,提供最先進、最全面的AI能力,不斷降低AI應用落地的門檻。截至目前,已開放218項AI技術能力,達到24小時快速集成,開發者規模持續快速增長并突破150萬。
而基于深度學習的百度OCR技術更是獲得了持續領先性的成果。2019年,在由工信部、公安部和網信辦組織的,中國最高等級商業領域人工智能技術競賽的90+隊伍中,百度OCR脫穎而出,獲得唯一A級別證書,同時還獲得ICDAR2019 MLT文字檢測競賽冠軍等榮譽。
“百度OCR基礎技術的持續領先,離不開更好效果的算法創新和更高性能的模型壓縮。”韓鈞宇介紹到。百度OCR文字識別算法具備準確、多場景、多語種、多平臺的特性,通用中英文字符識別準確率達95%以上,支持文檔,隨拍,網圖,街景,商品,手寫等常見文字場景,并且支持中,英,日,韓,法,德,意等20多種語種,還支持云端,嵌入式,私有化等請求部署方式。而端到端識別、卡證票據識別、公式識別、文字編輯等解決方案則能夠更好地解決具體場景的技術痛點問題,提升模型精度和運算效率,讓識別更加準確高效。
未來,OCR技術的行業應用趨勢將向綜合方案和定制平臺兩個方向發展。教育、醫療、交通、財稅等場景都已實現通用化的綜合解決方案,而iOCR自定義模板文字識別和垂類OCR模型訓練平臺等定制平臺將針對更豐富的客戶需求滿足個性定制。
百度大腦OCR實現最廣泛的應用落地
此次專場,百度大腦邀請到了華夏保險上海分公司和快合財稅兩家企業客戶根據自身結合百度OCR技術的實際應用落地進行了案例分享。
(左:華夏保險上海分公司新技術應用處經理於維佳 右:快合財稅產品總監寧壽輝)
華夏保險上海分公司新技術應用處經理於維佳表示:“通過百度大腦OCR提供的解決方案,讓我們在面臨手工錄入發票信息出錯率高、效率低等行業痛點時,能夠顯著的節約成本、提升財務報銷業務流程效率。”華夏保險上海分公司,通過應用百度大腦iOCR自定義模板文字識別和EasyDL定制化物體檢測,實現二維碼檢測、增值稅發票識別,進而實現報銷單據影像分組及票面識別的自動化業務流程,年節省人力等成本核算達到1000萬元。
快合財稅產品總監寧壽輝則在現場講到,基于百度iOCR財會票據識別平臺搭建的快合財稅智能記賬SaaS,結合一臺自動饋紙式掃描儀,就能夠將快合財稅的會計做賬效率提升3倍,每年幫助幾百家代賬公司在做賬報稅環節合計省出2000萬元的成本。
最后,百度OCR產品經理更加系統化的詳細介紹了金融財稅之外更多行業應用方案。目前,百度OCR已經廣泛應用于財稅票據、身份驗證、內容審核、教育、保險醫療、交通以及拍照識別/翻譯等領域,并且為了滿足不同客戶的各種需求,百度大腦除了提供近40款垂類文字識別產品外,還提供了自定義模板文字識別開發平臺iOCR,針對特殊版式的票據可快速定制識別模板。通過這些案例,能夠看出在這些應用場景中,百度OCR充分發揮著的優勢:豐富的接口、支持自定義模板、高可用的服務確保用戶業務持久穩定、低價/多樣的付費方式(購買次數包,最多可以節省74.6%的費用,高精度版本低至千次7.6元),以及支持部署至私有云。
AI的大力發展,讓不同行業逐步走上了智能化升級之路,而隨著基礎能力的進一步開放,百度OCR技術將獲得更多的業界專家和開發者的支持,在技術不斷突破的同時,百度OCR技術也通過百度大腦AI開放平臺全面開放給第三方使用,打破封閉的研發生態,積極推動技術在具體場景上的落地。從而積累更為領先的技術,探索更多的應用場景,賦能更多的合作伙伴,創造更多的價值。
最后,對百度于2019年度公開發表的OCR文字識別領域創新技術算法,進行簡單介紹:
文字檢測:
基于主干、候選回歸、候選區域及精細化二次回歸,文字檢測算法可對任意文字形狀進行精確表示,解決任意形狀長行文字檢測問題,在公開數據集合達到SOTA檢測定位效果。
借鑒目標檢測中的經驗,為提升檢測速度,研究者通過單階段模型結構與多分支輸出設計對文字候選區域表達,多任務學習、單階段訓練可以取得兩階段、多階段相當的效果,并提升速度。
端到端識別:
現有文字識別系統以兩階段、多階段檢測、序列識別模型級聯為主,非規則文字識別效果精度不足。為克服同時識別規則和非規則文字效果不佳的問題,我們提出端到端OCR識別TextNet算法,通過共享主干、透視RoI變換實現文字檢測、空間注意力機制序列識別耦合設計,同時提升非規則行的文字識別效果。
針對中文大類別識別場景,我們引入弱標注數據的概念,針對街景場景只標注關鍵詞信息,忽略非重要信息,無需精確位置標注,避免大量精標注全監督數據高成本低效率問題。
基于端到端-部分監督學習方法,弱標注成本是精標注的1/90,弱標識數據量從2萬擴增到40萬,單模型平均編輯距離AED錯誤率相對降低20%。取公開英文數據集,端到端部分監督學習在ICDAR 15端到端評測達到單模型尺度SOTA效果。
大規模公開數據集:
為進一步推動中文場景文字識別領域發展,通過構建新的ICDAR 2019-LSVT大規模街景文字、ICDAR 2019-ArT任意形狀文字集合,百度攜學術界舉辦兩項ICDAR 2019場景文字識別的國際賽事,提供源于百度真實場景圖像數據45萬,獎金17,800美金,吸引業內各大企業、知名高校研究單位118支參數隊伍有效提交結果339個,各大主流媒體報道20余次。百度團隊在ICDAR 2019國際會議期間受邀做總結報告并為獲獎單位頒獎,展現近年來OCR識別技術的快速發展與應用新高度。
文字編輯:
針對文字編輯和風格遷移任務,我們提出了業界首個文本行級別的文字編輯解決方案SRNet。該方案主要思想是將文字屬性遷移和背景紋理修復任務進行解耦監督學習,并且讓網絡自適應學習兩者的融合,以端到端優化方式達到魯棒的文字編輯功能。
最后,記得關注微信公眾號:鎂客網(im2maker),更多干貨在等你!
硬科技產業媒體
關注技術驅動創新
