愛數智慧張晴晴:采用人機協作模式,為智能世界提供充足數據生產力
在張晴晴看來,數據服務商若想很好的在市場存活,需要做到“多快好省+專業”。
“大數據本身處于一個原始狀態,那些還沒有經過清洗和整理的非結構化數據是價值極低的,只有經過結構化處理,數據才能夠被真正用起來。”愛數智慧創始人兼CEO張晴晴表示。
圖 | 愛數智慧創始人兼CEO張晴晴
眾所周知,AI的發展需要滿足三個基本(必要)條件:算法、算力和數據。數據作為其中重要的一環,隨著5G時代到來,重要性愈加凸顯。促進AI行業的發展,用好數據很重要。但是在這之前還有一個環節不可忽視,即數據采集和標注,目的是讓數據變得“能用”。
增速快,數據采集與標注市場未來可期
什么是數據采集與標注?簡單來講,就是收集包括文本、圖像、視頻、、語音等在內的數據,繼而對這些數據進行清洗和標注。
數據顯示,2018年我國數據標注行業的市場規模已達到60億元。對于數據采標的市場規模,張晴晴表示,短期來看,數據采集標注市場可能只是百億量級,但從長遠角度來看,讓數據從非結構化進化到結構化的精加工過程是一個非常龐大的市場,預計將達到千億。
“現如今,大家對智能化、信息化、標準化需求的滲透率還沒有那么高,隨著滲透率的逐步擴大,數據采標的市場也會越來越大。”
落實到具體的需求,客戶究竟想得到怎樣的服務、達到什么樣的目的?對于這個問題,張晴晴也給出了答案。她表示客戶的核心需求主要有兩個,一個是搭建系統用的基礎數據庫,另一個則是數據的精加工。“公司會從我們這里購買一些標準化的數據產品,來搭建基礎系統。隨著系統搭建完成,源源不斷的新數據開始產生,這些數據是非結構化的,而企業需要收集它們并進行精加工,去做結構化的標注,公司這時候也會需要我們的服務。”
充分利用人機協作優勢,為智能世界提供數據生產力
張晴晴介紹,她本人之前所從事的是聲學研究,而團隊的背景也多在語音語義領域,因此在業務層面,愛數智慧主要集中在語音方面,包括智能客服、智能家居、智能教育等等。另外在圖像、文本等領域,他們在主營業務之外也有所涉獵。
按照屬性來劃分,愛數智慧應該歸類于專門做數據采標的第三方公司,而一些公司往往還會選擇在內部設立標注部門。對此,張晴晴認為從公司角度出發,出于數據安全考慮,這種做法是合理的。但是“公司自己來做的話,往往在數據結構化的專業度等方面會有所損失。”她指出,現在的企業自己做數據大多是利用純人工的方式對數據進行采集和標注,這樣處理數據具有四個特點,就是少(處理數據少)、慢(速度慢)、貴(成本高)、差(質量差)。
鎂客網采訪過程中,張晴晴強調“愛數智慧是一家專業數據服務商,能充分利用人機協作的優勢,將人在數據處理上舉一反三的能力與機器良好的記憶能力相結合,讓數據處理的過程更快且處理效果更好“。“人機協作”是愛數智慧的最大優勢,而這一模式能夠節省數據處理的時間和成本,并提高數據處理的精度。
“數據采標過程中有很多環節是可以由機器來完成的,但是在精度方面會存在一些問題,尤其是當數據存在異常的情況下,機器的精度是完全不能夠保證的。”張晴晴表示。當機器不能解決問題時,就需要人工進行介入。“總體來看,人工介入的比例還是比較少的,可以這樣理解,人工更多承擔的是‘質檢工作’,是對機器的結果進行質檢,而不是從零開始對數據進行標注。”
目前,愛數智慧的智能化數據處理平臺包括智能采集判斷、標注效率優化、智能質檢、智能任務拆解技術、智能畫像技術等。人工方面,這一平臺在全世界各地擁有30萬C端數據處理員,基于用戶畫像技術,平臺能夠“知悉”每位數據處理員的長處,繼而通過智能任務拆解技術將項目分拆,并分發給最適合某子項目的數據處理員,做到人員的配置最優化。
“我們的定位是為智能世界提供充足的數據生產力。”張晴晴表示。
最后
在張晴晴看來,要想能夠很好地站立在數據采標市場,除了做到“多快好省”,還需要做到“足夠專業”。“做到多快好省中的一兩點還不能夠獲得一個明確的勝利,如果同時做到四點,那是非常不容易的。另外作為一家數據服務公司,還需要在數據處理維度上體現自己的專業度,做到給客戶提供更加專業的方案建議。”
目前,愛數智慧已經與微軟、阿里、騰訊、滴滴等簽署了長期戰略合作計劃,也曾為中國移動、聯想、百度等八大行業的近百家客戶提供過數據服務。
可以看到,愛數智慧過往所服務的公司多是行業內頭部企業,而在接下來,“我們將會為發展中的AI企業及其他布局AI的傳統企業客戶提供數據服務,為智能世界提供充足的數據生產力,為國內外AI企業發展助力,為傳統企業智能化賦能”。
最后,記得關注微信公眾號:鎂客網(im2maker),更多干貨在等你!
硬科技產業媒體
關注技術驅動創新
