首屆中文NL2SQL挑戰賽完美收官,產學研攜手推動智能交互的發展
通過這次挑戰賽,追一科技與院校、企業界同仁攜手,共同推動中文NLP研究與應用突破。
籌備8個月,初、復賽鏖戰3個月,千支隊伍角逐,首屆中文NL2SQL挑戰賽結果揭曉。
10月12日下午,由追一科技主辦、南京大學計算機軟件新技術國家重點實驗室協辦的“首屆中文NL2SQL挑戰賽”總決賽答辯暨頒獎典禮在南京大學舉行。經過最終決賽的5強選手隊伍精彩分享、答辯和現場評委考評,決出最終名次。來自國防科技大學的選手團隊“不上90不改名字”奪得冠軍,國雙科技選手團隊“BugCreater”獲得亞軍,觀安信息與妙盈科技選手聯合團隊“Model S”獲得季軍,來自華南理工大學與佛羅里達大學的選手隊伍“大佬帶我飛”,以及浙江大學的團隊“老哥們不放假嗎”則獲得優勝獎。
首次舉辦、首次發布中文數據集,短短幾個月,選手們的成績,已經超過了國外WikiSQL,直奔“九十分”,讓眾多評委感覺“驚喜”。最終的現場答辯對決,讓之前的短暫排名,再生懸念。
由眾多人工智能大咖組成的專家評委團,包括中國移動研究院首席科學家馮俊蘭、復旦大學教授肖仰華、新加坡南洋理工大學副教授毛可智、南京大學教授俞揚、追一科技CTO劉云峰等產學研多方代表,在決賽現場對選手們的技術方案,進行了專業精彩的分析點評,從而產生最終結果。從AI與數據庫交互,到更廣闊的創新空間,自然語言處理的“技術大年”味道越來越濃。
“此次挑戰賽參與規模、選手表現遠超預期,顯示出NL2SQL在學術和產業應用上的潛力,數據庫的交互創新,正在受到越來越多關注。”追一科技聯合創始人兼CTO劉云峰博士表示,追一科技將與更多院校、企業界同仁攜手,共同推動中文NLP研究與應用突破。
圖 | 追一科技聯合創始人兼CTO劉云峰
中文數據集成績比肩WikiSQL
NL2SQL(自然語言轉結構化查詢語句)作為新興的研究領域,在國外由SalesForce耶魯大學等發布了WikiSQL和Spider數據集,但在國內市場,目前還處于起步階段。
此次NL2SQL挑戰賽是國內首次舉辦,期間,追一科技發布了業內首個大規模的中文數據集,包括4870張表格數據、近50000條標注數據以及相應的SQL語句,并獲得很多學界專家、產業界伙伴的支持,通過“產學研”等多方聯動,希望提供一個平臺,來推動NL2SQL的研究和應用。
來自學術和產業界的AI大咖,擔任大賽評委,并提供專業建議和資源支持。包括中國移動研究院首席科學家馮俊蘭、復旦大學教授肖仰華、新加坡南洋理工大學副教授毛可智、南京大學教授俞揚,追一科技CTO劉云峰。
“直接用自然語言訪問關系型數據庫一直是業界夢想”,嘉賓評委代表肖仰華表示,隨著對大數據價值的重視,這一愿望更變得日益迫切。此次比賽的發起和中文數據集的公布,在短短的時間里,加速了NL2SQL研究設想的實現,“最終選手的成績,完全超出了我們對于比賽的預期。”
經過選手的不斷努力與探索,比賽任務短期內就達到與英文數據集上相當水平的分數,并持續刷新記錄。比賽初期,準確率尚為60%多,至8月份初賽結束時,榜上頭部分數已經達到89%,接近WikiSQL成績。復賽結束時,選手最高成績達到92%,并且,最終晉級決賽的5支隊伍,個個都在“90分”以上。
千支隊伍角逐
據了解,本次1457支參賽隊伍中,院校和企業參與者各占“半壁江山”。
其中,學生及科研人員占比48%,企業技術員工占比52%。學生參賽隊伍來自眾多知名院校,如北京大學、清華大學、復旦大學、上海交通大學、南京大學、浙江大學、中國科學技術大學、哈爾濱工業大學、西安交通大學等。
雖然本次比賽的數據內容是中文形式,但仍然吸引了美國、英國、新加坡、日本、澳大利亞、加拿大等海外頂級院校參與,包括卡內基梅隆、墨爾本大學、新加坡國立大學、南安普頓大學、新南威爾士大學、布里斯托大學、昆士蘭大學等。
作為新興NLP研究任務,NL2SQL在專業難度上,也對選手提出較高要求。據了解,本次參賽選手中,碩士及以上學歷占比57%,其中,博士學歷占比6%;而專業分布上,計算機科學專業背景的選手則屬于參賽主力。
應用前景
在如火如荼的比賽背后,NL2SQL應用潛力,也受到了越來越多的矚目。
來自中國移動、平安集團、搜狗、達闥科技、中興通訊、網宿科技、國雙科技、捷通華聲等眾多企業的技術人員,也成為參賽隊伍的重要力量。
業內人士表示, NL2SQL在銀行、保險、證券、電商、汽車、地產等數據富礦領域,有很大的應用潛力,可以大大地降低數據庫訪問和使用門檻,更好地挖掘數據特別是結構化數據價值,讓數據庫不再“沉睡”。
“此次挑戰賽參與規模遠超預期,顯示出NL2SQL在學術和產業應用上的潛力,數據庫的交互創新,正在受到越來越多關注。”追一科技聯合創始人兼CTO劉云峰博士表示,追一科技將與更多院校、企業界同仁攜手,共同推動中文NLP研究與應用突破。
作為來自產業界的專家評委,馮俊蘭表示,NL2SQL是自然語言處理的一個非常重要的應用領域,涉及到多個自然語言處理領域的核心問題,非常開心看到這么多高水平的隊伍參賽,并取得了非常好的成績,也看了產、學、研在這個方向上共同提升技術的熱情。
“今天在AI與數據庫交互上,我們又一次看到了突破,新的想象空間。”對于此次比賽的舉行,創新工場董事長兼首席執行官李開復也表示,期待看到追一和更多NLP開發愛好者,不斷探索努力,推進NLP創新和普惠應用。
最后,記得關注微信公眾號:鎂客網(im2maker),更多干貨在等你!
硬科技產業媒體
關注技術驅動創新
