南京大學人工智能學院教授俞揚:從應用出發多角度設計,可得更優算法模型
俞揚認為學會思考應用中真正面臨的問題并從多角度去解決問題,這很重要。
日前,“首屆中文NL2SQL挑戰賽”總決賽在南京大學計算機樓里落幕,南京大學人工智能學院教授俞揚被邀請擔任評委。
對于公眾來說,NL2SQL是一個全新的技術方向,它是自然語言處理(NLP)與數據庫查詢應用相結合的一個研究方向,是NLP技術研究范疇中的小分支。因此相較于AI領域內的各大賽事,這場比賽稱不上“盛大”,但俞揚認為它對學術和產業界的價值是重大的。
圖 | 中文NL2SQL挑戰賽
“因為近年人工智能業界的關注點多在圖像(視覺)上,相對而言,工業數據庫等離散信息的分析較為冷淡,所以在這個領域里,像這樣與具體應用結合的比賽是有開創意義的。這一次能夠有這么多人來參加,也能夠引起大家的關注,是一件好事。”
作為人工智能領域知名學者兼導師,多重身份讓俞揚從這場比賽中看見了很多。在會后接受采訪時,他也談到了自己因觀賽而生出的對于技術發展的諸多思考并分享了有關人才培養、技術研究方向上的建議。
AI與應用結合緊密大勢初顯
首先,俞揚認為比賽以NL2SQL為主題,某種程度上體現了業界對技術與應用深度結合研究方向的重視,同時也是業內對技術認知日趨客觀的一種體現。
俞揚指出,受到各方面因素影響,雖是AI算法與自然語言應用結合的關鍵技術方向,但一直以來自然語言理解(NLP)相對計算機視覺等領域沒有那么火熱卻是事實。
圖 | 南京大學人工智能學院教授 俞揚
回顧這一波AI算法浪潮我們容易發現,神經網絡在視覺領域的成功應用起到了關鍵帶動作用,隨后深度學習算法滲透到了各行各業。Google Trends曾發表數據指出,受深度學習算法影響,自2015年起,“機器學習”的搜索熱度一度超過了人工智能本身。
而在這一波熱潮中,因視覺領域是深度學習算法最開始發力的地方,大量產業和學界的資源涌入了計算機視覺(CV)領域。作為能夠解決傳統數據庫查詢的繁瑣問題、有著實用價值的一項技術,NL2SQL在此時被提出,也能夠吸引更多人的目光。
“從技術層面看,NL2SQL是將自然語言轉化為SQL語句的一項任務,在研究領域是一個比較新的方向。但是它不僅僅是一個技術方向,更為重要的是它可以直接對應到一些應用上面,比如財務報表數據庫,有人想知道里面的某一方面信息,運用這項技術,我們就可以用自然語言去提問,機器來回答,這樣會更高效便捷。”
正如俞揚提到,NL2SQL是一個技術與應用結合的產物。這場關于NL2SQL的大賽,其意義不僅僅在于對一項技術的推動,而是業內對技術與應用深度結合的重視。
從NL2SQL看技術落地
具體去看,NL2SQL是如何幫助改進傳統數據庫查詢的?
俞揚介紹說,在過去如果想要知道數據庫里面的信息,就需要有專業程序員去寫一段查詢數據庫的機器語言(SQL);現在,NL2SQL可以將自然語言自動翻譯成機器語言(SQL)去查詢,然后把答案反饋給用戶。
“這大大降低了數據庫的使用門檻。”
以比賽中的案例來看,俞揚提到選手用自然語言提問“某地在某日的天氣是怎樣的”,程序可以自動將問題變成在計算機里面可以跑出結果的機器搜索語言,并查詢到結果。
俞揚特別補充說,“類似這樣的案例都是能夠產生實際價值的,這對技術的應用和推廣有著直接積極的影響。”但同時他也指出,透過比賽可以看出NL2SQL還有很大的提升空間,比如說在算法泛化能力這一普遍關注點上。
“從大的方向來看,傳統的語義知識是不足以支撐商用的,更希望能夠引入一些常識,引入一些數據庫里面沒有出現過的東西,讓它能夠學習判斷并應用在對沒有見過的一些數據處理上,提升泛化能力。”
常識在這一次比賽中被反復提起,也是人工智能想要變得更加“聰明”所必須要彌補的部分。不過加入常識這件事并不容易。
“人有很多常識,但我們往往不知道常識從哪里來??赡芤驗槲覀儧]有課本專門去學習常識,所以就難以界定哪些東西是在我們的常識范圍內,因此一開始數據的收集就比較困難。比如雞有幾條腿、兔子有幾條腿的問題,大家都知道答案,但是我們沒有在課本上學習過,甚至什么時候獲得常識都不得而知。而當機器要解決比如雞兔同籠問題,就必須依賴這些常識知識。”
專業人才應當看得更為長遠
當然,除了對技術發展和行業的關注,作為導師,俞揚也更加關注人才培養。
此次比賽以學生給定程序的最終搜索精度為主要評定標準,這有積極意義,自然也有其局限性。
基于過往的經驗和長遠的發展角度,俞揚也特別給了學生一些自己的建議,“因為是比賽,選手們希望分越高越好,不過從長期的角度來看,比賽用的方法能夠得到90分,但想要拿到最后的10分,可能往往需要顛覆現有的方法。所以對于選手們來說,不要過于看重分數,而應該將更多注意力放在背后的原理上。”
另外俞揚也提到,比賽所用數據集和實際應用有差距,所以學生們要學會思考應用中真正面臨的問題。一方面,數據不干凈、遠比比賽復雜的處理要求需要考慮在內;另外一方面,也要學會從不同角度去設計來滿足客戶的需求,如界面的引導幫助用戶修正問題表述,以間接提升搜索精度。
“通過其他角度來輔助設計可以幫助人工智能模型避免一些問題,對于訓練模型的使用是有很好的幫助,這也是實際應用設計上不可忽視的一些小細節。”
最后
近年來,NLP的技術研究帶來了一些創新型研究機會,NL2SQL是其中之一。目前,Salesforce、斯坦福、耶魯等機構提出了WikiSQL、WikiTableQuestions、Spider、SParC等大規模數據集,并得到多次評測結果的提交。以WikiSQL為例,在排行榜上有多達19次的評測結果的提交。
不過基于中文數據集的NL2SQL技術還尚待發展,追一科技與南京大學計算機軟件新技術國家重點實驗室聯合舉辦了這樣一場比賽,無疑對這一技術在國內的應用起了重大推動作用,這也是俞揚十分看好它的原因之一。
最后,記得關注微信公眾號:鎂客網(im2maker),更多干貨在等你!
硬科技產業媒體
關注技術驅動創新
