專訪中國人民大學盧志武教授:AI的新突破,或從“文瀾”開始
圖靈測試,或許不再遙遠。
圖 | 盧志武教授
I propose to consider the question, ‘Can machines think?’
——A.M.Turing
1950年秋天,被后人譽為“人工智能之父”的阿蘭·圖靈,在其著作《Computing Machinery and Intelligence》的開篇,拋出了這個在當時似乎是“異想天開”的問題。也同樣是在這篇文章中,圖靈提出一個甚至比“人工智能(Artificial Intelligence,簡稱AI)”更早出現的概念——圖靈測試。由此拉開了,人類對AI這一領域艱辛探索的序幕。
時光荏苒,斗轉星移。70余年過去,已歷經三次發展浪潮的AI,正悄然以各種面貌進入我們普通人的日常生活之中。人臉識別、輔助駕駛、智能醫學影像等應用正逐漸成為人類社會中“習以為常”的一部分,這得益于AI技術的不斷成熟。而在這背后,是學界、業界乃至各個國家對AI研發的不斷投入。目前,全球各國對于AI的研發,已漸成“競賽”之勢。但要真正通過“圖靈測試”,還尚無國家能夠做到。
6月1日,在2021北京智源大會上,超大規模智能模型“悟道2.0”正式發布。其憑借1.75萬億的參數量,創下了全球最大預訓練語言模型記錄,成功向世界展示了中國的AI技術實力。據悉,“悟道2.0”分別由文源、文瀾、文匯、文朔四大預訓練模型組成。
在這其中,以語義理解、視覺-語言檢索等能力見長的“文瀾”引起了鎂客網極大的興趣。據悉,文瀾對語義信息的理解能力之強已經達到世界“領跑”水平,堪稱是世界AI領域中突破性的進展。其能力可擴展性強,可以落地應用在多種場景。通過對文瀾的研究,人類與似乎遙不可及的“圖靈測試”又近了一步。文瀾研發團隊是由中國人民大學高瓴人工智能學院執行院長文繼榮教授所領導,并與北京智源人工智能研究院緊密合作。
通過努力,我們很榮幸地采訪到了文瀾研發團隊的模型組負責人——中國人民大學高瓴人工智能學院的盧志武教授,和他一起聊了聊AI的未來和文瀾背后的故事。
AI發展漸入瓶頸,文瀾領銜的多模態預訓練模型,或成“破局”關鍵
眾所周知,人工智能的終極目標,就是讓機器擁有和人一樣的理解與思考能力。但70多年過去了,距離這個目標,仍有著不小的距離。
而對學界來說,盡管當下許多AI技術已經可以對人類生活產生積極的影響,但從大趨勢來看,AI研發似乎正走到了一個“瓶頸期”。學界和業界,都需要在技術上發現一個新的”爆點”,來刺激整個AI產業繼續向前跨越式地發展。
也就是在這種情況下,“文瀾”誕生了。
盧志武教授告訴記者,“任何AI的模型到最后其實都是個神經網絡。在過去,業內常常使用純文本或者純圖像的模式對AI進行單模態訓練。但現在看來,其效果不是特別有效。”
隨著學術上的發展,文瀾團隊開始把目光轉向同時使用圖文數據對進行預訓練,期望以此能挖掘AI新的潛能。而在此之前,這個方向上還沒有較為成功的案例。
為了獲得較好的效果,文瀾1.0和2.0版本所使用的訓練數據從3000萬升級到了6.5億未標注圖文數據。巨大的數據量在進行模型訓練時非常困難,但這也給文瀾擁有強大的視覺-語言檢索能力和一定的常識理解能力打下了基礎。
在訓練方式上,文瀾研發團隊采用了高效的分布式多模態預訓練框架,提出基于DeepSpeed的多模態預訓練算法,從而最大化地利用GPU和CPU,并最優地支持跨模態對比學習。
目前,國外頂級AI研發機構 Google 和OpenAI 也正在嘗試文瀾團隊的研究方向,其項目名分別為 Google ALIGN和OpenAI CLIP,但在與這兩者進行圖文互檢能力的嚴格公平比較時,文瀾明顯要更勝一籌,可以說,目前的文瀾,在圖文互檢和語義理解方面都達到了世界最頂級的水平。
那么,文瀾可以應用在何處?盧志武教授告訴記者,現在的文瀾,就像“大腦”一樣,適應力強,可以應用在多個場景下。以其擅長之一的“檢索和推薦”能力舉例,電商、游戲、視頻中的多個細分行業的常見業務場景中,文瀾都能“得心應手”。
盧志武教授表示“如果說過去我們了解到的AI,其理解力還只是個小孩的話,現在的文瀾,已經越來越有可能接近一個成人”。
探索AI“潛意識”,“圖靈測試”得以見到更多曙光
文瀾的能力之強已經毋庸置疑。但對于文瀾開發團隊來說,在海量的圖文數據訓練后,文瀾是否真正學到了語義信息,以及文瀾的理解能力究竟有多強,成為了極具吸引力的問題。
為此,文瀾研發團隊決定用“神經元可視化”的方式對文瀾進行測試。你可以簡單理解為這是一場“命題繪畫”的測驗。我們告知文瀾一句有實際意義的話,讓文瀾用圖片的形式反饋出她對這句話的理解。
但請注意,這里的圖片反饋,絕非是從文瀾已有的圖片數據中匹配最優解,也不是像某些AI繪畫模型那樣對特定訓練數據的模仿。
此時的文瀾,更像是一個‘“普通人”,借助自己已有的知識,來嘗試理解外界傳遞進來的新信息,并以圖畫的形式來“具象”出自己的理解,反應的是文瀾“腦海”里的客觀存在。
盧志武老師表示“(通過這種方式)我們將文瀾的“潛意識”,也即她腦海中最原始的對一句話的想象與理解給可視化出來。”
那文瀾具體是怎么畫的呢?簡單來說,我們都知道在計算機上,圖片是由一個個像素點組成,通過改變每個像素點的顏色,就可以在計算機上進行繪畫。而拿到文本信息的文瀾,就是通過這種方法進行“原創繪畫”,把她所理解的我們所給出語句的意思,用圖畫表示出來。此時的文瀾可以比喻為一個天平,天平的兩端分別是圖像和文本,而文瀾要做的就是讓兩者的意義“保持對等”。值得注意的是,在神經元可視化時,文瀾所有模型參數都是固定不變的,只是去修改輸入的初始噪聲圖像。
文瀾研發團隊表示:“通過這種方式,我們得以一窺文瀾的“內心世界”。也就是放開所有評測和應用對文瀾的限制,讓她能夠展現最原始的、最真實的、她“潛意識”里對于輸入文本的獨特理解。”
目前根據文瀾的“畫作”來看,其對語義的理解能力已經位居世界前列。除了日常用語,文瀾同樣能理解古詩詞,甚至可以傳遞出一定的“意境”。
以下是文瀾在實際測試中的部分樣例(文瀾研發團隊提供):
給文瀾的語句:對著生日蛋糕許愿
(解讀:蛋糕的形象非常清晰,還有一根蠟燭,蛋糕上也有星星點點的點綴,整體是生日派對的歡快氛圍。)
給文瀾的語句:白日依山盡,黃河入海流
(解讀:遠處山峰遮擋了落下的太陽但沒有遮住余暉,近處則如黃河向我們奔來。)
給文瀾的語句:月落烏啼霜滿天,江楓漁火對愁眠
(解讀:江面上紅色的火光,近處的烏篷船。)
給文瀾的語句:江南可采蓮,蓮葉何田田
(解讀:左上含苞待放的蓮花,右側中間的蓮蓬,片片蓮葉和整體的綠色。)
給文瀾的語句:海上生明月,天涯共此時
(解讀:下方帶著波浪的海,海面上正在升起的月亮。雖然詩句中原意是滿月,但是字面上并沒有表達滿月的意思。背景的大片抽象或許是文瀾對“天涯共此時”的理解。)
前瞻與堅持讓文瀾“橫空出世” ,多元和交叉將成為AI浪潮新起點
對科研來說,正確的判斷與堅持,有時要比勤奮和努力更為重要。當聊起文瀾的研發過程時,盧教授對此深有感觸。
自去年9月份開始,文瀾團隊就開始進行多模態預訓練的工作。想起當時的過程,盧教授形容到:“完全是在黑暗中摸索,并且多模態預訓練模型非常難做,但還是果斷地沿著這條路(圖文弱相關+雙塔模型)走了下來。”
但探索和堅持是有風險的,在此期間,盧教授與其所帶的博士生們全身心地投入到了這個項目上,并因此很長時間都沒有發表論文。如果方向錯了,或者沒有把模型訓練好,都將會是一個“顆粒無收”的結果。這對整個團隊的壓力,可想而知。
而幾乎是同時,國外AI界的領跑者:谷歌和OpenAI,也正在做類似的事情。并在今年1月份,OpenAI發布了兩個與文瀾在方向上類似的模型:DALL-E和CLIP。震撼業內的同時,也側面證明了盧教授團隊的選擇是正確并富有前瞻性的。
不過,從國內高校學術研究的偏向來看,清北等高校似乎在AI方面更有優勢。為何此次在AI領域做出突破性進展的卻是人大?
盧志武教授認為,人大的優勢在于學術氛圍的寬松和富有底蘊的人文思想。
“我們高瓴人工智能學院的文繼榮院長,非常支持去做這些有價值的探索。所以我們整體的學術氛圍還是非常寬松和開放的。”
除此之外,作為以人文社科見長的高等學府,人大對AI自有其獨特的理解方式。某種意義上,針對當前流行的工具理性來說,人大更趨向于價值理性。這也是文瀾團隊能夠冒著“顆粒無收”的風險,堅持完成研究的原因之一。
而在鎂客網看來,除了人大所特有的優勢以外,文瀾的成功與盧志武教授所擁有的對AI發展的前瞻性,和整個文瀾研發團隊的優秀能力同樣密不可分。
漫漫AI探索路上,“破”與“立”是永恒的話題。盡管文瀾已經做出了突破性的成績,盧志武教授仍謙虛地表示,從總體上看,AI未來的發展,依然需要像腦科學、神經科學等相關交叉學科的共同進步。不過,道阻且長,行則將至。我們相信,在文瀾這個成功案例的帶動下,未來中國可以涌現出更多的“文瀾”,從而能夠更快一步地摘下“圖靈測試”這座AI的皇冠。
最后,記得關注微信公眾號:鎂客網(im2maker),更多干貨在等你!
硬科技產業媒體
關注技術驅動創新
