對話中國AI“掃地僧”,解析大模型產業應用的當下與未來

偉銘 2年前 (2023-06-16)

大模型產業應用的當下與未來

對話中國AI“掃地僧”,解析大模型產業應用的當下與未來

自2022年底,ChatGPT橫空出世,讓世人看到了通用人工智能的曙光,大模型就成為了創業圈、創投圈最熱的話題。

如今,中國的大模型創業者已經集結在十字路口。他們之中既有研究自然語言理解、計算機視覺、機器人等領域將近40年的科學家,也有已經功成名就的前創業者,還有剛剛博士畢業的年輕人。創業者們在各個層面展開競爭。

為此我們發起AI大模型系列直播【探索AI大模型時代 引領AIGC新浪潮】,本系列直播共5場,主要從大模型應用場景、元宇宙標準 、大模型在tob、toc領域的應用等方面,邀請國際、國內AI領域方面的重量級嘉賓為大家深度解析大模型的當下與未來。

哪些領域、行業能夠實現大模型產業化應用?為什么具身智能將是AI的下一個熱潮?如何看待大模型與小模型的爭議?為什么“感知”是機器人技術發展的一個重要瓶頸?

本期直播,楊磊和王湘云帶來了重磅分享。

楊磊系南京清湛人工智能研究院執行院長、清湛智造科技CEO、中國人工智能協會專委會委員、江蘇人工智能協會理事、清華大學計算機科學博士,長期從事人工智能技術在智慧城市、智能制造、機器人相關領域的工程性技術研究。

南京清湛人工智能研究院由清華大學人工智能研究院院長、中國科學院院士、俄羅斯自然科學院外籍院士、CCF終身成就獎獲得者張鈸教授領導的團隊,依托清華大學人工智能研究院,結合多個資本方聯合打造的高端應用研究院和高能級產業創新平臺。盛景是其發起者和投資者之一。

王湘云系盛景嘉成基金管理合伙人,主管盛景人工智能/元宇宙/產業互聯網/企業服務/SaaS賽道,以及盛景海外母基金(美國/以色列)的投資;在加入盛景嘉成之前,歷任清華紫光股份企業規劃部總經理,SAP ERP咨詢服務事業部總經理,博彥科技高級副總裁。

以下為精華內容整理,enjoy ~

一、您在人工智能產業應用領域有哪些布局和積累?清湛當前以傳統智造圍繞數改智轉作為發力點,您對科技和產業結合有哪些落地的思考?

楊磊:

通常每一次新技術革命的來臨,制造業都會受到最大的沖擊和技術迭代。但實際上,本輪以人工智能、數字化、網絡化為代表的技術革命給制造業產業帶來的變化,尚沒有我們想象的那么巨大。

我每天在走訪不同的工廠、看不同的生產線和生產工藝,感受到這次人工智能變革有三個困難點:

第一,一般性的人工智能技術很難直接用在在制造業落地中。生產制造對系統的準確性、可解釋性、可重復性有著較高的要求。以概率計算為基礎的人工智能技術在落地過程中,除了少數應用,絕大多數情況需要深度和領域知識結合。

第二,制造業是數百年的行業,本身具有垂直領域的特殊性。無論是做電池、做汽車、做食品、做服裝,垂直領域已經積累了大量手工或半手工的經驗,和人工智能方法方式結合時,會產生很多理念和方法上的碰撞。

第三,在人工智能技術發展中,我們還處于一個初級階段。還缺乏成熟有效的知識體系和工具體系去支撐現實生產制造所遇到的實際問題。

從總的行業背景來講,我們一直在談工業4.0或者是第四次工業革命的概念。事實上,這個概念隨著技術發展在不斷衍生。在最早基于工業4.0原理的新制造模式里,提出一個概念叫智能制造。智能制造系統構建的思維方式是建立在物理-網絡生產系統的過程中,所以產生了數字孿生、產線數字化,也誕生了知識的涌現、自組織、學習、開放創新等核心概念。

但事實上這個概念在當時提出的時候,并沒有什么很好的解決辦法去解決生產中的所有問題。而現在回頭看,我們在過去十年、二十年前提出來的理念,逐漸都已經找到了答案。當前在一些產業化的行業里,逐漸往工業5.0靠攏,也叫做自適應的認知制造系統。這個系統的基本構架模式,實際上融合了當前的認知技術和人工智能技術的新范式。

在制造業里,無論做產業數字化還是虛擬工廠,本身都是想解決一個問題——把生產工藝過程當中最不確定性的部分減少或者迭代掉。所謂最不確定性的是,人——工人參與到生產中,最重要因素是人本身。

如何把人的不確定因素降低?我們希望通過智能化的機器來替代人。圍繞這一點,可以做幾個事情:

第一、圍繞著感知去做。代替人去看、去聽,代替人的觸覺、嗅覺。

第二、圍繞著數據去做。在產線上,組長和班長每天去看各種情況,通過收集的數據形成綜合判斷,知道產線和工廠的情況,這實際上就是計算過程。但是由于產生的數據量太大了,從不同的信息中逐步提取數據,對工人的要求會比較高。所以我們現在提出了智能邊緣計算的問題。

在深度學習時代,工業數據獲取和處理帶來了巨大壓力。傳統軟件的交付模式是源代碼或執行代碼。而在當前基于智能制造語境下,基于深度學習或者大模型的系統需要交的是代碼加上數據模型。但是,模型在人機料法環變化時又會產生巨大的衰退。這個解決方法就是當前比較熱的MLOps理念。新的技術和方法只有工具化,才能為更多的場景服務。

第三、圍繞著執行去做。有一個明確決策之后,如何快速、準確執行?這就產生了智能工業機械手、智能化的集成應用、智能產線大腦這些理念以及機器人仿真、傳感器仿真等新的技術需求。

圍繞產線智能化,基于深度學習和訓練大模型,把集成機器學習、工業智能等技術融合在一起,面向工業的高頻場景產生相對的解決方案,會產生巨大的需求。

二、具身智能被認為是AI的下一個熱潮。字面意義來講,具身智能,即Embodied Intelligence,有身體并支持物理交互的智能體。您怎么看待具身智能?

楊磊:

具身智能不是一個新概念。上個世紀五十年代,圖靈在一篇論文中提出,想做一臺和人一樣聰明、甚至比人還要聰明的機器。他認為人工智能未來可能有兩種途徑。

途徑一:具有類似下棋所需要的智能。

途徑二:具有最好的感官,能學習甚至能說各種語言的智能。

這兩種實際上就是非具身和具身兩種智能的兩種代表性體現。

具身智能簡單來講,就是生物體用眼看周圍的環境、用手觸摸身邊的物體、用耳朵聽到環境的狀況。非具身智能則主要聚焦于智能計算,比如符號主義、物理性交互,不需要考慮具體形態,專門玩一些比較抽象的算法。

隨著ChatGPT、AIGC的興起,類似工業接手、商場里的移動機器人、送餐機器人等機器人的智能化平已經遠遠不夠。

如何讓這些機器人有更大的智能?

第一,理解一切環境。其次,可以執行一切事情。

大模型的出現,讓具身智能成為了可能。通過一系列大模型的手段,把視覺語言、語言加視覺模型組合起來,訓練一個多模態模型。

具身智能最好的體現就是智能AGV這種應用。中國是全球最大的工業工程市場,未來全球會有一半智能AGV落地中國,會產生巨大的需求。

三、據不完全統計,參數在10億規模以上的大模型全國已發布了79個。特別是在自然語言理解、機器視覺、多模態等方面,出現了多個在行業有影響力的AI大模型。除自然語言處理模型之外,還有哪些領域、行業,是能夠實現大模型產業化應用的?

楊磊:

大模型是生成式人工智能的一個最基礎、最核心的工具。因為大模型新的技術方式,讓以往基于深度學習的訓練模式,往前走了一大步。但圍繞這個概念,實際上是有很多新工具產生的,包括提示學習、思維鏈等。

人類學習和思考的過程,第一步是收集外部的知識,包括看書、看報、看電影、和朋友交談,通過這個過程,我們反復在腦海里思考一個話題或者一個想法,從而逐漸迸發出新的想法,這是人類的一個思考方式。

作為ChatGPT訓練的一部分,大模型基本上吸收了世界上積累的大部分書面信息,這些數據經過模型訓練之后,有效的從知識源里獲取相應所有的信息,可以逐漸形成新的信息再度訓練自己。

谷歌最新的《大型語言模型可以自我改進》的論文中,谷歌構造了一個新的大模型,這個大模型可以自己提出、預測問題,生成答案,同時可以過濾一些所問非所答的結果。經過一些比較精心策劃的微調,最后形成良好的效果。

按照這個邏輯,我們可以把大模型的技術應用到任何一個陌生領域,比如說玄學、氣象學、藥物發現、服裝設計等等。大模型可以在玄學典籍上做任何訓練,圍繞玄學進行初步的知識整理后,可以通過訓練數據生成新的訓練數據,再進行改善訓練。

比如,通過訓練模型的方式,華為團隊把傳統數字天氣預報的工作給迭代了,傳統的數字天氣預報時代已經結束,氣象預測方式被完全改變。

王湘云:

我認為,人工智能也好,大模型也好,它所具備的學習能力和認知能力,可以賦能給各個行業。

所謂通用人工智能就是,底層的認知能力可以具有通用性,可以適用不同的任務。大模型把人類的能力進行了泛化,形成了可遷移的這種能力,被認為是通用人工智能的曙光。

給大模型一個目標性的任務,它能夠根據自主分解成一些單元的任務,然后任務按時序、邏輯進行組合,然后集成,最終完成一個更復雜的任務。這些實際上都是一些通用智能的展現。

通用智能未來有極大的機會會應用在各行各業。首先在數字世界進行突破,應用在和文本、數字處理相關的互聯網、搜索、電商、金融投資、醫療法律、教育等等行業,

最終一定會過渡到數字世界和物理世界的融合,在工業、制造、服務領域,大模型或者人工智能幫助機器更好理解多變的現實世界,在理解和認知的基礎上,根據任務進行規劃、執行、整合,最終實現任務,用智能化的手段,來解決物理世界的文化,去改造物理世界,實現更高的生產效率,最后改造整個世界。

四、有人認為,只需不斷擴大模型,使其更通用,最終可以做任何事情。而另一方面,有人認為,只需專注于小型模型,針對你正在嘗試的特定事物進行目標定位。這可以高效地完成任務,無需等待大規模通用化。您怎么看?

楊磊:

模型大小主要圍繞模型參數來定義,這個階段消耗了整個訓練過程的90%以上,最為耗時耗錢。如果數據準備好的話,理論上大模型可以完成一切任務。但從訓練的成本來講,大模型不是一個普通企業或者普通人可以完成的。圍繞著模型增強學習過程,包括有監督的微調過程,實際上是可以逐步面向特定領域的。

當比較“大小”的時候,我們可以對比筆記本發展歷史。當前一個筆記本電腦和一個T的硬盤,基本上是標配。二十年前,當時覺得存儲是世界級的魔幻問題,一個T的硬盤就是人類的夢想。

隨著摩爾定律的發展,未來隨著計算成本越來越低,算力不斷提高,模型方法逐漸優化。因為收集所有數據的訓練成本非常高,如果要解決具體問題,可以聚焦在某幾個專業領域,這樣整個模型的訓練成本會急劇下落。在研究過程中要考慮到通用問題解決,同樣也要考慮到專業問題的解決。

從模型的描述來講,模型越大,對細節問題的處理不如專門的小模型來得好。就像對于小學物理習題集,很多大學者、大專家可能未必有一個小學老師解得好,這是人類知識發展過程中的一個現象,在模型訓練過程中也是類似。聚焦這個領域的細節顆粒度越小,問題的解決完成度越好。

當然也不是這么絕對,因為現在很多學者在圍繞無所不知的通用模型做努力。OpenAI打造一個通用的人工智能模型解決一切問題,而且在特定領域也逐步獲得了比較好的結果和價值。

總的來說,從技術發展來講,大是不是好?這個現在已經有結論了,大肯定是好。但是大是不是比小模型更細?到現在為止可能還不夠細,但是在未來可能會有突破。這是我的個人觀點。

五、李杰教授在《工業人工智能》一書中,明確工業人工智能與通用人工智能有著巨大差異。有一個有意思的的例子是,李杰教授認為在過去的10年、20年里,所有的人工智能學者都是以一個機會主義者的面目出現的。為什么叫機會主義呢?那就是研究人工智能時,在不確定中嘗試去解決一些不確定性的事情。問題是這個世界并不是那么美好,所以就導致我們只能“拿著手里的錘子去找釘子”。

您認為本輪ChatGPT為代表的大模型的發展會改變 “拿著錘子找釘子”的局面嗎?

楊磊:

在人工智能技術發展的歷史當中,從業人員一直是在尋找自己的價值定位,也就是做這個領域對社會能夠有什么貢獻?過去五十年,或者六十年里面,一直遇到各種各樣的困難,我們力圖尋找一些通用型的方法,找到市場上高頻率的問題去解決,但是這確實很難找到。

李杰教授是最早提出來工業人工智能理念,他把商業人工智能(通用人工智能)和工業人工智能區分開。李杰教授認為,工業人工智能確定性或者可解釋性比通用人工領域要高。

每只雞都以為是自己把天叫亮了,實際上天亮的時候雞才去叫。大模型的發展也是過去多年整個行業共同努力的結果。只不過到今天,以ChatGPT為代表的、面向場景的應用出現了,解決了一些有用的問題。這個時候,這個技術才展現它的生命力和價值。我們要努力做那個把天亮這個事情第一時間感覺到的雞。

在發展的不同階段會出現不同問題,在初始階段一定會有大量的人拿著手里的錘子去找釘子。發展到后一階段,就會有逐漸的釘子冒出來,迎合各種有用的錘子,這種現象在很多技術的發展過程中都會出現。因為在早期是拿著錘子找釘子,一旦發現你手里真的有把大錘子可以敲所有釘子的時候,可能所有的釘子就要開始順應你敲的方法去生產。

這就是發展中技術和人類社會相互作用的過程。

王湘云:

一個產業的技術和發展階段密切相關。拿錘子找釘子,在各個行業當中都存在這樣一個階段。

就軟件行業來說,原來的軟件是一種垂直型軟件,一個軟件解決一個具體功能問題,缺少可拓展性,這就是軟件早期的發展狀態。隨著產業進一步的優化,軟件產業開始分層,底層更多平臺性的軟件開始出現,形成一種更完整的生態。

平臺性的軟件解決的是底層通用能力問題,這樣很多創業者、企業也好不用再開始從零到一的開發,可以基于通用的能力,很快開發適用于場景的解決方案。

整個生態因此發生了變化,更多的通用能力被抽取出來形成服務。正是因為這種服務,使得它具備了非常好的經濟效益,性價比更高、效率更好、專業度更高、部署更快。

人工智能也必然會經歷這樣一個階段,早期因為平臺化、通用化和泛化的范圍不夠,解決一個具體的智能場景,需要從底層開發一套專用于這個場景的方案。所以我們看到早期人工智能缺乏的AGI、通用人工智能的部分。

但是,大模型給了我們希望,使得訓練出來的模型,可以解決很多基礎性、共性的推理問題和生成的邏輯問題等等。

在這個基礎上,未來人工智能的開發可能利用大模型的平臺能力,現在也許是50%、60%,但未來隨著大模型越來越完善,可能會達到80%、90%。再根據特定的場景和能力優化20%、30%,甚至隨著通用能力的越來越強,未來這個比例再縮小到10%。

這是每一個行業發展必然經歷的過程。從軟件服務的角度來看,云的發展已經經歷了從垂直到通用的過程,人工智能也是。

大模型的出現,給我們提供了一個里程碑式的能力,讓人工智能的能力可以通用化,可以更快地在通用人工智能領域部署更好的人工智能服務。

六、您對AI教育是怎么樣的看法?

楊磊:

人對于一個系統的評價是多元化的。比如對于GPT4,有人認為它的計算能力很強,有的人認為它的推理能力很強。

反過來談到教育,如何評價一個學生學得好?實際上到現在為止,我們的教育方式還是基于啟發式教育模式,比如拿一本書灌輸給他,不停問你會不會,你知道這個嗎?你知道那個嗎?

但實際上,被教育的對象是完全不同的。有的孩子不用教他背古詩,因為從小就已經教過了;有的孩子通過看了一個動畫片,忽然對數學物理化學非常感興趣,不需要你主動告訴他為什么要學習這個,他已經產生了自驅動力。

大模型應用可以提供一個具有高度知識密集、高度計算密集的工具,可以賦能給教育。大模型支撐的系統和學生進行一些簡單問答后,就可以快速了解學生學習過程中遇到的問題在哪兒,哪些知識點不足,學習方法、思考的路徑會有哪些問題?

這樣會大大降低教育的成本、提升學生的學習程度,甚至可以通過大模型的方式真正達到孔子說的“有教無類”,即按照不同學生的需求形成不同的教育解決方案,滿足不同的學習路徑,未來這是對人類整個教育體系的重大推動。

王湘云:

大模型會帶來整個教育載體和形式的升級。未來文本信息跟多模態信息的結合,包括語音、視頻、圖片、甚至未來更多感官信息的結合,可以全流程形成教育模式和范式的升級。

原來學習更多是比較抽象的過程,同時千篇一律,老師很難服務到每一個學生進而提供個性化、定制化的服務。

但是,有了大模型以后,大模型底層的認知加上計劃、整合、工具等等形成的完整能力,每個學生未來都會有一個自己的學習助理,或者叫AI家教,它會根據學生的情況,感知學習狀態和學習成果,圍繞不足和問題,優化或者定制針對每個人的特定解決方案和學習內容。

未來的學習內容會更加豐富,而且形式一定是更加交互式、多媒體、多模態勢的,結合元宇宙的技術,可以把理論和應用場景、現實生活更好地結合起來,更加栩栩如生。

因此,我認為教育一定會被徹底改變。

七、5月29日,OpenAI創始人之一,技術專家Andrej Karpathy,提出了一個前沿且有想象力的觀點——”軟件2.0”(基于神經網絡的軟件設計)。他認為今天所有的軟件代碼都值得用神經網絡改造一遍。您對于這個觀點,怎么看待?

楊磊:

這個觀點實際上在2017年的時候Andrej Karpathy就已經提出了,但到現在才逐步開始被接受。

這個觀點主要是講在所有軟件里,如果除去開發界面的工作,大部分的工作是圍繞數據處理、加工、決策在做。事實上,很多數據處理、加工已經可以需要人類干涉了,完全通過自動化工具完成。圍繞著決策做的事情,可以用很多深度學習工具來解決,不需要人工判斷的模式來做,完全靠訓練模型生成一個決策結果。

現在技術,比如視覺識別、語音識別、語音合成、游戲內容生產等等,完全可以通過新的生成式人工智能的算法再次迭代。另外,也不需要類似傳統軟件的開發模式——按照預定系統模式(各種語言的語法)做編碼,預定模式完全可以通過系統自動生成。寫一個軟件框架,就可以讓它按照指定的語言編寫出來。

這樣的好處一是過程更為簡單;第二利于形成集中化,第三計算時間會更為精確。

八、伴隨著“多模態大模型”的發展,機器人技術會否迎來突破性的發展,從而加速在行業/企業當中的應用?

王湘云:

多模態是為了更好讓我們感知世界,只是通過文本理解遠遠不夠,疊加語音、視覺、觸覺、溫度等等,對環境的認知和維度會更加全面。所對應的,形成人類的認知記憶或者認知烙印的維度會更加豐富。

多模態會對人類的感知帶來更豐富的數據,拓寬認知所需要獲得的信息維度。

但是,未來人工智能不一定完全復制人類現有的這種方式感知世界,或許有比人類多模態感知更好的路徑來完成任務,并不需要把所有的信息都收集出來再進行處理。

所謂機器人,有的時候不是模仿人,只是說在某種事情上是一個任務主體。我認為未來所有的機器,背后都會有一個智能的大腦來支撐。如果沒有智能的支撐,就不是機器。

從這個方向來看,未來一個重大機會,也是人工智能一個重要方向,就是怎么樣讓未來的產業機械化。

九、您一直以來從事“人工智能技術”在智能制造、機器人相關領域的工程性技術研究。您有一個觀點:“感知”是機器人技術發展的一個重要瓶頸。這個怎么講?

楊磊:

有個著名美國心理學家表示,在過去五十年里,生物學發展太慢,對人腦的剖析遠遠不夠,導致人工智能發展緩慢。因為,我們一直通過設計一臺機器去模擬人類的行為,但實際上,人類對思維和感知的生理過程了解得非常少。

現在的計算機視覺領域,主要是基于馬爾的視覺計算理論體系做了大量的工作。但是這個計算框架這是人類想象出來的,不是生理上真正過程。實際上高效的感知過程,到現在為止可能人類還沒有真正接觸到它的任何門檻。

人類不僅僅靠視覺感受社會、了解社會、執行動作,閉上眼睛的時候一樣能感覺到周邊的事物。機器在未來也會這樣。多模態不僅僅是講視覺、理論、觸覺等方面的多重組合,也是很多數據源、多維度數據等組合。比如一臺智能的機器可以把不同風向,包括溫度、濕度結合在一起進行預測,需要多種數據來源綜合提供給知識的承載和行動的決策模塊進行處理。從未來機器人的發展來講,感知會是一個長期話題。

這也是很多人喜歡人工智能這個行業的原因。大家沒有一個完全統一的命題和答案。而且隨著機器越來越聰明,智能化的標準也在變化。未來對智能的要求評價體系會越來越高,可以替人類解決更多問題。這可能會更好詮釋阿基米德講的那句話,給我一個支點,我就能撬動整個地球。

作為從業人員,我希望這個行業能夠進一步地快速發展。在可視的未來,能獲得更多具有價值的成果,給社會帶來更多的價值。

十:單獨使用大型語言模型或者將視覺、語言、視覺 - 語言模型組合起來使用似乎都給機器人提供了很大的幫助,那如果直接訓練一個更大的、單一的大型多模態模型呢?

王湘云:

人最重要的是規劃能力,我有一個目標,雖然有相當的時間跨度和眾多參數的不確定性,我怎么樣通過規劃的能力、任務分解的能力、使用工具的能力,不斷試錯、糾正、迭代、推進,最后達成目標,這是人類最牛的能力。

能夠學習;能夠進化、迭代;能夠規劃,把一個復雜的任務分解成若干任務,一個任務可以協作完成,我相信,未來會有一天,大模型能夠具備這樣的能力,拿到通用人工智能的最高圣杯。

 

文章來源于微信公眾號盛景新經濟 ,作者盛小景,本站經授權轉載,版權歸屬原作者

最后,記得關注微信公眾號:鎂客網(im2maker),更多干貨在等你!

鎂客網


科技 | 人文 | 行業

微信ID:im2maker
長按識別二維碼關注

硬科技產業媒體

關注技術驅動創新

分享到