智子引擎發布大模型–元乘象ChatImg2.0
今天,智子引擎發布元乘象ChatImg2.0,同時聯合軟通動力、軟通智慧、福建AI計算中心等多家企業共同邁出多模態AI大模型產業落地的第一步。
2023年是AI大模型全面爆發的元年,國內外AI大模型技術在加速更新迭代,產業需求不斷增加。其中,多模態大模型作為最前沿的AI技術,有著廣泛的應用前景。如何將多模態大模型與產業相結合、與具體應用場景相結合,成為多方關注的重要課題。智子引擎團隊在多模態大模型領域深耕多年,他們的技術始終站在世界前列。今天,智子引擎發布元乘象ChatImg2.0,同時聯合軟通動力、軟通智慧、福建AI計算中心等多家企業共同邁出多模態AI大模型產業落地的第一步。
一、回顧ChatImg1.0
2023年3月8日,智子引擎團隊發布世界首個多模態對話應用ChatImg,如果說ChatGPT靠對文字輸入這單一信號的理解就完成了對部分人類的智力超越,那么「元乘象 Chatimg」則實現了對多態輸入信號的統籌理解,它能聽能看,既能察言又能觀色,它能說會道,既能感知多路信號,又能統籌理解該說什么不該說什么。它把GPT的五官和大腦的協同能力,又往前推進了一步。
給「元乘象Chatimg」一張「搭載火箭升空的大腦」的圖像,它不僅能解讀出圖片的內容,還能判斷該場景在現實中是否合理。
甚至,它還能根據圖片編個故事,而且編的故事往往比較積極、陽光:
隨著AI智能涌現的到來,「元乘象 Chatimg」會加速自身能力迭代,如從多模態信息的識別推理能力,進一步向多模態的生成能力進化,并從更廣的應用范圍與其他事物進一步融合,如在機器人、玩具、可穿戴設備、家居家電、交通設備等等,萬物互聯、萬物有靈的時代終將到來。
二、ChatImg2.0
在ChatImg基礎上,智子引擎團隊繼續在多方面優化模型:1、支持語音輸入;2、支持視頻輸入;3、增加多個一鍵體驗功能;4、用戶自定義新功能。
圖文對話實際效果方面,ChatImg2.0可以看懂非常豐富的圖像內容:
視頻對話實際效果方面,ChatImg2.0可以看懂視頻并對內容作出推理:
純文本對話效果方面,ChatImg2.0可以讀懂多種多樣的指令(扮演詩人、rapper、演說家等):
在公開的多模態對話數據集(LLaVa)上的評測結果,表明ChatImg2.0顯著超過了眾多的開源模型。具體地,我們采用如下打分方式:給定90個問題,將問題、圖像描述、待測模型回答結果和GPT4回答結果一起輸入GPT3.5,讓GPT3.5對比兩個回答,分別給出分數(0-10分),最終為90個問題上的總分。詳細的多模態對話評測結果見下表:
上表中的GPT4回答結果,是使用GPT4的純文本版本基于給定的圖像描述和目標檢測信息作答的,沒有真正看到圖像。特別地,*代表待測模型針對測試集中的中文問題,絕大部分是用英文回答的,需要提前用GPT3.5翻譯成中文??梢钥闯?,ChatImg2.0的中文和英文多模態對話能力均超過了目前最好的開源模型。
三、ChatImg的落地場景
智子引擎聯合軟通智慧探索了多模態大模型在城市社會治理領域的應用場景。元乘象ChatImg可以同時在許多復雜場景達到90%以上的準確率,顯著超越了傳統AI模型。由于從部署幾百個小模型變成了部署一個大模型,整個系統的復雜度、部署代價都有顯著的降低。
與此同時,元乘象團隊還聯合北京理工大學張偉民教授團隊共同打造了一款智能機器人“小象”,為ChatImg裝上了“身體”。
演示視頻:
四、元乘象的未來發展
智子引擎團隊表示,他們的核心發展戰略是打造一個通用的多模態AI生成模型—元乘象,支持多模態輸入、多模態輸出。ChatImg只是其中一部分對話模型,團隊成員已經在文生圖、文生視頻、多模態融合搜索等多個領域取得成果,后期將全部整合進元乘象。
最后,記得關注微信公眾號:鎂客網(im2maker),更多干貨在等你!
硬科技產業媒體
關注技術驅動創新
