對標谷歌Meta,字節跳動入局”世界模型”競賽

jh 3小時前

字節跳動的入場,無疑將為這場競賽注入新的變量。

據The Information披露。國內科技巨頭字節跳動,目前正加速布局通用人工智能賽道,其核心人工智能部門Seed正在秘密研發對標谷歌Genie3、Meta V-JEPA 2的"世界模型"。

目前,字節跳動的世界模型項目已進入攻堅階段,該項目由前阿里通義千問核心成員周暢帶隊,依托抖音/TikTok的海量視頻數據與自研EX-4D框架,劍指虛擬世界模擬與機器人訓練等前沿領域。

The Information表示,此次技術布局標志著字節跳動正式加入全球AI巨頭爭奪戰。

何為“世界模型”,簡單來說就是模擬真實環境的物理規律和人類互動方式,未來可用于訓練機器人、自動駕駛系統或構建虛擬世界,被視為通向通用人工智能(AGI)的重要路徑之一,其核心目標是通過深度學習構建可模擬真實物理規律的數字孿生環境。

據介紹,新模型將深度融合抖音日均超10億次視頻流數據,涵蓋人物行為、物體運動、場景交互等多維度動態信息,為訓練提供媲美真實世界的素材庫。值得關注的是,近期開源的EX-4D技術將發揮關鍵作用,這項可將單目視頻轉化為4D多視角場景的創新框架,突破了傳統單幀圖像處理的局限性,為實現時空連續性的環境建模奠定基礎。

在全球AI競賽進入新階段的背景下,字節跳動在AI領域的布局還是相對來說比較“低調”。

就以“世界模型”為例,谷歌Genie3憑借其"分鐘級場景連貫性"和"文本驅動事件修改"功能已搶占先機,其720P分辨率、24幀每秒的生成能力,以及支持物理引擎自主學習的特性,已在游戲開發和機器人訓練領域引發變革。

同樣是“"世界模型”的標桿產品,Meta V-JEPA 2則以獨特的聯合嵌入預測架構實現物理推理能力突破,通過100萬小時視頻訓練構建的預測模型,使機器人動作規劃效率提升至同類產品的30倍。

面對巨頭們的強勢表現,字節跳動的新模型需在保持短視頻數據處理優勢的同時,突破物理仿真與長時程一致性等技術瓶頸。

從戰略層面看,字節跳動的世界模型布局與其核心業務形成深度協同。

目前,抖音/TikTok積累的超20億用戶行為數據,為模型構建了獨特的人物交互訓練集;如果能結合旗下PICO 設備以及其他智能家居生態,那么未來或可構建虛實融合的交互場景,復制其在移動互聯網時代的終端優勢。

此外,Seed部門在整合火山引擎AI團隊后,也能通過世界模型打通廣告推薦、內容生成、智能硬件等業務的底層技術鏈路,展現出打造AI基礎設施的野心。

由此可見,隨著科技巨頭們持續加碼,或許我們能很快見證首個消費級世界模型的誕生。正如IDC分析師Jason Dai所言:"視頻世界的構建需要更強的實時性與因果推理能力,而這正是Meta和谷歌尚未完全解決的難題。"

字節跳動的入場,無疑將為這場競賽注入新的變量。

最后,記得關注微信公眾號:鎂客網(im2maker),更多干貨在等你!

鎂客網


科技 | 人文 | 行業

微信ID:im2maker
長按識別二維碼關注

硬科技產業媒體

關注技術驅動創新

分享到