世界模型之爭開始!李飛飛Marble、楊立昆JEPA與Google Genie 3技術路線全解析

世界模型之爭開始!李飛飛Marble、楊立昆JEPA與Google Genie 3技術路線全解析。(圖:Shutterstock)
世界模型之爭開始!李飛飛Marble、楊立昆JEPA與Google Genie 3技術路線全解析。(圖:Shutterstock)

人工通用智慧(AGI)的競逐,已正式聚焦於「世界模型」這塊新興戰場。AI 界三股重量級力量:「AI 教母」李飛飛、Meta(META-US) 首席 AI 科學家楊立昆,以及科技巨頭 Google(GOOGL-US) ,在近期各自祭出大動作,儘管都劍指世界模型,卻代表著三種截然不同的技術路線賭注。

李飛飛首款商用模型 Marble:前端資產生成器

在李飛飛發表了關於空間智慧的萬字長文後不久,她旗下的新創公司 World Labs 便緊鑼密鼓地推出了首款商用世界模型 Marble。

Marble 之所以被業界普遍看好具有商業化潛力,是因為它能生成持久、可下載的 3D 環境。

團隊聲稱,這種方式能顯著減少場景變形和細節不一致的問題,並且能將生成的「世界」導出為高斯斑點 (Gaussian Splat)、Mesh 網格,甚至直接匯出影片。

Marble 更內建了一個原生 AI 世界編輯器 Chisel,使用者只需一句提示,便能自由改造世界,形成「一句提示 → 直接生成 3D 世界 → 一鍵導出到 Unity」的便捷工作流程,對 VR 或遊戲開發者極具吸引力。

然而,Marble 的技術路徑也引發了爭議。有專家指出,Marble 採用的技術類似於近年來 3D 建模領域熱門的高斯潑濺技術,它將場景表示為成千上萬個彩色模糊小斑點(高斯),透過渲染組合成精美的 3D 畫面。

批評者認為,Marble 看起來更像是一個單純的 3D 渲染模型或高斯生成管線,而非機器人的「大腦」。

它雖然構建了一個完整世界,但捕捉的僅是「表面是什麼樣子」的視覺資訊,並沒有內建物體的物理規律(如質量、摩擦、因果結構)。

這對於人類來說或許足夠,但對於需要進行訓練和決策的機器人而言,卻缺少了最重要的因果資訊。

因此,與其說 Marble 是那種可孕育具身智能的世界模型,不如說它是一款能立刻融入遊戲開發流程的實用工具。

楊立昆的 JEPA 模型:後端預測系統

幾乎在 Marble 發布的同時,Meta 的首席 AI 科學家楊立昆也傳出離職消息,準備創立自己的世界模型公司。

值得注意的是,他所理解的「世界模型」與李飛飛的路線幾乎南轅北轍。

楊立昆提出的 JEPA (Joint Embedding Predictive Architecture) 模型,根基在於控制理論和認知科學,而非 3D 圖形學。

這類模型不需要輸出漂亮的畫面,因為其任務不是渲染精美的像素,而是讓機器人能提前預判世界的變化、學會在行動前思考幾步。

楊立昆認為,AI 只需要專注於捕捉那些能用於決策的世界狀態和中間抽象表徵,無需浪費算力去生成畫素。

因此,JEPA 看起來不夠「驚豔」,但它更像是訓練機器人的「大腦」,透過對世界更本質的理解,成為機器人完美的訓練基地。

Google Genie 3:可互動的「模擬器」

在兩位頂尖學者的爭鋒相對中,科技巨頭 Google DeepMind 則站在中間,今年 8 月推出了新版世界模型 Genie 3。

Genie 3 僅需一句提示,便能生成一個可互動的影片環境,用戶可以在其中自由探索數分鐘。

它首次解決了這類模型中的長時一致性問題,避免了「轉個身整棟樓消失」的狀況,並支援「開始下雨」「夜幕降臨」等世界事件觸發,整個過程如同一個由模型而非傳統引擎驅動的電子遊戲。

儘管 Genie 3 讓「世界動了起來」,但其核心邏輯依然是影片生成,而非楊立昆 JEPA 那種基於物理和因果的邏輯。

它更像是一款「世界模型式影片生成器」,能用於機器人訓練,但不如 JEPA 那樣直擊本質,且畫面分辨率難以與 Marble 的高精度 3D 資產相比。

換句話說,Marble 渲染「世界長什麼樣子」,Genie 3 展示「世界怎麼變」,JEPA 則探究「世界的結構是什麼」。

世界模型金字塔

專家指出,幾乎所有現有的「世界模型」大致可分為三類,每一類在功能與用途上各有側重:

第一類:界面型世界模型:以 Marble 為代表,這類模型讓使用者能從文字或二維素材直接生成可編輯、可共享的 3D 環境。

在這種模式下,「世界」是呈現在 VR 頭顯、螢幕或電腦上的可視空間,使用者可以自由觀察和探索。

第二類:模擬型世界模型:以 Genie 3 為例,這類模型能生成連續、可控制的視覺化世界,供代理反覆嘗試、學習與調整行為。

像 SIMA 2 這樣的代理,便能把這種世界視為「虛擬訓練場」,進行各種實驗與技能培訓。

第三類:認知型世界模型:以 JEPA 為代表,這類模型高度抽象,沒有可供人類欣賞的畫面。

這裡的「世界」以潛在變量與狀態轉移函數呈現,重點在於訓練與推理,非常適合作為機器人的智慧訓練基地。

智源學者趙昊提出,可將三類模型組合成一座「世界模型金字塔」:
從底層到頂層依序為李飛飛的 Marble、Genie 3 與 Lecun 的認知模型。

從地面仰望這座金字塔可以發現:

  • 越往上,模型越抽象,更接近 AI 的思維方式,因此更適合用於機器人訓練與推理;
  • 越往下,模型在外觀、互動和可視化上對人類越直觀,但對機器人的理解難度也隨之增加。

延伸閱讀

相關貼文

prev icon
next icon