世界模型之爭開始！李飛飛Marble、楊立昆JEPA與Google Genie 3技術路線全解析

人工通用智慧（AGI）的競逐，已正式聚焦於「世界模型」這塊新興戰場。AI 界三股重量級力量：「AI 教母」李飛飛、Meta(META-US) 首席 AI 科學家楊立昆，以及科技巨頭 Google(GOOGL-US) ，在近期各自祭出大動作，儘管都劍指世界模型，卻代表著三種截然不同的技術路線賭注。

李飛飛首款商用模型 Marble：前端資產生成器

在李飛飛發表了關於空間智慧的萬字長文後不久，她旗下的新創公司 World Labs 便緊鑼密鼓地推出了首款商用世界模型 Marble。

Marble 之所以被業界普遍看好具有商業化潛力，是因為它能生成持久、可下載的 3D 環境。

團隊聲稱，這種方式能顯著減少場景變形和細節不一致的問題，並且能將生成的「世界」導出為高斯斑點 (Gaussian Splat)、Mesh 網格，甚至直接匯出影片。

Marble 更內建了一個原生 AI 世界編輯器 Chisel，使用者只需一句提示，便能自由改造世界，形成「一句提示 → 直接生成 3D 世界 → 一鍵導出到 Unity」的便捷工作流程，對 VR 或遊戲開發者極具吸引力。

然而，Marble 的技術路徑也引發了爭議。有專家指出，Marble 採用的技術類似於近年來 3D 建模領域熱門的高斯潑濺技術，它將場景表示為成千上萬個彩色模糊小斑點（高斯），透過渲染組合成精美的 3D 畫面。

批評者認為，Marble 看起來更像是一個單純的 3D 渲染模型或高斯生成管線，而非機器人的「大腦」。

它雖然構建了一個完整世界，但捕捉的僅是「表面是什麼樣子」的視覺資訊，並沒有內建物體的物理規律（如質量、摩擦、因果結構）。

這對於人類來說或許足夠，但對於需要進行訓練和決策的機器人而言，卻缺少了最重要的因果資訊。

因此，與其說 Marble 是那種可孕育具身智能的世界模型，不如說它是一款能立刻融入遊戲開發流程的實用工具。

楊立昆的 JEPA 模型：後端預測系統

幾乎在 Marble 發布的同時，Meta 的首席 AI 科學家楊立昆也傳出離職消息，準備創立自己的世界模型公司。

值得注意的是，他所理解的「世界模型」與李飛飛的路線幾乎南轅北轍。

楊立昆提出的 JEPA (Joint Embedding Predictive Architecture) 模型，根基在於控制理論和認知科學，而非 3D 圖形學。

這類模型不需要輸出漂亮的畫面，因為其任務不是渲染精美的像素，而是讓機器人能提前預判世界的變化、學會在行動前思考幾步。

楊立昆認為，AI 只需要專注於捕捉那些能用於決策的世界狀態和中間抽象表徵，無需浪費算力去生成畫素。

因此，JEPA 看起來不夠「驚豔」，但它更像是訓練機器人的「大腦」，透過對世界更本質的理解，成為機器人完美的訓練基地。

Google Genie 3：可互動的「模擬器」

在兩位頂尖學者的爭鋒相對中，科技巨頭 Google DeepMind 則站在中間，今年 8 月推出了新版世界模型 Genie 3。

Genie 3 僅需一句提示，便能生成一個可互動的影片環境，用戶可以在其中自由探索數分鐘。

它首次解決了這類模型中的長時一致性問題，避免了「轉個身整棟樓消失」的狀況，並支援「開始下雨」「夜幕降臨」等世界事件觸發，整個過程如同一個由模型而非傳統引擎驅動的電子遊戲。

儘管 Genie 3 讓「世界動了起來」，但其核心邏輯依然是影片生成，而非楊立昆 JEPA 那種基於物理和因果的邏輯。

它更像是一款「世界模型式影片生成器」，能用於機器人訓練，但不如 JEPA 那樣直擊本質，且畫面分辨率難以與 Marble 的高精度 3D 資產相比。

換句話說，Marble 渲染「世界長什麼樣子」，Genie 3 展示「世界怎麼變」，JEPA 則探究「世界的結構是什麼」。

世界模型金字塔

專家指出，幾乎所有現有的「世界模型」大致可分為三類，每一類在功能與用途上各有側重：

第一類：界面型世界模型：以 Marble 為代表，這類模型讓使用者能從文字或二維素材直接生成可編輯、可共享的 3D 環境。

在這種模式下，「世界」是呈現在 VR 頭顯、螢幕或電腦上的可視空間，使用者可以自由觀察和探索。

第二類：模擬型世界模型：以 Genie 3 為例，這類模型能生成連續、可控制的視覺化世界，供代理反覆嘗試、學習與調整行為。

像 SIMA 2 這樣的代理，便能把這種世界視為「虛擬訓練場」，進行各種實驗與技能培訓。

第三類：認知型世界模型：以 JEPA 為代表，這類模型高度抽象，沒有可供人類欣賞的畫面。

這裡的「世界」以潛在變量與狀態轉移函數呈現，重點在於訓練與推理，非常適合作為機器人的智慧訓練基地。

智源學者趙昊提出，可將三類模型組合成一座「世界模型金字塔」：
從底層到頂層依序為李飛飛的 Marble、Genie 3 與 Lecun 的認知模型。

從地面仰望這座金字塔可以發現：

延伸閱讀